下载TCGA的数据

TCGA全称The Cancer Genome Atlas,是NIH旗下的癌症数据库。现在TCGA的数据都放在GDC里,要下载(open access的)还是挺简单的。

但是呢,open access的其实只有maf比较有用。。。

所以这里来下载maf。在repository选择maf和open access,可以得到132个样本。这时再把这132个样本全都加到购物车(hmmmmm)。然后点击购物车就可以下载了。

当然,132个样本直接下载下来可能会很麻烦,所以建议还是用官方下载工具下载。

安装下载器ubuntu版

mkdir gdc-download && cd gdc-download
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
unzip gdc-client_v1.4.0_Ubuntu_x64.zip
./gdc-client -h

在刚刚的购物车里,点download之后选择manifest,就可以下载刚刚加入购物车的样本列表。 下载下来的文件像这样:gdc_manifest_20190416_143036.txt。

然后就可以用下载器来下载了。

gdc-client download -m gdc_manifest_20190416_143036.txt

每个样本形成一个文件夹下载到当前目录。然后如果需要把里面的maf.gz文件批量移出,可以使用一条简单的命令。

cp /path/to/input/*/*.maf.gz /path/to/output