下载ncbi的sra数据v2

以前也写过一篇关于SRA的文章,但是SRA现在更新的连妈都不认得了。所以我也更新一下。

首先还是下载sra工具。

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.4/sratoolkit.2.9.4-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.9.4-ubuntu64.tar.gz
cd sratoolkit.2.9.4-ubuntu64/bin

然后在NCBI SRA中搜索需要的数据。 例如,我搜索transgene,随便挑了一个DNA的数据,像这个:SRX5097736

然后,点击右上角的Send to,选择File,在下拉页选择Runinfo,点击Create file。这时会下载下来一个excel表格,然后download_path栏就是下载地址啦。

此时复制下来,然后

wget https://sra-download.ncbi.nlm.nih.gov/traces/sra74/SRR/008088/SRR8282932

就可以下载下来了。

当然!使用SRA toolkit里的prefetch可能下的更快,不过有时会慢,都可以试试。

prefetch SRR8282932 -o /PATH/TO/DIR

就这样就能下载了

然后下载下来的文件,使用sra工具里的fastq-dump来解压。

fastq-dump --split-3 ./SRR8282932 --gzip

最好就是用绝对路径(至少是带上文件夹这样的路径),不然好像又会再下载一次。 然后paired end的数据就会分成两个fastq.gz啦。