以前也写过一篇关于SRA的文章,但是SRA现在更新的连妈都不认得了。所以我也更新一下。
首先还是下载sra工具。
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.4/sratoolkit.2.9.4-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.9.4-ubuntu64.tar.gz
cd sratoolkit.2.9.4-ubuntu64/bin
然后在NCBI SRA中搜索需要的数据。 例如,我搜索transgene,随便挑了一个DNA的数据,像这个:SRX5097736。
然后,点击右上角的Send to,选择File,在下拉页选择Runinfo,点击Create file。这时会下载下来一个excel表格,然后download_path栏就是下载地址啦。
此时复制下来,然后
wget https://sra-download.ncbi.nlm.nih.gov/traces/sra74/SRR/008088/SRR8282932
就可以下载下来了。
当然!使用SRA toolkit里的prefetch可能下的更快,不过有时会慢,都可以试试。
prefetch SRR8282932 -o /PATH/TO/DIR
就这样就能下载了
然后下载下来的文件,使用sra工具里的fastq-dump来解压。
fastq-dump --split-3 ./SRR8282932 --gzip
最好就是用绝对路径(至少是带上文件夹这样的路径),不然好像又会再下载一次。 然后paired end的数据就会分成两个fastq.gz啦。