下载NCBI的SRA数据

NCBI的SRA上有很多测序的数据,可以下载下来分析。不用纠结找不到数据了。

首先,得到自己需要的SRA编号。 比如这个SRR6784805。

这是一个外显子的数据。

下载ncbi提供的软件sra-toolkit。 下载地址在这:sratoolkit

ubuntu

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/sratoolkit.2.9.0-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.9.0-ubuntu64.tar.gz

解压就可以使用了。

或者直接用apt安装

sudo apt-get install sra-toolkit

又或者用conda安装

conda install sratoolkit

接下来,配置好环境后,使用软件下载数据

prefetch SRR6784805

数据默认下载到~/ncbi/public/sra/里面

会得到一个叫SRR6784805.sra的文件。其实可以认为这个文件也是一个压缩包之类的东西。 需要解压(转换为相应的格式)。

如果是fastq

fastq-dump --split-files SRR6784805.sra

如果是sff

sff-dump --split-files SRR6784805.sra

由于我这里这个例子是个fastq的数据。使用fastq-dump后,就得到了双端的fastq测序数据了。