NCBI的SRA上有很多测序的数据,可以下载下来分析。不用纠结找不到数据了。
首先,得到自己需要的SRA编号。 比如这个SRR6784805。
这是一个外显子的数据。
下载ncbi提供的软件sra-toolkit。 下载地址在这:sratoolkit
ubuntu
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/sratoolkit.2.9.0-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.9.0-ubuntu64.tar.gz
解压就可以使用了。
或者直接用apt安装
sudo apt-get install sra-toolkit
又或者用conda安装
conda install sratoolkit
接下来,配置好环境后,使用软件下载数据
prefetch SRR6784805
数据默认下载到~/ncbi/public/sra/里面
会得到一个叫SRR6784805.sra的文件。其实可以认为这个文件也是一个压缩包之类的东西。 需要解压(转换为相应的格式)。
如果是fastq
fastq-dump --split-files SRR6784805.sra
如果是sff
sff-dump --split-files SRR6784805.sra
由于我这里这个例子是个fastq的数据。使用fastq-dump后,就得到了双端的fastq测序数据了。