Skip to content

数据的准备

DNA-seq最常见的就是WES还有WGS以及各种小pannel(target)检测,就是最常见的测序方式。针对DNA-seq,有很多成熟的流程,比如GATK-best-practice,又比如GDC DNA-seq pipeline。这一章基本上会写一些常用的软件,以及一些基本成熟的流程和分析方法。

另外,目前在搭建一个项目,希望能把常用的软件囊括进来。

参考基因组的准备

参考基因组一般可以去ncbiensemblucsc寻找。这里以人为例,目前大多数的公司还是在使用hg19(也叫GRCh37)这一版本号的参考基因,但是!据我观察,目前大多数的数据库已经以hg38(也叫GRCh38)为默认参考了,所以,本着向前发展的原则,这里将会采用hg38。再不行,往后还可以用liftover来进行hg19和hg38之间的转换。

那么现在先来下载hg38也就是GRCh38的参考基因组。 可以下载ncbi的

1
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.fna.gz

可以下载ucsc的

1
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

可以下载ensembl的

1
wget ftp://ftp.ensembl.org/pub/release-95/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

当然,这次我们先下载gatk提供的

1
wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz

更多的会使用GDC的这个

1
wget https://api.gdc.cancer.gov/data/254f697d-310d-4d7d-a27b-27fbf767a834

准备各种数据集

为了后续用GATK来找变异,这里先把gatk bundle的下了,如果打不开,有可能是同时太多人登录了,得换个时间试试。有条件的话,可以在google cloud下载。把除了参考基因组以外的都下下来,后面校正的时候用。

准备原始数据

原始数据的来源,一般的,可以在ncbi sra上找公开的数据进行实践,怎么下载,可以看这里。对于DNA-seq,比如WES和WGS,还可以下载韩国人基因组的,方便。

不过这次,我们使用2017年卫生部室间质量评价的数据来进行学习。 原始数据的下载可以在百度网盘。要输入密码的话自己看链接,#后面就是啦。

请下载illumina平台的数据。只要B17NC以及B1701就好。还需要一个bed文件,点击这里下载。

数据的下载先到这。