ChinaMAP数据库

#database

ChinaMAP

ChinaMAP(China Metabolic Analytics)中国代谢解析计划,对10588个来自不同民族的中国人样本,进行了40X的WGS。

人群区分如下:

人群分类 样本数目
西北汉族 650
北方汉族 1138
东部汉族 3537
中部汉族 1066
东南汉族 954
南方汉族 749
岭南汉族 949
少数民族 1545

数据下载

项目的在线Browser中注册登录后可以下载。

下载了ChinaMAP.phase1.vcf.gz文件,打开发现是GRCh38,如果需要对GRCh37使用,需要进行liftover。另外,这个文件中并不区分区域人群。

Liftover

先下载chain file

wget --timestamping 'https://hgdownload.soe.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gz' -O hg38ToHg19.over.chain.gz
gunzip hg38ToHg19.over.chain.gz

然后使用gatk/picard来进行LiftOver

gunzip ChinaMAP.phase1.vcf.gz
gatk LiftoverVcf \
	-I ChinaMAP.phase1.vcf \
	-O ChinaMAP.phase1.hg19.vcf \
	-R ucsc.hg19.fasta \
	-C hg38ToHg19.over.chain \
	--REJECT ChinaMAP.phase1.reject.vcf

ChinaMAP.phase1.reject.vcf是无法转换的坐标。

VEP注释

使用VEP来注释这个vcf。

bgzip ChinaMAP.phase1.hg19.vcf
tabix -p vcf ChinaMAP.phase1.hg19.vcf.gz

VEP注释,作为一个custom数据库传递进去,以下是基本命令

vep \
	--custom file=ChinaMAP.phase1.hg19.vcf.gz,short_name=ChinaMAP,format=vcf,type=exact,coords=0,fields=AF \
	-i input.vcf -o output.vcf \
	--fields "ChinaMAP_AF"

到此为止,我们就下载了ChinaMAP数据库并注释到GRCh37参考的vcf中啦。