ChinaMAP数据库

ChinaMAP

ChinaMAP（China Metabolic Analytics）中国代谢解析计划，对10588个来自不同民族的中国人样本，进行了40X的WGS。

人群区分如下：

人群分类	样本数目
西北汉族	650
北方汉族	1138
东部汉族	3537
中部汉族	1066
东南汉族	954
南方汉族	749
岭南汉族	949
少数民族	1545

数据下载

项目的在线Browser中注册登录后可以下载。

下载了ChinaMAP.phase1.vcf.gz文件，打开发现是GRCh38，如果需要对GRCh37使用，需要进行liftover。另外，这个文件中并不区分区域人群。

Liftover

先下载chain file

wget --timestamping 'https://hgdownload.soe.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gz' -O hg38ToHg19.over.chain.gz
gunzip hg38ToHg19.over.chain.gz

然后使用gatk/picard来进行LiftOver

gunzip ChinaMAP.phase1.vcf.gz
gatk LiftoverVcf \
	-I ChinaMAP.phase1.vcf \
	-O ChinaMAP.phase1.hg19.vcf \
	-R ucsc.hg19.fasta \
	-C hg38ToHg19.over.chain \
	--REJECT ChinaMAP.phase1.reject.vcf

ChinaMAP.phase1.reject.vcf是无法转换的坐标。

VEP注释

使用VEP来注释这个vcf。

bgzip ChinaMAP.phase1.hg19.vcf
tabix -p vcf ChinaMAP.phase1.hg19.vcf.gz

VEP注释，作为一个custom数据库传递进去，以下是基本命令

vep \
	--custom file=ChinaMAP.phase1.hg19.vcf.gz,short_name=ChinaMAP,format=vcf,type=exact,coords=0,fields=AF \
	-i input.vcf -o output.vcf \
	--fields "ChinaMAP_AF"

到此为止，我们就下载了ChinaMAP数据库并注释到GRCh37参考的vcf中啦。