ChinaMAP数据库
#database
ChinaMAP
ChinaMAP(China Metabolic Analytics)中国代谢解析计划,对10588个来自不同民族的中国人样本,进行了40X的WGS。
人群区分如下:
人群分类 | 样本数目 |
---|---|
西北汉族 | 650 |
北方汉族 | 1138 |
东部汉族 | 3537 |
中部汉族 | 1066 |
东南汉族 | 954 |
南方汉族 | 749 |
岭南汉族 | 949 |
少数民族 | 1545 |
数据下载
项目的在线Browser中注册登录后可以下载。
下载了ChinaMAP.phase1.vcf.gz文件,打开发现是GRCh38,如果需要对GRCh37使用,需要进行liftover。另外,这个文件中并不区分区域人群。
Liftover
先下载chain file
wget --timestamping 'https://hgdownload.soe.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gz' -O hg38ToHg19.over.chain.gz
gunzip hg38ToHg19.over.chain.gz
然后使用gatk/picard来进行LiftOver
gunzip ChinaMAP.phase1.vcf.gz
gatk LiftoverVcf \
-I ChinaMAP.phase1.vcf \
-O ChinaMAP.phase1.hg19.vcf \
-R ucsc.hg19.fasta \
-C hg38ToHg19.over.chain \
--REJECT ChinaMAP.phase1.reject.vcf
ChinaMAP.phase1.reject.vcf是无法转换的坐标。
VEP注释
使用VEP来注释这个vcf。
bgzip ChinaMAP.phase1.hg19.vcf
tabix -p vcf ChinaMAP.phase1.hg19.vcf.gz
VEP注释,作为一个custom数据库传递进去,以下是基本命令
vep \
--custom file=ChinaMAP.phase1.hg19.vcf.gz,short_name=ChinaMAP,format=vcf,type=exact,coords=0,fields=AF \
-i input.vcf -o output.vcf \
--fields "ChinaMAP_AF"
到此为止,我们就下载了ChinaMAP数据库并注释到GRCh37参考的vcf中啦。