目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外),
如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。
首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。
需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。
然后按照下图,下载genebank文件。
把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。
修改genes.gbk内容
sed -i 's/NC_012920.1/NC_012920/' genes.gbk
sed -i 's/NC_012920/MT/g' genes.gbk
修改snpeff文件夹中的snpeff.config文件,在文件中增加如下行
MT.genome : NC_012920
MT.chromosomes : MT
MT.MT.codonTable : Vertebrate_Mitochondrial
最后build数据库
java -jar snpeff.jar -c snpeff.config build \
-genbank -v MT
下篇外显子bed