建立snpEFF的线粒体注释库

目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外),

如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。

首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。

需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。

然后按照下图,下载genebank文件。 mt

把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。

修改genes.gbk内容

sed -i 's/NC_012920.1/NC_012920/' genes.gbk
sed -i 's/NC_012920/MT/g' genes.gbk

修改snpeff文件夹中的snpeff.config文件,在文件中增加如下行

MT.genome : NC_012920
        MT.chromosomes : MT
        MT.MT.codonTable : Vertebrate_Mitochondrial

最后build数据库

java -jar snpeff.jar -c snpeff.config build \
	-genbank -v MT