线粒体变异检测
与一般的胚系突变不同(0,50%,100%),线粒体的变异丰度可能会很低,异质性变异的丰度可能会去到千分位,因此,检测的逻辑其实会更类似于体细胞突变。不是所有厂商的外显子探针试剂盒都包含线粒体的。
现在的常规检测中,"外显子"的部分一般是测200X300X,而"线粒体"一般是3000X10000X。因此对厂家来说,怎么调整这两部分的探针比例,让最终数据达成一个稳定的深度占比,是一个不太容易的任务。
变异检测
GATK的Mutect2工具就是一款体细胞突变检测工具,但它包含了一个线粒体检测模式。首先需要准备线粒体区域的bed文件:
echo -e "MT\t1\t16569" > mito.bed
然后运行Mutect2:
gatk Mutect2 \
-R GRCh38.d1.vd1.fa \
-L MT \
--mitochondria-mode \
-I bam/SRR14724513.markdup.bam \
-O vcf/SRR14724513.mt.vcf.gz
结果过滤
继续使用GATK的套件对结果进行过滤,然后选取通过过滤的位点:
gatk FilterMutectCalls \
-V vcf/SRR14724513.mt.vcf.gz \
-R GRCh38.d1.vd1.fa \
-O vcf/SRR14724513.mt.filtered.vcf.gz
gatk SelectVariants \
-V vcf/SRR14724513.mt.filtered.vcf.gz \
--exclude-filtered true \
-O vcf/SRR14724513.mt.pass.vcf.gz
注释
线粒体变异使用与核基因组相同的VEP流程进行注释,然后通过MitoPhen数据库进行表型关联:
# VEP注释
vep \
--offline --cache \
--dir_cache cache_dir --merged \
--force_overwrite --fork 4 \
-i vcf/SRR14724513.mt.pass.vcf.gz -o vcf/SRR14724513.mt.vep.vcf \
--format vcf --vcf \
--fa GRCh38.d1.vd1.fa \
--assembly GRCh38 --symbol --hgvs
线粒体报告
生成线粒体变异报告,包含37个MT基因的映射、异质性分级和MitoPhen表型注释:
python3 mt_report.py \
-i vcf/SRR14724513.mt.vep.vcf \
-o report/SRR14724513.mt_report.txt \
-m assets/mitophen.json
MT基因映射
线粒体基因组共编码37个基因,分布在两个区域:
编码区(13个蛋白编码基因):
- MT-ND1~MT-ND6, MT-ND4L:NADH脱氢酶亚基
- MT-CYB:细胞色素b
- MT-CO1~MT-CO3:细胞色素c氧化酶亚基
- MT-ATP6, MT-ATP8:ATP合酶亚基
RNA基因(22个tRNA + 2个rRNA):
- MT-T*:22个tRNA基因
- MT-RNR1 (12S rRNA), MT-RNR2 (16S rRNA)
报告会将每个变异映射到对应的基因,并标注其异质性水平和已知的表型关联。