线粒体变异检测

与一般的胚系突变不同(0,50%,100%),线粒体的变异丰度可能会很低,异质性变异的丰度可能会去到千分位,因此,检测的逻辑其实会更类似于体细胞突变。不是所有厂商的外显子探针试剂盒都包含线粒体的。

现在的常规检测中,"外显子"的部分一般是测200X300X,而"线粒体"一般是3000X10000X。因此对厂家来说,怎么调整这两部分的探针比例,让最终数据达成一个稳定的深度占比,是一个不太容易的任务。

变异检测

GATK的Mutect2工具就是一款体细胞突变检测工具,但它包含了一个线粒体检测模式。首先需要准备线粒体区域的bed文件:

echo -e "MT\t1\t16569" > mito.bed

然后运行Mutect2:

gatk Mutect2 \
    -R GRCh38.d1.vd1.fa \
    -L MT \
    --mitochondria-mode \
    -I bam/SRR14724513.markdup.bam \
    -O vcf/SRR14724513.mt.vcf.gz

结果过滤

继续使用GATK的套件对结果进行过滤,然后选取通过过滤的位点:

gatk FilterMutectCalls \
    -V vcf/SRR14724513.mt.vcf.gz \
    -R GRCh38.d1.vd1.fa \
    -O vcf/SRR14724513.mt.filtered.vcf.gz

gatk SelectVariants \
    -V vcf/SRR14724513.mt.filtered.vcf.gz \
    --exclude-filtered true \
    -O vcf/SRR14724513.mt.pass.vcf.gz

注释

线粒体变异使用与核基因组相同的VEP流程进行注释,然后通过MitoPhen数据库进行表型关联:

# VEP注释
vep \
    --offline --cache \
    --dir_cache cache_dir --merged \
    --force_overwrite --fork 4 \
    -i vcf/SRR14724513.mt.pass.vcf.gz -o vcf/SRR14724513.mt.vep.vcf \
    --format vcf --vcf \
    --fa GRCh38.d1.vd1.fa \
    --assembly GRCh38 --symbol --hgvs

线粒体报告

生成线粒体变异报告,包含37个MT基因的映射、异质性分级和MitoPhen表型注释:

python3 mt_report.py \
    -i vcf/SRR14724513.mt.vep.vcf \
    -o report/SRR14724513.mt_report.txt \
    -m assets/mitophen.json

MT基因映射

线粒体基因组共编码37个基因,分布在两个区域:

编码区(13个蛋白编码基因)

  • MT-ND1~MT-ND6, MT-ND4L:NADH脱氢酶亚基
  • MT-CYB:细胞色素b
  • MT-CO1~MT-CO3:细胞色素c氧化酶亚基
  • MT-ATP6, MT-ATP8:ATP合酶亚基

RNA基因(22个tRNA + 2个rRNA)

  • MT-T*:22个tRNA基因
  • MT-RNR1 (12S rRNA), MT-RNR2 (16S rRNA)

报告会将每个变异映射到对应的基因,并标注其异质性水平和已知的表型关联。