其他分析

一般的,遗传全外显子可能会关注下面这些分析内容。

样本指纹

样本指纹用于追踪样本身份,防止样本混淆。使用Pengelly等人发表的24-SNP身份鉴定面板,这些SNP位点具有较高的杂合度,能够提供足够的区分能力。

bcftools mpileup \
    -f GRCh38.d1.vd1.fa \
    -R pengelly_snp.txt \
    --annotate FORMAT/AD,FORMAT/DP \
    bam/SRR14724513.markdup.bam | \
bcftools call -m -Ov -o SRR14724513.fingerprint.vcf

生成的VCF包含24个SNP位点的基因分型结果,可以用于:

  • 跨样本身份一致性检查
  • 样本混淆排查
  • 家系关系初步验证

HLA分型

一些HLA分型可能会与某些疾病相关,是某些疾病的极高风险人群,比如HLA*27:04和强直性脊柱炎。

转座子插入 (MEI)

转座子(Transposable Element)的插入事件可能与某些疾病相关。在WES数据中,可以使用TIEA-WES检测转座子插入事件。

检测

python TIEA-WES.py \
    -p SRR14724513 \
    -i bam/SRR14724513.markdup.bam \
    -o mei_result

注释

对检出的MEI进行VEP注释,然后生成报告:

python3 mei_report.py \
    -i vcf/SRR14724513.mei.vep.vcf \
    -o report/SRR14724513.mei.txt \
    -t assets/transcripts.json

MEI分类

转座子插入按类型分为:

  • Alu:最常见的人类转座子,约300bp,属于SINE家族
  • L1 (LINE-1):全长约6kb,是目前人类基因组中唯一仍活跃的自主转座子
  • SVA:由SINE、VNTR和Alu组成的复合转座子,较短
  • HERV:人类内源性逆转录病毒

报告会标注每个MEI的类型、插入位置、受影响的基因等信息。

STR检测

STR (Short Tandem Repeat,短串联重复) 是由2-6个碱基为单位串联重复的DNA序列。STR的异常扩增与多种神经退行性疾病相关,如亨廷顿病、脆性X综合征等。

检测

使用ExpansionHunter v5进行STR检测,需要根据样本性别选择合适的参数:

# 根据SRY read count判断性别
SRY_COUNT=$(cat SRR14724513.SRY.count.txt)
if [ $SRY_COUNT -gt 30 ]; then
    sex="male"
else
    sex="female"
fi

ExpansionHunter \
    --reads bam/SRR14724513.markdup.bam \
    --reference GRCh38.d1.vd1.fa \
    --variant-catalog variant_catalog_grch38.json \
    --output-prefix SRR14724513 \
    -n 16 \
    --sex ${sex}

variant-catalog.json是STR位点的目录文件,定义了需要检测的STR位点及其参考重复次数。ExpansionHunter内置了基因组范围的变异目录,按基因组版本选择。

注释

使用Stranger对STR结果进行临床注释:

stranger SRR14724513.vcf \
    -f variant_catalog_grch38.json \
    > SRR14724513.str.anno.vcf

Stranger会根据预设的阈值将每个STR位点分类为:

  • Normal:正常范围
  • Pre-mutation:前突变,可能不稳定
  • Full mutation:全突变,通常与疾病相关

报告

python3 str_report.py \
    -i SRR14724513.str.anno.vcf \
    -o report/SRR14724513.str.txt

报告包含STR位点的重复次数、分类结果、遗传模式等信息。

ROH检测

ROH (Runs of Homozygosity,纯合区域) 是基因组中连续的纯合区域。长片段的ROH可能提示近亲婚配,而特定基因区域的ROH可能与常染色体隐性遗传病相关。

检测

使用AutoMap v1.3从VCF文件中检测ROH:

bash AutoMap_v1.3.sh \
    --vcf vcf/SRR14724513.final.vcf.gz \
    --genome hg38 \
    --out roh_result \
    --id SRR14724513

报告

ROH报告会与GenCC (Gene Curation Coalition) 的常染色体隐性遗传病基因数据库进行交叉比对,标注ROH区域中包含的已知隐性致病基因:

python3 roh_report.py \
    -i roh_result/SRR14724513.HomRegions.tsv \
    -o report/SRR14724513.roh.anno.txt \
    -g assets/gencc-submissions.xlsx \
    -b assets/Gencode.GRCh38.cnvkit.target.bed

报告包含ROH区域的位置、大小、纯合比例,以及重叠的隐性致病基因信息。

UPD

UPD (Uniparental Disomy,单亲二倍体) 是指两条同源染色体都来自同一个亲本。必须是父母子家系样本才能分析。

UPD的检测原理是基于ROH:如果先证者的某个ROH区域与父亲的ROH重叠但与母亲不重叠,则该区域可能为父源UPD;反之则为母源UPD。

python3 upd_detection.py \
    -p report/proband.roh.anno.txt \
    -f report/father.roh.anno.txt \
    -m report/mother.roh.anno.txt \
    -o report/SRR14724513.upd_report.txt

UPD报告会列出所有潜在的UPD区域及其来源(父源/母源)。