其他分析
一般的,遗传全外显子可能会关注下面这些分析内容。
样本指纹
样本指纹用于追踪样本身份,防止样本混淆。使用Pengelly等人发表的24-SNP身份鉴定面板,这些SNP位点具有较高的杂合度,能够提供足够的区分能力。
bcftools mpileup \
-f GRCh38.d1.vd1.fa \
-R pengelly_snp.txt \
--annotate FORMAT/AD,FORMAT/DP \
bam/SRR14724513.markdup.bam | \
bcftools call -m -Ov -o SRR14724513.fingerprint.vcf
生成的VCF包含24个SNP位点的基因分型结果,可以用于:
- 跨样本身份一致性检查
- 样本混淆排查
- 家系关系初步验证
HLA分型
一些HLA分型可能会与某些疾病相关,是某些疾病的极高风险人群,比如HLA*27:04和强直性脊柱炎。
转座子插入 (MEI)
转座子(Transposable Element)的插入事件可能与某些疾病相关。在WES数据中,可以使用TIEA-WES检测转座子插入事件。
检测
python TIEA-WES.py \
-p SRR14724513 \
-i bam/SRR14724513.markdup.bam \
-o mei_result
注释
对检出的MEI进行VEP注释,然后生成报告:
python3 mei_report.py \
-i vcf/SRR14724513.mei.vep.vcf \
-o report/SRR14724513.mei.txt \
-t assets/transcripts.json
MEI分类
转座子插入按类型分为:
- Alu:最常见的人类转座子,约300bp,属于SINE家族
- L1 (LINE-1):全长约6kb,是目前人类基因组中唯一仍活跃的自主转座子
- SVA:由SINE、VNTR和Alu组成的复合转座子,较短
- HERV:人类内源性逆转录病毒
报告会标注每个MEI的类型、插入位置、受影响的基因等信息。
STR检测
STR (Short Tandem Repeat,短串联重复) 是由2-6个碱基为单位串联重复的DNA序列。STR的异常扩增与多种神经退行性疾病相关,如亨廷顿病、脆性X综合征等。
检测
使用ExpansionHunter v5进行STR检测,需要根据样本性别选择合适的参数:
# 根据SRY read count判断性别
SRY_COUNT=$(cat SRR14724513.SRY.count.txt)
if [ $SRY_COUNT -gt 30 ]; then
sex="male"
else
sex="female"
fi
ExpansionHunter \
--reads bam/SRR14724513.markdup.bam \
--reference GRCh38.d1.vd1.fa \
--variant-catalog variant_catalog_grch38.json \
--output-prefix SRR14724513 \
-n 16 \
--sex ${sex}
variant-catalog.json是STR位点的目录文件,定义了需要检测的STR位点及其参考重复次数。ExpansionHunter内置了基因组范围的变异目录,按基因组版本选择。
注释
使用Stranger对STR结果进行临床注释:
stranger SRR14724513.vcf \
-f variant_catalog_grch38.json \
> SRR14724513.str.anno.vcf
Stranger会根据预设的阈值将每个STR位点分类为:
- Normal:正常范围
- Pre-mutation:前突变,可能不稳定
- Full mutation:全突变,通常与疾病相关
报告
python3 str_report.py \
-i SRR14724513.str.anno.vcf \
-o report/SRR14724513.str.txt
报告包含STR位点的重复次数、分类结果、遗传模式等信息。
ROH检测
ROH (Runs of Homozygosity,纯合区域) 是基因组中连续的纯合区域。长片段的ROH可能提示近亲婚配,而特定基因区域的ROH可能与常染色体隐性遗传病相关。
检测
使用AutoMap v1.3从VCF文件中检测ROH:
bash AutoMap_v1.3.sh \
--vcf vcf/SRR14724513.final.vcf.gz \
--genome hg38 \
--out roh_result \
--id SRR14724513
报告
ROH报告会与GenCC (Gene Curation Coalition) 的常染色体隐性遗传病基因数据库进行交叉比对,标注ROH区域中包含的已知隐性致病基因:
python3 roh_report.py \
-i roh_result/SRR14724513.HomRegions.tsv \
-o report/SRR14724513.roh.anno.txt \
-g assets/gencc-submissions.xlsx \
-b assets/Gencode.GRCh38.cnvkit.target.bed
报告包含ROH区域的位置、大小、纯合比例,以及重叠的隐性致病基因信息。
UPD
UPD (Uniparental Disomy,单亲二倍体) 是指两条同源染色体都来自同一个亲本。必须是父母子家系样本才能分析。
UPD的检测原理是基于ROH:如果先证者的某个ROH区域与父亲的ROH重叠但与母亲不重叠,则该区域可能为父源UPD;反之则为母源UPD。
python3 upd_detection.py \
-p report/proband.roh.anno.txt \
-f report/father.roh.anno.txt \
-m report/mother.roh.anno.txt \
-o report/SRR14724513.upd_report.txt
UPD报告会列出所有潜在的UPD区域及其来源(父源/母源)。