SMA分析初探
SMA(Spinal Muscular Atrophy)脊髓性肌萎缩症是一种常见神经肌肉疾病,在儿童期发病率仅次于DMD。致病基因在人群中携带率约为1:40~1:60。
主要需要分析SMN1基因exon7的缺失(大部分会合并exon8缺失),难点在于SMN1与SMN2基因高度同源,SMN2会影响SMN1的拷贝数分析,因此需要把SMN1与SMN2分开。
检测方法有MLPA、longPCR和巢式PCR,以及本次需探究的NGS方法。
比例位点
根据专家共识,建议用于区分SMN1与SMN2的位点是位于exon7的c.840C>T和位于exon8的c.*239G>A。
先来看看这两个点是怎么挑出来的。
hg19上SMN1是chr5:70220768-70248838,SMN2是chr5:69345350-69373418,使用samtools faidx将这两个区域提取出来,将其中一个作为reference,另外一个用wgsim模拟出数据,然后进行比对,就可以获得突变位点。
在exon8(NM_000344.3,即上面说的exon7)和exon9(NM_000344.3,即上面说的exon8)区域,找到4个差异位点:
Chrom | Pos | Ref | Alt | cHGVS | Exon | AF |
---|---|---|---|---|---|---|
chr5 | 70247773 | C | T | c.840C>T | 8/9 | - |
chr5 | 70247921 | A | G | c.*3+100A>G | 8/9 | 0.0015 |
chr5 | 70248036 | A | G | c.*3+215A>G | 8/9 | 0.0002 |
chr5 | 70248501 | G | A | c.*239G>A | 9/9 | - |
可见除c.840C>T、c.*239G>A外,其余两个位点在人群频率数据库中有记录,即突变可能会来自于SMN1本身,因此不能用来区分SMN1与SMN2。
分析方法
然后到了算拷贝数的部分,参考这篇文献,分为下面几步:
1,比对;
2,统计SMN1、SMN2,每个外显子的深度;
3,分别计算上面的两个位点的C/T比例和G/A比例;
4,计算外显子的平均深度**((SMN1+SMN2)/2)**;
5,计算n个样本的SMN拷贝数;
6,按照3的C/T和G/A比例获得SMN1和SMN2的exon7、exon8的拷贝数。
相关软件
找了一下,找到两个软件
SMAca可以用于WGS、WES和Panel,前提是需要覆盖SMN1、SMN2和control genes,看了下control genes需包含ACAD9、ATR、CYP11B1等20个。
SMNCopyNumberCaller仅用于30X以上的WGS。