SMA分析初探

SMA(Spinal Muscular Atrophy)脊髓性肌萎缩症是一种常见神经肌肉疾病,在儿童期发病率仅次于DMD。致病基因在人群中携带率约为1:40~1:60。

主要需要分析SMN1基因exon7的缺失(大部分会合并exon8缺失),难点在于SMN1与SMN2基因高度同源,SMN2会影响SMN1的拷贝数分析,因此需要把SMN1与SMN2分开。

检测方法有MLPA、longPCR和巢式PCR,以及本次需探究的NGS方法。

比例位点

根据专家共识,建议用于区分SMN1与SMN2的位点是位于exon7的c.840C>T和位于exon8的c.*239G>A。

先来看看这两个点是怎么挑出来的。

hg19上SMN1是chr5:70220768-70248838,SMN2是chr5:69345350-69373418,使用samtools faidx将这两个区域提取出来,将其中一个作为reference,另外一个用wgsim模拟出数据,然后进行比对,就可以获得突变位点。

在exon8(NM_000344.3,即上面说的exon7)和exon9(NM_000344.3,即上面说的exon8)区域,找到4个差异位点:

Chrom Pos Ref Alt cHGVS Exon AF
chr5 70247773 C T c.840C>T 8/9 -
chr5 70247921 A G c.*3+100A>G 8/9 0.0015
chr5 70248036 A G c.*3+215A>G 8/9 0.0002
chr5 70248501 G A c.*239G>A 9/9 -

可见除c.840C>T、c.*239G>A外,其余两个位点在人群频率数据库中有记录,即突变可能会来自于SMN1本身,因此不能用来区分SMN1与SMN2。

分析方法

然后到了算拷贝数的部分,参考这篇文献,分为下面几步:

1,比对;

2,统计SMN1、SMN2,每个外显子的深度;

3,分别计算上面的两个位点的C/T比例和G/A比例;

4,计算外显子的平均深度(SMN1+SMN2)/2

5,计算n个样本的SMN拷贝数;

6,按照3的C/T和G/A比例获得SMN1和SMN2的exon7、exon8的拷贝数。

相关软件

找了一下,找到两个软件

SMAca可以用于WGS、WES和Panel,前提是需要覆盖SMN1、SMN2和control genes,看了下control genes需包含ACAD9、ATR、CYP11B1等20个。

SMNCopyNumberCaller仅用于30X以上的WGS。