介绍
短串联重复序列(short tandem repeats,STR)也称微卫星DNA(microsatellite DNA), 通常是基因组中由1~6个碱基单元组成的一段DNA重复序列,可以用于亲子鉴定。本人无医学、法律相关背景,下文只是学习笔记,无参考意义。
计算方式分为二联体(被检孩子+被检父亲或母亲)和三联体(被检孩子+被检父亲+被检母亲)。除了亲子关系的鉴定,还有祖孙关系的鉴定。(多个被检者是双胞胎多胞胎或者近亲的这种情况是无法获得准确结果的)
STR
《司法鉴定文书规范》中有一个由19个STR组成的检测panel。除此以外,还有27个的,23个的,22个的,还有ThermoFisher的GlobalFIlter、Identifiler、物证鉴定中心的专利等等等等。因为位点比较少,所以一般不会用NGS测。
选取的常染色体基因座需要满足这些条件:基因座的定义和特征需要已有文献报道,具有种属特异性、灵敏性,已有可供使用的群体遗传数据,遗传方式符合孟德尔定律,串联重复单位需要是四或者五核苷酸(不过我看到有些用三核苷酸重复的)。还有来自CODIS系统(共有13个核心STR)还是非CODIS系统这些内容。
19 STR Panel,一般来说还会加入Amelogenin性别识别位点。二联体检测最少使用18个STR,但是由于STR均存在突变现象,检测数量也是越多越好(但是多了又不适用于多重荧光PCR了或者毛细管电泳了)。
D19S433、D5S818、D21S11、D18S51、D6S1043、D3S1358、D13S317 、D7S820、D16S539 、CSF1PO 、PentaD 、vWA 、D8S1179、TPOX 、PentaE、TH01、D12S391、D2S1338、FGA、Amel。
然后还需要人群频率,大概可以在这些数据库找一找,最好当然是找到中国人群的:STRBase数据库、STRidER,亚洲、Promega,亚洲。这里有一篇文献的数据,频率来自2367个南方汉族;Github上找到的这个;另外也有用这篇文献的,点击这里下载文献的Supplemental。
接下来就是计算累计亲权指数CPI(Combined Parentage Index ),可以看这篇,还有参考内容中的技术规范。
亲权指数计算
根据技术规范,计算三联体亲权指数,写了一个python方法,脚本看这里。未验证写法是否准确。尽管脚本中三联体写法是疑父,已知母亲,孩子,实际上把疑母写到疑父的位置,把已知父亲写到已知母亲的位置,再把分析方式由male改为female也能成功运行(这种情况比较少见)。
还有什么排除指数之类的,未进行编写。累计非父排除率不能小于0.9999。
当累计亲权指数小于0.0001时,支持被检测男子不是孩子生物学父亲的假设(女子同理);累计亲权指数大于10000时,支持被检测男子是孩子生物学父亲的假设(女子同理)。当累计亲权指数等于10000时,父权概率等于CPI / (CPI + 1) ≈ 99.99%
SNP
选取中国人群多态性良好的单核苷酸位点,一次性检测5000到10000+个,可能能获得更准确的结果。但是《法医SNP分型与应用规范》只列举了几十个SNP位点(使用微测序法检测)。SNP检测可用于个人识别和亲子鉴定。
在个人识别中,需要计算LR值(Likehood Ratio),LR等同于累积匹配概率CPM的倒数(CPM = PM1×PM2×…×PMn),统计学上LR大于1时,认为支持同一人假设,小于1则反之。当LR在数值上超过全球人口总数,表明证据有足够强度支持同一人假设,但规范未给出PM的计算公式。
一些文章中符合孟德尔定律时采取与STR相同的计算方法(具体可参阅参考内容中的技术规范),在不符合孟德尔定律时,则PI等于0.00001。另外,有基于PMID6881203的,也是分为二联体三联体,在符合孟德尔定律时采取与STR相同算法,在不符合时PI等于0。即只要有一个点不符合孟德尔定律最终的CPI也会是0。这时还要统计PI为0的位点数,大于等于3时才认为排除亲子关系;而小于3不等于0的情况则认为无法确定亲子关系(引用该文献的一篇专利采用的位点数是60个)。
华大的一篇专利选了70个位点,然后通过统计不符合孟德尔定律的位点数,当个数为0时认为是亲子关系。
司法部研究所设计的试剂盒有273个位点。公安部物鉴中心的有48个位点。
STR+SNP
可用参考ThermoFisher的PrecisionID。当STR与SNP联合使用时,需要证据证明选取的SNP与STR之间是相互独立的,同时SNP之间也需要是独立的。计算方式未提及。
NIPPT
Noninvasive Prenatal Paternity Testing (NIPPT)指无创产前亲子鉴定,与肿瘤线测血浆中游离的肿瘤DNA类似,这个项目是检测孕妇血浆中游离的胎儿DNA达到无创的效果。一般需要孕周在8周以上才能进行检测(备注:如不影响孕妇生命安全,合法人流需要在24周以下进行)。
与普通的SNP(也有基于STR的方法)亲子鉴定相比,区别主要在实验过程中,来源于孕妇的外周血需提取出白细胞和血浆,其中白细胞用于检测孕妇基因型,血浆用于检测胎儿基因型。由于血浆中游离DNA片段比较短(一般是170bp以下),引物设计一般设计为扩增120bp左右(有些文献中认为需小于100bp)。血浆结果检测出来会包含母亲和胎儿的混合基因型,因此还需要进行筛选。对于cfDNA的概率,CN108875307A这篇专利说得比较清楚。
Github上有几个现成的项目,可以参考
参考
Population structure of Han population in China revealed by 41 STR loci
Informatics-based, highly accurate, noninvasive prenatal paternity testing
Noninvasive Prenatal Paternity Testing (NIPAT) through Maternal Plasma DNA Sequencing: A Pilot Study