别再迷信 InterVar 了
今天处理分析流程时,我又看到了那个熟悉的场景:ClinVar 已经标了“良性”,但因为 InterVar 报了一个“疑似致病”,大家就开始犹豫,甚至倾向于去圆那个致病的解释。
这就好比拿着 2024 年的卫星地图告诉你前面路通了,你非要信 2018 年的一张旧报纸说前面在修路。
我们得聊聊这个问题了。这不仅仅是工具旧不旧的问题,而是我们正在被一种**“虚假的自动化”**所蒙蔽。
那个停在2018年的“幽灵”
很多生信流程里集成的 InterVar,本质上调用的是 Annovar 自带的 intervar_20180118 库。
你知道这意味着什么吗?意味着你赖以判断患者命运的依据,是 8年前 的认知快照。 那时候 gnomAD 还没这么全,很多现在被确认为多态性的位点,在当年被标记为“罕见”。更要命的是,InterVar 底层依赖的证据(PP3),是 SIFT 和 PolyPhen-2 这些“上古神器”。
为什么要抛弃老旧预测工具?证据在这里
可能有人会说:“老工具虽然旧,但经典啊,稳啊。”
错。它不是稳,它是“虚高”。
Genome Biology 上的文章:《Benchmarking computational variant effect predictors by their ability to infer human traits》。这篇文章撕开了预测工具遮羞布的一角,给出了两个非常残酷的结论:
-
循环验证的陷阱(Circular Logic): 很多我们常用的工具(比如 CADD 早期版本、REVEL 等),在训练时就用到了 ClinVar 的数据。用包含 ClinVar 的数据训练,再拿 ClinVar 里的位点去验证,准确率当然高得吓人。但这叫“作弊”,不叫预测。
-
真实生物学效应的脱节: 该研究通过对比 UK Biobank 的真实人类性状(Traits)发现,很多在 ClinVar 跑分很高的监督学习模型,一旦换到真实的数量性状关联上,表现大幅缩水。 反而是那些基于“无监督学习”的模型(Unsupervised approach)——即不刻意迎合 ClinVar,而是通过学习海量序列进化约束(Evolutionary Constraint)的模型,表现出了更强的鲁棒性。
换句话说,SIFT 和 PolyPhen 这种老一代工具,既容易受到数据库偏差的影响,又缺乏对蛋白质“真实生存压力”的理解。
咱们的升级出路:从“做题家”到“语言学家”
既然学术界已经证明了**基于进化约束的模型(Evolutionary models)**更能反映真实的生物学后果,我们的 SOP 就必须跟上。
我们需要换掉那些为了刷 ClinVar 分数而存在的“做题家”工具,换上真正理解生物语言的“语言学家”。
1. AlphaMissense:好用,但那是地雷
DeepMind 的 AlphaMissense 确实强,它结合了结构(AlphaFold)和进化信息,在这个领域的表现目前是断层领先的。最佳策略是优先使用AlphaMissense进行评估,在AlphaMissense未覆盖到的位点,用REVEL进行评估。
但是(划重点): 如果咱们是做商业检测、药企服务,千万别直接把它写进自动化流程里。它的 License 是 CC BY-NC-SA,严禁商用。法务风险是我们承受不起的。
我大清自有国情在,老佛爷已经给我们缴过费了
2. ESM-2:合规的实战利器
Meta 的 ESM-2 似乎是目前最理想的替代品。它基于 Transformer 架构,阅读了数亿条蛋白质序列,能够理解如果不遵循进化规律会有什么后果。最重要的是,它是 MIT 协议,完全可商用。
现在的难点在于: ESM-2 官方并没有像 DeepMind 那样贴心地给出一个“全人类突变预计算表”。
- 妥协方案: 暂时降级使用 dbNSFP 里的 ESM-1b 评分(上一代,但也比 SIFT 强得多)。
- 进阶方案(强烈建议): 既然我们有计算资源,完全可以基于 ESM-2 模型,针对我们的 Panel 甚至全外显子组,自己跑一遍饱和突变预测(Saturation Mutagenesis)。建立一个自有的 "ESMissense" 数据集。
这才是核心壁垒。
3. 别忘了 SpliceAI
除了氨基酸变异,对于那些看起来“人畜无害”的同义突变或内含子变异,老旧的 SPIDEX 已经不够看了。SpliceAI 能够查看上下游 10kb 的序列背景,它是目前捕获隐匿剪接突变最有效的手段。
总结一下
别再让 InterVar 2018 这种“僵尸代码”主导我们的判断了。
当 ClinVar 说没事,而 InterVar 说有事时,信 ClinVar。 当我们需要预测一个 VUS 的时候,去看 AlphaMissense(或ESM-2),去看 SpliceAI,而不是去数有多少个 2005 年开发的软件投了赞成票。
我们要做的不是为了凑满 ACMG 的证据条目,而是尽可能接近生物学的真相。
2026年挖坑+1: 建立一个可免费商用的基于ESM-2的有害性预测数据集,必须包括Clinvar Benckmark报告。