阶段思考2
当前进度
项目第5个月,代码工作已全部完成。功能冻结,全力打磨安全。
核心问题:Killing Part在哪里
系统做出来了,用户上传数据,平台分析,用户获得结果。一切的便利性在于分析速度快、界面现代化、开源可自行部署。但这和闭源商业系统相比,巨大的优势在哪里?
发心
市场上完全没有开源的、可视化的、现代化的分析云平台。各大公司闭门自珍。而政策现状是医院需要将业务收归自身——数据不能出院,合规是硬约束。
开发一个开源社区版,给医院和高校自行部署使用,同步向闭源商业版引流。
开源即品类
"开源的可视化生信云平台"——这个品类当前不存在。
现有的开源生信工具(Nextflow、GATK、miniwdl)都是CLI,需要专业生信人员才能操作。现有的可视化商业系统全是闭源,医院只能租用或买license。中间地带是空白的。
开源版解决合规问题:数据不出院,医院自己部署。商业版解决算力问题:用户不用管基础设施,交任务就行。开源铺场景,闭源卖算力。用合规需求打进去,用算力便利收钱。
Agent时代的隐忧
当前的一切建立在用户上传数据、用户自己进行位点选择上。但Agent时代,交互范式正在从"选参数"变成"说需求"。
全外数据产生的位点极多,达到几万个。加上注释信息后如果作为上下文塞给Agent,显然不科学。那么,一个新时代的全外、肿瘤分析平台应该是什么样子?
核心转变:从流程执行器到决策助手
当前范式:
上传数据 → 跑流程 → 出VCF → 用户自己筛
这个模式把最重的工作——从几万个位点中找到有意义的那几个——甩给了用户。平台只是个"跑流程的机器"。Agent时代用户期待的是:我问一个问题,你给我一个答案。不是给我一个VCF文件让我自己翻。
约束与现实
想清楚哪些能做、哪些不能做,比想清楚要做什么更重要。
平台锁定WES,不做多组学。 多组学整合是另一个产品,当前聚焦全外显子分析,把这一件事做到极致。
7天即焚 = 不可能做患者级别的Case管理。 Case管理需要患者数据持久化,这和数据安全策略直接冲突。平台是分析引擎,不是EMR系统。患者级别的纵向追踪应该由医院自己的系统负责,不是我们的边界。
但变异级别的知识网络是可行的。 通过用户协议,用户最终挑选的位点可以脱敏记录到平台内部知识库。不存患者信息,只存"哪个变异在什么临床背景下被选中过"。这个后面单独展开。
新一代平台的核心能力
在上述约束下,真正可行的、符合平台定位的新时代能力有两个:智能筛选和变异知识网络。
能力一:智能筛选——从"选参数"到"说需求"
用户不再手动勾选过滤条件,而是用自然语言描述临床场景:
- "这是一个发育迟缓的3岁患儿,父母表型正常,帮我找可能的致病变异"
- "这个肿瘤样本,关注与靶向药物相关的体细胞突变"
- "对比这对母子样本,找出新发突变"
平台根据描述自动调整过滤策略、优先级排序、注释重点。同一个VCF,不同的临床问题,看到完全不同的结果呈现。
技术实现是分层过滤,而不是暴力塞给LLM:
全部变异 (~50,000)
↓ 硬规则过滤(频率、质量、功能影响)
候选变异 (~500)
↓ 知识库匹配(ClinVar、HGMD、药物数据库)
待评估变异 (~50)
↓ LLM推理(结合临床表型、遗传模式、文献)
推荐变异 (~5-10) + 结构化解读报告
LLM只处理最后一步——用自然语言推理和整合,而不是做数据过滤。前面的步骤用确定性算法,保证可重复性。LLM不应该看到原始VCF,通过RAG系统查询结构化知识,LLM是推理引擎,知识库是知识来源,两者分离。
最终输出不是一份静态PDF,而是一份可对话的报告:
- 用户看到推荐变异列表 → "这个变异的证据等级是怎么判断的?"
- 用户看到基因-疾病关联 → "最近有没有新的文献支持这个关联?"
- 用户想调整 → "把这个基因的优先级调高,重新排序"
报告变成对话的起点,而不是终点。
能力二:变异知识网络——跨医院的临床决策沉淀
这是商业版独有的、最具长期价值的能力。
机制很简单:用户完成分析后,最终挑选的位点(经用户协议同意)被脱敏记录到平台知识库。不存患者信息,只存"变异 + 临床背景 + 被选中"这个事实。
当积累到一定量级后,这个知识库本身就是资产。它反映的是真实临床决策——哪些变异在什么场景下被医生认为是有意义的——而不是数据库里的理论标注。ClinVar记录的是"这个变异的临床意义",我们的知识网络记录的是"这个变异在真实临床中被如何使用"。
两家医院各自遇到同一个罕见变异,单独看都不够致病证据,但知识网络中记录了多次独立发现,证据强度就不同了。每家医院既贡献数据,也从网络中获益。 这个飞轮一旦转起来,后来者追不上。
社区版 vs 商业版
社区版:平台是工具,用户是决策者。传统模式,开源免费,医院自行部署。
商业版:平台是助手,用户是审核者。闭源,包含AI筛选引擎。
商业版的核心能力
1. 智能过滤引擎(即上述"能力一")
用户上传数据,描述临床场景。系统根据表型锁定候选基因区间,根据遗传模式调整过滤策略,根据肿瘤类型选择评估标准,输出带证据链的推荐变异列表。用户看到的不是5万个位点,而是5-10个最值得关注的变异。
2. 变异知识网络(即上述"能力二")
跨医院的临床决策沉淀。每家医院的最终选择经脱敏后汇入知识网络,积累真实世界的变异-临床关联数据。用的医院越多,网络越厚,推荐越准。
3. 对话式报告
传统交付是一份PDF,用户自己读。新时代交付是一份可对话的报告。报告不再是终点,而是分析的起点。
定价逻辑
用户付的不是"用AI的费用",而是省下来的时间和降低的误判风险。一个遗传分析师筛一份全外数据,熟练的要2-4小时。商业版10分钟出推荐列表,分析师只需做最终审核。省下的工时、降低的漏诊风险,就是定价的锚点。
LLM调用的数据安全
商业版需要调用云厂商的LLM服务(腾讯云、阿里云等)。人类基因组数据高度敏感,如何确保信息安全?
核心原则:LLM永远不应该看到原始数据
回顾分层过滤架构,到LLM这一层时,数据已经从完整的VCF(含样本标识、全部变异)被收窄为几个脱敏的变异位点。送给LLM的是一个结构化查询:
基因:BRCA1
变异:c.5266dupC
已知致病性:ClinVar Pathogenic
遗传模式:常染色体显性
临床表型:乳腺癌家族史
没有患者姓名、没有样本编号、没有原始测序数据。单凭几个变异位点,无法反向识别到具体个人。基因组数据的隐私风险在于完整性——一个完整的基因组可以识别个人,但几个脱敏的变异位点不行。
具体措施
数据最小化:VCF、BAM、FASTQ永远不离开本地。送给LLM的只是"基因名+变异+注释+临床问题"这种结构化文本。
云厂商协议:使用云厂商LLM服务时签署数据处理协议(DPA),确认API调用数据不用于模型训练、不留存用户数据。
私有化部署兜底:对数据安全极度敏感的医院(涉军、涉密),提供LLM私有化部署方案。腾讯云和阿里云均支持模型部署到用户自己的VPC内,数据不出网。成本更高,但作为合规兜底必要。
审计日志:记录每一次LLM调用的输入和输出,医院审计时可以证明送给LLM的数据不包含可识别信息。
本质
安全设计的核心不是"加密传输"——那只是基础。真正的安全是数据最小化:你把什么数据送出去,决定了风险的上限。通过分层过滤,把送出去的数据从"完整基因组"压缩到"几个脱敏变异位点",风险从"不可接受"降到了"可控"。
RAG:为什么必须建,语料从哪来
为什么不能只靠LLM的世界知识
时效性:ClinVar每月更新,gnomAD版本迭代,新的药物基因组学证据不断涌现。LLM的训练数据有截止日期,它不知道上个月刚发布的致病变异。
准确性:LLM对常见变异(比如BRCA1的几个热点突变)的判断可能靠谱。但对于罕见变异——而罕见变异恰恰是临床最有价值的发现——LLM大概率会编造一个看起来合理但实际错误的解释。在临床场景下,幻觉不是体验问题,是医疗事故。
可溯源性:临床报告需要证据链:"这个变异被判定为致病性,依据是ClinVar提交的12条证据、HGMD的文献引用、以及ACMG评分标准的PS1+PM2+PP3。"LLM给不出这个,它只能给结论,给不了推理过程的每一步来源。
定制化:不同医院可能有自己的内部变异库、自己的判读标准、自己的科室共识。这些是LLM世界里不存在的私有知识。
RAG语料的三层结构
第一层:变异知识库
项目已在Hugging Face发布的SchemaBio_Bundle就是基础。补充来源:
| 数据库 | 内容 | 许可 | 更新频率 |
|---|---|---|---|
| ClinVar | 变异临床意义 | 开放 | 每月 |
| gnomAD | 人群等位基因频率 | 开放 | 每年 |
| dbSNP | 变异ID映射 | 开放 | 持续 |
| COSMIC | 肿瘤体细胞变异 | 商用需许可 | 每季度 |
| PharmGKB | 药物基因组学 | 部分开放 | 持续 |
| HGMD | 人类基因突变数据库 | 商用需付费 | 每季度 |
| OMIM | 基因-疾病关系 | 开放 | 持续 |
ClinVar、gnomAD、dbSNP、OMIM均为开放许可,可直接商用。HGMD商用版需付费授权,可先用ClinVar替代大部分场景。
第二层:判读规则库
不是数据库,而是结构化的专家规则:
- ACMG/AMP变异分类指南(2015版 + 各疾病特异性更新)
- ClinGen基因剂量敏感性评估
- 各学会解读共识(ACMG、ESHG、CAP)
- 中国人群特有的频率阈值调整
这些规则可以编码成结构化的过滤逻辑,也可以作为RAG的检索素材给LLM参考。
第三层:文献知识
PubMed中与特定基因-疾病-变异相关的文献。通过已有的HGMD/ClinVar文献引用作为种子,定期检索PubMed,用LLM摘要提取生成结构化的文献证据卡片。
RAG的工作流
本地分层过滤 → 产出候选变异列表
↓
对每个候选变异,检索RAG:
├─ 变异知识库 → 已知致病性、人群频率、功能研究
├─ 判读规则库 → 适用的ACMG证据条款
└─ 文献知识库 → 相关研究和病例报告
↓
将检索结果 + 变异信息 + 临床表型 组装成结构化prompt
↓
送入LLM → 生成最终判读报告(带证据链)
LLM的角色是整合和推理,不是知识来源。它做的是"根据这些证据,按照ACMG标准,这个变异应该归类为likely pathogenic,理由是……"——而不是凭自己的记忆说"这个变异是致病的"。
一句话总结
社区版卖铲子,商业版卖淘金结果。
铲子是开源的,人人都能用。但淘金结果——精准的变异推荐、持续进化的知识库、可对话的报告——只有商业版有。