生物信息文件夹

当前进度

项目第5个月，代码工作已全部完成。功能冻结，全力打磨安全。

核心问题：Killing Part在哪里

系统做出来了，用户上传数据，平台分析，用户获得结果。一切的便利性在于分析速度快、界面现代化、开源可自行部署。但这和闭源商业系统相比，巨大的优势在哪里？

发心

市场上完全没有开源的、可视化的、现代化的分析云平台。各大公司闭门自珍。而政策现状是医院需要将业务收归自身——数据不能出院，合规是硬约束。

开发一个开源社区版，给医院和高校自行部署使用，同步向闭源商业版引流。

开源即品类

"开源的可视化生信云平台"——这个品类当前不存在。

现有的开源生信工具（Nextflow、GATK、miniwdl）都是CLI，需要专业生信人员才能操作。现有的可视化商业系统全是闭源，医院只能租用或买license。中间地带是空白的。

开源版解决合规问题：数据不出院，医院自己部署。商业版解决算力问题：用户不用管基础设施，交任务就行。开源铺场景，闭源卖算力。用合规需求打进去，用算力便利收钱。

Agent时代的隐忧

当前的一切建立在用户上传数据、用户自己进行位点选择上。但Agent时代，交互范式正在从"选参数"变成"说需求"。

全外数据产生的位点极多，达到几万个。加上注释信息后如果作为上下文塞给Agent，显然不科学。那么，一个新时代的全外、肿瘤分析平台应该是什么样子？

核心转变：从流程执行器到决策助手

当前范式：

上传数据 → 跑流程 → 出VCF → 用户自己筛

这个模式把最重的工作——从几万个位点中找到有意义的那几个——甩给了用户。平台只是个"跑流程的机器"。Agent时代用户期待的是：我问一个问题，你给我一个答案。不是给我一个VCF文件让我自己翻。

约束与现实

想清楚哪些能做、哪些不能做，比想清楚要做什么更重要。

平台锁定WES，不做多组学。 多组学整合是另一个产品，当前聚焦全外显子分析，把这一件事做到极致。

7天即焚 = 不可能做患者级别的Case管理。 Case管理需要患者数据持久化，这和数据安全策略直接冲突。平台是分析引擎，不是EMR系统。患者级别的纵向追踪应该由医院自己的系统负责，不是我们的边界。

但变异级别的知识网络是可行的。 通过用户协议，用户最终挑选的位点可以脱敏记录到平台内部知识库。不存患者信息，只存"哪个变异在什么临床背景下被选中过"。这个后面单独展开。

新一代平台的核心能力

在上述约束下，真正可行的、符合平台定位的新时代能力有两个：智能筛选和变异知识网络。

能力一：智能筛选——从"选参数"到"说需求"

用户不再手动勾选过滤条件，而是用自然语言描述临床场景：

"这是一个发育迟缓的3岁患儿，父母表型正常，帮我找可能的致病变异"
"这个肿瘤样本，关注与靶向药物相关的体细胞突变"
"对比这对母子样本，找出新发突变"

平台根据描述自动调整过滤策略、优先级排序、注释重点。同一个VCF，不同的临床问题，看到完全不同的结果呈现。

技术实现是分层过滤，而不是暴力塞给LLM：

全部变异 (~50,000)
    ↓ 硬规则过滤（频率、质量、功能影响）
候选变异 (~500)
    ↓ 知识库匹配（ClinVar、HGMD、药物数据库）
待评估变异 (~50)
    ↓ LLM推理（结合临床表型、遗传模式、文献）
推荐变异 (~5-10) + 结构化解读报告

LLM只处理最后一步——用自然语言推理和整合，而不是做数据过滤。前面的步骤用确定性算法，保证可重复性。LLM不应该看到原始VCF，通过RAG系统查询结构化知识，LLM是推理引擎，知识库是知识来源，两者分离。

最终输出不是一份静态PDF，而是一份可对话的报告：

用户看到推荐变异列表 → "这个变异的证据等级是怎么判断的？"
用户看到基因-疾病关联 → "最近有没有新的文献支持这个关联？"
用户想调整 → "把这个基因的优先级调高，重新排序"

报告变成对话的起点，而不是终点。

能力二：变异知识网络——跨医院的临床决策沉淀

这是商业版独有的、最具长期价值的能力。

机制很简单：用户完成分析后，最终挑选的位点（经用户协议同意）被脱敏记录到平台知识库。不存患者信息，只存"变异 + 临床背景 + 被选中"这个事实。

当积累到一定量级后，这个知识库本身就是资产。它反映的是真实临床决策——哪些变异在什么场景下被医生认为是有意义的——而不是数据库里的理论标注。ClinVar记录的是"这个变异的临床意义"，我们的知识网络记录的是"这个变异在真实临床中被如何使用"。

两家医院各自遇到同一个罕见变异，单独看都不够致病证据，但知识网络中记录了多次独立发现，证据强度就不同了。每家医院既贡献数据，也从网络中获益。 这个飞轮一旦转起来，后来者追不上。

社区版 vs 商业版

社区版：平台是工具，用户是决策者。传统模式，开源免费，医院自行部署。

商业版：平台是助手，用户是审核者。闭源，包含AI筛选引擎。

商业版的核心能力

1. 智能过滤引擎（即上述"能力一"）

用户上传数据，描述临床场景。系统根据表型锁定候选基因区间，根据遗传模式调整过滤策略，根据肿瘤类型选择评估标准，输出带证据链的推荐变异列表。用户看到的不是5万个位点，而是5-10个最值得关注的变异。

2. 变异知识网络（即上述"能力二"）

跨医院的临床决策沉淀。每家医院的最终选择经脱敏后汇入知识网络，积累真实世界的变异-临床关联数据。用的医院越多，网络越厚，推荐越准。

3. 对话式报告

传统交付是一份PDF，用户自己读。新时代交付是一份可对话的报告。报告不再是终点，而是分析的起点。

定价逻辑

用户付的不是"用AI的费用"，而是省下来的时间和降低的误判风险。一个遗传分析师筛一份全外数据，熟练的要2-4小时。商业版10分钟出推荐列表，分析师只需做最终审核。省下的工时、降低的漏诊风险，就是定价的锚点。

LLM调用的数据安全

商业版需要调用云厂商的LLM服务（腾讯云、阿里云等）。人类基因组数据高度敏感，如何确保信息安全？

核心原则：LLM永远不应该看到原始数据

回顾分层过滤架构，到LLM这一层时，数据已经从完整的VCF（含样本标识、全部变异）被收窄为几个脱敏的变异位点。送给LLM的是一个结构化查询：

基因：BRCA1
变异：c.5266dupC
已知致病性：ClinVar Pathogenic
遗传模式：常染色体显性
临床表型：乳腺癌家族史

没有患者姓名、没有样本编号、没有原始测序数据。单凭几个变异位点，无法反向识别到具体个人。基因组数据的隐私风险在于完整性——一个完整的基因组可以识别个人，但几个脱敏的变异位点不行。

具体措施

数据最小化：VCF、BAM、FASTQ永远不离开本地。送给LLM的只是"基因名+变异+注释+临床问题"这种结构化文本。

云厂商协议：使用云厂商LLM服务时签署数据处理协议（DPA），确认API调用数据不用于模型训练、不留存用户数据。

私有化部署兜底：对数据安全极度敏感的医院（涉军、涉密），提供LLM私有化部署方案。腾讯云和阿里云均支持模型部署到用户自己的VPC内，数据不出网。成本更高，但作为合规兜底必要。

审计日志：记录每一次LLM调用的输入和输出，医院审计时可以证明送给LLM的数据不包含可识别信息。

本质

安全设计的核心不是"加密传输"——那只是基础。真正的安全是数据最小化：你把什么数据送出去，决定了风险的上限。通过分层过滤，把送出去的数据从"完整基因组"压缩到"几个脱敏变异位点"，风险从"不可接受"降到了"可控"。

RAG：为什么必须建，语料从哪来

为什么不能只靠LLM的世界知识

时效性：ClinVar每月更新，gnomAD版本迭代，新的药物基因组学证据不断涌现。LLM的训练数据有截止日期，它不知道上个月刚发布的致病变异。

准确性：LLM对常见变异（比如BRCA1的几个热点突变）的判断可能靠谱。但对于罕见变异——而罕见变异恰恰是临床最有价值的发现——LLM大概率会编造一个看起来合理但实际错误的解释。在临床场景下，幻觉不是体验问题，是医疗事故。

可溯源性：临床报告需要证据链："这个变异被判定为致病性，依据是ClinVar提交的12条证据、HGMD的文献引用、以及ACMG评分标准的PS1+PM2+PP3。"LLM给不出这个，它只能给结论，给不了推理过程的每一步来源。

定制化：不同医院可能有自己的内部变异库、自己的判读标准、自己的科室共识。这些是LLM世界里不存在的私有知识。

RAG语料的三层结构

第一层：变异知识库

项目已在Hugging Face发布的SchemaBio_Bundle就是基础。补充来源：

数据库	内容	许可	更新频率
ClinVar	变异临床意义	开放	每月
gnomAD	人群等位基因频率	开放	每年
dbSNP	变异ID映射	开放	持续
COSMIC	肿瘤体细胞变异	商用需许可	每季度
PharmGKB	药物基因组学	部分开放	持续
HGMD	人类基因突变数据库	商用需付费	每季度
OMIM	基因-疾病关系	开放	持续

ClinVar、gnomAD、dbSNP、OMIM均为开放许可，可直接商用。HGMD商用版需付费授权，可先用ClinVar替代大部分场景。

第二层：判读规则库

不是数据库，而是结构化的专家规则：

ACMG/AMP变异分类指南（2015版 + 各疾病特异性更新）
ClinGen基因剂量敏感性评估
各学会解读共识（ACMG、ESHG、CAP）
中国人群特有的频率阈值调整

这些规则可以编码成结构化的过滤逻辑，也可以作为RAG的检索素材给LLM参考。

第三层：文献知识

PubMed中与特定基因-疾病-变异相关的文献。通过已有的HGMD/ClinVar文献引用作为种子，定期检索PubMed，用LLM摘要提取生成结构化的文献证据卡片。

RAG的工作流

本地分层过滤 → 产出候选变异列表
    ↓
对每个候选变异，检索RAG：
    ├─ 变异知识库 → 已知致病性、人群频率、功能研究
    ├─ 判读规则库 → 适用的ACMG证据条款
    └─ 文献知识库 → 相关研究和病例报告
    ↓
将检索结果 + 变异信息 + 临床表型 组装成结构化prompt
    ↓
送入LLM → 生成最终判读报告（带证据链）

LLM的角色是整合和推理，不是知识来源。它做的是"根据这些证据，按照ACMG标准，这个变异应该归类为likely pathogenic，理由是……"——而不是凭自己的记忆说"这个变异是致病的"。

一句话总结

社区版卖铲子，商业版卖淘金结果。

铲子是开源的，人人都能用。但淘金结果——精准的变异推荐、持续进化的知识库、可对话的报告——只有商业版有。