2025总结

Merry Christmas! 🎄

年底了，又到了年终总结的时间。

个人总结

今年我觉得是我与AI高度融合的一年，今年以来，我大量的个人行动和工作，都由AI指导。个人感觉效率极大的提升。

Github的Contributions可以侧面反映这个效率提升。2024年，我的总Contributions是487，而截止到2025年圣诞节，我的2025年Contributions是1507，增幅约209%。

工作上，由于经济下行，公司裁了大量的人，工作量都集中在少数人头上，我手上的杂事也是越来越多。但是，如我所说的，AI给了3倍的效率提升，因此实际我的摸鱼时间反而增加了（作为职场老油条，当然是不可能因为自己的效率提升然后问领导要更多的活的，工资又没有给我涨）。

近期我密集调研了当前临床生产环境中的生信技术栈。作为一个负责搭建 Pipeline 的渣渣生信，我的核心目标只有两个：极致的效率 与 极致的准确性。

但我思考的是如何进行工业化生产，彻底摆脱传统手工作坊式的技术债。以下是我对未来（或者说现在）临床生信分析架构的深度复盘。

传统医检所最大的痛点是 SKU 过于繁杂。为了省一点测序费，搞了几十种不同大小的 Panel，导致建库流程支离破碎，人工成本居高不下。不做尖端研发和过多的产品，只做成熟的产品。

必须做减法：锁定 SKU。

只保留 遗传全外显子 (WES) 和 肿瘤大 Panel (1000 Gene+) 两条核心产线。

这就像福特T型车：“你可以选择任何颜色，只要它是黑色的。” 标准化，是工业化的前提。

传统的“买几台服务器放在实验室隔壁”的模式已经过时了。我思考的新架构是：数据重力在本地，算力爆发在云端。

所有原始数据（FastQ）产生于本地，保留在本地存储中（或定期冷备份），不轻易上云，以节省昂贵的上传带宽和存储费。

而分析产生的中间文件，必须对行业惯例动刀：

再见，BAM： 传统的 BAM 文件动辄几 GB，不仅贵而且慢。
你好，CRAM： 全面转向 CRAM 格式。基于参考基因组的差量压缩，能让存储体积缩小 50%。
结构化数据： 所有的 VCF 注释结果、QC 报告，不再是散乱的文本，而是被清洗为 Apache Parquet 格式。这是一种列式存储格式，极小、极快，为下游分析做好了准备。 生命周期管理： CRAM、VCF数据在 S3 桶中保存 5 年，到期自动触发销毁策略。这不再需要人工运维，而是代码定义的规则。

Gemini 曾帮我算过一笔账，这也是我认为 All-in Cloud 可行的原因：

“赌量”还是“赌命”？

如果你是华大基因 (BGI)： 你每年确定有 100 万个样本。必须选 A (本地)。因为选 A，单样本成本会被摊薄到 0.7 元；选 B 永远是 11 元。
如果你是小公司： 我们是一家初创公司。

如果选 A，开局就要烧掉 130 万现金。如果前两年只接了 2 万个单子，单样本成本高达 100 元 (130万/2万+电费)，且现金流枯竭，公司会死。
如果选 B，前两年接 2 万个单子，只花了 22 万。手里还有 178 万现金活着。

结论： 本地方案是“省钱”的终点，但在没达到 15 万样本量之前，它是“烧钱”的黑洞。 云端方案虽然单价贵，但它是活下去的资格。

很多同行的系统卡顿，是因为还在用 MySQL 去硬抗几万个突变位点的查询。

可视化分析系统采用了 Parquet + DuckDB (WASM) 的边缘计算架构：

后端 0 压力： 用户打开报告时，浏览器自动下载该样本的 Parquet 文件（仅十几 MB）。
前端极速计算： 所有的筛选、排序、复合查询，全部由用户浏览器里的 DuckDB 引擎完成。响应速度是毫秒级的。
流式读取 CRAM： 当医生需要查看 IGV 时，前端通过 S3 预签名链接 (Signed URL) 直接读取云端的 CRAM 片段。数据不经过我们的后端服务器，流量成本再次降低。

这是真正的**“零数据库成本”**架构。

既然定位是工业级，就不要再用 Old School 的 PBS/Slurm 投递任务了，也不要用 singularity 去手动管理环境。

这套架构做到了**“一次编写，到处运行”**。无论是阿里云、AWS，还是本地的一台测试机，只要有 Docker，流程就能跑通。

2026年，我预估会产出一套开源的全外显子可视化分析系统、一套开源的肿瘤靶向用药可视化分析系统。

2025个人年度歌，王力宏的我们的歌。