注释数据库收集完成与AI功能集成

背景

在生信分析流程中，注释数据库的整合一直是一个痛点。商业数据库往往有严格的许可限制，而开源数据库又分散在不同平台、格式各异。经过一段时间的整理，我完成了一套商用友好的注释数据库打包，并计划将其集成到云端分析平台中。

我设计并整理了一套商用友好的注释数据库，现已在 Hugging Face 中提供下载。该数据库包含多个常用注释来源，经过统一的格式处理，方便直接接入分析流程。

设计原则：

当前版本未包含 OMIM 等商业数据库，后续仍需进行有效的版权清洗工作。如你有推荐的数据库来源，欢迎在 GitHub 提 Issue 讨论。

为了运行 WES（全外显子组）分析流程，我计划使用腾讯云的 GNV4.3XLARGE44 实例。该实例配备 GPU 加速能力，适合计算密集型任务。

采用竞价实例可将计算成本降低约 50%，但需注意可能被回收的风险，因此需要设计好断点续传机制。

采用 Ubuntu + Docker 作为基础系统镜像，并通过启动脚本预先配置 Docker root 地址指向数据盘快照，以减少实例启动时间。

Docker 配置示例：

{
  “data-root”: “/mnt/data/docker_root”
}

为了优化 I/O 性能和数据管理，我设计了三盘分离的存储架构：

这种架构的优势：

计划使用 page-agent 为项目添加 AI 辅助功能。初步目标是实现：