Web端结构的破坏性更新
经过一系列的头脑风暴,对于云平台,我原本的想法是从下机数据检测到数据拆分一条路服务的。这样,就至少需要去匹配Illumina、华大等测序平台的拆分软件、逻辑、以及不同的Index规则。
但现在,我决定从MVP出发,不再以BCL作为原始输入。而是改从FASTQ开始启动。这更符合用户的使用逻辑。
对于自部署用户,默认他们完全有能力进行数据的拆分和重命名(以适配我的数据检测规则)。
因此,新版本的结构下,我会完全砍掉实验中心,以及完全砍掉非管理员下的数据中心入口。这些内容不再开放给用户。
这是一份针对你新一代**“S3 驱动型基因分析平台”**的架构整理与细节补漏。这个方案的核心逻辑已经从“人找数据”进化到了“数据找任务”。
🚀 新方案核心架构总结:一个中心,三个自动化
平台以 S3 对象存储 为数据底座,通过 Go 后端 作为调度大脑,指挥 Nextflow 在 云端/本地HPC 上完成计算。
1. 核心模块重组
- 概览大屏 (Dashboard):全站状态的“晴雨表”,只看异常任务和资源消耗。
- 数据中心 (Data Hub):S3 的影子库。通过文件哨兵实现 Fastq 自动识别与质量预审。
- 任务中心 (Task Center):操作工位。实现“样本+分析方案”的快速绑定,支持提前部署任务,数据识别后自动触发。
- 方案管理 (Assay Config):生信资产库。将 Nextflow 脚本参数标准化为“临床方案”,生信权限用户可自行调整Bed等配置,形成自定义分析流程;支持基线(CNV/MSI)建立和管理。生信权限用户可接入报告API端点。
- 知识中心 (Knowledge):沉淀变异库和行业指南。
2. 业务流进化:从 7 步缩减为 3 步
- 定义方案(一次性配置):生信人员在“方案管理”设好 16 线程实例参数。
- 推送数据:用户将 Fastq 上传到指定的云端/本地路径。
- 审核结果:系统自动跑完,用户在“任务中心”直接看报告。
🛠 当前进度
- 项目整体商用友好的开源数据库建立中
- 整个前端结构重写