爬取CHPO数据库

CHPO即[china HPO](http://www.chinahpo.org/),是在中文人类表型标准用语联盟倡导下建立的一个公共网站,希望提供一个共享的平台有助于研究人员和医学专家共同翻译编辑Human Phenotype Ontology,以形成一个中文版的HPO。

爬取CKB数据库

Jax Ckb是比较常用的肿瘤相关位点注释的数据库。[曾几何时](https://pzweuj.github.io/2018/06/10/ckb-jax.html)数据库还是免费查询的,现在部分基因如EGFR已经转到了高级版本中,不过免费版还是能查若干基因的。

根据转录本号找内含子

总所周知,融合基因的断点大都在内含子上,这时我们有一个基因的转录本号,比如NM_004304(ALK),需要找到18号内含子。

UMI的处理

唯一分子标记(UMI)是一种分子条形码,可以在测序过程中错误校正,提高准确性。使用生信流程对下机数据进行处理,根据UMI可以确定唯一read,从而在最终数据分析之前消除已识别的错误,因为有助于检测DNA样本中罕见和低频的体细胞变异,因此多用于血浆中分离的cfDNA。