IGH融合相关
背景
解读说我们血液肿瘤,DNA检出的IGH融合,伴侣基因的断点基本都不在伴侣基因内部。尽管我认为,生物学知识需要解读提供,但还是自己查一下,比较能明确。
在血液系统恶性肿瘤(特别是B细胞淋巴瘤和多发性骨髓瘤)中,IGH(免疫球蛋白重链)相关的染色体易位,绝大多数都是基于**“增强子劫持”(Enhancer Hijacking)机制,或者称为“启动子置换/插入”**。
B细胞的生理使命是分泌海量的抗体(免疫球蛋白)。为了实现这一目标,位于14号染色体(14q32)的IGH基因座进化出了极其强大的转录调控元件,主要包括:
- 内含子增强子(Eμ)
- 3'端调控区增强子(3'RR)
在B细胞发育的过程中,IGH基因本身就需要经历剧烈的DNA切割和重排(V(D)J重组和类别转换重组CSR)。肿瘤细胞正是利用了这种机制的“失误”——它不需要去改变癌基因本身的结构,只需通过染色体易位,把关键的癌基因“搬运”到IGH强大的增强子附近。这就好比给一辆普通汽车换上了超级跑车的发动机,导致癌基因失去控制,发生爆发式表达。
经典的IGH“增强子劫持”家族
几乎所有常见的IGH易位都遵循这个规律:
| IGH易位 | 解释 |
|---|---|
| t(14;18) IGH-BCL2 | 滤泡性淋巴瘤(FL)的标志。BCL2是一个抗凋亡基因,正常B细胞中表达量很低。易位后,IGH增强子驱动BCL2过表达,导致细胞“拒绝死亡” |
| t(8;14) IGH-MYC | 伯基特淋巴瘤(BL)的标志。MYC是极强的增殖驱动基因,被劫持后导致细胞疯狂分裂 |
| t(11;14) IGH-CCND1 | 套细胞淋巴瘤(MCL)和部分多发性骨髓瘤(MM)的标志 |
| t(4;14) IGH-FGFR3/NSD2 | 多发性骨髓瘤的高危亚型。这是一个“一箭双雕”的劫持,IGH的增强子通常同时驱动了位于4号染色体断点两侧的FGFR3和NSD2(WHSC1)两个基因 |
RNA层面的“假象”与蛋白质层面的“真相”
这里有一个在分子诊断中非常容易引起混淆的细节:没有融合蛋白,不代表没有嵌合转录本(Chimeric RNA)。
- RNA层面: 很多时候,易位确实会让IGH的启动子或非编码外显子与靶基因(如BCL2)连在一起转录,形成一条拼接的“融合RNA”。这也是为什么有些RNA-seq数据能call出融合的原因。
- 蛋白质层面(真相): 尽管RNA是拼接的,但由于断点往往落在靶基因的起始密码子(ATG)上游,核糖体在翻译这条RNA时,最终翻译出来的依然是完整、未突变的野生型靶蛋白(正常的MYC蛋白、正常的BCL2蛋白)。它并没有形成像 BCR-ABL1 那种含有两个不同蛋白结构域的“嵌合蛋白质”。
真的没有例外的“IGH融合蛋白”吗
生物学中很少有绝对的100%。极少数情况下,IGH也会形成真正的“融合蛋白”: 在某些极其罕见的B细胞急性淋巴细胞白血病(B-ALL)或某些非典型淋巴瘤中,IGH的编码区(如V区片段)可能会与伴侣基因的外显子发生真正的框内融合(In-frame fusion),翻译出带有一段免疫球蛋白肽链的嵌合蛋白(例如罕见的IGH-EPOR或IGH-CRLF2变体,尽管它们大部分依然以增强子作用为主)。
生信融合模块设计
这是我关注的重点,既然已知上述信息,为了不漏检IGH融合/重排,我们把对应的伴侣基因的相关区域也拉进融合用的Bed文件即可。
但是后面我又想到,其实当前已经是把整个IGH区域拉进了Bed里面了,未能获得确切结果的问题主要在于注释。因为当前的断点并不在伴侣基因上。
因此,加入了一个补丁,根据文献和公共数据库(如 COSMIC, dbVAR),为每个易位靶基因设定一个**“专属注释半径”**。
| 伴侣基因 (靶基因) | 常见易位 | 常见关联疾病 | 断点主要分布特征 (相对于靶基因) | 💡 建议的生信注释判定半径 (Gene Body 之外) |
|---|---|---|---|---|
| CCND1 | t(11;14) | 套细胞淋巴瘤 (MCL) 多发性骨髓瘤 (MM) | 绝大多数集中在基因上游的 MTC (约 -110kb 至 -120kb) 和 mTC 等簇。 | 上游 (5'): 延伸 150kb - 200kb 下游 (3'): 延伸 10kb (冗余) |
| MYC | t(8;14) t(2;8) t(8;22) | 伯基特淋巴瘤 (BL) 弥漫大B (DLBCL) | 极其分散。可落在上游数十kb、启动子区、第一内含子,也可落在下游。 | 上游 (5'): 延伸 150kb 下游 (3'): 延伸 100kb |
| BCL2 | t(14;18) | 滤泡性淋巴瘤 (FL) 弥漫大B (DLBCL) | 与CCND1相反,主要集中在基因下游。如 MBR (3'UTR内) 和 mcr (下游约20-30kb处)。极少数在极上游 (vcr)。 | 上游 (5'): 延伸 50kb 下游 (3'): 延伸 100kb |
| FGFR3 & NSD2(WHSC1) | t(4;14) | 多发性骨髓瘤 (MM) | 这是一个双靶点劫持。断点落在4号染色体 FGFR3 的下游和 NSD2 的上游之间的广阔基因间区。 | 将 FGFR3 和 NSD2 视为一个联合区间,捕获两者之间约 100kb 的整个跨度。 |
| BCL6 | 3q27重排 | 弥漫大B (DLBCL) | 主要在基因内部(第一内含子高度集中),但也存在启动子上游调控区的断点。 | 上游 (5'): 延伸 100kb 内部: 必须包含完整的内含子序列 |
| MAF | t(14;16) | 多发性骨髓瘤 (MM) | 断点分散,主要在 MAF 基因的上游及极上游区域。 | 上游 (5'): 延伸 150kb - 200kb 下游 (3'): 延伸 20kb |
| MAFB | t(14;20) | 多发性骨髓瘤 (MM) | 类似于 MAF,断点多位于基因上游的大片区域。 | 上游 (5'): 延伸 150kb 下游 (3'): 延伸 20kb |
当断点在FGFR3 & NSD2之间,注释哪个
面对 t(4;14) 这种断点落在 FGFR3 和 NSD2 (也常被称为 WHSC1) 之间的易位,生信注释和临床报告的最佳实践是:同时注释给两个基因,即标记为IGH-FGFR3/NSD2或IGH-FGFR3/WHSC1。
因为增强子的调控作用是无方向性且可以双向辐射的,这个“天降”的增强子会同时向左和向右发力。正因为两个基因都受到 IGH 增强子的驱动,且在临床上具有不同的靶向治疗意义(例如 FGFR3 是潜在的靶向药靶点,而 NSD2 是预后极差的独立标志物),国际权威指南(如 NCCN, WHO 造血与淋巴组织肿瘤分类)和主流的临床诊断报告中,都会将其标准命名为** IGH-FGFR3/NSD2**。
总结来说,断点在中间,增强子就是“中央空调”,两边都吹。生信注释必须尊重这一生物学事实,采用联合注释是唯一正确的做法。
整理案
采用区域注释方案,当一侧断点落在IGH区域,另外一侧断点落在下面区域,以此进行注释,基因起始终止坐标采集自ManeLoca(不包含UTR)。
| 基因区域 | GRCh37 | GRCh38 | Append |
|---|---|---|---|
| IGH | chr14:106052774-107288051 | chr14:105586437-106879844 | // |
| CCND1_upstream | chr11:69456082 | chr11:69641314 | -200000 |
| CCND1_downstream | chr11:69466050 | chr11:69651282 | +10000 |
| MYC_upstream | chr8:128748840 | chr8:127736594 | -150000 |
| MYC_downstream | chr8:128753204 | chr8:127740958 | +100000 |
| BCL2_upstream | chr18:60987002 | chr18:63319769 | +50000 |
| BCL2_downstream | chr18:60795858 | chr18:63128625 | -100000 |
| FGFR3 & NSD2(WHSC1) | chr4:1808989-1873120 | chr4:1807262-1871393 | // |
| BCL6_upstream | chr3:187463256 | chr3:187745468 | +100000 |
| MAF_upstream | chr16:79633799 | chr16:79599902 | +200000 |
| MAF_downstream | chr16:79628357 | chr16:79594460 | -20000 |
| MAFB_upstream | chr20:39317490 | chr20:40688850 | +150000 |
| MAFB_downstream | chr20:39316519 | chr20:40687879 | -20000 |
注意,上述主要是基因间区,但包含了基因的UTR区域。