IGH融合相关

#default

背景

解读说我们血液肿瘤,DNA检出的IGH融合,伴侣基因的断点基本都不在伴侣基因内部。尽管我认为,生物学知识需要解读提供,但还是自己查一下,比较能明确。

在血液系统恶性肿瘤(特别是B细胞淋巴瘤和多发性骨髓瘤)中,IGH(免疫球蛋白重链)相关的染色体易位,绝大多数都是基于**“增强子劫持”(Enhancer Hijacking)机制,或者称为“启动子置换/插入”**。

B细胞的生理使命是分泌海量的抗体(免疫球蛋白)。为了实现这一目标,位于14号染色体(14q32)的IGH基因座进化出了极其强大的转录调控元件,主要包括:

  • 内含子增强子(Eμ)
  • 3'端调控区增强子(3'RR)

在B细胞发育的过程中,IGH基因本身就需要经历剧烈的DNA切割和重排(V(D)J重组和类别转换重组CSR)。肿瘤细胞正是利用了这种机制的“失误”——它不需要去改变癌基因本身的结构,只需通过染色体易位,把关键的癌基因“搬运”到IGH强大的增强子附近。这就好比给一辆普通汽车换上了超级跑车的发动机,导致癌基因失去控制,发生爆发式表达。

经典的IGH“增强子劫持”家族

几乎所有常见的IGH易位都遵循这个规律:

IGH易位 解释
t(14;18) IGH-BCL2 滤泡性淋巴瘤(FL)的标志。BCL2是一个抗凋亡基因,正常B细胞中表达量很低。易位后,IGH增强子驱动BCL2过表达,导致细胞“拒绝死亡”
t(8;14) IGH-MYC 伯基特淋巴瘤(BL)的标志。MYC是极强的增殖驱动基因,被劫持后导致细胞疯狂分裂
t(11;14) IGH-CCND1 套细胞淋巴瘤(MCL)和部分多发性骨髓瘤(MM)的标志
t(4;14) IGH-FGFR3/NSD2 多发性骨髓瘤的高危亚型。这是一个“一箭双雕”的劫持,IGH的增强子通常同时驱动了位于4号染色体断点两侧的FGFR3和NSD2(WHSC1)两个基因

RNA层面的“假象”与蛋白质层面的“真相”

这里有一个在分子诊断中非常容易引起混淆的细节:没有融合蛋白,不代表没有嵌合转录本(Chimeric RNA)。

  • RNA层面: 很多时候,易位确实会让IGH的启动子或非编码外显子与靶基因(如BCL2)连在一起转录,形成一条拼接的“融合RNA”。这也是为什么有些RNA-seq数据能call出融合的原因。
  • 蛋白质层面(真相): 尽管RNA是拼接的,但由于断点往往落在靶基因的起始密码子(ATG)上游,核糖体在翻译这条RNA时,最终翻译出来的依然是完整、未突变的野生型靶蛋白(正常的MYC蛋白、正常的BCL2蛋白)。它并没有形成像 BCR-ABL1 那种含有两个不同蛋白结构域的“嵌合蛋白质”。

真的没有例外的“IGH融合蛋白”吗

生物学中很少有绝对的100%。极少数情况下,IGH也会形成真正的“融合蛋白”: 在某些极其罕见的B细胞急性淋巴细胞白血病(B-ALL)或某些非典型淋巴瘤中,IGH的编码区(如V区片段)可能会与伴侣基因的外显子发生真正的框内融合(In-frame fusion),翻译出带有一段免疫球蛋白肽链的嵌合蛋白(例如罕见的IGH-EPORIGH-CRLF2变体,尽管它们大部分依然以增强子作用为主)。

生信融合模块设计

这是我关注的重点,既然已知上述信息,为了不漏检IGH融合/重排,我们把对应的伴侣基因的相关区域也拉进融合用的Bed文件即可。

但是后面我又想到,其实当前已经是把整个IGH区域拉进了Bed里面了,未能获得确切结果的问题主要在于注释。因为当前的断点并不在伴侣基因上。

因此,加入了一个补丁,根据文献和公共数据库(如 COSMIC, dbVAR),为每个易位靶基因设定一个**“专属注释半径”**。

伴侣基因 (靶基因) 常见易位 常见关联疾病 断点主要分布特征 (相对于靶基因) 💡 建议的生信注释判定半径 (Gene Body 之外)
CCND1 t(11;14) 套细胞淋巴瘤 (MCL) 多发性骨髓瘤 (MM) 绝大多数集中在基因上游的 MTC (约 -110kb 至 -120kb) 和 mTC 等簇。 上游 (5'): 延伸 150kb - 200kb 下游 (3'): 延伸 10kb (冗余)
MYC t(8;14) t(2;8) t(8;22) 伯基特淋巴瘤 (BL) 弥漫大B (DLBCL) 极其分散。可落在上游数十kb、启动子区、第一内含子,也可落在下游。 上游 (5'): 延伸 150kb 下游 (3'): 延伸 100kb
BCL2 t(14;18) 滤泡性淋巴瘤 (FL) 弥漫大B (DLBCL) 与CCND1相反,主要集中在基因下游。如 MBR (3'UTR内) 和 mcr (下游约20-30kb处)。极少数在极上游 (vcr)。 上游 (5'): 延伸 50kb 下游 (3'): 延伸 100kb
FGFR3 & NSD2(WHSC1) t(4;14) 多发性骨髓瘤 (MM) 这是一个双靶点劫持。断点落在4号染色体 FGFR3 的下游和 NSD2 的上游之间的广阔基因间区。 将 FGFR3 和 NSD2 视为一个联合区间,捕获两者之间约 100kb 的整个跨度
BCL6 3q27重排 弥漫大B (DLBCL) 主要在基因内部(第一内含子高度集中),但也存在启动子上游调控区的断点。 上游 (5'): 延伸 100kb 内部: 必须包含完整的内含子序列
MAF t(14;16) 多发性骨髓瘤 (MM) 断点分散,主要在 MAF 基因的上游及极上游区域。 上游 (5'): 延伸 150kb - 200kb 下游 (3'): 延伸 20kb
MAFB t(14;20) 多发性骨髓瘤 (MM) 类似于 MAF,断点多位于基因上游的大片区域。 上游 (5'): 延伸 150kb 下游 (3'): 延伸 20kb

当断点在FGFR3 & NSD2之间,注释哪个

面对 t(4;14) 这种断点落在 FGFR3 和 NSD2 (也常被称为 WHSC1) 之间的易位,生信注释和临床报告的最佳实践是:同时注释给两个基因,即标记为IGH-FGFR3/NSD2IGH-FGFR3/WHSC1

因为增强子的调控作用是无方向性且可以双向辐射的,这个“天降”的增强子会同时向左和向右发力。正因为两个基因都受到 IGH 增强子的驱动,且在临床上具有不同的靶向治疗意义(例如 FGFR3 是潜在的靶向药靶点,而 NSD2 是预后极差的独立标志物),国际权威指南(如 NCCN, WHO 造血与淋巴组织肿瘤分类)和主流的临床诊断报告中,都会将其标准命名为** IGH-FGFR3/NSD2**。

总结来说,断点在中间,增强子就是“中央空调”,两边都吹。生信注释必须尊重这一生物学事实,采用联合注释是唯一正确的做法。

整理案

采用区域注释方案,当一侧断点落在IGH区域,另外一侧断点落在下面区域,以此进行注释,基因起始终止坐标采集自ManeLoca(不包含UTR)。

基因区域 GRCh37 GRCh38 Append
IGH chr14:106052774-107288051 chr14:105586437-106879844 //
CCND1_upstream chr11:69456082 chr11:69641314 -200000
CCND1_downstream chr11:69466050 chr11:69651282 +10000
MYC_upstream chr8:128748840 chr8:127736594 -150000
MYC_downstream chr8:128753204 chr8:127740958 +100000
BCL2_upstream chr18:60987002 chr18:63319769 +50000
BCL2_downstream chr18:60795858 chr18:63128625 -100000
FGFR3 & NSD2(WHSC1) chr4:1808989-1873120 chr4:1807262-1871393 //
BCL6_upstream chr3:187463256 chr3:187745468 +100000
MAF_upstream chr16:79633799 chr16:79599902 +200000
MAF_downstream chr16:79628357 chr16:79594460 -20000
MAFB_upstream chr20:39317490 chr20:40688850 +150000
MAFB_downstream chr20:39316519 chr20:40687879 -20000

注意,上述主要是基因间区,但包含了基因的UTR区域。