李迎侠, 张婷婷, 马 磊
(石河子大学 生命科学学院, 石河子 832000)
融合基因(fusion gene)是指两个或两个以上的独立基因(即亲本基因),通过染色体内的重组或染色体间的重组融合而成的新基因[1]。融合基因在医学上具有良好的临床应用前景,可作为癌变细胞的分子标记物,如在软组织瘤[2]、上皮癌[3]和前列腺癌[4]等病变中,发现了许多可作为分子诊断标记的融合基因。因此,深入研究融合基因的特性,具有重要的临床意义。
目前,关于融合基因的致病研究主要集中在3个方面:1)某一染色体不稳定引起的相关疾病,如17号染色体不稳定与食管癌[5]、胃癌[6]、肺癌[7]等恶性肿瘤发生与发展的关系。2)染色体重组引起的基因融合与疾病的关系,如9号染色体长臂上的ABL致癌基因与22号染色体长臂上的BCR基因发生融合,产生BCR-ABL融合基因与慢性髓系白血病的关系[8]。3)对患者的癌变组织进行基因组测序,寻找融合基因与癌变的关系[9]。近年来,随着深度测序技术和基因融合比对算法的迅速发展,海量般的融合数据被挖掘出来,但综合性的探讨融合基因的特性,全基因组水平分析基因融合的规律却鲜有文献报道。
ChiTaRS数据库利用表达序列标签和RNA-seq数据从GenBank[10],ChimerDB[11],dbCRID[12],TICdb[13]及Mitelman等发表的人类癌症融合数据[14-15]中收集鉴定了来自8个物种的34 922 条融合转录数据和11 714个人类癌症断点数据,为全基因组水平分析融合基因的特性提供了有力保障。本研究利用生物信息学手段,对ChiTaRS数据库中收集的由基因融合导致的11 714条人类癌症断点数据从导致基因融合的方式、融合基因在整个染色体上的分布,参与融合的基因特点,以及以白血病为例探讨融合基因的特性进行分析。这些研究发现能帮助我们更好地了解融合基因的形成机制,及其在基因组上的分布规律,为由基因融合导致的疾病诊断、治疗与预防提供帮助。
从ChiTaRS-3.1[6]数据库(http://chitars.md.biu.ac.il)获取由基因融合导致的11 714条人类癌症断点数据;从NCBI的Genome数据库 (https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml)获得人类每条染色体的长度(Mbp)和基因数目;从UCSC数据库(https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg38)获取每条染色体的区带。
1.2.1 数据的初步筛选
去除不确定的染色体重组类型,如dup(?)(?);删除冗余数据。经过处理得到了11 632条备用数据。
1.2.2 统计学处理
采用卡方检验来比较染色体重组类型的分布差异以及24条染色体的基因融合事件差异,P< 0.001为差异显著,运用R语言的chisq.test()函数实现。使用费歇尔精确检验判断染色体内的重组和染色体间的重组之间是否存在随机性,同样以P< 0.001 为差异显著,运用R语言的fisher.test()函数实现。
本研究对11 632条由染色体结构重组导致的基因融合事件进行了分析,发现染色体的易位(t)、缺失(del)、倒位(inv)、插入(ins)、重复(dup)、衍生(der)、环化(r)、双着丝粒染色体(dic)、伴孤立性染色体(i)均能导致基因的融合,各种类型的分布情况如表1所示,其中染色体易位占总数的94.9%。这些重组包括11 568个双基因融合事件和64个单基因缺失事件。
表1 基因融合的类型
基因融合事件在不同的染色体上分布差异显著(卡方检验,P< 0.001,图1)。其中,11、17和19号染色体上的变异频率较多,相对而言结构较不稳定;而13、18和Y染色体,结构变异较少,相对稳定。
染色体内的易位和染色体间的易位都可以产生融合基因。首先,染色体内的易位频率远大于染色体间的易位频率(费歇尔精确检验,P< 0.001,图2),如17号染色体内的易位为712次(图2三角区左侧的浅蓝色部分),而与其他染色体间的易位为476次(图2三角区右侧部分)。其次,染色体间都可发生易位(图2中各个染色体易位的交叉连线),但染色体间的易位频率发生不均等,如17号染色体与11号染色体发生了87次易位(图2中两染色间相连的棕灰线),而与9号染色体只发生了25次易位(图2中两染色间相连的亮粉色线)。
N/Mbp表示每条染色体的基因融合总数除以该染色体的长度,用来标准化染色体的异常率
图1基因融合事件在染色体组上的分布
Figure 1 Distribution of gene fusion events on chromosomes
外圈上的横坐标为染色体基因融合的数目,其中染色体内的融合为其数目的一半;以连线示意染色体的易位情况,自连接表示染色体内的易位,染色体间的连接表示染色体间的易位;连线的粗细表示易位的多少
图2染色体内和染色体间易位分布
Figure 2 Distribution of intrachromosomal and interchromosomal translocation
对每条染色体的区带进一步分析,发现基因融合的频率也不均等。如图3所示,外圈表示每条染色体的区带,内圈的柱状图对应染色体每条区带的异常率(染色体条带的基因融合总数除以该染色体条带的长度,N/Mbp)。表2显示,12号p13、2号q23、6号p21等染色体带,基因融合的频率明显较大,越接近着丝粒融合事件越少。此外,13、14、15、21和22号的整条短臂,都未发现基因融合现象。
表2 基因融合频率最多和最少的区带
图3每条染色体上的基因融合事件分布
Figure 3 Distribution of gene fusion events per chromosome
11 632条融合事件涉及8733个基因。44%的基因仅参与1次基因融合事件(图4),如WBP4只能通过易位与FANK1发生融合;24%的基因参与了2次基因融合事件;仅有9%的基因,可参与15次以上的基因融合(图4),如BCR可以与TOM1、ABL1、FGFR1、PDGFRA等基因通过易位、缺失、插入或衍生等方式进行21次融合,产生多种融合基因。其中KMT2A、IGH、RUNX1、ABL1和BCR等,是参与融合事件较多的基因。
X轴表示一个基因可以与其他基因发生融合的次数;Y轴表示发生基因发生融合的百分率
图4基因参与融合事件的频率分布
Figure 4 Frequency distribution of a gene fused with other genes
13%(1467/116 32)的融合事件与白血病有关。其中,急性白血病占88%,慢性白血病为9%,特殊类型的白血病为3%(表3)。染色体易位是导致白血病基因融合的主要来源,占染色体重组的76%。
涉及687个基因,产生681种基因融合事件。KMT2A基因出现在200条融合事件中,其中109条与其他基因的融合可以导致白血病,也是白血病中出现次数最多的基因。另外,一些融合基因会涉及多种类型的白血病。例如,7个融合基因(BCR-ABL1、BCR-PDGFRA、ETV6-ACSL6、ETV6-PDGFRB、FIP1L1-PDGFRA、MYC-IGH和PCM1-JAK2)出现在所有的白血病中。
表3 白血病相关信息
本研究对11 632条基因融合数据进行分析,发现染色体的结构异常都可能产生融合基因,易位是导致基因融合的主要原因。染色体在精子、卵子形成的过程中或受精过程会断裂和重组,这一时期发生的染色体平衡易位,很小的概率会导致疾病。另有研究结果显示,20%的人类种群中17号染色体会发生易位[16],都反映了易位发生的普遍性。
染色体间基因融合差异显著,17、19和11号染色体基因融合频率高,而13、18号和Y染色体融合频率低,表明基因融合的频率与染色体长度无关,且发生并不随机。研究发现,人类第19号染色体拥有最大基因密度,18号染色体拥有最低的基因密度,表明基因融合的频率可能与基因密度有关[17]。13、14、15、21和22号的短臂完全没有基因融合,但12号染色的p13和2号染色体的q23却最为活跃。目前的研究表明[18],脆性位点是基因组的不稳定区域,受外界因素的影响易发生染色体结构不稳定,致使正常细胞发生癌变,在肿瘤的发生发展中起着重要的作用。基因组中最显著的脆性位点是位于染色体3p14的FRA3B、16q23的FRA16D、6q26的FRA6E和7q32的FRA7H[19],这些染色体带在本次的研究中也较为活跃。然而,脆性位点在癌细胞中的不稳定性及其脆性位点与染色体结构不稳定的机理迄今尚不清楚。本研究对探究活跃区是否存在脆性位点,探讨染色体发生异常的机制提供新的策略。
各染色体间的易位频率发生不均等,是否与染色体在核内的空间分布相关。Tanabe等[20]对7种灵长类动物进行研究,发现染色体在核内呈辐射状分布,即基因密集,早期复制的小染色质聚集在核的内部,基因稀少,晚期复制的大染色质倾向于定位在核外周。本研究结果支持了染色体间的易位发生频率与染色体在核内的辐射状定位相关,例如基因密集的19号染色体与基因密集的17号染色体发生了51次易位,而与基因稀少的18号染色体只发生了4次易位。
本研究发现大多数基因都是偶发性的融合,只有极少数的基因反复与其他基因发生融合(图4)。KMT2A是参与基因融合事件最多的基因,由于其位于11q23,是导致11号染色体成为融合频率较高的原因之一。目前的研究已经证实,KMT2A基因的异常与黑色素瘤[21]、甲状腺肿瘤和白血病等疾病的发生有关。研究融合基因与疾病的关系可以使其作为某些疾病的标记物,如TMPRSS2-STS融合基因是前列腺癌肿瘤标记物[4],EML4-ALK融合基因是非小细胞肺癌标记物[22],BCR-ABL是白血病的标记物[23]等。
白血病作为一种造血细胞克隆性疾病,其发生发展的机制尚不清楚,但已证实基因组的异常在发病过程中起着重要作用[24],如90%的CML是由t(9; 22)(q34; q11)BCR-ABLl基因融合产生[25];25%的ALL是由t(12;21)(p13; q22)ETl6-RUNXl融合基因导致[26]等。本研究同样也证实了这些融合基因是引起白血病的主要原因(表2),本研究还发现不同类型的白血病有自己独特的融合基因,以及不同类型的白血病拥有共同的融合基因。因而,寻找白血病相关的致病基因及产物,研究靶向治疗药物,将为白血病的个性化治疗提供强有力的支持。
融合基因在人类医学领域已显现了极其重要的生物学意义,可以作为疾病诊断的生物学标记以及药物作用的靶标。然而,目前针对融合基因导致疾病的治疗还处于起步阶段,仍有很多问题需要我们探究,只有深入了解融合基因的各种特性,才有助于我们进一步对其引起的疾病进行防御和治疗。