陈伶莉 胡雪峰
(福建师范大学生命科学学院 福建福州 350108)
对于大部分真核生物来说, 其基因通常是不连续的, 即在编码序列间存在至少一个以上的间插序列,编码序列称为外显子(exon),间插序列称为内含子(intron)。 DNA 编码链转录形成前体RNA时,前体RNA 中包含大量内含子,这些内含子必须通过剪切反应去除, 并且将外显子部分连成一条链,前体mRNA(precursor mRNA)才能形成成熟的mRNA, 翻译成相关蛋白, 这个过程称为RNA剪接。 在RNA 剪接过程中,剪接复合体如何正确识别内含子剪接位点并进行剪接尤为重要。 依据内含子的碱基序列和潜在折叠方式的差异, 可分为3 种类型:Ⅰ类内含子、Ⅱ类内含子、Ⅲ类内含子(表1)。
表1 常见内含子类别及其剪切方式
真核生物基因的外显子和内含子交界处存在2 个比较稳定的保守序列,即内含子的5′端为GU序列,3′端为AG 序列, 这种保守序列模式称为GU-AG 法则[1]。 正是由于这种保守序列的 存在,内含子才能被准确识别。内含子剪切位点的准确识别是由剪接复合体(spliceosome)介导的。 剪接体的主要成分为小核核糖核蛋白颗粒(small nuclear ribonucleo-protein particle,SnRNP),SnRNP 由 蛋白质和核内小RNA(small nuclear RNA,SnRNA)共同组成,SnRNA 共分为7 种,因含尿嘧啶U 丰富,故编号为U1~U7, 剪切过程在U snRNA (U small nuclear RNA) 指导下完成,SnRNA 中的U1、U2、U4、U5、U6 均参与前体RNA 的剪接。除U6 外,每个U snRNA 均含一个3′端甲基鸟苷帽子结构,且含保守序列PuAU3-6GPu[2]。 底物 识别区域通常发生在内含子的3′端[3~5]。 Robberson 等[6]于1990年提出外显子识别模型, 该模型认为在剪接体形成之前,外显子作为基本单位被SR 蛋白(ser-arg rich protein)分别识别。 其大致过程如下:在SR 蛋白作用下, 最先结合于内含子5′端下游的U1 RNP (U1 ribonucleo-protein particle) 越过其上游U2AF 与另一内含子的3′端结合。 而SR 蛋白中丝氨酸与精氨酸的含量较高,内部存在磷酸化的RS结构域 (RS domain), 与内含子的分支点互相作用。 因此,SR 蛋白可以识别外显子剪切增强子(exonic splicing enhancer,ESE), 此过程中SR 蛋白作为障碍物,防止外显子跳跃。ESE 位点的存在使得外显子能够保持正确的直线序列。 Collins 和Penny 认为内含子和外显子的长度是其识别的重要 参数[7]。
3.1 Ⅰ类内含子的剪接机制 Ⅰ类内含子核酶的功能多样,不仅能自我剪接,而且剪接方式不一,包括顺式剪接和反式剪接。 同一条前体RNA 内,将内含子切除, 使得相邻的外显子连接的剪接方式称为顺式剪接。 而反式剪接则是指2 条不同的前体RNA 间,将内含子切除,并连接外显子的剪接方式。 21 世纪80年代,美国波尔多大学的Cech和朋友在研究四膜虫的rRNA 转录后加工问题时发现一个奇怪的现象, 在无酶催化及ATP 的情况下, 四膜虫中的前体rRNA 在NH4+、Mg2+和鸟苷同时存在时,能够发生自己催化自己的剪切反应:鸟苷通过磷酸二酯键的形式共价加成至插入序列的末端,释放一段长达413 个核苷酸的插入序列,而原前体RNA 也成功转化为成熟RNA,可作为翻译的模板,插入序列最后会发生自身环化现象[8]。 以四膜虫为例,正常情况下,存在于四膜虫的Ⅰ类内含子剪接过程为3 次连续的转酯化反应, 其过程需要二价阳离子(Mg2+或Mn2+等)的催化[9]。
图1 Ⅰ类内含子的剪接过程
①首先,一个游离的鸟苷酸(GDP 或GTP)或鸟苷(GMP)的3′-OH 攻击靶RNA 内含子5′端处的磷酸二酯键,在将G 转移至内含子的3′端的同时将内含子与上游外显子间的磷酸二酯键切断,因此上游外显子末端3′-OH 得以暴露。
②接着,上游外显子3′-OH 对内含子3′端剪接位点的磷酸二酯键发起攻击, 上游外显子和下游外显子在RNA 拟酶的作用下得以连接,同时将线性的内含子释放出来。 通常,2 次转酯反应是连续进行的, 即连接外显子和释放线性内含子是同时进行的。
③已切除的内含子的3′-OH 对其5′端附近的第15 位和第16 位核苷酸之间的磷酸二酯键发起攻击,形成环状RNA,随即环状RNA 又被切割而生成线状RNA。
3.2 Ⅱ类内含子的剪接机制 与Ⅰ类内含子相比, Ⅱ类内含子内部存在较为保守的核心二级结构,即VI 螺旋中的3′端的内含子3′端分支点上游约7~8 个核苷酸处的A 残基及内含子边界序列,其自我剪接过程不需要鸟苷酸或鸟苷的参与[10]。
图2 Ⅱ类内含子的剪接机制
①首先,V 结构域中靠近内含子3′端分支点上游约7~8 个核苷酸处的A 残基的2′-OH,对5′端的磷酸集团发动亲核攻击,而后形成套环结构,套环内部以2′-5′磷酸二酯键相连。
②接着进行第2 次转酯反应, 外显子3′端核苷酸的3′-OH 被剪切后,迅速对3′内含子末端的磷酸基团发起攻击。
③最后在3′端内含子外显子处剪接点处断开,释放套环结构,在内切核酸酶和tRNA 连接酶的作用下,相邻的2 个外显子连接。3.3 Ⅲ类内含子的剪接机制 有研究表明,构成Ⅲ类内含子的剪接体中的SnRNAs 的整体形态类似于Ⅱ类内含子自我剪接时的形态, 尤其是剪接体中SnRNAs 的结构和功能和Ⅱ类内含子的催化部位之间均十分相似。 因此,Cech 提出这些SnRNAs 可能起源于早期的一种自我剪接系统的Ⅱ类内 含子[11]。
Ⅲ类内含子的剪接过程与Ⅱ类内含子相似,但是其不能进行自我剪接, 剪接过程需要剪接体的参与。 snRNA 参与构建剪接体,能与靶RNA 的剪接位点互补配对,各种不同的snRNA 间碱基也可以互补配对, 共同执行剪接功能。 以酵母菌为例,在电子显微镜下,可以观察到酵母菌的剪接体以U5 作为中央支架, 支架周围U6 和U2 相互缠绕,在U5 附近形成一个催化中心。 通过U2 与U6之间的碱基互补配对的相互作用保持内含子套索的稳定性[12]。 剪接体中的蛋白质组分将U2 和U6的5′端和3′端固定在活性位点之外,引导相关的RNA 序列,并保证内含子两端和催化中心之间充分的灵活性。因此,剪接体从本质上来看是一种以蛋白质导向的核酶,关键的RNA 分子在合适的时间接近所必需的蛋白质成分,进行剪接反应。
Ⅲ类内含子剪接的基本过程如下:
①首先, 位于分支点序列处的腺嘌呤核糖核苷酸的2′-OH 对内含子5′端剪接位点处的3′-5′磷酸二酯键发起亲核攻击,产生2 种剪切产物:一是线性RNA 分子,二是套索状分子,套索内部由内含子5′端的鸟嘌呤核糖核苷酸与分支点序列处的腺嘌呤核糖核苷酸间形成的2′-5′磷酸二酯键相连。
②接着,3′端位点的外显子的3′-OH 对3′剪接位点的磷酸二酯键发起攻击, 将套索状分子释放的同时连接2 个相邻的外显子。
可变性剪切是指主要基因序列转录所产生的前体RNA 中的外显子通过不同的剪接方式进行重连,即对于同一段DNA 序列,既可被当做内含子剪切舍去, 又可作为外显子而在成熟的mRNA分子中得以保留,从而指导蛋白质的合成。 因此,同一基因序列可能转录产生不同的mRNA, 最后翻译形成功能各异的多肽[13]。 这种调控机制的存在使得一些基因在不同的发育时期或是组织细胞中能产生特定功能的蛋白质, 以满足个体生长发育的需要。 若该机制失调, 会导致某些疾病的发生。 例如SRSF1(serine-rich splicing factor 1)和促癌基因MYC 两者发挥协调作用共同促进癌症的发生。 机制如下:MYC 可以激活SFSF1 的转录过程。同时,SRSF1 对肿瘤抑制基因BIN1 的RNA 剪接加工过程进行调节, 从而削弱BIN1 因子对MYC 的转录抑制作用,使MYC 表达增强。 因此,在肺癌与乳腺癌组织中MYC 和SRSF1 基因的表达 均呈现 上 升趋 势[14~15]。
随着研究的深入, 人们更加了解内含子的遗传多样性及其对基因表达的影响,因此,内含子在生物信息学领域有了广阔的应用。 例如在序列比对方面,内含子的位置是一个重要的特征。通常情况下,随着物种间亲缘关系的距离越远,同源基因序列的相似程度越低, 但有时序列的插入或者缺失会造成对比不齐。此时,由于内含子位置具有高度保守型,可作为序列比对的参照物,使序列比对的可靠程度提升。Csuros 等[16]受此启发,发明了一种可以提高不齐氨基酸序列对比水平的方法。 此外,在基因工程领域,内含子也发挥着重要作用。如何提高目的基因的表达效率一直是困扰科学家的一大问题, 后来发现在系统中加入内含子能有效提高这一过程的效率。这一结论在哺乳动物、昆虫和水稻中得到证实, 说明内含子能够促进相关基因表达的效果广泛存在于各种生物中[17~19]。 进一步深入认识内含子的功能, 有利于充分发挥内含子的功能, 使其成为调控目的基因精准表达的工具。在研究系统演化关系领域,内含子也到广泛的应用。由于内含子受到的选择压力较小,因此内含子序列碱基替换的速率比较恒定且保持较高水平, 可以弥补传统的预测工具如rDNA 及蛋白质编码序列的位点替换速率低下的缺陷。
内含子预测是不断更新的基因组注释的重要问题之一,目前,比较有名的内含子预测工具有2种:类似于胚状排列的工具Blat 和Sim4cc。 利用2种模型植物(水稻和拟南芥)基因组对2 种工具进行比较, 结果表明,Blat 和Sim4cc 都有各自的优缺点。 Blat 预测超过99%的全基因组内含子内含少量假阳性的内含子。 相比之下,Sim4cc 成功地找到了正确的内含子,其假阴性率为1.02%到4.85%,但是Sim4cc 运行时间相对Blat 长[20]。
Ⅰ类与Ⅱ类的部分内含子中存在开放阅读框,可翻译产生3 种不同功能的蛋白质。这些特定蛋白的存在, 使得内含子能够以原来的DNA 形式, 或作为RNA 的DNA 拷贝插入到一个新的靶位点,这个现象称为内含子归巢。与Ⅰ类和Ⅱ类内含子相似,部分蛋白质也存在自我剪接:某些特定的区域从前体蛋白中剪切移除, 剩余部分通过肽键相连,得到一个成熟的蛋白质分子。被剪切移除的部分即为蛋白内含子。