刘雪,张涛,周笑琦,管伦,陈鹏
华中农业大学 植物科学技术学院,湖北 武汉 430070
信使RNA (Messenger RNA,mRNA) 是遗传信息表达的核心分子,mRNA作为蛋白质合成的模板,其碱基序列决定着蛋白质装配时的氨基酸序列。中心法则中,遗传信息表达的解码过程需要转运RNA (tRNA) 上的反密码子和信使RNA(mRNA) 上的密码子完成配对和携带入对应的氨基酸掺入多肽链,由于修饰核苷的存在,即使是相同的核苷酸序列,也可最终表达出不同的遗传信息。已有较多的研究证明,转运RNA (tRNA)和核糖体RNA (rRNA) 的加工和成熟过程涉及大量的化学修饰,在某些情况下,这些额外的基团修饰对其正常折叠和行使功能至关重要[1]。mRNA也可以像rRNA和tRNA一样被修饰。目前已经知道的RNA核苷修饰有170余种 (Modomics Database,http://modomics.genesilico.pl/modifications/),其中大部分出现在tRNA和rRNA中,mRNA中已知的修饰仅有18种,其中大多为甲基化修饰 (图1)。其中5种:1-甲基腺苷 (1-methyladenosine,m1A)、假尿嘧啶 (Pseudouridine,ψ)、5-羟甲基胞苷(5-hydroxymethylcytidine,hm5C)、6-甲酰腺苷(6-formyladenosine,(f6A) 以及6-羟甲基腺苷(6-hydroxymethyladenosine,hm6A) 发现较晚,目前还未被RNA Modification Database (https://mods.rna.albany.edu/) 收录。
图1 mRNA上分布的18种修饰核苷Fig.1 18 modified nucleosides found on mRNA.
不同的修饰核苷在mRNA上的分布不同(图2):7-甲基鸟苷 (7-methylguansoine,m7G) 主要分布于mRNA的5′帽子区域,在mRNA内部也有分布[2];6-methyladenosine (m6A) 在哺乳动物中主要分布在mRNA的终止密码子附近,3′-UTR区域 (3′-untranslated regions) 以及长外显子内[3],在植物mRNA的起始密码子和poly A尾巴上游也有分布[4-5];5-methylcytidine (m5C) 主要出现在mRNA的CDS (Coding sequence) 区[6];m1A在mRNA的5′-UTR (5′-untranslated regions)、CDS、3′-UTR区域都存在[7-8];ψ主要分布在mRNA的CDS和3′-UTR区域[9];hm5C主要分布在mRNA的CDS区域[10]。DNA与RNA的主要差别在于核糖2′-C上分别是-OH和-H,一个基团的不同却使DNA和RNA在结构和功能呈现巨大的差异,可见修饰基团的存在对RNA结构和功能的影响。由于RNA的不稳定性、结构复杂性以及检测技术有限,表观遗传学中RNA来源核苷修饰的研究比DNA上的研究进展慢。2011年第一个RNA去甲基化酶FTO(Fat-mass and obesity associated protein,m6A去甲基酶) 的发现揭示了RNA修饰的可逆性[11],是RNA表观遗传学研究的里程碑。近些年,随着meRIP等技术的快速发展,不同生物全转录组范围内的RNA修饰谱图得到揭示,越来越多的研究表明mRNA上表观修饰对生物体生长发育具有重要的调控作用。本文针对研究较多的6种mRNA上的核苷修饰,包括ψ、m7G、m1A、m6A、m5C和hm5C,从其合成、分布和功能上进行阐述和讨论。
图2 m7G、m1A、m6A、m5C、hm5C和ψ修饰核苷在mRNA上的区间分布Fig.2 Distribution of m7G,m1A,m6A,m5C,hm5C and ψ in mRNA.
假尿嘧啶是尿苷 (1-核糖尿苷) 的异构体(5-核糖尿苷),被认为是第5种核苷酸。假尿嘧啶是非编码RNA (Non-coding RNA) 中最丰富的一种修饰[12-14],在tRNA和rRNA中也存在,具有稳定RNA结构的功能[15-17]。mRNA上的假尿嘧啶影响mRNA的剪切[13]。在酵母中改变rRNA的假尿嘧啶修饰可以影响其对于抗生素的敏感性[18-19]。在哺乳动物中,假尿嘧啶修饰与先天性胰岛功能不良、核糖体合成紊乱以及癌症的发生相关[20]。利用pseudo-seq、ψ-seq、PSI-seq和CeU-Seq技术可实现人或酵母mRNA上单碱基分辨率下ψ的位点鉴定,数据表明哺乳动物中ψ/U的相对丰度约为0.2%–0.4%[21]。
mRNA的假尿嘧啶修饰由位点特异的snoRNA引导的PUSs (假尿嘧啶合成酶) 催化形成,人类细胞中有23个蛋白含有PUS结构域[22],合成的ψ主要富集在mRNA的CDS和3′-UTR区域[9,21,23-24]。mRNA的假尿嘧啶修饰有3个主要功能:1) 改变密码子;2) 影响转录本稳定性;3) 应激反应应答[23,25-26]。在酵母中尿嘧啶 (U) 被替换为假尿嘧啶 (ψ) 之后,原本的无义密码便可改为编码氨基酸。当酵母受到热激刺激时,由PUS7介导的假尿嘧啶位点突增;反之,PUS7缺失时含有这些ψ位点的mRNA水平下降[23]。在刚地弓形虫中的研究发现,TgPUS1突变体中ψ位点比野生型寄生虫中更稳定[27],由此推测mRNA的假尿嘧啶修饰可能具有双向作用,在不同的生物体、基因或者不同条件下可能会增强mRNA的稳定性或者降低其稳定性。人类细胞在热激或者是H2O2处理下mRNA上的假尿嘧啶修饰水平升高,而在饥饿刺激下则会下降;酵母在营养不足的情况下和人细胞处于血清饥饿的情况下,mRNA上的假尿嘧啶化修饰水平都发生变化,可见mRNA上的大多数假尿嘧啶修饰与细胞对环境信号的应答有关[9]。
m7G甲基化是指RNA分子鸟嘌呤第7位氮原子上的甲基化修饰。m7G是目前发现的唯一一个在真核生物mRNA的5′端帽子结构区域出现的核苷修饰[2]。mRNA的5′帽子结构对于mRNA具有重要作用,5′帽子结构可以促使mRNA与核糖体的结合,m7Gppp结构使mRNA形成封闭的5′端,可有效防止mRNA的降解,此外5′帽子结构还影响前体mRNA的剪切、3′末端的多聚腺苷酸化以及mRNA的出核运输[28-32]。
1975年就有学者发现真核生物mRNA 5′帽子结构区域的m7G修饰促进蛋白质的合成,且消除m7G修饰后相对应的mRNA就不能正常翻译[33]。1976年在卤虫藻胚胎中发现,帽子绑定蛋白(Cap-binding protein) 可识别mRNA 5′端的m7GpppN的结构,促进mRNA与核糖体的结合,进而影响翻译进程[34]。后来发现,m7G不仅仅存在于mRNA的5′端帽子结构区域,在mRNA的内部同样存在。真核生物mRNA内部m7G含量为0.4–5.3/105,5′帽子结构区域m7G含量为1.0–4.9/104。植物mRNA的内部m7G含量明显高于哺乳动物。此外,研究还发现真核生物mRNA中的m7G修饰可以被动态调控。经过镉处理,水稻中m7G去帽基因表达量上升,mRNA 5′端帽子结构和内部的m7G水平均降低,内部m7G含量在水稻不同发育阶段变化趋势相同,说明mRNA内部m7G相对稳定,而5′端帽子结构的m7G与环境胁迫的应答相关[2]。
m6A甲基化是指RNA分子腺嘌呤第6位氮原子上的甲基化修饰。20世纪70年代,在哺乳动物和植物中首次发现了mRNA上m6A的修饰,之后在病毒、果蝇、酵母等物种中陆续发现了m6A的存在[35-40]。已有研究表明,m6A修饰和mRNA的稳定性、剪接加工、翻译以及microRNA的加工有关,影响干细胞命运、生物节律等生物过程。随着m6A-seq、MeRIP、miCLIP等新技术的产生,m6A在全转录组范围内的分布越来越清晰。2012年Dominissini等利用m6A-seq技术发现人类细胞中mRNA和长链非编码RNA (Long noncoding RNAs) 上有超过10 000个m6A修饰位点[3],Meyer等利用MeRIP-seq技术发现7 676个哺乳类基因的mRNA上有m6A的修饰[41]。这些研究还表明mRNA上的m6A位点在人和鼠之间高度保守,主要富集在终止密码子附近、3′-UTR区域、长外显子内以及可变剪切位点内。在植物材料中,Bodi等发现拟南芥转录组中m6A修饰位点主要位于3′ poly A尾巴上游的100–150 nt的范围内[4]。Li等利用MeRIP-seq技术鉴定到水稻愈伤组织和叶片中8 138个和14 253个转录本上含有m6A修饰,并且修饰位点倾向分布于翻译的起始位点和终止位点附近[5]。与哺乳动物m6A保守基序“GRACH”(R=A/G;H=A/U/C) 有区别的是,水稻愈伤组织中m6A保守基序为“RAGRA G”,而叶片中m6A保守基序为“UGUA MM”(M=C/A)[5]。水稻花序中m6A的保守基序与水稻叶片中的保守基序相似,为“UGWA MH”(W=U/A)[42]。拟南芥中m6A的保守基序与水稻也不同,为“RRACH”[43]。由此可见在不同物种、不同发育阶段以及不同组织中m6A位点的合成和识别可能存在高度的物种和组织特异性。
m6A是目前所知的唯一由合成蛋白 (m6A writer)、去除蛋白 (m6A eraser) 和识别蛋白 (m6A reader) 构成的甲基组系统。近年来有多篇综述报道了mRNA上m6A修饰强大的调控功能[44-46],下面简要介绍下影响m6A合成及分布的这3类蛋白。
在哺乳动物中,m6A甲基转移酶复合体由甲基转移酶类3 (methyltransferase-like3,METTL3)、甲基转移酶类14 (METTL14)、Wilm肿瘤关联蛋白 (Wilm’s tumor 1-associating protein,WTAP)、KIAA1429/VIRMA、HAKAI、RNA结合蛋白15(RNA Binding Motif Protein15,RBM15) 和锌指蛋白C3H结构域蛋白13 (Zinc finger CCCH domaincontaining protein 13,ZC3H13) 组成。WTAP、METTL3和METTL14主要富集在核小点处,METTL3是甲基转移酶复合体的催化中心,METTL14序列上与METTL3相似,但是METTL14不具有独立的体外甲基化酶活性,主要负责活化METTL3和招募RNA与METTL3反应[47-49]。WTAP是甲基化酶的构架蛋白,主要起稳定METTL类蛋白之间的互作,既可影响转录,也可影响RNA的剪切[50]。KIAA1429和RBM15主要起识别甲基化靶向位点的作用。拟南芥中发现HAKAI蛋白调控m6A的合成,动物细胞中HAKAI突变也造成m6A的合成受阻[51]。ZC3H13通过与WTAP、VIR和HAKAI形成蛋白复合体,将整个m6A合成复合体锚定于细胞核内[52-53]。
多个研究发现m6A writer的突变可导致不同的表型甚至胚胎致死 (表1)。例如酿酒酵母,只有在减数分裂时期的mRNA才具有m6A修饰,IME4/METTL3的缺失影响酵母的出芽和减数分裂过程[54-55]。酵母中Kar4/METTL14的突变造成单倍体配子融合失败[56-57]。斑马鱼中METTL3和WTAP的表达富集于脑部,基因敲除导致胚胎细胞凋亡增加,斑马鱼头部和脑部发育缺陷,生育能力下降[58]。果蝇的METTL3和METTL14突变体在传代能力、飞行技能、神经发育和性别决定等方面表现出不同程度的缺陷[59-64]。果蝇的m6A标记影响XIST和Sxl等母本mRNA的特异选择和剪切,从而影响性别的决定[65]。小鼠METTL3、WTAP或RBM15的缺失导致胚胎干细胞失去分化能力并导致胚胎致死[50,66-68];METTL14的突变影响精细胞发育和个体的育性[69]。人类细胞中METTL3缺失抑制胚胎干细胞分化,造成生物钟周期延长,METTL3可以促进癌症细胞中蛋白质的翻译,从而影响多种肿瘤疾病进程[70-72]。拟南芥MTA (METTL3的同系物) 突变体和VIR突变体都是在胚胎的球形期停止发育,其中MTA突变体中m6A水平减少了将近90%,突变体花器官异常、无顶端优势,生长模式发生改变[4,41]。拟南芥FIP37 (WTAP的同系物) 突变体m6A水平减少约85%,顶端分生组织过度繁殖,植株生长不正常[73]。拟南芥hakai突变体中m6A水平相对野生型降低35%,但没有明显的表型[51]。因此,拟南芥中除了HAKAI,其他m6A甲基转移酶复合体成员缺失对于胚胎发育都至关重要,但是各组分对于植物发育的影响强度又各有不同。
表1 mRNA常见修饰核苷的分布和功能Table 1 Distribution and function of modified nucleosides commonly found on mRNA
目前已经发现的m6A eraser包括FTO和ALKBH5,它们都属于ALKBH家族,可以去除包括DNA和mRNA上的m6A修饰[11,74-76]。最早的ALKBH蛋白是大肠杆菌中鉴定出来的,它通过氧化反应去除双链DNA上的m1A甲基基团,参与修复DNA烷基化损伤[74]。人类细胞中ALKBH家族蛋白有9个,包括ALKBH 1-8和FTO。在大鼠中,ALKBH5在睾丸中表达量最高,其突变会影响精母细胞的减数分裂和大鼠育性[76-77]。早期研究显示FTO与人类肥胖疾病相关,且影响人体内多巴胺的水平,FTO缺失的小鼠脂肪组织减少,产后生长缓慢[78]。在其他动物细胞中的研究发现FTO与细胞分化及肿瘤的形成有关[75,79-82]。FTO主要定位于细胞核中,降低FTO的表达引起RNA上m6A水平的升高[11,83]。拟南芥中没有发现FTO同源蛋白,但是有13个ALKBH蛋白。ALKBH家族蛋白种类多、分布广,有可能识别单链或双链DNA、单链RNA或双链RNA,也有可能作为蛋白上的去甲基酶,不仅可以去除m6A,还有可能去除其他种类的甲基化修饰。ALKBH9B和ALKBH10B被证实有体外去甲基化的功能,ALKBH10B具有体内去甲基化活性[84]。被AMV侵染的拟南芥中ALKBH9B活性降低,病毒胞内复制减慢,推测可能和ALKBH9B与病毒粒子结合后去除了病毒RNA上的m6A有关[85]。拟南芥alkbh10突变体营养生长受到抑制,开花延迟[84]。与ALKBH类蛋白类似,FTO蛋白不仅能去除m6A和m6Am,还能识别除mRNA外的其他底物,关于m6A eraser还有很多问题尚待研究。
如上文所述,m6A修饰水平的变化可引起生物体各种表型,可见m6A修饰对于生物的生长发育的重要性。细胞体内m6A修饰的变化必须通过m6A reader,即m6A识别蛋白来发挥作用。目前发现的m6A reader主要是哺乳动物中的YTH蛋白家族。YTH是一类保守的蛋白家族,在人类、小鼠、酵母、果蝇、水稻、拟南芥中都存在,主要分为2个亚类:YTHDF和YTHDC。人类细胞的YTHDF2是第一个被鉴定的YTH蛋白,定位于细胞质,该蛋白包含2个功能域:C端含YTH结构域直接结合m6A;N端可使mRNA重新定位于P小体,促使其降解[86]。YTHDC1属于细胞核定位的m6A识别蛋白,可以与pre-mRNA剪切因子SRSF3相互作用,抑制剪切因子SRSF10与mRNA的结合,影响mRNA的剪切,从而影响小鼠卵细胞的发育[87]。酿酒酵母的Mrb1属于YTH蛋白家族;而Mmi1则是裂殖酵母中发现的YTH蛋白,调控酵母的生殖生长[88]。拟南芥中含有13个YTH类蛋白,其中ECT2、ECT3或ECT4的突变造成叶片表皮毛发育异常[89-90]。2018年Huang等利用RNA pull down及CLIP-seq等技术发现,人类细胞中的IGF2BP3也可结合含有GG(m6A)C基序的mRNA,这种结合增强mRNA的稳定性,利于其在胞内储存[91]。
m1A甲基化是指RNA分子腺嘌呤第1位氮原子上的甲基化修饰。m1A是RNA修饰中比较重要且常见的一种修饰。m1A修饰不仅使腺嘌呤多了一个甲基,还使其在生理条件下附了一个正电荷,影响了RNA的结构及与蛋白的互作。单个电荷的不同可以使蛋白和DNA之间的亲和力相差100–1 000倍[92]。关于m1A修饰对tRNA结构和功能的影响已有报道[93-95],有研究显示tRNA上的m1A修饰与环境胁迫相关[96-97],而rRNA上的m1A修饰影响核糖体的合成和细菌对抗生素的耐受性[98-99]。
由于mRNA在胞内丰度低,修饰检测困难,因此mRNA上的修饰研究相对缓慢。在酵母、小鼠和人类等上千个转录组中都检测到m1A的存在。TRMT6/TRMT61A复合体负责tRNA上m1A58 (第58位) 的甲基化,也可催化mRNA上m1A的形成,但需要与tRNA类似的基序GUUCRA和T-loop结构的存在[100]。哺乳动物中m1A/A的相对丰度为0.015%–0.16%[7],从分布上看,m1A在mRNA的5′-UTR、CDS、3′-UTR都存在,主要富集于起始密码子附近及5′-UTR的GC富集区[7]。m1A修饰在不同物种中相对保守,由于其位于起始密码子附近,因此可以促进翻译效率[7-8]。在碱性条件下,m1A可以发生化学重排,转换成m6A[101]。人类细胞中发现mRNA上的m1A修饰可以被ALKBH3去除[102-103]。m1A核苷修饰与翻译的稳定性及蛋白的合成相关,在不同的生理条件下 (如热激、H2O2、饥饿状态),m1A核苷修饰水平是动态变化的,但是其变化背后的调控机制尚不清楚。
m5C甲基化是指RNA分子胞嘧啶第5位氮原子上的甲基化修饰。早期研究发现DNA上的m5C修饰对于转录沉默和基因组印记具有重要作用[104-105]。RNA上m5C修饰的研究主要集中在tRNA和rRNA[6,104,106-107],mRNA和lncRNA上的m5C修饰报道较晚[108-109]。tRNA中的m5C主要集中在可变环和反密码子环,对于维持tRNA的二级结构、密码子的识别、tRNA的代谢以及对于氧化胁迫的感应具有重要作用[102,104,110-114]。m5C修饰影响rRNA的加工、结构,有研究报道rRNA上的m5C修饰与生物体寿命相关[115]。此外,还有研究发现m5C修饰可以维持ncRNA的稳定性[108]。
在HeLa细胞的2 243种RNA上发现5 399个m5C的修饰位点,其中94% (5 063/5 399) 的位点出现在mRNA上[6]。m5C位点主要集中在CDS区域 (约占总数的45%),其中55%分布在CG富集区域,28%分布在CHG富集区域,17%分布在CHH富集区域 (H=A/C/U)[6]。在小鼠组织的3 904个mRNA中共发现9 788个m5C的修饰位点,小鼠组织mRNA的平均m5C水平达20.6%–23.2%,与人类HeLa细胞含量类似。小鼠中m5C位点分布与人类HeLa细胞相似,主要集中于CG富集区和CDS紧邻翻译起始位点下游区域[6,116]。mRNA上的m5C核苷修饰与ALYREF结合,介导mRNA的出核运动[6]。拟南芥mRNA中的m5C位点主要集中在3′-UTR[117],预示着和动物中不同的调控模式。
在真核生物中有2种甲基转移酶,催化mRNA和其他非编码RNA上的m5C修饰:一种是TRDMT1,即已知的DNA甲基转移酶(DNMT2),参与动物、植物和裂殖酵母的tRNA修饰[107,118-120];另一种是TRM4 (酵母) 或NSUN2(动物)[113,121-122]。NSUN2与哺乳动物癌细胞增殖,干细胞的自我更新及分化相关,nsun2–/–的小鼠雄性不育、体型变小、表皮分化缺陷,胚胎干细胞的自我更新和分化受影响[123-124];人类研究中发现,NSUN2缺失的病人智力缺陷,体格小[125-128]。其他物种的研究发现,NSUN2突变的果蝇短期记忆能力缺陷[125],而斑马鱼缺失DNMT2酶活性时,个体体型变小,胚胎的视网膜、肝脏和大脑发育缺陷[129]。
植物中m5C的相关报道很少。在拟南芥发现有TRM4A和TRM4B两个同源基因[130-131],其中trm4b突变体中mRNA的m5C修饰水平下降,根比较短,对于氧化胁迫更敏感,tRNA稳定性降低[125]。
hm5C是m5C的胞嘧啶第5位甲基发生氧化反应,将一个H变为OH后所得产物。该种核苷修饰于1978年首次从小麦幼苗的rRNA中发现[132],但是直到最近人们才在mRNA中检测到hm5C核苷修饰的存在[133]。2014年有学者发现Tet不仅可以使DNA形成hm5C修饰,也可催化RNA产生该种核苷修饰[133]。利用MeRIP-seq技术在果蝇中进行的研究发现,RNA中的hm5C修饰主要分布在CDS区,且在UC含量高的区域富集[10]。通过GO分析发现,mRNA上的hm5C修饰位点在与胚胎发育相关的基因中较丰富[10],推测mRNA上的hm5C核苷修饰可能参与调控胚胎发育。翻译活性较高的mRNA含有较多的hm5C修饰[10],由此推测hm5C修饰可能参与调控基因的表达。缺少Tet的果蝇,RNA的羟甲基化水平下降,且果蝇的大脑发育受损[10]。但是由于检测技术的限制,我们对于hm5C修饰的合成细节和调控模式还了解甚少,在植物中也未有关于mRNA的hm5C修饰的报道。
随着科技的进步,mRNA核苷修饰的检测技术也在快速发展。早期mRNA修饰常用放射性标记技术[134-136]和薄层色谱法[137-138]来分析,但是这些方法成本高,操作过程繁琐,且无法用于大规模的检测和修饰位点的准确定位。质谱技术(LC-MS/MS,Liquid chromatography-tandem mass spectrometry) 和抗体免疫印迹法 (Dot-blotting)可实现修饰核苷的定量分析[11,76],但是同样也不能定位修饰位点。免疫沉淀法 (Immunoprecipitation,IP) 与二代测序技术 (Next generation sequencing,NGS) 结合形成IP-seq技术,应用较多的有ChIP-seq[139]、PAR-CLIP[140-141]和MeRIP-seq[41],前两种技术用于检测DNA/RNA与蛋白的结合,不能做定量分析,对于修饰位点的定位停留在数十个碱基到数百个碱基的区段,MeRIP-seq可以通过查找保守基序来确定修饰位点,但是该方法分析的是总RNA水平上的核苷修饰水平,且此方法的精确度受数据分析方法、序列比对软件和测序深度等因素的影响较大。与MeRIP-seq相类似的另一种m6A修饰水平检测方法m6A-seq[3]可检测mRNA上的碱基修饰,分辨率在200 nt左右。miCLIP (m6A individual-nucleotide-resolution cross-linking and immunoprecipitation)[142]、SCARLET[143]、PA-m6A-seq (Photo-crosslinkingassisted m6A sequencing strategy)[144]等技术可达单核苷酸的分辨率,局限性包括:miCLIP对抗体的依赖性高;SCARLET无法实现高通量;PA-m6A-seq需要引入4-硫代尿苷 (4-thiouridine,4SU),适用于动物细胞实验。
近些年,RNA表观遗传学得到了越来越广泛的关注,新的技术手段的出现大大加速了RNA修饰的研究进展。但是目前仍有部分RNA修饰缺少直接有效的检测手段,且在转录本层面的检测精度有待提高。现有的170余种RNA修饰中,mRNA修饰仅占18种,当前的研究主要聚集在修饰位点的鉴定和修饰缺陷的表型分析。未来更大的挑战是追踪这些修饰位点的动态变化,以及从深层次揭示修饰的改变如何影响基因/蛋白的表达和细胞的生命过程。
mRNA上部分修饰核苷,例如m6A和m5C的合成和去除,是动态可逆的,这种动态调控预示着在基因表达调控中的巨大潜能。哺乳动物中关于mRNA核苷修饰对mRNA加工、稳定性、翻译过程的影响,以及如何影响细胞分化、胚胎发育、应激反应、癌症发展和病毒感染等,已有很多研究成果,但植物中的相关研究还很有限,特别是大宗农作物中几乎未见报道。未来在植物中的工作将有助于我们对mRNA表观修饰对真核生物的生长发育调控有更全面的理解。