周晞雯 成柯 朱鸿亮
(中国农业大学食品科学与营养工程学院,北京 100083)
生物体内的RNA 是携带遗传信息的遗传物质,具有催化及调控基本生物过程的功能。与DNA 不同,ssRNA(single-strand RNA)和dsRNA(double-strand RNA)能够自发地进行碱基互补配对,在结合或不结合蛋白质的情况下形成结构。生物体内的RNA 也因环境差异而展示出与体外RNA 结构上的差异,因此,RNA 的体内结构解析是对有RNA 结构参与的生命活动进行探究的必经之路。解析RNA 二级结构(RNA secondary structure, RSS)面临两个重要问题:其一是体内、外RNA 结构需要不同的探测方法;其二是RNA 结构在体内参与的生物过程中产生的动态变化。RNA 结构的研究方法经过数十年的研究,从早期的X 光和核磁共振技术发展至冷冻电镜,到酶切标记与化学探针标记后利用反转录中引入的截断和错配搭配测序技术获得结构,以及利用机器学习、深度学习根据碱基等进行预测,逐渐趋向于安全化和精确化。现有的技术已经能够探知生物体内的RNA 二级结构以及三级结构,但是对于体内动态变化着的RNA 仅能够提供较为稳定的构象,如何更加精确地展示体内RNA 结构的全貌以及关键性的生理调控中RNA 的精确结构是接下来的研究重难点。
RNA 的二级结构是以核酸序列为根据,通过碱基互补配对以及分子间氢键形成的。生物体内的RNA 存在形式包括双链(dsRNA)和单链(ssRNA),目前已广泛了解的结构包括发夹(hair-pins)、茎环(stem-loop)、 假 结(pseudoknot)、 三 链(triplex)、G-四联体(G-quadruplexes)等多种结构基序。这些结构是由不相邻的核苷酸相互作用形成,包括在同一RNA 分子内的顺式相互作用和需要其他生物分子(如RNA、DNA 和蛋白质)参与的分子间相互作用[1]。
RNA 的类型和功能多样,包括承担生命遗传密码的mRNA,编码转录组成部分的tRNA 和rRNA、snoRNA、siRNA、miRNA 以 及lncRNA 等。 其中rRNA 因参与翻译过程,在蛋白质相互作用和生化功能区域是高度保守的,但在其他区域是十分多变和快速进化的。tRNA 更是最早被阐明其保持“三叶草结构”是为了促进密码子-反密码子相互作用而相对稳定[2]。snoRNA 长度较短,是高度结构化的非编码RNA,这种RNA 自身形成较为稳定的二级结构,还会与其目标RNA 配对形成分子间结构。siRNA 和miRNA 都是真核RNA 沉默机制的组成部分,这些小RNA 可以被用来直接沉默转录本和抑制翻译[3]。在植物中,这些小RNA 同样通过RNA 定向的DNA甲基化调节表观遗传标记[4-5]。各种RNA 独特的长度和核苷酸序列决定了不同的RNA 具有各自的结构特征,而且相同种类的RNA 在结构上具有一定的相似性,因此在结构解析时就需要分别进行讨论。
RNA 二级结构参与调控多种体内RNA 相关过程,但是RNA 的结构对环境因素的变化十分敏感。RNA 的序列决定了RNA 形成的结构范围,将已经具有结构的RNA 加以变性条件后再将其复性,在没有其他因素的情况下能够恢复最初的结构。但是生物体内的RNA 结构往往是多重因素共同作用的结果。导致RNA 结构变化的因素可以归纳为生物的体内因素和外界因素,其中体内因素包含转录、空间位阻、RNA 结合蛋白(RNA binding protein, RBP)和相互作用离子,外界因素包括温度、渗透压等[6-7]。
1.1.1 影响RSS 的体内因素 RNA 的二级结构在生物体内受到转录反应、空间位阻、RBP 和相互作用离子的限制。RNA 在折叠之初受到具有RNA 伴侣活性的蛋白质的引导,避免仅仅在局部形成自由能最低的构象,这种只关注局部的折叠就可能导致整体RNA 形成的构象不符合能量最低条件,难以产生稳定结构。当我们利用RNA 序列预测结构时难以将所有导致结构变化的因素全部考虑以修正结构,因此,RNA 真实的体内结构可能与体外自发形成的结构或计算机预测的最低自由能结构存在较大差异[8]。
RBP 与RNA 相互作用可以影响RNA 结构。许多RBP 具有RNA 结合功能域,RNA 序列和结构特征使它们被RBP 识别并定向结合。RNA 折叠形成三级结构过程中需要RBP 参与,更为复杂的三级结构使其更好地行使生物体内的功能。如tRNA 具有的三叶草二级结构需要经过共轴堆叠形成倒L 形的三维结构,才能携带氨基酸进入核糖体参与蛋白质合成。对一组人类MRPS21 核糖核酸等位基因DMSMaPseq 数据进行共同和单独分析时发现,在RBP引起局部RNA 结构重排,即部分区域产生核糖核酸结构异质性时,RNA 折叠状态具有显著差异[9]。
化学修饰同样可以改变RNA 结构。RNA 修饰包括甲基化、羟甲基化、乙酰化等[10]。RNA 分子上的修饰影响RNA 与RBP 结合和结构形成,常见的 RNA 修饰位点包括5-甲基胞嘧啶(5-methylcytosine, m5C)、肌苷、2′-氧甲基化(2′-O-methylation)、假尿嘧啶(pseudouridine, ψ)和N6·甲基腺嘌呤(N6·methyladenine,m6A)等[11]。目前关于mRNA的甲基化修饰研究已有广泛报道,其中m6A 修饰是研究最为广泛的一种修饰,m6A 由甲基转移酶催化,去甲基化酶去除,并与 m6A 结合蛋白相互作用[12],这种修饰方式在许多疾病中起重要作用,特别是肿瘤的形成。m6A 也被证明与干细胞分化和生物钟控制有关,修饰后的RNA 响应紫外线照射与热休克胁迫产生动态变化[13]。许多试剂能够定向地修饰RNA 骨架或者碱基,为RNA 的结构解析提供支持。
要解析RNA 结构的生理功能,就需要讨论RBP和化学修饰的影响。Tomezsko 等[14]基于DMS-seq发现酵母体内的结构化mRNA 区域比体外的要少得多,并且RNA 结构变化与ATP 含量相关,当ATP浓度变化时RSS 也会相应产生变化,这说明RNA 的结构是处于动态变化的。RNA 在体外难以获得与体内环境相同的RBP 和离子条件,且体外实验难以达到与胞内相同的活性氧浓度,所以体外进行的RNA结构探测难以复原RNA 在生物体内的真实构象。
1.1.2 影响RSS 的外界因素 温度和离子渗透压都是影响RNA 二级结构的外界因素。即使是耐热的RNA 结构也经常在细胞中发生变性,细胞环境改变对RNA 结构产生重要影响[15]。原核生物中存在一种典型的RNA 温度计(RNA thermometers),这种RNA 对温度变化敏感,其结构随温度变化而发生改变。低温时其结构能抑制转录过程,温度升高后结构变化不再具有抑制功能,温度降低后则结构恢复,由此使RNA 结构与转录产生联系[16]。此外,在不同的温度下RNA 采用不同的结构(RNA switch)在翻译调节中发挥作用。在植物中,对黄化的拟南芥幼苗体内的RNA 结构进行采样的研究表明,与胁迫反应相关基因的mRNA 在每个核苷酸中显示出较高的自由能或更长的最大环长度,这两者都为构象变化提供了灵活性[17]。热胁迫也被证实能够使tRNA的结构部分展开[18]。
拟南芥中一类非编码转录本COOLAIR通过smStructure-seq 被证实在温暖环境和冷处理环境中,具有不同的RNA 构象。COOLAIR参与FLC(FLOWERING LOCUS C)的转录调控,以决定喜温植物冬季年度或快速循环的繁殖策略,也参与促进低温诱导的转录关闭[19]。冷处理及冷处理后恢复的植物样本RNA 结构经过可视化都阐明了RNA 结构的差异,但是植物中具体与温度相关的RNA 结构变化机制还未得到完全解释,那么系统地分析植物中RNA 特征结构就可能为植物的环境胁迫传感器提供其机理的解释。
渗透压对RNA 二级结构造成的影响同样在植物生物学中具有重要意义。植株受到如洪水、干旱、过高的土壤盐分等渗透胁迫时,细胞内渗透浓度就产生大规模变化。盐胁迫时拟南芥转录本丰度的变化与胁迫诱导的相对过饱和度的变化呈负相关,在这项研究中,盐胁迫诱导了RNA 的重折叠,尤其是与应激相关的mRNA,而RNA 的重折叠增加了转录本丰度[20-21]。
植物中的mRNA 不仅作为遗传信息的载体,还参与转录调控过程。植物体内的lncRNA 和miRNA等与蛋白结合形成复杂的聚合体,对植株的组织、器官甚至整个植株的生理功能产生重要的影响。核糖体rRNA 被包裹在复杂的三级结构中,只有形成合适的结构才能够在翻译过程中催化蛋白质合成,lncRNA 和小RNA 也被证明参与相变、影响蛋白-蛋白互作等[22]。随着探测技术的进步,植物体内RSS 具有的功能也被更加深入地研究,下文对植物中RSS 具有的功能进行介绍。
1.2.1 植物中RSS 影响转录和翻译 植物中RNA二级结构与mRNA 的转录加工过程紧密相关。多聚腺苷酸化(Polyadenylation)是mRNA 加工的一个关键步骤,这一过程切割mRNA 的前体,并在mRNA的3′端添加poly(A)尾[23]。在拟南芥中,约60%的mRNA 具有多聚腺苷酸位点。一种广泛的认知是pre-mRNA 的裂解和聚腺苷酸化依赖于poly(A)序列,典型序列如AAUAAA 或AUUAAA。拟南芥的核RNA 上poly(A)结构位点和备选位点上有两个单链区域,分别位于-28 nt 到-17 nt 之间和-4 nt 到+1 nt 之间。而-28 nt 到-17 nt 的上游区域是传统poly(A)信号的富集区域,这表明多聚(A)信号和多聚(A)位点都倾向于单链[20]。哺乳动物mRNA 的3′端区域相较于其他区域更容易折叠。研究认为,mRNA 3′区域的折叠将poly(A)信号和裂解位点固定在最佳距离,促进了mRNA 的多聚腺苷酸化[24]。Liu 等[20]在拟南芥中利用SHAPE 标记并分析mRNA 3′端和5′端RNA 结构特征发现,核mRNA 和胞质mRNA 在翻译起始和停止位点上的折叠方式不同,说明序列相同的核mRNA 和胞质mRNA 可能折叠形成不同的结构来执行各自的生物学功能。
RNA 二级结构可以调节翻译效率,并且成熟的mRNA 具有能够影响翻译的RNA 结构[25]。在拟南芥和水稻上的研究表明,mRNA 不具有复杂结构时往往具有高翻译能力,这说明 mRNA 的结构可能在植物中具有翻译调节功能[26]。在体外条件下,翻译起始位点和核糖体暂停位点的结构特征是保守的。在哺乳动物和植物中,mRNA 起始密码子上游5 nt位置被证明是不具有复杂结构且易于靠近的,这种简单的结构便于核糖体的靠近和翻译的起始[27]。实际上,RNA 的结构以及修饰也被认为是一种具有普遍性的转录后调控的控制模式[28]。
1.2.2 植物中RSS 影响可变剪接 研究认为RNA 结构变化影响mRNA 的可变剪接。剪接是mRNA 加工的关键步骤,可变剪接位点的识别需要RNA 结构开关参与。真核生物的基因是由外显子和内含子构成的,pre-mRNA 成为成熟mRNA 的过程需要经过剪接去除内含子,将外显子拼接成链。RNA 的剪接过程依赖剪接体、RBPs 及mRNA 顺式作用元件的共同作用[29]。其中,RNA 结构作为顺式调控元件招募蛋白质影响RNA 剪接,是转录后调控中不可缺少的部分。Ding 等[30]利用DMS-MaPseq 观察拟南芥发现在5′剪接位点上游约40 nt 区域,剪接转录本的结构明显比未剪接转录本的结构更加灵活,这说明在5′剪接位点,较强的RSS 阻碍了拼接的第一步。
1.2.3 植物中RSS 影响RBP 的结合 RNA 二级结构影响RNA-RBP 结合。如上所述,RBPs 参与RNA结构形成,同时也受到RNA 结构的调控。RNA 二级结构在体外和体内都能够影响RBP 的结合。目前对于RNA 二级结构影响RNA-RBP 最充分的证据是哺乳动物中的lncRNA,Xist,它在雌性发育过程中表达后,与关键的成核位点结合并扩散,通过与大量蛋白质的逐步相互作用引起全染色体沉默。而植物中RBP-RNA 的研究也已经十分充分,同一mRNA形成不同的二级结构后,尽管能够结合相同的蛋白质,但功能不同[31]。更为广泛的表现是RNA 结构因为生物体内的“开关”产生变化后,与RBP 结合的结构发生改变,从而调控与RBP 的结合[13]。编码蛋白质结构域连接或无序区域的RNA 结构会减弱蛋白质的延伸,从而促进蛋白质的自然折叠[6]。
高温、冷胁迫和盐胁迫等生物胁迫引起植物的应答反应被证实与RBP 紧密相关,而RNA 结构通过结合或不结合RBP 同样参与植物的抗逆和病原反应。盐胁迫等多种胁迫能够诱导拟南芥中RNA,特别是与胁迫相关的mRNA 的再折叠,RNA 的再折叠改变了转录本的丰度,从而调节植物的应激能力。不同于哺乳动物,在拟南芥和水稻RNA 结构研究中发现UTR 区相较CDS 区具有更少的结构,表明RNA 结构与翻译效率相关[30]。在植物已有的研究中,或许是由于调控结构元件的存在,病原体反应性转录本往往是具有最高度折叠的。拟南芥中许多高度结构化的mRNA 编码的DEFENSIN-LIKE(DEFL)蛋白、低分子量富含半胱氨酸蛋白、病程相关蛋白都在植物病原应答中发挥作用[22]
RNA 凭借其复杂的结构在生物体内发挥多种功能,然而RNA 结构在体内的动态变化给探测带来很大难度。近年来由于新一代测序技术的广泛应用,RNA 结构的探测方法也不断更新。高通量测序为大量的方法提供了技术支持,它可以实现大规模的平行DNA 测序,同时检索数以千万计的DNA 序列的信息。高通量测序足以在一个实验中覆盖全基因组 RNA 结构并表征数千种 RNA 的二级结构特征,为RNA 结构在体内外的功能及结合位点探究提供支持。通过实验直接或间接地获取RNA 的结构是解析RNA 的可信方法,由于RNA 的结构在体内体外具有差异,因此通过实验等方式描述RNA 的实际结构就是研究RNA 及RNA-RBP 复合体功能的必经之路,而辨析RNA 体内结构的方法研究也成为了研究RNA 结构的热点之一。
2.1.1 物理法 最早使用在RNA 结构探索上的技术是X-射线(X-ray)。Chao 等[32]利用X-射线衍射初步确定了tRNA 的结构。tRNA 三叶草结构的发现为RNA 结构相关研究奠定了理论基础,即RNA 可能会形成特定的结构来执行生物学功能。此后较长的一段时间内,检测 RNA 结构的实验方法主要为核磁共振技术(nuclear magnetic resonance, NMR)和X-射线晶体衍射技术。X-射线和NMR 最早应用于蛋白结构探测,有趣的是尽管两者在RNA 结构领域应用时间前后差别,X-射线能够通过大量的图片分析补充核磁共振实验数据集不完整结构信息,核磁共振获取的RNA 结构比X-射线模型表现出更多的空间冲突和构象歧义[33],两者在实验中相辅相成[34]。这两种技术涉及放射性标记,对实验人员和RNA 状态要求较高,且分析单一RNA 结构所需X 光片和结构数量大所需成本高。近年来,冷冻电镜为探测RNA-蛋白复合体的结构提供有力途径,然而单一的无蛋白结合的RNA 因其分子量小且结构不单一而难以仅利用冷冻电镜进行分析。即使有体外实验工作量大、难以展示RNA 在生物体内的真实结构等限制,采用物理方法能够直观地展示RNA 的可视三维结构,目前仍然是RNA 结构的重要获得途径。
2.1.2 酶切探针标记法 酶法和化学法解构RNA现在十分依赖高通量测序技术(next generation sequencing, NGS),而NGS 还未出现时,广泛采用凝胶电泳的方式对探针位点进行解析[35]。染料终止序列测序通常被称为Sanger 测序,它使用凝胶或毛细管电泳展示RNA 探针位点,一次只能提供有限数量的序列信息,这决定了该方法只能用于较短的RNA 序列。聚丙烯酰胺凝胶电泳(polyacrylamide gel electrophoresis, PAGE)读取修饰的方法逐渐被逆转录(reverse transcription, RT)并进行测序替代,直接对RNA 的结构特征进行解读。结构特异性核糖核酸酶常作为酶探针探测单链和双链区,用于标记的酶探针包括RNase V1,RNase S1,RNase T1 和RNase T。其中RNase S1 和P1 对ssRNA 切割有特异性,而RNase V1 针对dsRNA[36]。常见的两种酶探针分别切割RNA 链产生5′磷酸和产生3′磷酸接口,酶切之后引入末端标记,再进行测序就可以找到cDNA 序列上的反转录断裂位点。对于成分较为复杂的目标RNA,单一的酶探针难以达到研究目的,通常选用多种位点不同的酶共同切割RNA,再对RNA 进行末端标记。然而,核酸酶受空间位阻影响较大,且难以透过细胞膜,实验过程中使用的Mg2+也可能影响RNA 折叠,因此体内真实的RNA 结构就难以用酶法探究。
2.1.3 化学探针标记法 同样应用探针标记的化学探测方法因为试剂分子较小,不受酶法局限性的拘束而被广泛应用。目前,已经应用于RNA 标记的试剂包括烷基化试剂如乙基亚硝基脲(ENU)、硫酸二甲酯(DMS)、碳化二亚胺(CMTC)、1-(3-二甲氨基丙基)-3-乙基碳二亚胺(EDC)、叠氮烟酸甲酰(NAz)和重亚硫酸盐等[51]。化学探针又可以分为碱基特异性探针和非碱基特异性探针,即利用试剂修饰碱基或核苷酸骨架。SHAPE 试剂2-甲基烟酸咪唑(NAI)或1-甲基-7-硝基异酸酸酐(1M7)将所有4 个核苷酸共同的2′-羟基(2′-OH)酰化,硫酸二甲酯(DMS)将腺嘌呤(N1-A)的无保护和非碱基配对N1位置、胞嘧啶的N3位置(N3-C)和鸟嘌呤(N7-G)的N7 位置烷基化(表1)。由于这些修饰阻碍了传统的逆转录酶通过核苷酸,单链区域的修饰核苷酸可以通过PAGE 或高通量测序检测到标记为逆转录停止。而这些探针往往难以结合已被RBP 结合的RNA,因此可以通过修饰的读取判断RNA 结合RBP 的区域,作为RNA 与RBP 结合基序的预测验证手段(图1)。由于生物膜通透性差,CMCT 等难以进入细胞中,一般应用于体外研究RNA 结构。
图1 RBP 影响体内探针修饰位点Fig. 1 RBP affects modification sites in vivo
表1 用于RNA 标记实验的酶和探针Table 1 Probes and enzymes for RNA labeling
2.2.1 化学探针标记RNA 方法 有一类小分子标记试剂能够进入生物膜在生物体内标记RNA,由此获得生物体内的RNA 结构信息,构建更贴近RNA 在生物体内实际结构的模型。目前已被使用的标记探针包括SHAPE、DMS 和EDC 等。近年来,一种被称为突变谱分析改进的方法被开发,该方法通过在逆转录反应过程中在修饰位点引入错配而非停止逆转录来确定化学修饰的核苷酸,从而高效率地利用测序来获得修饰位点信息[52]。
利用SHAPE 试剂标记并分析的方法:SHAPEseq(selective 2′-hydroxyl acylation followed by primer extension),icSHAPE(in vivoclick selective 2-hydroxyl acylation and profiling experiment),SHAPE-MaPseq等(表1)。SHAPE 试剂能够对RNA 上的2′-OH 进行标记,利用SHAPE 方法就可以同时获得4 种核苷酸的结构信息。在icSHAPE 中,细胞内的RNA 被NAI-N3修饰,使其包含生物素,用链霉亲和素结合珠纯化。SHAPE 试剂加合物阻断NAI 修饰碱基上的逆转录延伸,生成一个具有相应cDNA 截断的文库。对于SHAPE-MaPseq,通过深度测序在逆转录过程中将修改后的核苷酸读取为不匹配,通过SHAPE 反应性计算得到修改后的核苷酸。
利用DMS 试剂标记并进行分析的方法包括:DMS-seq,Structure-seq,DMS-MaPseq 和Dance MaP等。DMS 的缺点是它只能提供腺嘌呤和胞嘧啶上的碱基配对数据,缺少可靠的鸟嘌呤和尿嘧啶碱基配对探针,预测获得的RNA 结构不全面且可靠性较差。DMS 早期仅作为体外标记探针使用,直到基于DMS 在拟南芥、哺乳动物和酵母中体内的全基因组RNA 结构分析的方法发表,而DMS 在植物中应用条件的优化和方法的完善也为全局分析RNA 结构提供帮助[15]。在利用探针截断反转录的方法中,每个RNA 分子只能观察到一个化学修饰的单一位点,因此低丰度的RNA 不适用基于截断的RNA 结构探测。
读取截断或者突变的方法是将RNA 反转录后进行测序。解读标记的酶包括Superscript III、SSIIMn2+和TGIRT(thermostable group II intron reverse transcriptases)等[52]。SSII-Mn2+在 使 用Superscript II 时引入二价金属离子Mn2+,以促进逆转录酶通读标记后的RNA[53]。MaPseq 是近年发展起来的一种替代RT-stop 分析方法的方法,该方法使用的反转录酶工作时连续地反转录修饰后的RNA 碱基,并在修饰处插入突变,由此可以对较长的序列进行测序。与Structure-seq 一样,MaPseq 可以用于特定基因或全基因组的方式,检测到的突变相当于未配对的核苷酸。TGIRT 可以读取单个分子上的多个DMS 修饰,增加给定修饰碱基上的测序深度。因其读取长度长、可靠性好,TGIRT 取代了更多传统的逆转录酶,如在Structure-seq 和类似技术中使用的Superscript III。DMS-MaPseq 即应用耐热逆转录酶通过在DMS 修饰位点引入错配来分析修饰率。Zubradt 等[54-55]在酵母中利用DMS-MaPseq 分析特定位点结构,并首次在动物体内运用该方法进行全基因组探测和特定基因结构分析,Wang 等[56]将DMS-MaPseq 应用在拟南芥体内RNA 结构全局分析和特定位点结构分析。
由于单独应用DMS 不能提供4 种碱基的信息,一系列化学修饰试剂也被开发用于弥补结构预测中的信息差距。水溶性碳二亚胺1-乙基-3-(3-二甲氨基丙基)碳二亚胺(EDC)已成为一种有效的体内探针[57]。EDC 与EMCT 相似,更倾向于修饰U 和G,EDC 容易穿透细胞壁和细胞膜,并已被用于探测多个生命领域的RNA,包括枯草芽孢杆菌、水稻和培养的MEF 细胞。Mitchell 等[58]开发的Structure seq 就是综合EDC 和DMS 两种试剂进行读取。EDC易于穿透细胞壁和细胞膜,已被用于包括枯草芽孢杆菌、水稻和MEF 培养细胞在内的多种生物体内RNA 标记,可在体内探测4 种不同的RNA 碱基。
LASER-seq(light activated structural examination of RNA, LASER)能够修饰成对的核苷酸,使识别具有高级结构RNA 的构象变化成为可能。烟酰叠氮化物(NAz)不标记碱基对,而是在激光照射下产生离子与胞嘧啶C8和腺嘌呤C8位置结合[59]。但是该方法不能准确标记被蛋白结合或正在翻译的碱基,无法在RNA -蛋白质相互作用方面提供帮助。此外乙二醛试剂也可作为修饰腺嘌呤、鸟嘌呤和胞嘧啶的探针,目前乙二醛体系已经在水稻、大肠杆菌、枯草芽孢杆菌和小鼠胚胎成纤维细胞(MEF)的体内RNA 结构探测中得到广泛应用[60]。
化学探针因其分子量小、易于结合RNA 分子而广泛应用,目前还处于各具优缺点的状态。化学探针可以进入生物体内标记RNA,而且可以同时运用多种探针在体内探测4 种碱基的结构信息。然而不同探针所需的缓冲液和离子浓度不同,且难以解读有RBP 结合或高级结构的RNA,更加方便的标记探针还有待开发。
2.2.2 基于RNA 交联的方法 小分子探针修饰方法能够在读取碱基信息后解析RNA 结构,但不能明确RNA 中碱基互补配对的情况和RNA 分子之间的互作。基于交联的方法可以直接捕获分子内和分子间的RNA-RNA 相互作用[40]。在细胞内提供交联所需条件后,提取RNA 后酶切消化,其中相互作用的片段仍连接在一起。由于连接产物产生的嵌合体结构,测序时不能进行读取,从而获得RNA 相互作用的位点信息。许多基于交联和接近连接的技术已经被开发,在酵母、人类、小鼠和病毒等材料中均可获取RNA-RNA 相互作用信息。
交联可以在体内和体外进行。PIP-seq(protein interaction profile sequencing)是一项最近发展起来的技术,用于识别RNA 在其原生状态下的二级结构。该技术可以应用于生物的组织或细胞中,首先使用甲醛或紫外光交联,随后进行的ssRNA-seq和dsRNA-seq 同时对RNA 二级结构和RNA 蛋白相互作用进行全基因组识别,就可以得到RNA-蛋白质相互作用信息。CLASH(crosslinking ligation and sequencing of hybrids)是一种基于紫外交联的方式,能捕捉与已知蛋白相关的RNA-RNA 互作[61]。补骨脂素交联可以识别直接的RNA-RNA 相互作用,甲醛交联也被利用在识别有RBP 参与的RNA 互作中[62]。MARIO(mapping RNA interactomein vivo)方法被应用在小鼠体内进行RNA-RNA 互作的识别验证,同时能够对RNA 的二级及三级结构进行解析[63]。该方法通过RNase I 消化位点的密度来确定RNA 单链区域,通过邻位连接技术捕获每个RNA的空间近端位点。尽管RNA 交联的方法能够很好地在体内进行,但它仍然未解决交联位点覆盖面窄和实验中可能产生假阳性的问题。
相较于实验方法需要花费大量时间和金钱,利用计算机和数学模型预测RNA 二级结构以其经济、快速和安全的优势成为生物信息学领域的研究目标。RNA 二级结构预测常用方法为最小自由能法(minimum free energy, MFE)和序列比较分析法。即基于RNA 碱基序列,参考或不参考试验获得的RNA 结构数据,通过计算自由能和热力学分析获得结构。但是该方法不能保证在体内的准确性和真实性,很多现有的分析方法需要结合RNA 探针标记获得的序列特征。现有RNA 二级结构数据库中包含大量基于NMR、X-ray 以及共变模型获得的RNA 结构,且数据库中多为结构较为保守的非编码 RNA,如rRNA、tRNA、Group I intron、Group II intron 以及核糖体开关等。基于已知RNA 结构,机器学习和深度学习在RNA 结构预测方面也展示出优越性。
近年来,解析RNA 二级结构有两种常用的方法,其一是通过测序获得RNA 的断裂或修饰信息,其二是通过碱基序列信息构建概率模型。RNA 序列信息的完整性对结构的预测具有很大影响,RNA 的碱基配对信息和单链部分的信息都有助于搭建更高分辨率的结构模型。因此将双链RNA 测序和单链RNA测序数据结合,就可全面分析碱基配对情况并构造RNA 结构模型[22,64]。依据碱基序列构建的模型和实验探测获得的结构信息指向的模型之间存在的交集就很可能是该RNA 真实存在的结构之一。
依据核苷酸序列预测二级结构的方法始于20 世纪60年代,将实验获得的碱基配对状态作为计算预测的限制条件,计算获得能量最低、被视作稳定状态的结构。此时如果实验数据不能完全展示碱基配对情况,或者同一序列同时存在多种结构,那么根据这种条件计算得到的结果就是不可信的。
在利用高通量测序获得RNA 序列后,对RNA序列数据进行条件限制,读取信息并作结构预测的算法现在已有多种。最小自由能就是将实验数据转化为自由能项叠加到特定结构单元的自由能计算中,这种自由能项也被称为伪自由能(pseudo-energies)。这种计算的前提是RNA 碱基配对后自然形成自由能低的结构。在已知RNA 序列的情况下,基于最小自由能可以对结构进行预测,但其并不能展示RNA在体内的真实构象,只能准确预测最低自由能结构中大约70%的已知碱基对状态[65]。热力学模型中,Schroeder 等[66]的最近邻模型将一个二级结构分解成几个特征子结构,标记为最近邻环,如发夹环、内环、凸起环、碱基对叠加,多分支回路和外部回路。每个最近邻回路的自由能可以通过把代表该回路的自由能参数相加计算。通过对分解的最近邻环自由能求和来计算整个RNA 二级结构的自由能。利用Zuker 算法可以有效地计算出具有最小自由能的最优二级结构[67]。基于以上理论的方法包括M-fold、UNAfold、RNAfold 和RNA structure 等[68]。 随 着RNA 长度增加,预测所获得的可能二级结构数量呈指数增长,要在如此大量的预测结构中找到RNA 的真实结构是自由能最小化法面临的巨大挑战。而序列比较法利用NMR 和X-射线等方法获得结构数据包,假定序列相似的RNA 即使在不同物种中也具有相同或高度相似的结构,对已知序列和已知结构的序列进行比对,从而获得该序列预测结构的方式,现在更多地用于RNA 三级结构的预测中。
机器学习的核心难点是准确识别一组代表性特征,特征选择(feature selection)极大地影响模型质量。Kengo 等[69]利用MXfold2 算法发现,当使用深度神经网络学习的RNA 折叠得分与Turner 的最近邻自由能参数集成在一起时可使过拟合最小化。整合热力学信息有助于提高基于深度学习的RNA 二级结构预测的可靠性,结合热力学模型和机器学习的混合方法能弥补彼此的缺点,如SimFold 能够更准确地从训练数据中估算热力学参数,包括RNA 序列、已知的部分二级结构和已知二级结构的自由能[70]。
深度学习是机器学习的一个分支,在生物信息学、生命科学等广泛领域均有应用,近年已经在蛋白结构预测和DNA 结构预测方面有所报道。利用深度学习预测RNA 结构面临的主要问题是已知结构的RNA 的可用于训练的数据非常有限,尤其缺乏复杂的高级RNA 结构。由于只有少量高分辨率的RNA 结构可用,深度学习模型只能先通过比较分析注释的大型RNA 二级结构数据库进行训练,然后再将学习转移到从3D 结构衍生出来的精确二级结构上。除了预测单条序列的 RNA 二级结构外,概率模型还可应用于预测一组结构相似的 RNA 序列的共同结构。目前深度学习方法已经被应用于探查人体内RBP-RNA 结合位点。有报道对riboSNitches 利用CLIP-seq 等数据库进行解析发现riboSNitches 引导的RBP-RNA 结合后结构改变可能导致等位基因特异性结合的增加[71]。
近年来不断有对RNA 测序数据进行分析获得结构信息的软件被开发,目前应用较广的包括MC-Fold/MC-Sym[72]、RNA structure[73]、ViennaRNA package[74]、StructureFold[26]等。智能地筛选有效限制条件对于RNA 分析技术的发展而言是很有必要的。其中StructureFold 可以将实验获取的高通量RNA 结构分析数据输入后作为限制条件进行结构预测。通过依次使用迭代映射、获取RT 信号和反应模块,该方法可以得出每个核苷酸的FSR(final structural reactivities),这提供了RNA 以单链存在的可能性。同样,对于植物体内RNA 结构的预测,机器学习方法也有着广阔的发展空间与应用场景。然而,不论是传统机器学习方法还是结合神经网络的深度学习方法,对RNA 结构的训练数据集都有着较强的依赖性,当植物体内RNA 结构特征越能被准确的识别和探测,建立质量可靠的高分辨率RNA 结构数据库的可行性也将不断提高。只有基于准确可靠的探测数据集进行训练和检验,机器学习方法才能在植物RNA 结构预测中更好的延伸和应用。
RNA 不仅是遗传中DNA 和蛋白之间用于信息传递的桥梁,其丰富的结构信息足以成为生物遗传和生理调控中极为重要的研究方向。数十年以来,对于RNA 结构的研究从未停止,RNA 结构分析仍面临问题与挑战,最关键的一点就是RNA 体内状态的改变。尽管现有的高通量测序和分析方法能对特定条件如蛋白结合下的RNA 结构进行解析,并且评价RNA 结构的打分系统也在不断进化,但评分的标准仍然在不断变化,如何制定出使RNA 结构最贴近体内广泛存在的结构的评分标准仍有待解决。
现有分析RNA 结构的测算方法大多需要实验数据的支撑,真实可靠的数据和测算出可信的RNA结构是同源序列分析和比对的基石。应用广泛的化学标记法的多种标记试剂在植物中已有报道,但仍存在植株大小和部位的限制,而标记试剂成分对植物生理或RNA 结构的影响还不能完全排除,随着RNA 结构研究的不断深入,效率更高、更易进入植物且无负面影响的标记探针亟待开发。利用标记RNA 的方式不仅能够对RNA 的二级结构进行测算,还能够进一步推算RNA 的三级结构。尽管RNA 二级结构还未完全阐明,但是生物体内的生理活动也依赖于RNA 的三维结构,探究RNA 三级结构行之有效的方法还在探索中。利用计算机基于RNA 结构数据库预测RNA 三维结构的方法层出不穷,Vfold3D、3DRNA、FARFAR 以及基于物理模型的iFold、NAST 和SimRNA 等均展示出当下研究的趋势[75]。
以往基于来源于PDB 数据库中存储的结构所进行的计算已有成效,最近发展起来的基于神经网络的模型如AlphaFold 和RoseTTAFold 也已经被证明是高效且有力的预测及评估蛋白质3D 结构的方法。而蛋白的结构研究和RNA 的结构研究往往是相互促进,互相学习的,我们完全有理由相信Alpha Fold及更多的后续研究方法将会为植物体内的RNA 结构研究增加新的方向。