刘路政 武金才
早在二十世纪七十年代,研究者首次发现了环状RNA(circular RNA,CircRNA),但由于当时检测方式的局限,CircRNA 被认为是错误剪接形成的RNA 分子,并没有引起足够的重视。随着二代测序及生物信息学等的发展,人们逐渐认识到CircRNA 在人类疾病中起关键作用,且被认为是多种癌症的关键调节因子[1]。CircRNA 是由下游外显子的剪接供体位点和上游外显子的剪接受体位点之间的驱动循环或反向剪接产生的,并且受pre-mRNA 剪切后的套索驱动、侧翼内含子互补配对序列、侧翼内含子上的Alu 元件及RNA 结合蛋白(RNA binding proteins,RBPs)如HRNPL、FUS、MBL 等调控[2-3]。根据不同CircRNA的序列,可分为外显子来源的CircRNA(exonic circRNA,ecRNA)、外显子兼内含子CircRNA(exon-intron circRNA,elciRNA)和内含子来源的CircRNA(circular intronic RNA,ciRNA)3 种。由于其封闭的环状结构,CircRNA 是一种特殊的非编码RNA,不具有5’末端帽子和3’末端poly(A)尾巴,稳定性高,可抵制RNA 核酸外切酶的降解,并经外泌体囊泡释放,在人体体液中大量存在[4-5]。CircRNA 可作为内源性竞争RNA(competitive endogenous RNA,ceRNA),通过竞争性结合微小RNA(microRNA,miRNA)而间接调节下游基因(如mRNA)的表达。CircRNA 还具有吸附miRNA 的“海绵(sponge)”、隔离RBPs 的中介、核转录的调控因子、翻译成多肽等多种功能,参与细胞分裂、分化、生长,因其潜在的临床应用价值而受到愈来愈多的关注[6-8]。
蛋白质是生命活动的主体,RNA 作为基因表达的媒介,在复杂生命功能中扮演着核心地位。目前,人类基因组中已知编码蛋白质的序列不到2%,早期对人类mRNA 的开放阅读框(open reading frame,ORF)定义条件为编码不少于100 个氨基酸,因此大量小的开放阅读框(small open reading frame,sORF)被忽视[9]。这提示哺乳动物细胞中存在大量的非编码RNA 可能被翻译。上世纪80年代,丁型肝炎病毒[hepatitis delta(δ)virus,HDV] 来源的CircRNA 首次被证明可以翻译约122aa 的多肽[10]。随后,Chen 等[11]发现人工构建的生物工程CircRNA 可以招募翻译相关元件如40s 核糖体亚基等,并在体外启动翻译。以上研究结论并不完全支持CircRNA 在体内可作为翻译多肽的模板。随着全基因组翻译谱分析和核糖体谱分析的快速发展,2015年,Abe 等[12]提出了关于内源性Circ-RNA 作为翻译模板的有力证据,揭示了CircRNA 中少数sORFs 实际上具有多肽或蛋白质编码的潜力。目前,CircRNA 已经被证明在多种恶性肿瘤中可以直接翻译成蛋白质,表明了其在细胞生命过程中可能发挥多种作用。本篇综述结合国内外研究,回顾并讨论关于CircRNA 翻译能力的最新研究进展,并阐明其潜在机制。
大部分CircRNA 由线性基因外显子反向拼接生成并大量存在于细胞质中。IRES 是一种RNA 的二级结构,常位于病毒或真核生物细胞5’UTR 区起始密码子如AUG 前,长度150~250 bp,其可不依赖于5’帽子结构,7-甲基鸟苷(7-methylguanosine,m7G),直接招募翻译相关起始因子和核糖体60S、40S 大小亚基(图1 A,1B)。在机体应激状态下,部分调控因子中的IRES 可引导下游ORF 参与翻译,IRES 作为一种紧急的故障维护机制,以确保基本的蛋白质需求得到供应[13]。有研究报道,保留起始密码子近端1/2 的IRES序列较远端1/2 IRES 序列翻译效率高,而IRES 突变后,部分可翻译的CircRNA 失去编码功能[14-15]。
RNA 分子可能包含100 多种不同的修饰方式,其中绝大多数涉及m6A 和5-甲基胞嘧啶(5-methylcytosine,m5C)的化学修饰[16]。m6A 修饰与mRNA 稳定性、剪接加工、多肽翻译和miRNA 加工有关,与干细胞命运和生物节律密切相关[17-19]。随着研究的深入,研究者发现m6A 修饰可以在介导CircRNA 翻译方面发挥作用,并且同时调节CircRNA的生成及降解[20]。m6A 介导的CircRNA 翻译是指其转录本5’UTR 非翻译区域,在应激状态下如氨基酸缺乏、热休克时以m6A 残基形式激活,可在不需要帽子结构和真核生物翻译起始因子eIF4E 的情况下,直接招募eIF3,进而结合43S 复合体并启动翻译(图1C)。在调整应激过程中,m6A 残基还可以通过将核糖体重新定向到不同的ORF 从而调控翻译起始[13,21]。已有报道称m6A 残基在CircRNA 中大量存在,翻译依赖于elF4G2 因子和YTHDF3,并且其过程涉及到甲基转移酶METTL3、METTL14 的参与[21]。
滚环扩增翻译是指可翻译的ORF 上只有起始密码子启动翻译,而无终止密码子,一旦翻译机制启动,生成的蛋白质成倍数重复扩增,并且这种持续翻译的ORF 称为滚环扩增ORF(rolling circle translation open reading frame,rctORF)(图1D)。其翻译机制的终止可由框外Frame(错开1~2 个碱基序列)的终止密码子调控。有报道表明,恶性胶质瘤中CircEGFR 翻译成一系列的83aa 不同循环次数的特殊产物,当同时突变框外Frame 的四个终止密码子时,有效翻译产物被阻断[22]。
部分CircRNA 生成时,其剪接位点位于premRNA 的UTR 区,导致与线性同源转录本具有类似的UTR 序列,由于UTR 在线性RNA 可募集核糖体(图1E),因此也驱动着CircRNA 的翻译[23]。
Wu 等[24]发现CircSMO(hsa_circ_0001742)在胶质瘤癌组织及肿瘤干细胞(glioma stem cells,GSCs)中较癌旁组织高表达,其大量存在于细胞质中,与患者临床预后密切相关。机制上,应用双荧光素酶基因报告实验、商业/自制抗体等证明CircSMO 由IRES 介导可翻译成约196aa 的氨基酸多肽,命名为SMO-193aa。功能上发现SMO-193aa 可调控HH 信号通路(Hedgehog pathway)、结合并促进母基因SMO 的胆固醇化从而影响其活性,促进GSCs 的自我更新。最终结合体内实验证明CircSMO 可以促进胶质瘤的形成。Circ-AKT3(hsa_circ_0017250)在胶质瘤组织及细胞系中低表达,其可通过重叠密码子(起始密码子与终止密码子重叠)编码蛋白AKT3-174aa,通过对Circ-AKT3 的上调及干扰,并结合功能实验(MTT、Edu、流式凋亡分析等)、体内实验,发现AKT3-174aa 使放射诱导的细胞凋亡增加,抑制肿瘤细胞的增殖、克隆形成及裸鼠成瘤。进一步探索机制,AKT3-174aa 通过竞争性结合p-PDK1 影响AKT-thr308 分子的磷酸化发挥负调控PI3K/AKT 信号通路,从而发挥抑癌功能[15]。Circ-FBXW7(hsa_circ_0001451)在胶质瘤组织中低表达,其翻译的蛋白FBXW7-185aa 可以协同母基因编码的FBXW7 蛋白通过竞争性结合USP28,调控原癌基因c-Myc 蛋白的稳定性,抑制胶质瘤的增殖与生长[14]。另外由LINC-PINT 外显子2 环化形成的Circ-LINCPINT(hsa_circ_0082389),可编码多肽PINT-87aa。二者在神经胶质瘤组织中均下调,并与神经胶质瘤的临床预后负相关。此外,PINT-87aa 可与聚合酶相关因子(PAF1c)复合物结合,从而抑制多个癌基因的转录延伸,抑制神经胶质瘤细胞的增殖[25]。Zhang 等[26]应用RNA-seq、GEO 数据库结合CircBase数据库等,确定研究对象CircSHPRH(hsa_circ_0001649)。与之前的研究类似,CircSHPRH 中存在可编码ORF,并确认了其IRES 的活性。CircSHPRH 在胶质瘤中低表达并可翻译蛋白SHPRH-146aa,其可充当诱饵保护全长SHPRH 免受泛素蛋白酶体的降解,从而在体内促进增殖细胞核抗原(PCNA)转化,抑制肿瘤细胞的恶性生物学行为。因此,在临床上,SHPRH-146aa 也可能是胶质瘤不良预后的生物标志物。另外,在胶质瘤中存在上皮细胞标志物ECadherin 来源的Circ-E-Cad(hsa_circ_0039992)在肿瘤组织中显著升高并可翻译产物C-E-Cad(大小约254aa)。机制上C-E-Cad 可经外泌体分泌至胞外,结合并独立激活EGFR/EGFRVⅢ,促进STAT3/AKT/ERK 信号通路。功能实验上证明了抗EGFR 药物(尼妥珠单抗)联合抗C-E-Cad 治疗可显著抑制肿瘤进程,延长裸鼠生存期。同时也表明有抑癌作用的基因来源的CircRNA 也可以具有促癌的效果[27]。
由EGFR 的14~15 外显子形成的CircEGFR(hsa_circ_0080229),在胶质母细胞瘤(glioblastoma,GBM)中高表达,其基因序列的Frame 上存在一特殊无限循环的ORF(infinite open reading frame,iORF),编码成一系列的83aa 循环不同次的蛋白产物,统称为滚环翻译EGFR(rctEGFR)。机制及功能上,CircEGFR 翻译生成的rctEGFR 蛋白结合并稳定EGFR,从而促进胶质瘤细胞增殖及成瘤能力。进一步研究发现,干扰CircEGFR 后可以增强胶质瘤细胞对尼妥珠单抗(nimotuzumab)药物的敏感性,表明CircEGFR 可能是GBM 治疗的潜在靶点[22]。
三阴性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌中一种特殊的类型,缺乏雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)以及人表皮生长因子受体2(human epidermal growth factor receptor2,HER2)的表达。相对于其他乳腺癌类型,TNBC 恶性程度高,发病较年轻,转移复发率高,治疗方式局限,总体生存率低。研究学者Li 等[28]应用高通量二代测序技术、QPCR、双荧光素酶基因报告实验及WB 等发现在TNBC 中存在Circ-HER2(hsa_circ_0007766)在癌组织中较癌旁组织高表达,并且有着不良的预后。功能上,Circ-HER2通过编码分子量约103aa 小肽,命名HER2-103aa,促进肿瘤细胞的增殖、侵袭及体内瘤体生长。进一步发现,HER2-103aa 可与表皮生长因子受体(epidermal growth factor receptor,EGFR)、人表皮生长因子受体3(human epidermal growth factor receptor3,HER3)直接相互作用,诱导EGFR/HER3 磷酸化和二聚化,从而激活下游AKT 通路。最终,由于HER2-103 与HER2 CR I 位点氨基酸序列基本一致的特点,TNBC 中高表达Circ-HER2 可增强对帕妥珠单抗(pertuzumab)敏感性,为TNBC 的治疗提供了新的方向,具有重要的临床意义。
Pan 等[29]发现由FNDC3B 基因5、6 号外显子反向拼接形成的CircFNDC3B,全长526nt,内部存在一长约657nt 的ORF,跨环状接头位点。CircFNDC3B在结肠癌肿瘤组织及细胞系较癌旁低表达,其可通过IRES 元件介导翻译大小约218aa 的多肽,命名为CircFNDC3B-218aa。体内、外研究证明CircFNDC3B-218aa 可抑制结肠癌细胞的增殖、迁移、侵袭及成瘤,而突变翻译起始位点ATG 后却不能达到上述作用。进一步机制探索,CircFNDC3B-218aa 通过Snai1 调控FBP1,抑制上皮间质转变(epithelial-mesenchymal transition,EMT),同时影响细胞的糖代谢活动,抑制肿瘤的生物学行为。临床样本检测发现肿瘤中CircFNDC3B 的表达可能与淋巴结转移(N)有关,高表达CircFNDC3B的患者预后较好。另有研究发现CircPPP1R12A(hsa_circ_0000423)在结肠癌组织中显著高表达,其通过编码功能蛋白CircPPP1R12A-73aa 激活Hippo-YAP 信号通路,在体外和体内均能促进结肠癌的增殖、迁移和侵袭。临床随访同时发现高表达CircPPP1R12A 的患者总体生存期明显缩短,CircPPP1R12A 可能是结肠癌治疗的潜在靶点[30]。Circ-Lgr4(hsa_circ_02276)在结肠癌干细胞及癌组织中高表达,其编码小肽可与母基因Lgr4 相互作用,进而激活Wnt/β-catenin 信号通路,促进结肠癌干细胞自我更新和肿瘤的发生及侵袭。Circ-Lgr4 这种肽依赖性的方式,即circ-Lgr4-peptide-Lgr4 轴对结肠癌的基础研究及治疗具有重要意义[31]。
Wnt/β-catenin 信号通路在肝癌发生过程中发挥着重要作用,研究学者Liang 等[32]基于网络数据库生信分析及qRT-PCR 技术等,筛选出β-catenin 基因来源的CircRNA、Circβ-catenin(circ0004194,2-7 外显子反向拼接,约1129nt),其主要存在细胞胞浆中,与β-catenin mRNA 的表达水平呈正相关的关系。进一步 研 究 发现,Circβ-catenin 可编码蛋白β-catenin-370aa,竞争性结合GSK3β 并抑制其磷酸化后βcatenin 的降解,促进Wnt/β-catenin 通路的不断活化,形成“正反馈“效应,结合体内体外实验证实Circβcatenin 可以促进肝癌细胞的生长增殖和转移。
人乳头瘤病毒(human papilloma virus,HPV)是一种属于乳多空病毒科的乳头瘤空泡病毒A 属,是球形双链DNA 病毒。HPV 病毒包括有100 多种亚型,高风险HPV 毒株包括HPV16 和18,其引起约70%的宫颈癌。最近的研究也揭示了EB 病毒(epsteinbarr virus,EBV)和卡波西肉瘤病毒(Kaposi’s sarcomaassociated herpes virus,KSHV)可产生多种环状RNA。研究学者Zhao 等[33]通过深度挖掘NCBI 来源的HPV 亚型RNA-seq 数据,通过Sanger 测序、qRTPCR、WB 等发现HPV16 病毒基因组可产生Circ-RNA,命名为CircE7(包含完整的E7 ORF,472nt)。CircE7 在宫颈癌肿瘤组织中高表达,可通过m6A 修饰介导编码蛋白E7,结合体内、外实验发现敲除CircE7 或干扰m6A 修饰过程后可明显抑制肿瘤细胞的增殖和生长,为宫颈癌的治疗靶点及病毒产生CircRNA 致癌可能提供新的观点。
G蛋白偶联受体(G protein coupled receptor,GPCR)是信号转导中的重要成分,在肿瘤发生中起着至关重要的作用。研究学者Gu 等[34]发现Circ-Gprc5a(hsa_circ_02838)在膀胱癌干细胞及癌组织中表达上调,其编码多肽与母基因蛋白Gprc5a 结合,形成Circ-Gprc5a-peptide-Gprc5a轴促进膀胱癌干细胞的转移和自我更新,见表1。
表1 环状RNA 及其编码多肽在恶性肿瘤中的作用
近年来,越来越多的研究报道了CircRNA 参与人类疾病的生理和病理过程。目前的研究大多集中于CircRNA 与miRNA 或RBPs 的相互作用。然而,大多数CircRNA 并无可观的丰度和相应足够的结合位点,“海绵模型”存在争议。CircRNA 编码多肽在CircRNA 及非编码RNA 的研究上提供了一个新的领域,可以拓宽科研学者对蛋白质翻译的理解。值得注意的是,有些CircRNA 在癌症发展中具有多重功能,既可充当miRNA 海绵角色又可编码肿瘤相关蛋白,如CircFBXW7[14,35]。CircRNA 的研究仍需要深入探索,进一步了解其在活细胞中的定位、运输、生成、降解及单细胞内CircRNA 图谱等。
与传统mRNA 不同,CircRNA 只能通过依赖特殊的起始机制进行翻译。由于mRNA 序列中存在大量的修饰元件,且CircRNA 和母基因具有部分相同序列,表明CirRNA 分子中亦可能存在大量修饰,但目前报道的可翻译CircRNA 大多都是IRES、m6A 驱动起始,是否有其他特殊的修饰驱动着CircRNA 翻译有待后续研究。虽然目前已经证实CircRNA 编码功能肽的存在及其重要性,然而,评估非编码RNA 的翻译潜能是困难的,用于预测CircRNA 中sORFs 序列、IRES 元件和m6A 修饰的数据库尚不完善。大多数CircRNA 是由编码蛋白的外显子序列反向拼接产生的,这些CircRNA 序列可能与其相关的mRNA 序列相重叠,使得很难区分翻译产物的来源。核糖体新生肽复合物(RNC-seq)、核糖体印迹测序分析等高通量分析检测方法受限于环状接头特异性序列的读取,不能准确识别区分非接头位点处的CircRNA,且核糖体捕获到的CircRNA 是否正处于有意义的翻译活动,仍不明确。此外,高通量测序技术的判读可能存在假阳性或假阴性的结果,部分小序列分子多肽不能获得可靠的质谱证据,其鉴定需要特定的生化和生物信息学方法。因此,翻译组学的研究存在技术上的挑战。未来期望有更多CircRNA 上的sORFs 序列及其编码的多肽生物学功能被验证,这些CircRNA 不是转录过程生成的“噪音”,背后隐藏的人类蛋白质组也不是由于“误读”,需要进一步研究。
CircRNA 来源的多肽在肿瘤发生发展过程中涉及多重作用。大多数预测的多肽可能与CircRNA 宿主基因编码的蛋白的N 端区域相同,这些截短的蛋白质可能本身有功能或与线性mRNA 表达的全长对应蛋白相互竞争,调节肿瘤细胞能量代谢、肿瘤相关蛋白的稳定性和癌基因多种信号通路。CircRNA 具有跨接头位点的特异性序列,可识别的sORF 若同时跨接头位点,所编码的多肽区别母基因同样具有特异性,可能拥有独特的生物学功能,是抗肿瘤生长新药研发的潜在靶点。部分CircRNA 或其编码小肽可经外泌体释放入体液中,或可作为预测癌症患者预后的生物标志物,具有显著的临床意义[5,27]。随着RNA 检测及蛋白组学技术的快速发展,在未来几年内期待涌现更多关于CircRNA 翻译多肽与人类肿瘤疾病生理、分子模型的研究,从而为小分子多肽药物靶标、临床转化治疗和生物标志物方面的提供新的途径。
综上所述,本文总结了CircRNA 翻译多肽在恶性肿瘤中的功能作用及其作为翻译模板的可能机制,同时对CircRNA 翻译多肽面临的科学问题提出新的见解。CircRNA 的研究不仅打开了转录组学新视角,亦为非编码RNA 在翻译蛋白方面提供了新的理论依据。将来应重视并重新认识这些剪切事件中偶然形成的“垃圾序列”,以探索CircRNA在人类癌症发生发展中的重要作用。