林 熊,武金才,褚凤冉,曹 智,叶 妃,陈家诚,刘路政
(1.海南医学院附属海南医院/海南省人民医院 肝胆胰外科,海南 海口 570311;2.海南医学院第二附属医院 介入血管外科,海南 海口 570311;3.海南医学院第二附属医院 血液细胞治疗科,海南 海口 570311)
肝癌(liver cancer, LC)的发病率位居全球恶性肿瘤排名第六位,也是癌症相关死亡的第三大原因,严重危害着人类的健康[1]。肝细胞癌(hepatocellular carcinoma, HCC)是LC 最常见的病理类型。HCC 的发病机制并不明确。目前有效治疗方法是手术切除或肝移植[2,3]。尽管临床技术有所改善,但患者预后仍然极差,5 年生存率低,肿瘤转移与复发率高[3-5],缺乏有效的HCC 诊断标志物和理想治疗靶点。
作为特殊的非编码RNA,环状RNA(circular RNA, circRNA )一度被认为是错误剪接形成的RNA 分子,随着二代测序及生物信息学等的发展,人们发现circRNA 可以是多种癌症的关键调节因子[6]。CircRNA 由下游外显子的剪接供体位点和上游外显子的剪接受体位点之间的驱动循环或反向剪接产生,不具有5′末端帽子和3′末端 poly(A)尾巴,拥有特殊的闭环结构,稳定性高[7,8]。证据已有表明,circRNA 可通过与microRNA 或RNA 结合蛋白(RNA binding protein, RBP)竞争性结合而间接调节下游基因的表达[8,9]。同时,circRNA 还具有核转录的调控因子、调节亲本基因的表达,并且丰富存在于外泌体中,参与HCC 的侵袭及转移,具有潜在的临床应用价值[10-12]。
近些年来,circRNA 被发现以不依赖帽子的方式如内部核糖体进入位点(internal ribosome entry site, IRES)元件、N6-甲基腺苷(N6-methyladenosine, m6A)等介导翻译起始[13,14],从而编码产生一类小分子多肽,调节细胞分子信号转导途径,参与恶性肿瘤的演变和进展[15,16]。胃癌中,CircAXIN1 可编码295 个氨基酸的AXIN1-295aa,其通过竞争性结合APC 介导β-catenin/TCF/Wnt 途径促进肿瘤增殖、侵袭及转移[17]。三阴性乳腺癌中,circ-HER2 可产生 HER2-103aa,通过 EGFR/HER3/AKT 途径促进肿瘤发生与侵袭,并增加TNBC 对帕妥珠单抗(Pertuzumab)的敏感性[18]。特殊的滚环翻译产物rtEGFR 亦被报道与胶质母细胞瘤成瘤和Nimotuzumab 药敏密切相关[19]。尽管circRNA 翻译组学持续研究及质谱证据的不断完善,肝癌中关于circRNA 翻译的案例鲜有报道,值得进一步调查。
本研究基于RNA-seq 对3 对肝癌与癌旁组织进行测序,通过生物信息学方法分析circRNA 的表达模式,进行序列分析、GO、KEGG 和Reactome 通路富集。通过在线翻译数据库Transcirc 和Ribocirc 对这些基因进一步筛选,并预测其编码潜能。应用qPCR 检测其表达。
3 例肝细胞癌样本取自海南省人民医院肝胆胰外科标本库,并遵从《赫尔辛基宣言》要求,签署伦理知情同意书。样本自离体30 min 内液氮速冻,并在-80 ℃冰箱内保存。组织样本均由外科手术获得,病理学诊断均为肝细胞癌,且所有患者术前均未行任何治疗,包括放化疗或射频消融等。
采用Trizol 法进行组织总RNA 的抽提,抽提所得的总RNA 取样质检。琼脂糖凝胶电泳分析RNA降解程度,判断是否有基因组污染。Qubit 3.0 检测RNA 样品浓度,Agilent 2100 Bioanalyzer 检测RNA的完整性(RIN 值≥7)。样品质检合格后,使用Total RNA-seq (H/M/R) Library Prep Kit for Illumina®构建文库,先将设计好的DNA 探针与RNA 样品进行杂交,从而将rRNA 从总RNA 中去除;随后将RNA 进行片段化,合成cDNA 第一链,采用链特异的方法,在第二链cDNA 合成时掺入dUTP 对其进行标记,同时在此步完成了末端修复;接着进行加A-尾、连接接头、连接产物纯化和片段大小分选、文库扩增等步骤,在PCR 扩增前用UDG 酶消化带dUTP 第二链模板,扩增结束后用磁珠纯化回收即得RNA-seq 文库。文库构建完成后,先使用Qubit3.0 进行初步定量,随后使用Agilent 2100 Bioanalyzer 对文库大小范围进行检测,插入的目的片段大小符合预期后,使用QPCR 方法对文库的有效浓度进行准确定量(文库有效浓度>3 nmol/L),以保证文库质量。库检合格后,将不同文库按照有效浓度及目标下机数据量的需求pooling,采用Novaseq 6000 PE150 模式进行测序,测序数据量10G。
使用Bowtie2 version 2.1.0 将获得的reads 与最新的UCSC 转录集进行比对[20]。首先,对原始reads进行过滤,去除接头序列、含N 较多的序列及低质量的reads,获得高质量数据(Clean reads)。然后,通过与核糖体数据库进行比对,去除核糖体RNA序列,获得有效的reads,将有效的reads 与参考基因组进行比对,结果用于下一步circRNA 的鉴定。
对于circRNA 的表达分析,使用STAR 软件与基因组序列进行比对,使用DCC 软件鉴定circRNA,并通过edgeR 程序计算circRNA 表达[21-23]。TMM (trimmed mean of M-values)将基因的表达进行标准化,并过滤掉TMM 表达较低的circRNA(CPM>0.1).随后根据分组信息,基因表达P<0.05 且fold changes > 1.5 被认为差异具有统计学意义。根据差异性表达的circRNA 来源的宿主基因,进行了GO 功能和KEGG、Reactome 通路的富集分析。R 语言用于图表绘制.
将差异表达circRNA 在TransCirc 和riboCirc 数据库中进行搜索并取交集,使用IRESfinder 软件预测circRNA 序列上的IRES 元件,m6A SRAMP 数据库识别m6A 位点,NCBI ORFfinder 预测开放阅读框(open reading frame, ORF)序列,CPAT 预测编码潜能,包括ORF 大小、ORF 覆盖率、Fickett TESTCODE 统计量(即根据碱基组成及密码子偏好性的组合效率区分序列是否编码)及hexamer 使用偏好性(通过log 似然估计评估编码与非编码序列使用hexamer 的偏好性)。
采用Trizol 法进行组织总RNA 的抽提;接着进行总RNA 反转录(首先配制gDNA Eraser 反应混合液,其次将上述混合液按一定试剂与用量配制RNA反转录混合液,最后将RNA 反转录混合液先于42 ℃水浴中放置15 min,再于85 ℃水浴中放置5 s后立即置于冰上,获得反转录产物(cDNA),随即将反转录产物(cDNA)可立即用于qPCR 检测,或存于-80 ℃。样品信息与体系检测(检测引物信息;Real-time PCR 检测反应体系与循环体系),引物序列见表1;上机进行实验得到结果。
表1 11 个circRNA 及内参基因qPCR 检测的引物序列Tab 1 Primer sequences for qPCR detection of 11 circRNAs and internal reference genes
将qPCR 实验数据采用定量数值及分析(2-ΔΔCt)分析法,得到计算结果,然后用统计学Wilcoxon 秩和检验分析上述结果得到P值。
原始数据经质量评估合格后,去除reads 的引物以及接头,并剪切掉低质量序列片段,序列与基因组比对结果(图1A)。进一步分析发现多数以编码区、内含子区域和基因间区域分布的reads 为主(图1B)。样品主成分分析显示癌与癌旁组织分别聚类在一起(图1C)。
图1 序列比对结果评估及reads 在基因组区域分布情况Fig 1 Evaluation of sequence alignment results and distribution of reads in genomic regions
根据原始reads 数比对结果进行circRNA 的表达模式分析,共发现10 316 个circRNA。由于表达丰度足够高的基因才能反应真实的生物学现象,为识别出具有生物学意义的差异表达基因,使用TMM 对不同样品每个基因的表达之进行标准化即基因的CPM(counts per million),同时对基因的表达进行过滤,过滤标准为:CPM 值在至少在一半样本中都大于0.1。共发现了416 个丰度相对可观的circRNA(图2A),存在35 个上调的circRNA,31 个下调的circRNA(fold-change≥1.5,P<0.05)(图2B)。聚类分析显示这些差异基因可以明显的区分开来(图2C)。进一步统计这些circRNA 对应的染色体位置(图3A)。通过对circRNA 的长度进行统计,发现主要以0~1 000 nt 小分子量circRNA 占多数,高峰主要位于500 nt 左右(图3B、C);其次对circRNA 的种类进行统计,发现以外显子-外显子类型的circRNA 占多数,其次是内含子-外显子类型的circRNA 和内含子-内含子类型的circRNA(图3D);对构成circRNA 的外显子个数进行统计,发现以3个外显子组成的circRNA 占最多数,其次是2 个外显子组成的circRNA、4 个外显子组成的circRNA 以及5 个外显子组成的circRNA(图3E)。
图2 circRNA 的表达模式Fig 2 The expression pattern of circRNA
图3 circRNA 的序列分析Fig 3 Sequence analysis of circRNA
对上诉66 个差异性表达的circRNA 进行功能、通路富集分析,GO 显示这些差异基因在生物过程方面主要涉及在GTP 酶活性的调节(P<0.001)、小GTP 酶介导的信号转导的调节(P<0.001)及GTP酶活性的正向调节(P<0.001)等;细胞组成方面主要涉及在核斑点(P=0.016)、血液微粒(P=0.005)及内质网腔(P=0.035)等;分子功能方面主要涉及在GTP 酶监管活动(P<0.001)、GTP 酶激活活动(P<0.001)及鸟嘌呤核苷酸交换因子活性(P=0.012)(图4A)。KEGG 分析显示主要涉及在补体系统(P=0.002)、mRNA 监测通路(P=0.003)及血小板激活通路(P=0.005)等(图4B)。Reactome 分析显示主要涉及在RHO GTP 酶周期(P=0.008)、CDC42 GTP 酶周期(P=0.001)及RAC1 GTP 酶周期(P=0.002)等(图4C)。这提示差异性表达的circRNA 可能通过上诉功能、分子机制参与肝癌的发生。
图4 差异基因的功能、通路富集分析Fig 4 Functional and pathway enrichment analysis of differentially expressed genes
为了获得可翻译的circRNA,对上诉66 个差异基因进行翻译潜能预测。发现共有17 个基因可与TransCirc 和riboCirc 数据库共交集(图5),同时对这些circRNA 进行IRES、m6A 位点及ORF 个数进行预测分析,结果显示hsa_circ_0000231、hsa_circ_0000417、 hsa_circ_0000745、 hsa_circ_0005455、hsa_circ_0000847、 hsa_circ_0005552、 hsa_circ_0060849、 hsa_circ_0008234、 hsa_circ_0075796、hsa_circ_0001742 及hsa_circ_0001686 共11 个基因编码潜能评分最显著且均大于0.9 分,见表2。
图5 差异基因与TransCirc 和riboCirc 数据库取交集基因的韦恩图Fig 5 Venn diagram of differentially expressed genes intersecting with TransCircle and riboCircle databases
表2 17 个circRNA 的翻译潜能评估Tab 2 The evaluation of translation potential of 17 circRNAs
为了进一步筛选出更具有意义的差异表达基因,用10 对肝癌和癌旁组织对上述11 个基因进行qPCR 试验,结果显示,hsa_circ_0000231、hsa_circ_0005552、hsa_circ_0000847 及hsa_circ_0000745 共4个基因在肝癌中高表达(P<0.05;W 分别=39;45;49;41)(图6A);而hsa_circ_0008234 和hsa_circ_0060849 呈低表达(P<0.05;W 分别是-55;-37 ),差异具有统计学意义(图6B)。
图6 编码潜能评分最显著且均大于0.9 分的11 个基因在肝癌和癌旁组织中的表达情况Fig 6 The expression of the 11 genes with the most significant coding potential score and all scores greater than 0.9 in liver cancer and adjacent tissues
肝癌是最常见的恶性肿瘤之一。近年来,circRNA 多有报道调控肿瘤细胞周期及分子信号转导等,在肝癌的增值、侵袭及复发转移起着重要作用[24]。在circRNA 编码多肽方向,肝癌中仅有两例报 道 ,β-catenin 基 因 来 源 的 Circβ-catenin(circ0004194,2-7 外显子反向拼接,约1 129 nt),其主要存在细胞胞浆中,与β-catenin mRNA 的表达水平呈正相关的关系。Circβ-catenin 可编码蛋白β-catenin-370aa,竞争性结合GSK3β 并抑制其磷酸化后β-catenin 的降解,促进Wnt/β-catenin 通路的不断活化,形成“正反馈“效应,促进肝癌细胞的生长增殖和转移[25]。由ARHGAP35 基因2-3 外显子来源的circARHGAP35 在HCC 组织中表达显著升高,定位于胞质中且与ARHGAP35 mRNA 表达水平相反,circARHGAP35 可通过m6A 介导的翻译起始,翻译一种1289aa 的蛋白,与TFII-I 相互作用,促进细胞增殖和迁移侵袭[26]。本研究基于RNA-seq技术结合circRNA 翻译数据库共发现17 个具有丰度可观、表达差异且潜在编码潜能的circRNA,对这些基因进一步分析IRES 元件、m6A 位点及ORF 序列预测,结果显示11 个circRNA(hsa_circ_0000231、hsa_circ_0000417、 hsa_circ_0000745、 hsa_circ_0005455、 hsa_circ_0000847、 hsa_circ_0005552、hsa_circ_0060849、 hsa_circ_0008234、 hsa_circ_0075796、hsa_circ_0001742 及hsa_circ_0001686)编码潜能最显著,提示这些circRNA 可能通过编码多肽在肝癌的侵袭转移中发挥重要作用。
对上诉11 个具有编码潜能的circRNA 进行表达验证发现hsa_circ_0000231、hsa_circ_0005552、hsa_circ_0000847 及hsa_circ_0000745 在肝癌中呈高表达,而hsa_circ_0008234 和hsa_circ_0060849 呈低表达。
结合文献报道,本研究发现hsa_circ_0000745和hsa_circ_0000847 和hsa_circ_0008234 在肝癌中有直接性报道,有研究表明,hsa_circ_0000745 的同源基因circ-SPECC1 通过海绵miR-33a 调节氧化应激下TGFβ2 和自噬,促进肝细胞癌的增殖[27]。此外,hsa_circ_0000745 在其他恶性肿瘤中也有涉及,其通过降低E-cadherin (E-cad)表达来促进宫颈癌细胞的增殖、迁移和侵袭能力[28]。有学者指出,hsa_circ_0000847 直接靶向miR-135a 来促进p-p38、p-ERK 和p-JNK 的表达,从而进一步激活MAPK 通路加快调控肝癌细胞的发展[29]。有趣的是,另有研究报道,hsa_circ_0000847 的同源基因circSMAD2在HCC 中显低表达,通过靶向miR-629 抑制HCC细胞的迁移、侵袭和EMT[30]。这种表达相反的结果可能与人类HCC 组织的个体差异和小样本量有关,这需要进一步评估。值得注意的是,有多项研究表明,hsa_circ_0008234 在肿瘤组织高表达,这与qPCR 检测结果有差异,这可能与肿瘤的异质性有密切联系,需要进一步深入研究。其中,hsa_circ_0008234 的同源基因circ-FOXP1 可通过作为ceRNA 调控miR875-3p/miR-421 轴从而导致HCC 的恶性生物学行为[31]。此外,在结肠癌中,hsa_circ_0008234 通过miR-338-3p/ETS1/PI3K/AKT 轴促进细胞的增殖、浸润[32]。 hsa_circ_0000231 和hsa_circ_0005552 在其他系统恶性肿瘤中均有涉及,包括结肠癌、膀胱癌及宫颈癌等[33-35]。例如,hsa_circ_0000231 可通过IGF2BP3/miR - 375 双通路上调CCND2 促进结直肠癌细胞生长,一方面作为miR-375 的竞争内源性RNA 促进细胞周期蛋白D2(CCND2),另一方面与IGF2BP3 蛋白结合阻止CCND2 降解[33]。同时,有的研究表明,hsa_ circ_0000231 的同源基因circARHGAP12 通过m6a 依赖性IGF2BP2/FOXM1 通路在宫颈癌进展中发挥致癌作用[34]。与此同时,hsa_circ_0005552 的同源基因EHBP1 在膀胱癌中通过miR-130a-3p/TGFβR1/VEGF-D 信号轴促进膀胱癌的淋巴管生成和淋巴转移[35]。然而,hsa_circ_0060849 及其同源基因circRNA 在恶性肿瘤中均未见报道。此circRNA 是否在恶性肿瘤尤其肝癌中扮演着重要角色,参与肿瘤生物学过程,尚不清楚,具有重要的研究价值。
本研究仍存在一些不足,首先测序样本量较少,意味着结果具有一定的假阳性。其次,本研究依赖于circRNA 翻译数据库去筛选可编码基因,一些未被数据库收录的circRNA 而实际上具有编码潜能基因被忽视。未用大量组织样本去验证这些基因的差异性表达,且这些差异性circRNA 功能上是否具有生物学意义,后续将进一步探索。
综上,研究初步表明6 个circRNA 在肝癌中具有高的翻译潜能且存在差异性表达,相关性研究,值得进一步研究。
作者贡献度说明:
林熊:实验操作、数据整理、论文撰写;褚凤冉、曹智、叶妃:数据整理、统计学分析;武金才、陈家诚:实验指导、经费支持;刘路政:研究设计、论文修改、经费支持。
所有作者声明不存在利益冲突关系。