范阿慧 张瑞 周金池 何阳菘 樊代明 赵晓迪 卢瑗瑗
肝癌是全球第六大恶性肿瘤,也是第四大癌症相关死亡原因[1]。肝细胞癌(hepatocellular carcinoma,HCC)约占原发性肝癌的90%,尽管近年来HCC的治疗手段有了显著改善,但发病率和死亡率仍较高[2]。因此,HCC患者的早期诊断和预后预测至关重要。传统观念认为增强子通过招募转录因子进而调控靶基因转录水平。最近发现大多数活性增强子可以转录为eRNA,并在肿瘤发生发展过程中发挥作用[3]。研究表明eRNA异常表达与癌基因[4]、肿瘤抑制基因[5]失调以及细胞对外部信号的异常反应有关,如激素[6]、炎症[7]、缺氧[8],因此 eRNA有可能是潜在的诊断标志物及治疗靶点。本研究根据HCC患者预后信息以及与预测靶基因表达相关性筛选出的eRNA构建预后模型,同时对预后相关eRNA进行临床参数相关性分析和富集分析,以期为HCC的诊断和预后评估提供新的方向。
利用PreSTIGE算法,获得eRNA以及预测靶基因列表[9⁃10],并使用 EnsemblBioMart将转录本 ID 转化为基因 Symbol。从 TCGA 数据库(https://portal.gdc.cancer.gov)收集374例HCC患者的基因序列和临床数据。
使用交互式网络服务器TANRIC(癌症中非编码RNA图谱)对TCGA数据库中的HCC队列中eRNA的水平及其与临床的相关性进行研究。使用中位数法将TCGA数据库中的HCC患者分为高表达组和低表达组。使用TANRIC共表达数据评估eRNA水平与其预测目标基因之间的相关性。与总生存期(overall survival,OS)(Log⁃rankP<0.05)及其靶基因水平(r>0.5,P<0.001)相关的 eRNA,被认为是HCC中的候选关键eRNA。
通过Lasso回归分析获得候选eRNA的表达数据。采用多因素Cox回归分析构建eRNA的预后风险评分模型。采用时间依赖性受试者工作特征(receiver operating characteristic,ROC)曲线评估模型的区分度。此外,为了预测患者1年、3年和5年的生存概率,采用R语言rms软件包建立列线图模型,并绘制校准曲线,以评估模型预测值与实际观测值之间的一致性。
选取2019年8月—2019年12月在空军军医大学西京消化病医院肝胆胰外科收治的15例经术后病理诊断为HCC患者的肿瘤组织及其癌旁组织,并提取RNA。本研究样本的使用已通过本院伦理审核。
用TRIzol试剂盒提取上述细胞的总RNA,并通过逆转录试剂盒将RNA反转录成cDNA,然后用SYBR Green Master mix试剂盒和C1000热循环仪进行qRT-PCR实验,选取GAPDH作为内参。引物序列如下:DCP1A上游为5′-TCTGGACACAAGCATCTGACG-3′,下游为 5′-GGGTGGTGATTTCAGGCTGG-3′;GADPH上游为 5′-AGAAGGCTGGGGCTCATTTG-3′,下游为5′-GAAGACTGTGGATGGCCCCT-3′。PCR扩增条件:95 ℃ 10 min,95 ℃ 12 s,60 ℃ 30 s,72 ℃ 30 s,共45个循环。所有检测均在96孔板进行,每个样本设3个平行孔,实验重复3次。采用2-△△Ct法对目的基因进行表达量相对定量分析。
应用R软件中的DOSE、ggplot2、cluster、GOplot等数据包来执行GO分析和KEGG富集分析,并设置|log2(倍数变化)|>0.5和P<0.05作为纳入标准。采用富集分析探索DCP1A的潜在分子机制和通路。
采用独立样本t检验或单因素方差分析探讨DCP1A表达水平与临床病理参数之间的相关性,采用Bonferroni检验进行多重比较。所有统计检验均在IBM SPSS Statistics 25或R 3.6.3软件(https://www.r⁃project.org/)语言包中进行。双侧P<0.05被认为差异具有统计学意义。
使用PreSTIGE算法,共鉴定出2 695个eRNA以及2 303个预测靶基因。该转录本数据集用于识别eRNA及其靶基因。为了便于TANRIC中的数据探索,使用Ensembl BioMart将转录本ID转换为基因symbol。最后,根据TANRIC数据库提供的374例TCGA中的HCC患者的RNA测序数据,患者基本情况见表1,并确定了与OS相关(Log⁃rankP<0.05)的124个eRNA。其中27个eRNA同时与其预测的靶基因的mRNA水平呈正相关(r>0.5,P<0.001),见表2。
表1 TCGA数据库HCC患者的临床参数统计*Tab.1 Basic clinicopathologic features of the HCC patients in TCGA*
表2 关键eRNA列表Tab.2 List of key lncRNAs derived from enhancer
通过Lasso⁃Cox回归分析保留10个eRNA用于构建预后预测模型,见图1A~C。其风险评分公式如下:Risk score=0.090×DCP1A+0.231×SLC2A1⁃AS1+0.36×SLC25A24P1+0.888×SPRY4AS1+0.220×AP003469.2+0.221×SLC16A1⁃AS1+(-0.232)×AC093607.1+0.017×AL137803.1+0.015×LINC01184+(-0.081)×LINC00671。
绘制时间依赖性ROC曲线评估预测效能,结果显示1年、3年和5年AUC分别为0.73、0.66、0.67(图1D)。此外,本研究还构建了列线图模型(图1E),并采用校准曲线评估其一致性,结果显示校正曲线接近对角线,表明预测值与实际观测值之间具有良好的一致性(图1F)。
图1 基于eRNAs预后模型的建立及评估Fig.1 Development and evaluation of prognostic model based on eRNAs
在HCC患者中,DCP1A低表达组OS优于高表达组(Log⁃rankP<0.001),见图2A。此外,DCP1A和靶基因 PRKCD(r=0.52,P<0.001)、RFT1(r=0.51,P<0.001)的mRNA水平呈正相关,见图2B。为验证DCP1A在HCC患者中的表达,使用qPR⁃PCR检测15例HCC患者中DCP1A的表达,与正常组织相比,癌组织中的DCP1A表达水平显著升高(P=0.002),见图2C。
图2 DCP1A是HCC的关键eRNAFig.2 Impact of DCP1A on HCC
为进一步评估DCP1A在HCC中的作用,本研究分析了DCP1A表达水平与临床参数的关系,结果显示,DCP1A表达水平与肿瘤状态、病理学分级、临床分期有关,其中癌组织中DCP1A表达水平高于正常组织(P=0.009),G3分级的癌组织中DCP1A表达水平高于G1级(P=0.001)和G2级(P=0.002),临床分期为Ⅲ期的癌组织中DCP1A表达水平较Ⅰ期(P=0.003)和Ⅱ期(P=0.039)高,T3期癌组织中DCP1A表达水平高于T1期(P=0.014),见图2D。提示DCP1A在HCC中可能发挥促癌功能。
采用GO分析预测DCP1A在生物过程(biological process,BP),细胞组分(cell component,CC)和分子功能(molecular function,MF)的富集情况。结果显示,BP富集于染色质的共价修饰、组蛋白修饰和DNA复制等;CC富集于核斑点、染色体区域及纺锤体等;MF富集于解旋酶活性、泛素化和组蛋白集合等,见图3A。KEGG富集分析发现,DCP1A主要富集在癌症相关通路,如病毒致癌作用、癌症中的蛋白多糖、细胞周期等,见图3B。提示DCP1A可能通过发挥解旋酶、泛素化等活性,参与染色质修饰等生物学过程,调控HCC的发生发展。
图3 GO和KEGG富集分析Fig.3 GO and KEGG enrichment analysis
eRNA是从转录增强子区域由RNApollⅡ转录的顺式作用元件,属于lncRNA的一种[3]。越来越多的研究证实了eRNA在癌症诊断和预后预测中的可行性和有效性。近期一项大规模的临床研究表明组织特异的eRNA通过t分布随机邻近嵌入(t⁃SNE)可准确分辨癌症类型,且eRNA不仅与患者生存率相关,还与临床特征显著相关,如亚型、分期、分级等[11]。相对于大规模的临床研究而言,单一eRNA的临床研究探索逐渐增多,但目前在HCC中尚未见eRNA相关报道。本研究主要结合eRNA和TCGA数据库的基因序列和临床数据探索eRNA与HCC之间的关系,首先将与HCC患者预后相关及与靶基因显著相关作为筛选条件,最终选出27个关键eRNA;再通过Lasso回归筛选出10个eRNA并构建风险模型预测HCC患者的预后,最后通过时间依赖性ROC曲线、校准曲线评估预测模型的效能,证实了该模型在临床中具有潜在应用价值。同时还发现功能尚未注释的eRNA⁃DCP1A与患者预后及靶基因显著相关,进一步分析DCP1A表达水平与HCC患者临床参数的相关性,并进行GO和KEGG富集分析,以探索DCP1A发挥作用的潜在分子机制和靶点。结果发现DCP1A表达水平与HCC患者肿瘤状态、病理分级及临床分期相关,提示DCP1A可能在HCC的发生发展过程中发挥促进作用。GO分析结果显示DCP1A主要位于细胞核内,且可能通过与染色质和组蛋白相互作用发挥功能,并影响DNA复制以及修复过程。KEGG分析提示DCP1A与多种癌症相关通路有关,如病毒致癌作用、泛素介导的蛋白水解、癌症中的蛋白多糖、细胞周期等,进而影响HCC的发生发展。
本研究仍尚存局限性,如本研究构建的模型尚未在独立于TCGA的验证集中进一步验证,此外因DCP1A功能未被注释,其表达水平、具体作用机制仍需在独立验证集中验证,并在细胞以及动物层面探索DCP1A在HCC发生发展中的功能及其机制。
综上所述,本研究确定了与HCC患者生存高度相关且与靶基因显著相关的10个关键eRNA并构建预后模型,同时验证了模型的可行性;其中eRNA⁃DCP1A与HCC患者预后的相关性最显著。DCP1A及本研究构建的模型有望为HCC诊断和治疗提供新的思路。