农顺强,陈晓昊,许桂丹,韦武均,彭 彬,周 律,邓益斌
肝细胞癌(hepatocellular carcinoma, HCC)是常见的恶性肿瘤之一,其发病率居全球第六位、死亡率居第四位[1]。慢性乙型肝炎病毒(HBV)感染是大多数高危HCC地区的主要危险因素。大量研究表明,HBV参与肝细胞的癌变、侵袭和转移,在肝癌的发生发展中起着至关重要的作用[2-4]。由于缺乏特征性临床表现,HCC的大部分诊断多处于晚期,预后较差。尽管一些文献报道了一些用于早期诊断的血清生物标志物,但结果并不十分令人满意[5-7]。因此,探求新的早期发现与早期干预标志物,对于改善肝癌患者预后和提高其长期生存率尤为重要。长链非编码RNA(lncRNA)一般是指长度大于200个核苷酸(nucleotide, nt),缺乏或者仅有微弱蛋白编码能力的RNA[8-9]。LncRNA已经被证实在HBV相关肝细胞癌发生中起着至关重要的作用[10],然而,关于lncRNAs作为预测性生物标志物和治疗靶点的研究仍然非常有限。本研究利用生物信息学方法,筛选出在HBV相关肝癌和癌旁组织差异表达的 lncRNA 和mRNA,探究候选lncRNA在肝癌发生、发展进程中的作用机制;对筛选出的lncRNA进行qRT-PCR验证及受试者工作曲线(ROC)的分析,为进一步揭示HCC的发病机制提供新的线索。
1.1 临床资料收集2019年2月至2020年12月右江民族医学院附属医院肝胆外科及体检科患者。肿瘤组(n=45)为HBV阳性原发性肝癌患者,其中男35例、女10例,年龄(52.2±8.3)岁;对照组(n=58)为乙肝病毒携带无肿瘤患者,其中男38例、女20例,年龄(51.0±8.4)岁。2组一般资料差异无统计学意义(P>0.05)。本研究经本院医学伦理学委员会批准(批准号:2019012601),患者均签订知情同意书。从美国国立生物技术信息中心的GEO数据库中,获取3个HBV相关肝癌芯片表达数据集GSE55092、GSE19665和GSE84402。其中GSE55092包括49例肝癌和91例癌旁正常样本,GSE19665包括肝癌和癌旁正常样本各5例,GSE84402包括肝癌和癌旁正常样本各13例,作为差异基因的筛选集。
1.2筛选差异表达基因从Affymetrix官方网站(www.affymetrix.com)下载芯片探针序列FASTA格式文件,使用SeqMap工具将HG-U133_Plus_2芯片的探针序列与GENCODE的人类基因组(GRCh38)(https://www.gencodegenes.org/)(release 30)和lncRNA基因序列进行比对,获取非编码RNA(non-coding RNA)和信使RNA(mRNA)探针信息。使用R语言中的limma[11]包标准化数据,将肿瘤组与对照组比较,以差异倍数2倍(|logFC|>1),P<0.05为标准,获取差异基因;使用R语言中RobustRankAggreg[12]包,根据差异倍数值对基因进行排序,并选出3个数据集中都存在差异表达的基因。
1.3 筛选HBV相关HCC的候选诊断lncRNA生物标志物为了筛选HBV相关HCC的最佳诊断lncRNA生物标志物,利用机器学习,通过使用随机森林分析进行特征选择,每个lncRNA的重要性根据平均基尼减少量(mean decrease gini, MDG)排序;通过十乘交叉验证,MDG值从大到小逐一添加差异lncRNA计算分类结果准确度来确定最佳特征数量。
1.4基因共表达分析、基因功能和通路富集分析根据基因表达值,计算所有筛选出的差异表达lncRNA与mRNA两两间的皮尔森相关系数,选取相关系数绝对值|r|>0.5,且校正后P<0.05的lncRNA和mRNA对,纳入共表达分析网络。利用DAVID(https://david.ncifcrf.gov/)对共表达的差异基因进行基因本体(gene ontology,GO)富集分析及京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)分析,以P<0.05为富集标准。
1.5候选分子在肝癌患者血浆中表达量的验证利用qRT-PCR检测候选lncRNA在血浆样本的相对表达量,并检测肿瘤组及对照组病例的甲胎蛋白值。对有统计学差异的候选分子进行单个lncRNA或联合的ROC分析。qRT-PCR试剂为美国Thermo公司的反转录试剂RevertAid First Strand cDNA Synthesis Kit及上海翊圣生物科技有限公司的荧光定量试剂Hieff®qPCR SYBR Green Master Mix®,使用仪器为Lightcycler96荧光定量PCR仪及伯乐BIO-RAD T100TMThermal Cycler型PCR仪;甲胎蛋白的测定为美国雅培i2000SR及其配套试剂。
2.1 差异基因筛选根据筛选条件从表达谱数据集GSE55092, GSE19665和GSE84402中分别提取了103、333、158个差异表达的lncRNA和1182、2147、1579个差异表达的mRNA。根据差异倍数值,对3个数据集差异基因进行排序,然后对3个数据集进行RobustRankAggreg分析,总共从3个数据集中鉴定出38个差异lncRNA,包括25个上调的和13个下调的lncRNA,以及541个DEmRNA,包括195个上调的和348个下调的mRNA,见图1。
2.2基因共表达分析、基因功能和通路富集分析候选lncRNA与126个mRNA存在共表达,共199个mRNA-lncRNA共表达对。共表达mRNA的GO功能富集结果表明,表达失调的基因主要富集于与单羧酸代谢过程、类固醇代谢过程、细胞分裂、有丝分裂细胞周期过程、基底质膜、纺锤体极、基底外侧质膜、基底部分细胞、细胞外空间、纺锤体、辅因子结合、蛋白质同源二聚化活性、辅酶结合、小分子结合、相同蛋白质结合等181个GO条目。KEGG通路分析显示,差异基因主要富集在p53信号通路、视黄醇代谢、PI3K-Akt信号通路、化学致癌作用和过氧化物酶体等信号通路。见图2。
行代表差异基因,列代表样本(绿色和红色分别表示正常和肿瘤样品)
图 2 差异基因GO分析和KEGG分析结果Figure 2 The gene ontology along with the signal pathway enrichments
2.3候选分子在肝癌患者血浆中表达量的验证对通过数据挖掘挑选出的9个候选lncRNA,在血浆样本中进一步验证。EHMT2-AS1、AC093642.1在肿瘤组与对照组间差异无统计学差异(P>0.05);AC003991.1、AL445524.1、LINC00844、AL56056.2、AC008040.1、TRIM52-AS1、LINC01018肿瘤组与对照组比较差异有统计学意义(P<0.05),肿瘤组表达上调,见图3。ROC曲线分析结果显示,见表1,候选的7个lncRNA对HBV相关HCC的诊断均有一定的价值,其中LINC00844和LINC01018的曲线下面积(AUC)分别为0.851及0.850,具有较高的诊断价值(AUC>0.85), TRIM52-AS1、AC003991.1分类效果较好, AL445524.1分类效果较一般。甲胎蛋白的AUC为0.646(95% CI: 0.5333~0.7586),见表1。
图 3 血浆中验证候选lncRNA的表达量
表 1 单个lncRNA诊断HCC的价值
采用逐步logistic回归分析,通过选择赤池信息准则(akaike information criterion, AIC)信息统计量最小来增减变量,AIC的方法是寻找可以最好地解释数据但包含最少自由参数的模型。结果显示,LINC01018、AC003991.1、AL445524.1及LINC00844可以作为联合判别HBV相关HCC的生物标志物。以4个lncRNA在血浆中的相对表达量值联合及与甲胎蛋白临床测量值联合作 ROC曲线分析,构建logistic回归模型,评价其对HBV相关HCC联合判别的能力。4-lncRNA联合构建logistic回归模型的AUC分别为0.910,敏感度和特异度分别为0.828、0.911; 4-lncRNA与甲胎蛋白联合构建logistic回归模型的AUC为0.986,敏感度和特异度分别为0.969、0.964。见图4。
图 4 4-lncRNA联合及与APF联合的ROC图
肝癌是一种发病率及死亡率高的、常见的消化系统肿瘤。目前手术仍是肝癌常规的治疗手段,但基于其起病隐匿、侵袭性强、进展迅速且预后差,大多数患者确诊时已是中晚期,5年生存率低[13]。随着生物信息学的发展,为疾病诊断及治疗靶点的探究提供了新途径。本研究利用生物信息学方法筛选并验证了7个lncRNA在HBV相关HCC患者与对照组血浆间存在显著差异,在评估对HBV相关HCC的鉴别中,7个lncRNA都有一定的诊断价值;我们通过逐步逻辑回归方法确定将4个lncRNA联合及与甲胎蛋白联合来诊断HBV相关HCC,显示出较高的诊断效能。
研究发现EHMT2-AS1的变异与慢性乙型肝炎的风险有关[14-15],其在HBV相关肝癌发生发展中的分子机制有待进一步研究。研究显示TRIM52-AS1的敲低可抑制细胞增殖、迁移、侵袭和上皮-间质转化,并抑制体内肿瘤生长;机制研究表明,TRIM52-AS1通过ceRNA网络调控机制来影响HCC进展[16]。LINC01018靶向FOXO1竞争性结合miR-182-5p调节肝癌细胞的增殖及细胞凋亡[17]。此外,报道显示LINC01018通过LINC01018-hsa-miRNA-574-5p-葡萄糖-6-磷酸酶催化亚基的ceRNA网络在HBV诱导的肝癌过程中具有关键作用[18]。文献表明,LINC00844通过调节药物代谢酶的表达影响药物代谢和毒性[19],LINC00844在HCC中下调,与门静脉侵犯、高甲胎蛋白及高复发率等不良肿瘤特征相关,其过表达可使MAPK信号转导通路失活而显著抑制HCC细胞的增殖、迁移和侵袭[20-21]。
本研究中除EHMT2-AS1、TRIM52-AS1、LINC01018及LINC00844外,其余lncRNA的相关生物学功能未见报道。鉴于lncRNA作用机制的研究多处于探索阶段,而lncRNA-mRNA的共表达分析是鉴定lncRNA潜在靶基因和进一步研究lncRNA生物学功能的常用方法[22]。故本研究构建lncRNA-mRNA的共表达网络,以预测HBV相关HCC的lncRNA潜在的生物学功能。在差异的mRNA中,STEAP3与AC003991.1、RRM2与AC093642.1、IGFBP3与AL445524.1存在共表达,并富集于p53信号通路。癌细胞因快速增殖需大量铁,STEAP3编码的蛋白质能调节细胞内铁储存并帮助肿瘤在缺铁环境中生长[23]。STEAP3可与STEAP4形成异二聚体,可影响金属稳态、细胞凋亡和细胞周期调控[24],且AC003991.1是STEAP4反义链lncRNA。研究表明反义lncRNA可以通过与邻近基因形成RNA-RNA二聚体来提高mRNA的稳定性,提高基因的表达效率[25-26]。RRM2参与癌细胞的增殖、分化、转移和耐药性调节,在多种癌症高表达[27-30]。IGFBP3在多种肿瘤中的沉默,过表达IGFBP3可诱导细胞凋亡并抑制细胞存活和生长[31-32]。血清IGFBP3水平与HCC发病率呈正相关[33],IGFBP3在HCC中的低表达与肿瘤大小、组织学分化、囊膜侵犯和门静脉侵犯相关[34]。本研究提示AC003991.1、AC093642.1和AL445524.1可能通过调节p53信号通路在HBV相关HCC的发生或发展中发挥重要作用。本研究中AC008443.1与CYP3A5共表达并富集于视黄醇代谢和化学致癌通路,提示其可能通过调节CYP3A5的表达或视黄醇代谢和化学致癌作用,参与HBV相关肝癌生发的调控。CYP3A5在多种肿瘤中异常表达,其异常表达与肿瘤的侵袭和转移密切相关[35-36]。此外,CYP3A5可通过调节mTORC2/Akt信号通路抑制HCC的发病和转移,并可作为预后标志物[37-38]。
综上所述,本研究通过生物信息学方法,便捷、经济地筛选到HBV相关肝癌中差异表达的lncRNA,并通过实验验证。以上研究结果为HBV相关肝癌的诊断提供了新的潜在循环分子标记物,有助于肝癌的早期筛查和预防,为临床上寻找肿瘤新的治疗靶点提供了实验及理论基础。