袁浩桐,姜博文,李真鹏,井媛旭,袁硕,杨超
(齐齐哈尔医学院 1.口腔医学院;2.医学技术学院生物化学教研室,黑龙江 齐齐哈尔 161006)
肝癌是我国常见的恶性肿瘤之一,其病死率位居恶性肿瘤第3位[1]。肝细胞癌(hepatocellular carcinoma,HCC)是最常见的肝癌类型,约占肝癌的90%[2]。手术切除和肝移植是肝癌患者的根治性疗法,但术后转移及复发风险高,预后极差[3]。因此,深入探究肝癌发病机制,积极寻找肝癌早期分子标志物,对提高肝癌的预后有重要意义。
环状RNA(circle RNA,circRNA)是一类特殊的非编码RNA分子,首尾相接形成闭合的圆环,不易被RNA酶降解,被认为是有潜力的生物标志物[4]。circRNA可通过竞争性内源RNA(competitive endogenous RNA,ceRNA)机制,影响肝癌的发生和发展。HUANG等[5]发现circRNA_104348可通过吸附miR-187-3p,上调靶基因RTKN2的表达,促进肝癌细胞的增殖和迁移。但circRNA在肝癌中的研究仍处于初级阶段,有待进一步探讨[6]。
本研究基于基因表达综合(Gene Expression Omnibus,GEO)数据库中下载的数据集GSE97332和GSE164803,筛选出肝癌相关差异表达circRNA,并构建肝癌预后相关ceRNA调控网络,为深入挖掘肝癌发生的分子机制,寻找肝癌潜在的circRNA诊断标志物提供一定的研究依据。
HCC相关circRNA表达谱数据下载自GEO数据库(http://www.ncbi.nlm.gov/geo/)。数据集GSE97332包括7例HCC样本和7例肝正常组织样本,芯片平台为GPL19978;GSE164803包括6例HCC样本和6例肝正常组织样本,芯片平台同为GPL19978。
采用GEO2R在线工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/),以校正后的P<0.05、|log2FC|>2为标准,筛选数据集GSE97332及GSE164803中的差异表达circRNA,交集分析得到共差异表达circRNA。
分别在Circular RNA Interactome(https://circinteractome.nia.nih.gov/)与circBank(http://www.circbank.cn)数据库中预测与共差异表达circRNA相结合的miRNA,所得结果取交集作为后续研究的miRNA。
分别在miRDB(http://mirdb.org/)、RNAInter(https://www.rna-society.org/rnainter/)、Targetscan(http://www.targetscan.org/)数据库中预测miRNA的下游靶基因mRNA。交集分析确定miRNA最终调控基因。依据ceRNA理论构建circRNA-miRNA-mRNA网络,并用Cytoscape3.7.2软件(http://www.cytoscape.org/)将网络可视化展示。
利 用DAVID数据库(https://david.ncifcrf.gov/)对筛选出的靶基因进行基因本体(Gene Ontology,GO)功能富集分析和京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,富集标准为P<0.01,基因数>10。
在STRING数据库(https://string-db.org/)中查询靶基因的蛋白质互作信息,以PPI combined score>0.4为阈值条件,在Cytoscape3.7.2软件中构建PPI网络,应用CytoHubba插件中的Degree算法,选择前10 位基因作为核心基因。
应用基于基因表达水平值的交互式分析平台(Gene Expression Profiling Interactive Analysis,GEPIA)对核心靶基因进行生存分析,肿瘤类型选择“liver hepatocellular carcinoma,LIHC”,检测核心基因的表达对肝癌患者总生存率的影响,P<0.05为差异有统计学意义。
应用GEO2R对HCC相关circRNA数据集进行差异表达circRNA筛选,以校正后P<0.05,|log2FC|>2为标准,从GSE97332中得到147个差异表达的circRNA,其中,上调97个,下调50个(图1A);从GSE164803中得到67个差异表达的circRNA,其中,上调22个,下调45个(图1B),将2组数据取交集仅得到1个共差异表达circRNA:hsa_circRNA_0000301,将其作为后续研究对象。
图1 GSE97332与GSE164803差异表达circRNA火山图Fig.1 Volcano map of differentially expressed circRNAs in GSE97332 and GSE164803
采用生物信息学软件Circular RNA Interactome及circBank来预测与hsa_circRNA_0000301结合的miRNA,结果显示,通过Circular RNA Interactome 得到8个与hsa_circRNA_0000301互作的miRNA,通过circBank得到26个与hsa_circRNA_0000301互作的miRNA(表1),交集分析得到4个miRNA,即hsa-miR-377-3p、hsa-miR-767-3p、hsa-miR-1178-3p及hsamiR-1228-3p。
表1 生物信息学预测与hsa_circRNA_0000301相结合的miRNATab.1 Bioinformatics prediction of miRNAs associated with hsa_circRNA_0000301
采用miRDB、RNAInter、TargetScan数据库预测上述4个miRNA的靶基因,交集分析确定miRNA最终调控基因。结果显示,hsa-miR-377-3p的靶基因有296个,hsa-miR-767-3p的靶基因有260个,hsa-miR-1178-3p的靶基因有154个,hsa-miR-1228-3p的靶基因有144个(图2)。将4个miRNA的靶基因汇总去重后,最终得到813个靶基因。采用Cytoscape软件构建肝癌相关circRNA-miRNA-mRNA调控网络图。网络中包含1个circRNA节点、4个miRNA节点、813个mRNA节点和858条边。
图2 应用miRDB、RNAInter、TargetScan数据库预测miRNA的靶基因Fig.2 Target genes of miRNAs were predicted using miRDB,RNAInter,and TargetScan databases
应用DAVID数据库对与813个靶基因进行GO功能和KEGG通路富集分析。GO分析结果显示,有15个生物学过程存在富集,主要包括RNA聚合酶Ⅱ启动子的转录正调控、泛素依赖性蛋白质分解代谢过程、细胞对缺氧的反应等;10个细胞组分存在富集,主要有突触后膜、双细胞的紧密连接、核内体等;13个分子功能存在富集,主要有蛋白激酶结合、序列特异性DNA结合、RNA聚合酶Ⅱ核心启动子近端区域序列特异性DNA结合等(图3)。KEGG分析结果显示,hsa_circRNA_0000301在6个通路中富集,包括与肝癌发生密切相关的MAPK信号通路、FoxO信号通路、Wnt信号通路等(图4)。
图3 GO功能富集结果Fig.3 Gene ontology enrichment analysis results
图4 KEGG通路富集分析结果Fig.4 Results of KEGG pathway enrichment analysis
在STRING数据库中查询813个靶基因的蛋白质互作关系,构建PPI网络,应用Cytoscape中的CytoHubba插件,筛选出的10个核心基因为EGFR、STAT3、SMAD2、HIF1A、MTOR、EIF4E、NR3C1、PRKACB、NRAS、CHD4。
应用GEPIA数据库查询核心基因与肝癌患者预后的关系,结果显示,EIF4E、PRKACB、NRAS这3个基因高表达患者的总生存率均明显低于低表达患者,差异有统计学意义(P<0.05),其他7个基因对肝癌患者总生存率的影响不显著(图5)。
图5 核心基因生存分析曲线Fig.5 Survival analysis curves of core genes
在cytoscape软件中构建HCC预后相关circRNAmiRNA-核心靶基因调控网络,网络由1个circRNA节点、2个miRNA节点、3个预后相关核心靶基因节点组成(图6)。
图6 HCC预后相关circRNA-miRNA-核心靶基因网络图Fig.6 Network of circRNA-miRNA-core target genes related to the prognosis of HCC
肝癌具有难诊断、难治疗、易转移、易复发等临床特点[7],除早期可进行手术切除和肝移植外,几乎无根治性治疗方法。因此,深入探讨肝癌发病机制,寻找肝癌新的特异性生物靶点,实现早期诊断和治疗尤为重要。circRNA由于其自身性质稳定、表达具有时空特异性等天然优势,具有成为肿瘤生物标志物的先天条件[8]。近来研究[9]表明,circRNA在肝癌等多种癌症中异常表达,通过ceRNA机制吸附miRNA参与肿瘤的发生发展。
本研究通过对数据集GSE97332和GSE164803进行差异表达分析,筛选出1个circRNA:hsa_circRNA_0000301,提示该circRNA在HCC中具有一定的特异性。研究[10]表明,circRNA_0000301位于11号染色体上,其亲本基因为SPL1,circRNA_0000301参与乳腺癌的发生发展,但其在肝癌中的作用尚不清楚。进一步预测出与circRNA_0000301相结合的miRNA及下游靶基因,并构建ceRNA网络图。应用DAVID数据库对靶基因进行GO和KEGG功能富集分析,最后通过PPI网络及预后分析筛选出3个预后相关核心靶基因,分别为EIF4E、PRKACB和NRAS,并构建出circRNA-miRNA-核心靶基因调控网络。
GO分析结果显示,靶基因在RNA聚合酶Ⅱ启动子的转录正调控、泛素依赖性蛋白质分解代谢过程等功能存在富集。研究[11-13]表明,泛素介导的蛋白水解在肿瘤发生中发挥重要作用,如参与调节细胞周期进展、肿瘤转移等。KEGG分析结果表明靶基因可能在与HCC发生密切相关的MAPK信号通路、FoxO信号通路、Wnt信号通路中发挥作用。细胞内信号通路的失调可引起细胞增殖与凋亡异常,导致细胞癌变的发生[14]。
研究[15]表明,EIF4E基因编码在真核翻译起始中起关键作用的蛋白分子,EIF4E的高表达可诱导细胞周期、细胞生长和血管生成等相关蛋白的表达上调,影响癌症的发生发展。据报道[16],EIF4E在HCC样本中表达升高,且与患者的不良预后相关,可作为肝癌患者的独立预后指标。PRKACB基因编码cAMP依赖性蛋白激酶催化亚单位 β,该蛋白是丝氨酸/苏氨酸蛋白激酶家族成员之一,可调控细胞增殖、分化等多种细胞进程,参与肿瘤的生长及转移。YE等[17]研究发现,miR-302可靶向PRKACB抑制肝癌细胞的增殖和迁移。NRAS基因编码的N-Ras蛋白参与RAS/MAPK信号通路,调控细胞生长、增殖等过程。索拉菲尼是肝癌治疗的一线药物,研究[18]发现,NRAS在索拉菲尼耐药的肝癌细胞中显著高表达,敲除NRAS后可增强拉索菲尼对耐药细胞的治疗效果。
综上所述,本研究由生物信息学方法筛选出的3个HCC预后相关基因均在HCC的发生发展中发挥重要作用。本研究首次发现了可能与HCC发生密切相关的circRNA(hsa_circRNA_0000301),并构建出与HCC预后相关的circRNA-miRNA-核心靶基因ceRNA调控网络,为进一步挖掘肝癌发生的分子机制,寻找HCC潜在的circRNA诊断标志物提供一定的研究依据。