马 莉, 李林静, 严 晶, 刘 转, 马青梅, 杨文娟, 刘欣跃
兰州大学第二医院检验医学中心,甘肃 兰州 730030
肝母细胞瘤(hepatoblastoma,HB)是最常见的儿童原发性肝脏恶性肿瘤之一,男性多于女性[1],约占小儿肝脏肿瘤的80%[2]。该病发病隐秘,被诊断时部分患者往往已发生转移,对婴幼儿的健康形成了巨大威胁[3]。对于儿童HB,最有效的治疗方式是外科手术切除,但由于儿童HB常伴随巨大肝脏占位,无法完成彻底清除,因此,当前主要选择外科手术切除与放化疗并行的临床治疗手段[4]。HB对化疗药物敏感,由顺铂、长春新碱、氟尿嘧啶和多柔比星等药物组成的新型辅助化疗方案,是术前缩小肿瘤大小、减小肿瘤转移灶的主要治疗手段,也是不具备手术指征癌症患者的首选治疗方案[5]。随着医疗水平的提高,儿童原发性肿瘤的存活率明显提高,但幸存者往往因为原发癌的治疗而长期遭受各种并发症[6],研究显示,儿童原发肝癌术后存活率与治疗暴露时间呈负相关,生存时间常随着暴露时间延长而缩短[7]。由于HB起病隐匿,影响因素复杂,样本量稀少,对其发病机制尚无明确的阐述。因此,从分子水平筛选HB诊断标志物,对于儿童及青少年HB的防治具有重要意义。
周期蛋白依赖性激酶(cyclin-dependent kinases,CDKs),与细胞周期不同阶段进展有关,是参与肿瘤发展的重要因子[8]。CDKs对多种癌症均具有促进的作用,如乳腺癌、肺癌、前列腺癌等[9-11]。有研究证实,应用CDK1抑制剂可导致肿瘤细胞迅速凋亡,降低HB小鼠的肿瘤生长,这间接说明CDK1可能通过抑制细胞凋亡来促进肿瘤发展[12]。
基因表达谱数据库是目前挖掘癌症相关生物信息学信息最常用的途径[13]。本研究对HB芯片数据GSE131329中的HB组织及正常肝组织进行对比,得到差异表达基因(differentially expressed genes, DEGs)后进行GO功能分析和KEGG通路富集分析。随后绘制蛋白质相互作用(protein-protein interaction, PPI)网络,筛选并验证hub基因。同时我们验证了CDK1与炎症细胞浸润的关系,旨在为HB发生发展的分子机制进一步提供生物信息学依据,也为预防和治疗儿童HB提供新的途径。
1.1 基因芯片数据来源本研究从GEO(https://www.ncbi.nlm.nih.gov/geo/)数据库[13]下载编号为GSE131329的基因芯片数据集。芯片一共包含67个组织样本,其中53个HB样本,14个正常肝脏样本。
1.2 数据处理使用GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)[14]在线分析工具比较HB组织样本与正常肝脏组织样本基因数据。首先将HB组织芯片GSE131329的ID全部转化为基因名后进行数据的标准化及去重,其次把筛选标准定为|logFC|>2且P<0.01,通过R语言绘制DEGs火山图。
1.3 DEGs的富集分析上调、下调DEGs利用DAVID数据库(http://david.abcc.ncifcrf.gov/)[15]分别进行GO功能和KEGG通路分析,并将结果绘图,P<0.05为差异有统计学意义。
1.4 PPI网络构建和关键基因(hub基因)筛选通过STRING网站(https://string-db.org/)[16]分别对上调、下调DEGs进行分析,最终得到上调、下调DEGs的PPI网络,并将其下载导出。随后将网络图通过Cytoscape软件以进行可视化调整,接着使用Cytoscape软件中的cytoHubba插件,采用MCC 算法依次对上调、下调DEGs进行计算分析,最终各选取上调、下调排名靠前的10个hub基因。
1.5 功能模块分析为进一步了解hub基因功能,我们使用Cytoscape软件中MCODE插件对PPI网络进行聚类分析。同时我们使用DAVID数据库将筛选出的功能模块基因进行KEGG PATHWAY分析,从而得到hub基因在HB中可能参与的信号通路。
1.6 hub基因验证分析使用GEPIA(Gene Expression Profiling Interactive Analysis,http://gepia.cancer-pku.cn)[17]数据库进一步验证hub基因,分析hub基因在HB组织和正常肝脏组织中的表达水平,并绘制其Kaplan-Meiter生存曲线。
1.7 靶基因在HB转录水平的表达分析使用CCLE(https://portals.broadinstitute.org/ccle/)[18]数据库验证hub基因在HB转录组的表达。下载数据为mRNA expression(RNA seq),得到hub基因在不同肿瘤中的表达情况,随后筛选出HB数据,以分析对比hub基因在不同肿瘤中的表达水平,预测其在癌症中的作用。
1.8 靶基因与炎症细胞浸润的分析使用TIMER(http://timer.cistrome.org/)[19]数据库分析靶基因表达与炎症细胞(包括B细胞、CD4+T细胞、CD8+T细胞、嗜中性粒细胞、巨噬细胞和树突状细胞)浸润水平之间的相关性,以分析靶基因与肿瘤的发生发展是否与炎症浸润有关。根据部分相关系数的绝对值将相关强度分类为:0.00~0.19“非常弱”,0.20~0.39“弱”,0.40~0.59“中等”,0.60~0.79“强”,0.80~1.0“非常强”。 基因表达水平用log2 RSEM显示。
2.1 HB组织和正常肝脏组织的DEGs通过对基因芯片GSE131329进行数据分析,从2 241条记录中筛选出266个DEGs(HB组/正常对照组),其中上调基因90个,下调基因176个。DEGs在两组中的表达情况如图1所示。
图1 HB中DEGs表达火山图
2.2 DEGs的GO和KEGG通路富集分析GO分析由生物过程(biological process,BP)、细胞组分(cellular component,CC)和分子功能(molecular function,MF)组成。采用DAVID数据库[15]对266个DEGs按上调、下调分别进行GO功能和KEGG通路富集分析,P<0.05为差异有统计学意义。经过分析我们发现,上调DEGs主要涉及核小体组装、Wnt信号通路、细胞增殖、细胞生长、细胞迁移、蛋白质代谢、药物反应、上皮间质转化和凝血等生物过程,参与外泌体、原生质膜、细胞外空间、细胞外区域、蛋白质复合体及核染色体等细胞组分的组成,主要涉及的分子功能有蛋白、受体结合及细胞粘连。在进行KEGG通路富集分析后发现,上调DEGs主要参与细胞周期、病毒致癌作用、Wnt信号通路、FoxO信号通路和p53信号通路等与癌症相关的通路(见图2)。另一方面,下调DEGs参与的生物过程有药物分解代谢过程、类固醇代谢过程、氧化还原过程、脂质和胆汁酸分解代谢过程等,参与细胞外泌体、细胞外空间、细胞器膜及高密度脂蛋白粒子等细胞成分的构成,同时这些基因的分子功能多涉及血红素、铁离子和氧气的结合,氧化还原酶活性及受体结合等。KEGG通路富集分析提示,下调DEGs参与代谢途径、化学致癌作用、药物代谢-细胞色素P450、AMPK信号通路和PPAR信号通路等(见图3)。
图2 HB上调DEGs的GO功能和KEGG通路富集分析
图3 HB下调DEGs的GO功能和KEGG通路富集分析
2.3 DEGs的PPI网络分析我们将90个高表达,176个低表达的基因分别输入STRING数据库,在去掉无相互作用的蛋白后得到互作图。随后将互作图在cytoscape中打开,利用cytoHubba插件计算出上调与下调的hub基因。上调的hub基因分别为HIST1H2BB、HIST1H2BM、HIST2H4A、HIST2H4B、HIST1H1B、HIST1H3I、HIST1H3B、HIST1H2AI、HIST1H2BF、CDK1。下调的hub基因分别为CYP2C9、CYP1A2、CYP3A5、CYP2C19、NR1I3、CYP2B6、CYP2C8、GSTA2、GSTA1、UGT2B7。我们继续分别将上调、下调基因进行相互作用后进行可视化处理,得到PPI网络分析图,图4A为上调DEGs互作图,图4B为下调DEGs互作图。
图4 HB中DEGs编码蛋白的PPI网络分析图和hub基因 A:上调DEGs网络互作图;B:下调DEGs网络互作图Fig 4 PPI analysis of DEGs encoding proteins and screening of hub genes in HB A: PPI analysis of up-regulated DEGs;B: PPI analysis of down-regulated DEGs
2.4 PPI功能模块分析在STRING数据库中输入筛选出的266个DEGs,将文件在Cytoscape打开。通过MCODE插件,我们对PPI网络进行聚类分析,得出不同的功能模块,其中Score得分最高的两个模块如图5所示。随后我们通过DAVID在线分析工具对模块中包含的基因进行KEGG PATHWAY分析,发现这些基因主要涉及药物代谢、体内营养物质及激素代谢、化学和病毒致癌、细胞周期等(见表1~2)。
图5 PPI功能模块图 A:第一功能模块,得分:9.556,共10个基因;B:第二功能模块,得分:9.125,共17个基因Fig 5 PPI functional module diagram A: the first functional module, score: 9.556, a total of 10 genes;B: the second functional module, score: 9.125, a total of 17 genes
表1 第一功能模块中DEGs的KEGG富集分析Tab 1 KEGG enrichment analysis of DEGs in the first functional module
表2 第二功能模块中DEGs的KEGG富集分析Tab 2 KEGG enrichment analysis of DEGs in the second functional module
2.5 hub基因验证我们利用GEPIA数据库验证不同hub基因在HB及正常肝脏组织中的表达差异。在下调hub基因中我们发现,CYP2C9、CYP1A2、CYP3A5、CYP2C19、CYP2B6和CYP2C8在HB中低表达,差异有统计学意义(P<0.05)(见图6)。CYP2C19和CYP1A2已有相关文献报道,证实了我们的预测[20-21]。进一步使用GEPIA数据库绘制HB中hub基因高表达组和低表达组的Kaplan-Meier生存曲线,结果显示,仅CYP2C9(P=0.00086)、CYP3A5(P=0.0043)、CYP2C8(P=0.0071)低表达与HB患者生存期降低有关,差异有统计学意义(P<0.05)(见图7)。结合前期KEGG PATHWAY分析,可以推测CYP家族低表达可能与HB患者生存期降低有关,这一现象可能是通过干预药物代谢引起的。
注:*P<0.05。
注:红线代表高表达组,蓝线代表低表达组。
在上调hub基因中,我们发现除HIST1H2BB外,其余上调hub基因在HB中均高表达,其中HIST2H4A、CDK1差异有统计学意义(P<0.05)(见图8)。Goga等证实,通过应用CDK1抑制剂,可显著减少HB小鼠的肿瘤生长并延长其生存期[12]。HIST1H1B(P=0.029)、HIST1H2AI(P=0.038)、CDK1(P=0.00022)高表达与HB患者生存期降低有关,差异有统计学意义(P<0.05)(见图9)。这提示HIST家族高表达可能与肿瘤预后差相关。在验证的所有基因中,CDK1与HB患者生存率降低的关系差异有统计学意义,因此我们选择CDK1继续进行下一步的研究。
注:*P<0.05。
注:红线代表高表达组,蓝线代表低表达组。
2.6 靶基因CDK1在肿瘤组织中的表达分析为进一步验证CDK1,我们选择CCLE(https://portals.broadinstitute.org/ccle/)[18]数据库分析了CDK1在转录组水平的表达情况,下载数据为mRNA expression(RNA seq),得到CDK1在不同肿瘤中的表达情况(见图10)。
图10 CDK1在不同恶性肿瘤中的表达分析
2.7 靶基因CDK1与炎症浸润的关系在对上调DEGs进行GO富集分析后,我们发现这些基因与补体刺激与激活相关。为进一步研究CDK1与HB的关系,我们通过TIMER数据库分析在HB中CDK1与炎症细胞浸润的关系,结果显示,CDK1与机体B细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞和树突状细胞浸润具有相关性,差异有统计学意义(P<0.05)(见图11)。
图11 CDK1表达与HB中免疫浸润水平的相关性 A、E:CDK1表达与肿瘤纯度之间的关系;B:CDK1表达与B细胞的关系;C:CDK1表达与CD4+T细胞的关系;D:CDK1表达与CD8+T细胞的关系;F:CDK1表达与中性粒细胞的关系;G:CDK1表达与巨噬细胞的关系;H:CDK1表达与髓样树突状细胞的关系
HB是影响幼儿健康最主要的肝脏恶性肿瘤,手术切除后局部复发和扩散率极高[22]。因此,寻找新的肿瘤分子诊断物,对儿童HB早期预防及治疗具有十分重要的作用。通过利用生物信息学方法,在对GEO数据库中的GSE131329 HB基因芯片中的肿瘤组织与正常组织比较分析后,我们共筛选出266个DEGs,其中上调基因90个,下调基因176个。随后对于筛选出的DEGs,我们对其进行GO富集分析和KEGG通路分析后发现,DEGs多涉及机体药物代谢、营养物质代谢、EMT和细胞增殖等生物过程,同时与机体补体激活、受体结合、外泌体、细胞器膜构成等密切相关。另一方面,DEGs与多种致癌因素相关,调节多个癌症相关信号通路活性,如AMPK、p53、FoxO和Wnt信号通路等活性。这些通路在肿瘤中均扮演重要的角色,参与诱发癌症发生、促进癌症进展[23-26]。Wnt信号通路参与调节细胞增殖、分化、迁移和细胞凋亡[23]。P53是最常见细胞周期调节因子,P53信号通路异常几乎发生在所有癌症中,是十分重要的癌症干预途径[25]。AMPK能够调节肿瘤糖酵解,改变肿瘤细胞的能量供应,它的失活与癌症进展密切相关[27]。功能模块分析后显示,这些基因主要涉及药物代谢、体内营养物质及激素代谢、化学和病毒致癌、细胞周期等。
PPI筛选出的CYP2C9、CYP1A2、CYP3A5、CYP2C19、CYP2B6和CYP2C8均在HB中低表达,差异有统计学意义。其中,CYP1A2、CYP2C19在HB细胞中的研究已有相关报道[20-21]。细胞色素P450同工酶(cytochrome P450,CYP450)是肝脏最主要的药物代谢酶,与多种化疗药物代谢相关,是药物遗传变异的因素之一,具有明显的种族差异,不仅能影响药物代谢,还能诱发药物间的相互作用,是药物代谢动力学的主要研究对象,也是目前药物基因组学研究的热点之一[28-29]。同时,PPI筛选出的HIST1H2BM、HIST2H4A、HIST2H4B、HIST1H1B、HIST1H3I、HIST1H3B、HIST1H2AI、HIST1H2BF、CDK1在HB中高表达,HIST2H4A与CDK1具有统计学意义。HIST家族能够促进细胞进展,抑制细胞凋亡,在多种癌症中高表达[30]。同时,HIST的高表达被证实是引起癌症耐药因素之一[31]。本文筛选出的CDK1与HB的不良预后相关性最为显著。CDK1是肿瘤细胞重要的调控因子,是干预肿瘤细胞有丝分裂与凋亡的潜在靶点[32-34]。我们的研究还显示,CDK1与机体炎症细胞浸润相关。并有研究已显示,靶向CDK1途径可减轻炎症相关肿瘤的发生[35]。因此,我们可以推测,高表达的CDK1可能通过调节细胞周期,促进肿瘤细胞有丝分裂,增强肿瘤微环境炎症浸润来诱发HB的发生并促进其恶化。
综上所述,我们通过生物信息学技术证实HB的发生发展与CDK1高表达相关,高表达CDK1可能通过提高炎症细胞浸润促进HB的发生。同时,我们的研究还发现,高表达HIST家族、低表达CYP家族可能参与药物代谢,这与HB进展和预后密切相关。CDK1可能成为HB的新型分子标志物与治疗靶标。HIST家族与CYP家族的异常表达有望成为HB临床用药剂量的参考标准。但本研究基因芯片数量较少,缺乏代表性,后期仍需一系列实验来证实本文的预测结果。