雷昌达,张 静*,朱云清,许绍娴,李 妍
(1.延安大学医学院,陕西 延安 716000;2.陕西省人民医院,陕西 西安 710068;3.陕西省核工业二一五医院,陕西 咸阳 712000)
肝癌是世界范围内常见的恶性肿瘤,也是癌症相关死亡的第二大原因,男性患者的发病率高于女性且预后较差,男女发病率比例约为3~8∶1[1-2]。肝癌在中国更为常见,一直是癌症死亡的主要原因[3]。慢性乙型肝炎病毒(hepatitis B viral,HBV)和丙型肝炎病毒(hepatitis C viral,HCV)感染是肝癌的主要危险因素[4]。随着诊断技术的快速发展,肝癌的早期诊断方法也越来越多。目前,肝癌常用的治疗方法有手术切除、放疗、化疗和靶向治疗等,这些方法均与患者的良好预后、延长复发时间相关[5]。然而,由于其高复发率、快速进展和较短的总生存期(overall survival,OS),肝癌患者的预后并不令人满意[6]。在临床上,甲胎蛋白mRNA已被用作肝癌的潜在预后生物标志物,但是其依赖于肿瘤负荷,临床诊断应用有一定的局限性,价值评估也不完整[7]。生物信息学分析已广泛用于筛选有助于疾病进展、治疗反应和预后的生物分子。基于微阵列技术的基因表达分析是一种应用广泛、高通量、功能强大的研究方法,可以在mRNA水平同时检测数千个基因的表达变化。通过基因表达谱分析和微阵列技术,一些研究发现在病灶表达有显著差异的许多基因在肝癌的发生和发展中起着关键作用,可以被评估为潜在的分子靶点和诊断标记物[5]。Li等人[8]通过基因表达分析证明CYP2C8是一种潜在的肝癌预后标志物。Tang等[9]利用综合生物信息学分析鉴定与乙型肝炎病毒相关性肝癌诊断和预后相关的枢纽基因,发现TOP2A和KIF11是HBV-HCC关键预后基因。面对肝癌发生发展的复杂分子机制及在男性高发的特点,有必要进一步发挥生物信息学优势,筛选和识别新的肝癌预后标志物。
本研究利用生物信息学方法筛选GEO数据库中男性肝癌患者的差异表达基因,进一步进行GO和KEGG功能富集分析,利用Cytoscape软件对蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络进行关键基因的获取,鉴定出男性肝癌患者中的关键基因,为肝癌患者的个性化诊断和治疗提供新的思路。
男性肝癌患者和健康对照组的GSE19665和GSE84402组织基因表达谱在NCBI-GEO进行下载(https://www.ncbi.nlm.nih.gov/geo)。GSE19665的RNA序列数据包含9名男性肝细胞癌患者和9名男性健康对照者。GSE84402的RNA序列数据包含9名男性肝细胞癌患者和9名男性健康对照者。纳入标准:①被诊断为男性肝癌患者;②数据类型为Expression profiling by array。
将样本分为健康组和男性肝癌组,利用GEO2R在线工具对数据集进行差异分析。差异表达基因的筛选标准为:|log2FC|>2且adjP<0.01。用火山图对差异表达基因进行可视化,Veen图对两个数据集共有的差异表达基因进行取交集。
DAVID用于注释、可视化和集成发现的数据库(DAVID,http://david.abcc.ncifcrf.gov/)是一种经常用于功能注释和通路分析的公共生物资源[10]。为了充分了解DEGs的生物学功能,应用DAVID数据库进行GO和KEGG途径富集分析。P<0.05和count>5被认为是显著差异的阈值。
为了进一步研究肝癌的潜在分子机制,利用STRING数据库构建了差异表达基因的PPI网络(http://www.string-db.org/)(high confidence:0.900),然后由Cytoscape软件(version 3.5.0)进行可视化。默认参数设置为:Degree cutoff ≥2, node score cutoff ≥2, Kcore ≥2 and maximum depth=100。
Cytoscape插件CytoHubba为探索生物网络中的重要节点提供了一个用户友好的界面。cytoHubba根据nodes在网络中的属性进行排名,它提供了11种拓扑分析方法。此外,研究人员能够将cytoHubba和其他插件结合到一个新的分析方案中。这种拓扑分析策略捕获的网络和子网络将为实验生物学家带来关于基本调控网络和蛋白质药物靶点的新见解[11]。然后通过Cytoscape插件CytoHubba计算所有节点的度,度>10的基因被认为是关键基因。
GEPIA(http://gepia.cancer-pku.cn/)是一个开源癌症大数据分析网站,其数据来源主要是癌症基因组图谱数据库(TCGA)和基因型正常组织表达数据库(GTEx)。网站可对369例肝癌组织和160例正常组织的差异表达进行分析[12]。本研究使用GEPIA对关键基因在TCGA中进行验证与分析。
Kaplan-Meierplotte(http://kmplot.com/analysis)是一个肿瘤预后分析网站,提供生存生物标志物的在线验证,并分析某些基因高表达和低表达患者的总体生存率。在该研究中,对关键基因进行生存曲线绘制,危险比(hazardratio,HR)>1和LogrankP<0.05作为判断标准。
本研究利用GEO2R分别对GSE19665和GSE84402两个数据集中的18例男性肝细胞癌患者和18例健康对照者的测序数据进行差异分析。在GSE19665中筛出701个差异基因,其中645个表达上调,56个表达下调;GSE19665中筛出321个差异基因,其中212个表达上调,109个表达下调;样本信息以及差异表达基因结果如图1A。对两个数据集的差异基因取交集后,共得到162个差异基因,结果如图1B。
图1 男性肝癌患者的差异基因的筛选
在DAVID数据库中对162个差异表达基因进行GO和KEGG功能富集分析,结果如图2所示。差异表达基因的GO功能富集主要从三个方面进行(图2A):在生物学过程(biological process,BP)分析中,差异表达基因主要参与有丝分裂核分裂(mitotic nuclear division)、细胞分裂(cell division)、有丝分裂细胞周期的G2/M转换(G2/M transition of mitotic cell cycle)、氧化还原法(oxidation-reduction process)和姐妹染色单体内聚性(sister chromatid cohesion);细胞成分(cellular component,CC)分析中,差异表达基因主要组成中间体(midbody)、胞外区(extracellular region)、着丝粒区染色体(chromosome, centromeric region)、细胞外间隙(extracellular space)和血液微粒(blood microparticle);分子功能(molecular function,MF)分析中,差异表达基因主要参与了氧化还原酶活性(oxidoreductase activity)、抗原结合(antigen binding)、铁离子结合(iron ion binding)、免疫球蛋白受体结合(immunoglobulin receptor binding)和血红素结合(heme binding)。差异表达基因的KEGG富集分析显示(图2B),这些基因主要参与了细胞周期(Cell cycle)、卵母细胞减数分裂(oocyte meiosis)、p53信号通路(p53 signaling pathway)、孕酮介导的卵母细胞成熟(progesterone-mediated oocyte maturation)和视黄醇代谢(retinol metabolism)。
图2 差异表达基因的GO和KEGG富集分析结果
在STRING数据库进行差异表达基因之间的相互作用分析,应用Cytoscape-MCODE插件进行核心模块的获取,结果如图3A所示;CytoHubba插件对核心模块进行分析获取关键的候选差异表达基因,结果如图3B所示。
图3 差异表达基因的核心模块和关键基因的鉴别
为了更加明确这些关键基因表达在男性肝癌患者中的意义,我们应用GEPIA对关键基因的表达在TCGA数据库中进行验证(图4)。结果显示,与健康对照组相比,这些关键基因在男性肝癌患者中显著高表达(与健康组比较“*”表示P<0.05)
图4 关键基因在GEPIA数据库中的表达情况
为了寻找表达高低仅影响男性患者预后,而不影响女性患者预后的基因,使用Kaplan-Meierplotter数据库对10个核心基因分别进行了男性患者和女性患者的整体OS分析。结果如图5所示,仅有CCNB2和ASPM表达高低对男性患者的整体生存期有影响CCNB2(Logrankp=0.00029,HR=2.79),ASPM(Logrankp=0.00012,HR=2.49)),且对女性患者的整体生存期没有影响CCNB2(Logrankp=0.25,HR=1.4)和ASPM(LogrankP=0.1,HR=1.64)。
图5 CCNB2和ASPM表达对男性和女性肝细胞癌患者
临床上,肝癌是一种高死亡率的恶性肿瘤,当前的医疗手段仍不能较大程度地降低其死亡率。世界范围内男性肝癌发病率和死亡率均高于女性,且男性患者预后较女性患者差,这种差异一方面是由于肝癌的危险因素,如病毒感染、致癌物作用、癌基因激活、抑癌基因失活、细胞信号通路失活或活化等导致,另一方面也可能是由于体内性激素水平的差异而引起的发病率和预后的不同[13]。根据相关研究报道,在啮齿动物和人类中,生理性肝脏基因的表达具有显著的性别差异[14]。然而,关于人类肝癌中性别依赖性基因表达的知识仍然很少。
本研究中,我们通过生物信息学方法对GEO数据库中男性肝癌患者表达数据集进行差异表达基因的筛选,并利用TCGA中肝癌患者的数据对男性关键基因验证。本次研究中共有162个差异表达基因被筛选出来,这些差异表达基因主要参与了细胞分化、细胞增殖、细胞周期、免疫反应等多个重要的、与肿瘤发生发展关系密切的生物学过程。通过CytoHubba分析从MCODE得到关键网络的核心基因,应用GEPIA对关键基因的表达在TCGA数据库中进行验证,结果发现,ASPM、BIRC5、BUB1、CCNB2、CDC20、CDCA8、CDK1、DLGAP5、KIF20A、TOP2A等关键基因在肝癌组织中均显著高表达,主要作为细胞增殖调节因子(ASPM、KIF20A),细胞周期调节因子(CCNB2、CDC20、CDCA8、CDK1),凋亡抑制因子(BIRC5),蛋白编码基因(BUB1、DLGAP5、TOP2A)的作用调控肝癌细胞的生长及转移,继而通过影响Rb信号通路[15]、p53信号通路[16]、经典Wnt信号通路[17]等参与肝癌发生发展的进程。为了寻找核心基因中,表达高低仅影响男性患者预后,且不影响女性患者预后的基因,我们使用Kaplan-Meierplotter数据库对以上10个核心基因分别进行了男性患者和女性患者的整体生存期分析,发现CCNB2和ASPM表达高低对男性患者的整体生存期有影响。最近的研究报道,CDK1、CCNB1和CCNB2的mRNA表达水平在几种类型的癌症中显著升高,并与不良预后相关[18]。然而CCNB2在肝癌发生的性别差异研究尚未见报道,本次研究结果显示,CCNB2是男性肝癌患者中的关键基因且与男性患者不良预后相关。因此,CCNB2可能通过调控细胞周期相关蛋白来参与男性肝癌的发生发展。在前列腺癌中,ASPM的表达逐渐上调,并且ASPM表达的增加与肿瘤进展和不良临床预后相关,而在肝癌中,shRNA介导的ASPM基因敲除抑制肝癌细胞增殖,体外迁移、侵袭和上皮-间充质转化(epithelial-mesenchymal transition,EMT),并在体内抑制肝癌的生长[19]。本研究中,ASPM的表达在肝癌患者的整体生存期中存在显著的性别差异。
综上所述,本研究应用生物信息学方法获取男性肝癌患者中的差异表达基因以及这些基因的生物学功能与信号通路。在TCGA肝癌数据库中对CCNB2和ASPM进行了验证,结果表明,CCNB2和ASPM的表达与男性和女性肝癌患者的不良预后有显著的性别差异,可为男性肝癌患者日后的个性化诊断和治疗提供新的思路。