(青岛大学附属医院,山东 青岛 266003 1 普外科; 2 肝胆胰外科)
肝细胞癌(HCC)在我国恶性肿瘤发病率中居第5位,死亡率居第2位[1-2]。HCC起病隐匿,多数患者发现时已是晚期,且术后复发率高,总体预后较差。尽管目前经联合射频消融治疗、肝动脉栓塞化疗、靶向药物治疗等多学科综合治疗,患者生存情况已得到明显改善,但5年生存率仅约60%[3-4]。目前HCC治疗的主要难点在于肿瘤异质性强、多靶点药物应答率低且易产生耐药,因此,急需从分子水平深入探索其发病机制,挖掘更有意义的基因靶点,为评估患者预后及靶向治疗提供更可靠的依据。
随着高通量测序技术的发展以及人类基因组计划研究项目的完成,对肿瘤的分子机制有了更深入的了解[5]。其中,RNA测序技术是目前最常用的筛选癌组织和正常组织差异表达基因的方法[6]。通过对HCC的mRNA表达谱分析,可明确其生物学进程,进而可以开展对HCC更深入和系统的研究。本研究利用生物学信息技术,通过对高通量测序芯片数据的分析,筛选出HCC和正常肝组织差异表达的基因及可用于预测HCC预后的特征性基因,系统地从分子水平揭示HCC的发生发展[7-8],为预测HCC预后及指导靶向治疗提供参考。
利用美国国立生物技术信息中心的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)选取并下载GSE41804、GSE19665和GSE101685 3个包含黄色人种的HCC基因表达的数据集;利用GEO数据库中的在线分析工具GEO2R对3个数据集进行处理,为减少假阳性的结果,使用P<0.05和Benjamini-Hochberg进行检验;下载GEO2R处理后的3个数据集中的数据,以P<0.05和|logFC|≥2为标准进行基因筛选,并提取3个数据集的交集,筛选出HCC与正常组织差异表达的基因。
使用R语言的clusterprofiler可视化R包对筛选出的HCC与正常组织差异表达的基因进行GO功能富集分析[9]和KEGG通路分析[10],选择条件为:人源基因以及P<0.05。
通过蛋白-蛋白互作预测网站STRING(http://string-db.org)[11]构建蛋白互作网络,并使用Cytoscape 3.6.1软件[12]对筛选出的差异表达蛋白进行可视化分析,再利用其自带小程序MCODE对蛋白互作网络进行分析,以标注有“seed”的基因为候选基因。
通过Kaplan-Meier在线生存网站(http://kmplot.com)[13]进行候选基因与HCC患者总生存期(OS)关系的生存分析。然后以HCC患者候选基因表达量的中位数为界限,将患者分为高表达组和低表达组,分别比较两组之间的生存差异,计算每个候选基因的P值、危险比和95%置信区间,排除没有生存意义的基因,以有生存意义的基因为关键基因,将关键基因在HCC患者中的表达情况进行在线预后分析,绘制预后生存曲线图,并将关键基因作为一个联合特征性基因集用于分析HCC预后。
通过在线的网站GEPIA(http://gepia.cancer-pku.cn/index.html)[14]对得到的关键基因在HCC患者中以P<0.01为界限进行可视化分析。
选取青岛大学附属医院肝胆胰外科30例HCC患者手术过程中留取的HCC组织及癌旁正常肝组织标本,所有标本均经病理组织学验证为HCC或正常肝组织。在说明书的指导下利用Trizol试剂提取标本组织中总RNA。随后通过A260/A280比率标准估计总RNA细度,并使用PrimeScriptTMRT试剂盒(日本Takara公司)获得相应的互补DNA。最后使用Takara TB GreenTMPreMix Ex TaqTMⅡ试剂(Tli RNAseH Plus,日本Takara公司)并在罗氏LightCycler480上进行实时定量聚合酶链反应(RT-qPCR)以获取基因相对表达量。该研究获我院伦理委员会批准。
对GEO数据库进行数据统计分析,显示基因表达数据集GSE41804、GSE19665和GSE101685中分别包含HCC与正常组织差异表达基因数量为393、1 110和515个,对3个数据集取交集后最后得到147个HCC与正常组织差异表达的基因。
对147个HCC组织和正常组织差异表达基因进行GO功能富集分析显示,这些基因与对无机物的反应、加单氧酶活化、类固醇氢化酶活化等生物进程明显相关(图1A),图中基因功能从上至下是按照P值由小到大进行排序,柱状长短代表富集于此功能的HCC组织和正常组织差异表达基因的数量。再对147个差异表达基因进行KEGG通路分析,显示这些差异表达基因主要是通过p53信号通路影响HCC的发生和进展(图1B),图中信号通路从上至下是按照P值由小到大进行排序,点的大小代表富集于此功能的HCC组织和正常组织差异表达基因的数量。
使用STRING和Cytoscape构建HCC与正常组织147个差异表达基因间的蛋白-蛋白互作网络图(图2)。图中蓝色图标中的为147个HCC与正常组织差异表达的蛋白名称,蛋白与蛋白之间的连线表示蛋白之间相互作用,连线越多表示存在的相互作用越紧密。
用MCODE对蛋白互作网络图进行分析,得到6个作用紧密的蛋白表达簇,其中每一簇都包含1个标注“seed”的基因。这6个标注“seed”的基因为FAM83D、CYP2C8、MT1M、SLCO1B3、GYS2以及FCN3,即为候选基因。
通过Kaplan-Meier在线生存网站对关键基因与HCC患者预后的相关性进行了分析,结果显示MT1M基因没有生存意义,故将之剔除,只对有生存意义的另外5个基因进行分析。其中CYP2C8高表达的患者OS显著长于CYP2C8低表达的患者,而FAM83D、SLCO1B3、GYS2和FCN3低表达的患者OS显著长于其对应基因高表达的患者。将5个HCC患者预后相关的基因进行联合预后分析,在线网站根据风险得分中位数将患者分为高风险组和低风险组,低风险组患者OS显著长于高风险组。
A:差异表达基因GO功能富集分析结果;B:差异表达基因KEGG通路分析结果
图1 HCC与正常组织差异表达基因的GO功能富集分析和KEGG通路分析
通过在线网站GEPIA对5个关键基因在TCGA数据库进行HCC组织和正常肝组织表达量的可视化分析,显示基因CYP2C8、FCN3、GYS2以及SLCO1B3在HCC组织中表达量低于正常肝组织,而基因FAM83D则呈相反的趋势。对临床上获取的实物标本进行RT-qPCR,结果同样显示CYP2C8、FCN3、GYS2及SLCO1B3在HCC组织中表达量低于正常肝组织,FAM83D在HCC组织中表达量高于正常肝组织,与TCGA数据库中分析结果一致。
HCC是临床常见、致死率高的恶性肿瘤,也是我国高发的,危害极大的恶性肿瘤[15]。由于HCC早期临床症状并不明显,大多数患者发现时病情较晚,失去最佳手术治疗时机,且由于HCC异质性强,靶向治疗易出现耐药性,因此患者预后较差。目前,甲胎蛋白指标是作为HCC早期复发的有效评估指标,但是其阳性率较低,临床上约30%肝细胞癌患者甲胎蛋白并没有升高,用于术后HCC早期复发筛查及预后评估存在着一定的局限性。索拉非尼、伦伐替尼是HCC的首选靶向治疗药物,但目前整体治疗效果仍不佳,因此筛选新的治疗靶点对改善患者的预后具有重要意义。
图2 差异表达基因间的蛋白-蛋白互作网络图
本研究首先针对黄色人种选择了GSE41804、GSE19665以及GSE101685共3个数据集,其中,GSE41804包含了20例HCC组织和20例正常组织的数据,GSE19665包含了10例HCC组织和10例正常组织的数据,GSE101685包含了24例HCC组织和8例正常组织的数据,对38例正常肝组织和54例HCC患者的样本数据进行综合分析,初步筛选出147个HCC与正常组织差异表达基因,然后再利用GO富集分析和KEGG通路分析来检测3个数据集,探索147个HCC与正常组织差异表达基因之间的相互作用,通过GO功能富集分析显示这些基因与对无机物的反应、加单氧酶活化、类固醇氢化酶活化等生物进程明显相关,提示这些基因可能参与了肿瘤细胞的增殖和凋亡过程[16-17];KEGG通路分析显示,147个差异表达基因主要通过p53信号通路影响HCC的发生。肝脏作为人体的最大的代谢器官,参与营养物质以及药物等的代谢过程,HCC与正常肝组织的差异表达基因KEGG分析显示,视黄醇代谢、药物以及酶代谢的变化与HCC患者患病时的代谢功能紊乱状态相吻合[18-19]。同时利用在线网站STRING研究蛋白质之间的功能相互作用关系,以发现癌症的发生或发展潜在机制。利用Cytoscape 3.6.1对蛋白相互作网络图进行分析,根据作用程度将蛋白互作网络分成6个作用紧密的簇,每一簇中有一个基因标注为“seed”,分别为基因FAM83D、CYP2C8、MT1M、SLCO1B3、GYS2、FCN3,即为该簇的候选基因,上述6个候选基因不仅和其他基因有着密切的相互作用,而且可能决定其他基因的功能。通过对候选基因进行Kaplan-Meier预后分析发现,FAM83D、CYP2C8、GYS2、SLCO1B3、FCN3关键基因是评估HCC患者预后以及靶向治疗的关键基因。通过RT-qPCR检测获取的实物标本中5个关键基因的表达量,并与数据库中分析获得的关键基因表达量进行了比对,两者结果一致。
FAM83D是FAM83家族成员之一,参与纺锤体相关蛋白的编码以及有丝分裂过程,可以调节细胞分裂,可以调节癌细胞的增殖、迁移、侵袭和凋亡等过程[20]。研究发现FAM83D高表达,可能与HCC增殖能力呈正相关[21]。敲降FAM83D可以抑制乳腺癌细胞增殖以及诱导细胞凋亡[22]。在正常肝组织中FCN3是一种模式识别分子,具有激活补体凝集素途径的功能,研究发现FCN3可以识别卵巢癌细胞参与免疫应答[23]。有研究显示FCN3在HCC中可作为肿瘤的潜在标志物[24-25]。CYP家族是癌症形成过程的关键酶,介导多种致癌物质的代谢以及活化,在HCC患者中,CYP2C8低表达患者的OS比CYP2C8高表达患者的短[26-27]。此外,CYP2C8的低表达与肿瘤分期、肝内转移等晚期临床病理特征有关,分期早及病理结果较好的患者CYP2C8表达量高[28]。GYS2是GYS的一个亚型,GYS是糖原生物合成的关键酶,可通过与p53的负反馈机制抑制HBV相关HCC的肿瘤生长,GYS2在HCC组织当中表达下调,可以抑制HCC的生长[29-30]。研究显示SLCO1B3是在肝脏中表达的功能性转运蛋白,可转运多种内源性和外源性化合物,包括激素及其结合物,并且和紫杉烷类等抗癌药耐药性的产生有关[31-32]。综上所述,基因FAM83D、FCN3、CYP2C8、GYS2以及SLCO1B3可能是潜在的预测和指导HCC治疗的标志物。
综上所述,本研究利用生物信息学方法对HCC患者的相关数据进行分析,获得预测和指导HCC治疗的潜在标志物,对更加深入地认识和了解HCC的发生和发展提供了理论依据,为后续的动物实验和临床试验提供了研究方向。