殷晓晓,薛小峰,赵华
胆囊癌是胆道系统常见的恶性肿瘤,起病隐匿,早期无特异性临床症状,常被胆囊炎、胆囊结石及其并发症所掩盖。由于胆囊癌早期诊断困难,多数胆囊癌确诊时已属中晚期。目前,影像学检查结合血清肿瘤标志物检测是胆囊癌诊断和监测的方法,但有一定的局限性,特异性较低。基因表达芯片作为一种高效、大规模的基因数据获取技术,已被广泛用于收集基因微阵列表达谱数据,研究多种人类癌症的基因表达谱。这些微阵列为研究肿瘤相关基因提供了一种新的方法,为分子预测、分子靶向药物和分子治疗提供了广阔的前景。随着基因表达芯片技术的广泛应用,大量的数据已经在公共数据库平台上发布,整合这些数据库可以更加深入地研究分子机制。本研究从NCBI-基因表达综述(Gene Expression Omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)中下载了两个原始微阵列数据集GSE76633[1]和GSE74048[2],利用GEO2R对胆囊癌和正常胆囊样本中的差异表达基因(differentially expressed genes,DEGs)进行筛选,在DAVID(https://david.ncifcrf.gov/)和KOBAS-京都基因与基因组百科全书(KEGG)通路(http://kobas.cbi.pku.edu.cn/)上对DEGs进行GO分析及通路富集分析。然后,利用STRING在线数据库蛋白质-蛋白质相互作用(PPI)网络分析DEGs的关联性,发现参与肿瘤发生的相互作用分子。通过胆囊癌GEO数据库筛选出与胆囊癌发生、发展相关的DEGs,并进行分析。讨论了这些DEGs的生物学功能和关键信号通路,并分析了编码蛋白相互作用的网络。为胆囊癌的诊断和治疗提供了可靠的分子标志物。
1.1 胆囊癌微阵列数据集采集和处理 利用关键词“胆囊癌”在基因表达数据库GEO数据库下载GSE76633和GSE74048的基因表达谱。GSE76633的实验平台为GPL18180,其中包括9份胆囊癌标本和9份正常胆囊标本。GSE74048的实验平台为GPL20115,其中包括3个胆囊癌标本和3个正常胆囊标本。数据集信息见表1。
表1 GEO中胆囊癌数据集信息
1.2 差异基因的获取与分析 使用在线分析软件GEO2R对基因进行分组分析,分为胆囊癌样本组和正常胆囊样本组。设置P值和差异倍数(fold change,FC)进行差异基因的筛选。认为当P<0.05,∣log2FC∣>2时差异具有统计学意义。使用ImageGP(www.ehbio.com/ImageGP/index.php/Home/Index/)在线制作火山图和韦恩图,使用R语言绘制热图。
1.3 差异基因的GO和KEGG通路富集分析 使用DAVID(https://david.ncifcrf.gov/)在线工具对所选差异基因进行GO分析;使用KOBAS在线分析数据库(http://kobas.cbi.pku.edu.cn/)对差异基因进行京都基因与基因组百科全书(KEGG)通路富集分析,设置P<0.05,分析结果分别以柱状图、气泡图展示。
1.4 差异基因的PPI网络构建 利用STRING(http://string-db.org/)来识别胆囊癌中差异基因编码的蛋白质之间的相互作用和通路关系。
2.1 胆囊癌差异基因的筛选结果 我们使用R语言对GSE76633和GSE74048两个胆囊癌表达微阵列数据集进行标准化处理(图1)。两个数据集所包含的两个样本数据中多个基因的差异表达情况(图2)。利用GEO2R在线分析工具对数据集进行基因差异表达分析。该工具借助R和Limma软件包完成分析过程,得到DEGs(校正后P<0.05,logFC>2)。在GSE76633中我们发现了72个下调基因和23个上调基因(表2)。在GSE74048中鉴定出92个下调基因和10个上调基因(表3)。用R-heatmap软件绘制两个数据集差异基因的热图(图3)。前35个差异最显著的基因是CDCA7,SEMA3C,PYCR1,ITPR3,PKM2,TRIM59,C1orf151-NBL1,PFKP,CKAR,LPPR1,SEC14L3,SARDH。SCP2,ADHFE1,CYP2B6,CECR2,CIDEB,CPVL,PPP1R1A,CNTN1,ALDH6A1,SDS,ACADSB,SHMT1,CTH,EHHADH,GLYAT,ABI3BP,ETNK2,MASP1,DMGDH,TAT,CYP2A13,CLEC4M,GNMT。两个数据集中均下调的差异基因有SARDH,ADHFE1,CECR2。
1A:GSE76633;1B:GSE74048图1 胆囊癌表达微阵列数据集
2A:GSE76633;2B:GSE74048注:红色点代表上调基因,绿色的点代表下调基因,灰色点代表无显著差异的基因。Fold change(倍数变化)>2.0且P<0.05作为标准,倍数进行log2的转化,P值进行-log10的转化图2 GSE76633、GSE74048微阵数据集的火山图
表3 胆囊癌的差异表达基因
3A:GSE76633;3B:GSE74048注:根据|倍数变化|>2.0和P值<0.05,红色表示基因表达相对上调,绿色表示基因的表达相对下调,黑色表示基因表达无明显变化,灰色表示基因的信号强度不高图3 聚类热图
2.2 GO生物过程分析和KEGG通路分析 利用DAVID在线分析工具对两个胆囊癌数据集中差异表达基因的生物过程、细胞组成和分子功能进行了富集分析,见表4和图4,发现其主要富集于脂肪酸β-氧化、氧化-还原过程和代谢过程、肝素结合、蛋白质同聚活性、脂肪酰基-CoA结合、磷酸吡啶结合、氧化还原酶活性、异构酶活性、黄素腺嘌呤二核苷酸结合、电子载流子活性、肝素结合和碳水化合物结合、异构酶活性和代谢过程。KEGG分析显示主要富集于代谢途径、甘氨酸,丝氨酸和苏氨酸代谢、缬氨酸,亮氨酸和异亮氨酸降解、碳代谢、丙酸酯的新陈代谢、抗生素的生物合成、脂肪酸降解、甘草酸和二羧酸代谢、脂肪酸代谢、乙型丙氨酸代谢、过氧化物酶体、初级胆汁酸的生物合成、PPAR信号通路、氨基酸的生物合成、细胞粘附分子等途径,见表5和图5C。
表4 胆囊癌DEGs的 GO注释
表5 胆囊癌DEGs的KEGG通路分析
2.3 胆囊癌差异基因的PPI网络构建 利用STRING数据库构建胆囊癌中差异基因表达产物的PPI网络,删除孤立和部分连接的节点后见图5A和5B所示。并确定了以下32个中心节点基因:ACADM、EDI2、ACADSB、EHHADH、ALDH6AI、ECHS1、ACAA1、PCCA、MUT、ADHFE1、HSD17B4、SCP2、AMT、PKM、CTH、SDS、GRHPR。GNMT、AKR1D1、SHMT1、SARDH、GLUD2、DMGDH、TAT、CYP2B6、CYP2A13、EPHX1、ENTPD1、TAGAP、WDFY4、FCER1A和IL7R。其对应的蛋白可能是核心蛋白或具有重要生理调控功能的关键候选基因。
4A:GSE76633;4B:GSE74048;4C:GSE76633;4D:GSE74048注:4A、4B中GO分析将DEGs分为生物过程、细胞组成、分子功能和三个功能组4C、4D中不同功能组DEGs的GO富集,颜色深浅代表P值的高低图4 GO分析 (4A、4C)GSE76633 (4B、4D)GSE74048
胆囊癌是消化系统第6大恶性肿瘤[3],手术是治愈胆囊癌的唯一可能手段,但大多数患者确诊时已处于进展期,只有10%~30%的患者能获得根治性切除,总体5年生存率仅为5%[4]。微阵列技术和高通量测序技术的出现及其快速发展,拓展了癌症研究的手段,加速了各种癌症治疗潜在靶点的发现[5-8]。本研究通过分析胆囊癌样本基因表达谱筛选出DEGs,GO分析和KEGG信号通路分析发现这些基因富集于代谢途径、氨基酸代谢、细胞转化与凋亡、转录调控、PPAR信号通路、氨基酸的生物合成、氧化还原过程等多个方面。能量代谢编程被认为是癌症潜在的多功能新兴标志[9]。PI3K-AKT-mTOR网络通路的异常激活是各种癌症中最常见的变化之一[10-11]。另一种常见的失调途径是通过染色体易位、基因扩增和单核苷酸多态性获得MYC功能[12]。本研究通过对胆囊癌差异基因的GO分析,发现其可能参与了MYC等抑癌基因的激活,通过对代谢基因的转录调控进一步促进合成代谢,因此与胆囊癌的发生和发展密切相关。我们发现胆囊癌中与代谢途径密切相关的基因表达均下调,包括ACADSB、CYP2B6、GLUD2、EHHADH、AMT、ECHS1、KMO、FAH、MUT、DMGDH、ETNK2、HSD17B4、SARDH、ALDH6A1、SHMT1、ST6GAL1、ACADM、GRHPR、TAT、CTH、MTMR14、SDS、QPRT、AKR1D1、SCP2、PCCA和ACAA1。SARDH与肿瘤的生长和侵袭有内在联系。此前已有研究表明,在PCa异种移植中过量表达SARDH可抑制肿瘤生长[13]。而SARDH可抑制在结直肠癌发病过程中起着重要作用的特异性趋化因子基因CXCL1和CCL20的表达[14]。SARDH在我们研究的胆囊癌数据集中都出现了下调(图5E),说明它可能在胆囊癌中具有致癌功能。ACAA1编码了一种在过氧化物体的β-氧化系统中起作用的酶[15],它在肝癌、肺癌等多种癌症中的表达量较低[16-18],具有抗肿瘤的潜力。鉴于ACAA1在极长脂肪酸的过氧体β-氧化中的重要性,该过程的功能障碍可能与GBC的发病机制有关。
5A:GSE76633;5B:GSE74048;5C:KEGG气泡图;5D:韦恩图;5E:差异基因logFC值5A、5B:圆圈代表基因,线条代表基因之间蛋白质的相互作用,线条颜色代表蛋白质之间相互作用的证据;5C:各通路的富集倍数,点的大小表示通路中基因表达的数量,点的颜色代表P值的变化;5D:两个数据集基因取交集;5E:在两个数据集中均下调的3个基因的表达情况,方框中的数值及颜色代表logFC值(倍数变化值)图5 PPI网络图
我们构建了一个由DEGs编码蛋白质的PPI网络,并确定了以下32个密切相关的基因ACADM、EDI2、ACADSB、EHHADH、ALDH6AI、ECHS1、ACAA1、PCCA、MUT、ADHFE1、HSD17B4、SCP2、AMT、PKM、CTH、SDS、GRHPR、GNMT、AKR1D1、SHMT1、SARDH、GLUD2、DMGDH、TAT、CYP2B6、CYP2A13、EPHX1、ENTPD1、TAGAP、WDFY4、FCER1A和IL7R。这些基因所编码的蛋白是PPI网络中的关键节点。烯酰辅酶A水合酶短链1(ECHS1)是线粒体脂肪酸β-氧化途径的重要组成部分。ECHS1通过PKB和GSK3β相关信号通路在胃癌及肾癌细胞增殖和迁移中发挥重要作用[19-20]。此外,ECHS1作为HBsAg结合蛋白,通过线粒体途径增强肝癌细胞的凋亡[21]。作为酰基-CoA脱氢酶的成员,ACADSB通过催化酰基-CoA衍生物的脱氢,促进脂质代谢[22]。甘氨酸N-甲基转移酶(GNMT)的非活性突变导致肝脏AdoMet水平改变,进而导致肝损伤,纤维化和肝癌。MAT/GNMT基因表达失调如何导致氧化应激,脂质代谢受损和恶性转化的分子机制尚不清楚[23]。
本研究的局限性在于样本量相对较小,易造成统计学上的偏差。ADHFE1作为癌基因会导致致癌代谢物D-2HG在乳腺肿瘤中的积累[24],但我们发现其在胆囊癌中的表达是下调的(图5D和5E),具体的机制和原因还需要我们进一步研究。
综上,我们筛选了197个候选DEGs,它们可能参与了胆囊癌的进展,成功构建了胆囊癌中DEGs的PPI网络,并筛选出网络中可能参与胆囊癌过程的几个关键基因编码蛋白。对该网络的进一步研究将有利于理解DEGs之间的相互作用,在胆囊癌发病机制的基础分子机制方面对我们有所启发,为寻找胆囊癌新的治疗靶点提供思路。胆囊癌相关基因的功能还需要进一步的分子生物学实验来证实。