丁志祥 史兵伟 王永仿 葛 贤 刘 迁
(南京中医药大学附属常州市中医医院检验科,常州 213003)
2019年癌症统计数据显示消化系统肿瘤新增病例数和死亡人数均位居第一,而结肠癌(colon cancer,CC)新增病例数和死亡人数均位居消化系统榜首,其新增病例数远高于其他消化系统肿瘤[1]。在中国,结直肠癌的发病率与死亡率也位居前列,严重威胁公众的健康并给社会带来沉重的经济负担[2]。CC的发病机制还不甚清楚,目前普遍认为其与遗传、饮食、炎症、免疫、肠道微生态等多种因素有关[3]。CC的治疗方法主要包括手术、放化疗和靶向药物治疗等,随着技术的创新及新靶向药物的应用,较大地改善了CC患者预后,但对于进展期CC总体疗效欠佳,许多患者对放化疗及靶向药物治疗产生抗性。因此,寻找更加有效的靶点基因对于优化CC患者的治疗方案及改善预后至关重要。本研究通过生物信息学方法筛选CC差异表达基因,并对差异表达基因进行基因本体(gene ontology,GO)分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析,进一步构建蛋白相互作用(protein-protein interaction,PPI)网络,筛选出与CC发生密切相关的枢纽基因(hub gene),为CC的分子机制和靶点研究提供理论依据。
1.1数据来源 从美国国立生物技术信息中心的GEO数据库(http://www.ncbi.nlm.gov/gds)中通过检索“colon cancer”筛选出GSE41258、GSE41328和GSE44861 3组芯片,GSE41258数据集包含36例CC及癌旁配对组织,GSE41328包含5例CC及其癌旁配对组织,GSE44861数据集包含56例CC及55例癌旁组织,3组芯片数据集分别于GPL96、GPL570和GPL3921平台测得。
1.2方法
1.2.1差异基因筛选 对3组芯片数据进行GEO2R在线分析,筛选条件包括P<0.05和|logFC|>1,分别得到3组芯片相应的差异基因。获得的差异基因通过在线网页工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)绘制韦恩图获取3组芯片差异基因的交集。
1.2.2GO和KEGG富集分析 利用生物学信息注释数据库DAVID(http://dabid.ncifcrf.gov/)对3组芯片差异基因的交集进行GO富集分析和KEGG通路富集分析,分析差异基因主要参与的生物学过程以及主要涉及的肿瘤相关通路,以P<0.01为入选标准。
1.2.3PPI网络构建及Hub基因的筛选 应用STRING在线数据库(http://string-db.org)对差异基因进行PPI网络分析,然后将网络导入Cytoscape 3.6.1(http://www.cytoscape.org/)软件可视化,通过cytoHubba插件筛选hub基因。
1.2.4Hub基因的表达验证及CC患者生存分析 采用GEPIA数据库(http://gepia.cancer-pku.cn/index.html)验证筛选出的hub基因在CC组织和正常组织中的表达,同时采用生存分析评价hub基因在CC患者预后中的价值。
2.1CC差异表达基因的筛选 3组芯片数据分别得到733、678和411个差异基因。利用韦恩图获取3个数据集表达差异基因的交集,得到共表达差异基因142个,其中上调基因67个,下调基因75个,见图1。
2.2CC差异基因GO富集分析 利用DAVID数据库对142个差异表达基因进行GO富集分析发现,差异基因在细胞组成主要富集于胞外区、细胞外隙、蛋白质细胞外基质及胶原蛋白三聚体,生物过程主要富集于细胞黏附、细胞外基质形成、胶原蛋白分解代谢过程、骨骼系统生长、骨化作用、胶原原纤维形成,分子功能主要富集于细胞外基质结构形成及趋化因子受体结合,见图2。
图1 CC组织3组芯片差异表达基因筛选Fig.1 Screening of differentially expressed genes in 3 datasets of CC tissues
图2 CC组织差异基因GO富集分析Fig.2 GO enrichment analysis of differentially expressed genes of CC tissues
2.3CC差异基因KEGG信号通路分析 利用DAVID数据库对142个差异表达基因进行KEGG通路富集分析发现,差异基因主要富集于PI3K-AKT信号通路、细胞因子与细胞因子受体相互作用、癌症通路、局部黏附等通路,见图3。
2.4CC差异基因的PPI分析及hub基因筛选 应用STRING数据库对142个CC差异基因进行PPI分析,应用Cytoscape将蛋白网络可视化,cytoHubba插件根据节点数筛选出前10个hub基因,包括CCND1、COL1A1、COL1A2、CXCL1、CXCL8、CXCL12、MMP1、MMP3、MYC和SPP1,颜色越红代表节点数越多,见图4。
2.5结肠腺癌组织和正常组织中hub基因表达的验证 应用TCGA数据库在线分析工具GEPIA 对hub基因在结肠腺癌中的表达进行验证,发现 CCND1、COL1A1、COL1A2、CXCL1、CXCL8、MMP1、MMP3、MYC和SPP1在结肠腺癌组织中表达增高,而CXCL12在癌组织中表达降低,差异有统计学意义(P<0.01),见图5。
图3 CC差异基因KEGG信号通路密集分析Fig.3 KEGG pathway enrichment analysis of differentially expressed genes of CC
图4 142个差异基因PPI分析及hub基因筛选Fig.4 PPI of 142 differen-tially expressed genes and screening of hub genes
2.6hub基因与结肠腺癌患者预后的关系 10个hub基因中COL1A2高表达与结肠腺癌总生存率呈负相关(P<0.05),COL1A1和COL1A2高表达均与结肠腺癌DFS呈负相关(P<0.05),其余差异无统计学意义,见图6。
图5 hub基因在结肠腺癌和正常肠组织表达水平的验证Fig.5 Validation of expression levels of hub genes in colon adenocarcinoma tissues and normal colon tissues
图6 hub基因表达与结肠腺癌预后的生存地图及生存曲线Fig.6 Prognostic survival map and curves of hub genes expression in colon adenocarcinoma
本研究通过分析GSE41258、GSE41328和GSE44861芯片数据集得到共表达差异基因142个,其中上调基因67个,下调基因75个。通过GO分析发现差异基因在细胞组成中主要富集于胞外区、细胞外隙、蛋白质细胞外基质及胶原蛋白三聚体,生物过程主要富集于细胞黏附、细胞外基质形成、胶原蛋白分解代谢过程、骨骼系统生长、骨化作用、胶原原纤维形成,分子功能主要富集于细胞外基质结构形成及趋化因子受体结合。KEGG分析发现差异基因主要富集于PI3K-AKT信号通路、细胞因子与细胞因子受体相互作用、癌症通路、局部黏附等信号通路。通过PPI分析筛选得到10个hub基因,包括CCND1、COL1A1、COL1A2、CXCL1、CXCL8、CXCL12、MMP1、MMP3、MYC和SPP1。验证上述hub基因发现CCND1、COL1A1、COL1A2、CXCL1、CXCL8、MMP1、MMP3、MYC和SPP1在CC中表达增高,而CXCL12在CC中表达降低。
在筛选出的hub基因中,CCND1和MYC与细胞周期、细胞增殖密切相关。CCND1是一个重要的细胞周期调节因子,协同细胞周期蛋白依赖性激酶4和6,调节细胞周期从G1期向S期转变[4]。近期研究发现,CCND1可参与不同通路,通过调节细胞周期及肿瘤增殖参与结直肠癌的发生发展,同时在药物抵抗中也发挥作用[5-7]。转录因子MYC是一种普遍存在的致癌基因,可诱导脂肪酸、氨基酸和核苷酸摄取和合成所需基因的转录,为细胞持续增殖提供物质基础,是肿瘤代谢重编译的主要驱动因素[8]。研究发现,MYC不仅可参与结直肠癌整体代谢的调节,还可通过诱导LEF1激活WNT通路促进结肠癌细胞增殖分化,另外MYC可通过驱动致癌基因HOXB8增强结直肠癌的侵袭性[9-11]。SPP1又称骨桥蛋白,是一种重要的细胞外基质蛋白,参与多种病理生理过程,包括肿瘤的侵袭和转移。研究发现,SPP1在结直肠组织中高表达,与结直肠癌预后密切相关,可通过激活EMT通路促进结直肠癌的转移,有望成为结直肠癌治疗的新靶点[12-13]。基质金属蛋白酶包括MMP1和MMP3,在多种肿瘤组织中高表达,在肿瘤进展及侵袭转移中发挥重要作用[14]。近期研究发现,一些中药组分在结直肠癌中可通过不同机制下调MMP1和MMP3的表达从而抑制肿瘤细胞增殖和侵袭[15-16]。
趋化因子是一类分子量低、具有趋化效应的细胞因子,可分为C、CC、CXC和CX3C 4个亚家族,在调节免疫细胞运输和淋巴组织发育中发挥重要作用。在肿瘤微环境中,趋化因子可由肿瘤细胞和包括免疫细胞和基质细胞在内的其他细胞表达,在特定趋化因子的作用下,不同免疫细胞亚群迁移至肿瘤微环境,共同参与肿瘤及微环境免疫应答;此外,趋化因子可直接作用于肿瘤微环境中的非免疫细胞,包括肿瘤细胞和血管内皮细胞,调节肿瘤细胞增殖、肿瘤干细胞样特性及肿瘤侵袭和转移[17]。HSU等[18]研究发现,肿瘤相关树突状细胞可通过CXCL1促进CC细胞增殖,增强CC中干细胞特性,并通过增强细胞迁移、MMP7的表达和EMT提升CC的侵袭转移能力。研究发现,CXCL8可通过NF-κB/PI3K/AKT信号轴诱导EMT,促进CC细胞增殖、迁移和侵袭[19]。通过阻断CXCL8或其受体CXCR1,对CC体外增殖和血管生成均有显著的抑制作用,致瘤性显著降低[20]。CXCL12可靶向血管内皮细胞,与VEGF协同促进肿瘤血管新生,并可通过多种通路促进CC细胞的增殖及侵袭[17,21-22]。令人疑惑的是,CXCL12在CC组织中表达并未增高。MOUSAVI等[23]和YOSHUANTARI等[24]研究发现,CXCL12在CC组织与正常组织表达中无差异。本研究显示,CXCL12在结肠腺癌组织中的表达显著低于正常组织,与KHEIRELSEID等[25]的研究结果一致。因此,关于CXCL12在CC及其微环境中的作用有待进一步研究。
COL1A1和COL1A2均属于胶原蛋白家族,是细胞外基质的重要组成部分。而细胞外基质作为肿瘤微环境的组成部分,在肿瘤的发生发展及转移过程中发挥重要作用。研究发现,COL1A1可通过调节WNT通路促进CC转移,并有望成为CC治疗的潜在靶点[26-27]。 目前关于COL1A2在CC中的作用仍存在争议。YU等[28]研究发现,COL1A2对CC细胞的增殖、迁移及侵袭具有抑制作用,而ZHU等[29]研究发现,COL1A2可增强CC细胞的生存及迁移,促进EMT进程。本研究生存分析显示COL1A2高表达与结肠腺癌总生存率呈负相关,COL1A1和COL1A2高表达均与结肠腺癌DFS呈负相关。ZHOU等[30]选取了与本研究不同的3组CC芯片作为研究对象,同样发现COL1A1和COL1A2与CC的预后密切相关。
综上所述,本研究通过对CC及癌旁组织的差异表达基因分析发现CCND1、COL1A1、COL1A2、CXCL1、CXCL8、CXCL12、MMP1、MMP3、MYC和SPP1 10个与CC相关的hub基因及2个预后相关基因COL1A1和COL1A2,为CC的分子机制研究及预后判断提供了新靶点。