宋思源,温芳,黄雯洁,陈晓雪,阮帅,顾苏平,顾培杏,周佳钰,李烨,刘佳彤,舒鹏
1 南京中医药大学附属医院肿瘤内科,南京 210029;2 南京中医药大学;3 江苏省中医院肿瘤内科
GC 患者的5 年生存率仅为20%~30%[1]。因此,寻找影响GC 发生、发展的关键基因和生物标志物对于GC 的早期诊断、早治疗、预后均具有重要意义。基因启动子区域的DNA 甲基化与癌基因、抑癌基因的沉默有关,可能与许多肿瘤发生、发展有关[2]。尽管一些研究[3]已证实,某些基因在GC 组织中存在异常的DNA 高甲基化或低甲基化,但其相互作用网络的全面概况和途径仍不明确。GC 患者中差异表达基因(Differentially expressed gene,DEG)和差异表达甲基化基因(Differentially Methylated gene,DMG)。但以往这些研究均没有对获得的DMG 基因进行综合分析,对GC 发病的核心基因相关研究较少。因此,2021年1月起,我们运用生物信息学方法筛选GC 发病的核心基因,并分析其生物学功能。现将结果报告如下。
1.1 数据来源 在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中搜索关键字“GC”来获取GC基因表达数据集GSE118916和甲基化数据集GSE25869。GSE118916(平台:GPL15207 Affymetrix人类基因表达阵列)包括30例样本,其中GC患者15例,正常成人15例。GSE25869(平台GPL8490 Illumina HumanMethylation27 BeadChip)中纳入72 例样本,其中GC 患者24 例、正常成人48 例。本研究经南京中医药大学附属医院伦理委员会批准同意。
1.2 GC患者癌组织及健康成人胃组织中表达上调的低甲基化基因(high-regulated hypomethylated genes,Hypo-HGs)、表达上调的低甲基化(致)癌基因、表达下调的高甲基化基因(low-regulated hypermethylated genes,Hyper-LGs)及表达下调的高甲基化抑癌基因筛选 使用R 软件limma 数据包处理GSE118916、GSE25869数据集,以FDR <0.05 和|logFC|>1 作为筛选DEG 的纳入标准,FDR <0.05 和|logFC|>0.1 作为筛选DMG 的纳入标准。从癌基因数据库(http://ongene.bioinfo-minzhao.org/)和肿瘤抑制基因数据库(https://bioinfo.uth.edu/TSGene/index.html)中生成GC的癌基因和抑癌基因,共获得803个GC的癌基因、91个GC的抑癌基因。通过在线Venn 图(http://bioinfogp.cnb.csic.es/tools/venny/index.html),将低甲基化DMG 基因、上调DMG 基因和GC的癌基因进行重叠,得到Hypo-HGs、表达上调的低甲基化(致)癌基因。将高甲基化DMG基因、下调DMG基因和GC的抑癌基因进行重叠,得到Hyper-LGs 和表达下调的高甲基化抑癌基因(down-regulated hypermethylated tumor suppressor genes,TSG)。
1.3 GC 患者癌组织Hypo-HGs、Hyper-LGs 生物学功能及相互作用的主要基因筛选
1.3.1 GC 患者癌组织Hypo-HGs、Hyper-LGs 生物学功能分析 采用DAVID 数据库对Hypo-HGs、Hyper-LGs进行基因本体论(Gene Ontology,GO)分析和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,分析DMG 的分子机制及生物学功能。GO 富集分析主要由生物过程(biological process,BP)、细胞成分(cell components,CC)和分子功能(molecular functions,MF)组成。
1.3.2 GC 患者癌组织Hypo-HGs、Hyper-LGs 蛋白质—蛋白质相互作用的主要基因筛查 将“1.2”中获得的Hypo-HGs、Hyper-LGs 导入String 数据库(https://string-db.org/cgi/input.pl)中,进行PPI 网络构建,使用Cytoscape 进行可视化,构建Hypo-HGs、Hyper-LGs 的蛋白质-蛋白质相互作用网络图,分析相互作用的主要基因。
1.4 GC的发病的核心基因筛选及验证
1.4.1 GC 发病的核心基因的筛选 ①集TCGASTAD 资料库中胃腺癌患者癌组织中Degree 值排名前十的Hypo-HGs、Hyper-LGs、低甲基化癌基因及TSG 的表达情况,利用GEPIA 的在线工具(http://gepia.cancer-pku.cn/index.html 绘制患者的Kaplan-Meier 生存曲线(OS),分析发病的核心基因不同表达的GC 患者的预后情况。Oncomine(https://www.oncomine.org/)是基于微阵列的基因数据库。使用Oncomine 数据库对GC 癌组织中DMG 基因的表达情况进行分析,最终得到GC发病的核心基因。
1.4.2 GC发病的核心基因的生物学功能分析 通过HPA 数据库(https://www.proteinatlas.org/)收集GC患者和正常成人的临床资料,比较癌组织及健康成人胃组织GC 发病的核心基因蛋白的表达情况。使用cBioPortal 工具(http://www.cbioportal.org/)比较纳入胃腺癌患者GC 发病的核心基因的突变情况。对发病的核心基因进行GO、KEGG 富集分析,分析其生物学功能。
2.1 GC 患者癌组织Hypo-HGs、表达上调的低甲基化(致)癌基因、Hyper-LGs及TSG 由GSE118916表达矩阵得到,GC 组织及健康成人胃组织中存在1 163 个DEG,其中528 个上调DEG 基因、635 个下调DEG 基因。由GSE25869 中表达矩阵得到,GC 组织及健康成人胃组织中存在2 589个DMG,包括680个高甲基化DMG 基因、1 909 个低甲基化DMG 基因。GC 患者癌组织中有FN1、COL3A1 及COL1A1 等110个Hypo-HGs,其中TAC1、TWIST1、UCHL1、SPARC、GREM1、MEF2C、MAFB 等9 个基因为表达上调的低甲基化(致)癌基因;有CDH1、FOXA1 及KLF4 等23个Hyper/LGs,其中AZGP1、CDH1为TSG。
2.2 GC 患者癌组织Hypo-HGs、Hyper-LGs 的生物学功能及相互作用的主要基因
2.2.1 GC 患者癌组织Hypo-HGs、Hyper-LGs 的生物学功能 Hypo-HGs 的BP 主要集中在细胞粘附和细胞外基质组织中,CC 主要集中在细胞外区域、细胞外空间和细胞外体中,MF 主要集中在蛋白质结合、钙离子结合和肝素结合。KEGG 分析结果表明,Hypo-HGs 的生物学功能主要集中在粘着斑、PI3KAkt信号传导途径和ECM-受体相互作用中。
Hyper-LGs的BP主要在尼古丁和异种生物代谢过程富集,CC 主要富集于质膜,MF 主要富集于糖蛋白结合。KEGG 分析结果表明,Hyper-LGs 的生物学主要集中在药物代谢一细胞色素P450、化学致癌作用和细胞色素P450异源生物的代谢中。
2.2.2 GC 患者癌组织Hypo-HGs、Hyper-LGs 的蛋白质—蛋白质相互作用的主要基因 按度值排序,FN1、COL3A1、COL1A1、COL1A2、MMP2 等Hypo-HGs,CDH1、FOXA1 及KLF4 等Hyper-LGs,在PPI 网络中处核心位置。
2.3 GC 发病的核心基因 GC 患者癌组织与健康成人组织Hyper-LGs、表达上调的低甲基化(致)癌基因、Hyper-LGs 及TSG 基因表达比较 健康成人胃部组织比较,GC组织中COL3A1、COL1A2、COL1A2、SPARC、CDH1 和TMEM45B 基因表达升高而PXMP2表达降低。Kaplan-Meier生存曲线结果显示,癌组织高表达COL1A1、THBS1、COL5A2、COL12A1、CXCR4 的GC 患者的总生存期短(P均<0.05)。GC 发病的核心基因为COL1A1、THBS1、COL5A2、COL12A1及CXCR4。
2.4 GC发病的核心基因生物学功能 正常成人胃组织中COL1A1 蛋白、COL12A1 蛋白低表达,HBS1蛋白高表达。GC 组织中COL1A1 蛋白低表达,THBS1 蛋白、COL12A1 蛋白不表达。cBioPortal 分析结果显示,393 例胃腺癌患者中,有101 例(26%)患者存在COL1A1、THBS1、COL5A2、COL12A1 及CXCR4基因突变。
GC 发病的核心基因BP 主要包括胶原原纤维组织、胶原分解代谢过程。CC 主要包括内质网腔、细胞外基质。MF 包括细胞外基质的结构成分。KEGG 结果发现,GC 发病的核心基因主要在ECM-受体相互作用、蛋白质的消化吸收,粘着斑和PI3KAkt信号传导途径显著富集。
本研究中,我们使用生物信息学工具来分析基因表达数据集GSE118916 和甲基化数据集GSE25869,最终筛选获得110 个Hypo-HGs,其中9个为表达上调的低甲基化(致)癌基因。得到23 个Hyper-LGs 和2 个TSG。PPI 网络结果显示,Hypo-HGs 中的FN1、COL3A1、COL1A1、COL1A2、MMP2,Hyper-LGs 中的CDH1、FOXA1 和KLF4 在网络中处于核心位置。
进一步GO 分析结果表明,Hypo-HGs 的生物学过程主要涉及细胞粘附和细胞外基质组织。细胞粘附参与多种肿瘤细胞的病理和生理过程,细胞—细胞粘附和细胞-基质粘附的变化可促进癌细胞转移[4]。细胞间粘附分子-1(ICAM-1)是粘附分子免疫球蛋白超家族(IGSF)的成员。当人体发生炎症或感染时,ICAM-1 可能被过度激活并表达,并参与调节人体细胞的免疫反应。研究[5]发现,在转移率高的GC 细胞中可以检测到ICAM-1 的高水平表达,这表明ICAM-1 的表达与GC 的侵袭和转移密切相关,可有效用于GC血源性淋巴转移的临床监测。
Hyper-LGs 的生物学过程主要涉及对尼古丁和异种生物代谢过程的反应。尼古丁可以显着上调MMP7 的表达,而MMP7 高表达在癌症的侵袭中发挥关键作用,吸烟成瘾会增加发生GC 的风险[6]。外源性代谢过程可能会调节GC 的敏感性。KEGG 分析结果表明,Hypo-HGs 在粘着斑、PI3K-Akt 信号传导途径和ECM-受体相互作用中显着富集。研究发现粘着斑参与了GC 的发生和转移,钙释放激活的钙调节2(ORAI2)通过PI3K/Akt 信号转导和MAPK依赖性粘着斑分解来促进GC 的致瘤性和转移[7]。PI3K-Akt 途径广泛分布于各种细胞中,可以调节细胞的多种生物学行为。PI3K-Ak 通路异常可能触发癌症的发生和发展[8]。ECM 是肿瘤微环境的重要组成部分[9]。Hyper-LGs在药物代谢—细胞色素P450,化学致癌作用和细胞色素P450 异源生物的代谢中显着富集。细胞色素P450 家族基因通过细胞色素P450 的异源代谢参与了GC 的发展[10]。细胞色素P450家族2亚家族E多肽1(CYP2E1)的过表达促进GC细胞的增殖和侵袭,并抑制其凋亡。
GEPIA 数据库在收集GC 组织中FN1、COL3A1、COL1A1、COL1A2、MMP2、FBN1、SPARC、THBS1、COL5A2、CDH1、FOXA1、KLF4、AZGP、GC、CYP2C9、MGST1、PXMP2、SLC16A、TMEM1、TWEM45B、MEF2C、MAFB、HHEX 和CXCR4 等28个基因的表达情况后发现,GC 组织中COL3A1、COL1A2、SPARC、CDH1、TMEM45B基因高表达,PXMP2 基因低表达。研究[11]发现,COL3A1 在膀胱癌和胶质母细胞瘤中过表达。COL1A2 与GC 的侵袭和转移有关。COL1A2 的高表达可能表明GC 患者的临床预后较差[12]。SPARC 的高表达增加了肿瘤细胞的活性,并增强了上皮—间质转化和血管生成[13]。CDH1 的致病突变和种系缺失是早期弥漫性GC的重要致病因素[14]。TMEM45B 在许多类型的肿瘤中异常表达。抑制TMEM45B 可以抑制JAK2/STAT3 信号通路,从而抑制GC 细胞的增殖,迁移和侵袭[15]。
生存分析表明,高表达COL1A1、THBS1、COL5A2、COL12A1、CXCR4 的GC 患者总生存期较短。Oncomine数据库验证了5个发病的核心基因在GC 中的表达,结果表明COL1A1、THBS1、COL5A2、COL12A1 在GC 中表达。对5 种发病的核心基因的富集分析发现,BP 主要包括原纤维组织和胶原分解代谢过程。KEGG主要包括ECM-受体相互作用、蛋白质的消化吸收、黏着斑和PI3K-Akt 信号通路。cBioPortal 显示,26%的胃腺癌患者存在这五个基因的突变。
COL1A1、COL5A2、COL12A1 属于胶原形成基因家族[16],每个胶原由3 条以阿拉伯数字编号的多肽链组成。胶原蛋白是GC 细胞外基质的主要成分,也是微环境的主要成分。当GC 发生时,胶原蛋白合成增加并诱导上皮—间质转化,导致肿瘤细胞浸润和转移。GC 组织中COL1A1 的表达高于正常组织,这与GC 患者的预后有关。COL5A2 与骨肉瘤、膀胱癌和GC 的病理过程有关。研究[17]发现,COL12A1 在结缔组织疾病中异常表达,并且COL12A1 突变与患者的不良预后有关。COL12A1在GC 中高表达,这与不良的OS 和PFS 有关[18]。研究发现THBS1 突变与早期GC 有关。THBS1 可能通过影响肿瘤纯度,TMB、TME 评分和多种致癌信号通路而成为GC的新预后指标[19]。
综上所述,GC 发病的核心基因主要有COL1A 1、THBS1、COL5A2、COL12A1、CXCR4,其生物学过程主要包括胶原原纤维组织、胶原分解代谢、内质网腔,细胞外基质、细胞外基质的结构成分。GC 患者发病的核心基因主要通过ECM-受体相互作用、蛋白质的消化吸收、粘着斑和PI3K-Akt 信号传导途径发挥作用。GC 发病的核心基因可作为精确诊断和治疗GC的靶向标志物。