结直肠癌差异表达及预后相关基因分析*

2021-07-02 03:10王思毓刘珊刘艳艳郭梦玲张思宇安倩蒋永新
肿瘤预防与治疗 2021年6期
关键词:甲基化直肠癌通路

王思毓, 刘珊, 刘艳艳, 郭梦玲, 张思宇, 安倩, 蒋永新

650118昆明,昆明医科大学第三附属医院 分子诊断中心/云南省肺癌研究重点实验室/教育部高原区域性高发肿瘤国际合作联合实验室

据最新统计数据,结直肠癌是全球第三大常见肿瘤和第二大肿瘤相关死因,每年有近180万新发病例和近90万与之相关的死亡,5年总体存活率不足50%[1-3]。结直肠癌的预后在很大程度上取决于能否早期发现肿瘤。Liu等[4]发现,早期诊断的结直肠癌患者5年生存率>90%,但由于患者早期无特殊症状,同时缺乏足够有效的诊断方法,结直肠癌往往在晚期才被发现。近年来随着手术及各种治疗方法的进步,结直肠癌患者的治疗疗效有了很大的提高,然而晚期结直肠癌患者的5年生存率仍很低,不足12%[5]。因此,迫切需要了解结直肠癌发生进展的分子机制,寻找有效的生物标志物用于结直肠癌的早期诊断、预后评估和治疗,以提高患者的存活率。

近年来基于基因芯片结合生物信息学的工具广泛用于研究复杂疾病的发病机制,是识别与肿瘤发生、进展、诊断和预后相关的生物标志物的有效途径[6-7]。在本研究中,我们整合了从GEO数据库中筛选出的两个数据集,以获得结直肠癌特有的差异表达基因(differentially expressed genes,DEGs)。对DEGs进行功能和通路富集分析来揭示DEGs的功能和作用机制,构建蛋白质相互作用(protein-protein interaction,PPI)网络以确定与结直肠癌相关的关键枢纽Hub基因。利用在线工具Kaplan-Meier plotter和GEPIA数据库对筛选出的关键枢纽Hub基因进行生存分析,探讨Hub基因与结直肠癌预后的关系,筛选出与预后相关的核心基因,并对与预后相关的核心基因的表达水平进行验证,分析预后相关的核心基因的启动子甲基化水平,以期为结直肠癌的早期诊断,预后评估和治疗提供新的分子标志物。

1 资料和方法

1.1 数据收集

本研究的工作流程如图1所示。通过在美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)平台下的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中输入关键词“colorectal cancer”“Homo sapiens”和“expression profiling by array”来进行数据集搜索。数据集需要满足以下标准:1)数据来自临床研究,而不是侧重于细胞系或特定免疫细胞的研究;2)数据集的样本大小必须大于100;3)比较对象必须是结直肠肿瘤组织和邻近的正常结直肠组织。最终从搜索结果中获得两个数据集GSE87211[8]和GSE44076[9],其中GSE87211数据集基于GPL13497平台(Agilent-026652 Whole Human Genome Microarray 4x44K v2),包含203例结直肠癌组织和160例正常对照组织。GSE44076数据集基于GPL13667平台([HG-U219] Affymetrix Human Genome U219 Array)包括98例结直肠癌组织和98例正常对照组织。

图1 研究工作流程图

1.2 数据预处理与DEGs筛选

使用R软件(3.6.3版,https://www.r-project.org/)中的GEOquery软件包对GEO中的两个数据集进行标准化预处理。去除没有对应基因的探针集,根据注释信息进一步转换成相应的基因,同一基因有多个探针时计算其均值。R软件中的limma软件包分析两数据集中结直肠癌组织和正常组织的DEGs,DEGs的筛选标准为:|logFC(fold change)|>2和adjustedP<0.01。分别用R软件中pheatmap软件包和ggplot2软件包进行聚类热图和火山图的绘制分析。最后为降低结果中的假阳性率,使用R软件中的VennDiagram软件包对两个数据集取交集绘制Venn图,确定共有的DEGs。

1.3 GO功能注释和KEGG通路富集分析

为了揭示DEGs的功能,利用Enrichr数据库(https: //maayanlab.cloud/Enrichr/)对DEGs进行了基因本体(Gene Ontology,GO)注释和京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,将富集结果用R软件可视化,以同时满足P<0.05和FDR<0.05作为显著富集的标准。

1.4 PPI网络构建和Hub基因的筛选

通过向STRING数据库网站(http://string-db.org)上传DEGs来构建及可视化编码蛋白之间的PPI。为了避免不准确的PPI网络,我们设置所需的最低交互得分为0.9(cutoff≥0.9,高置信度)来获得显著的PPI,并去除与其他蛋白无相互作用的蛋白节点。采用Cytoscape软件中的MCODE插件进一步分析及可视化关键模块和Hub基因,Hub基因筛选的标准为:MCODE评分>10分。

1.5 Hub基因在结直肠癌中的生存分析

Kaplan-Meier plotter(http://kmplot.com/analysis/)网站基于来自GEO、EGA和TCGA数据库的肿瘤样本,广泛应用于探索基因对21种肿瘤生存的影响。GEPIA(http://gepia.cancer-pku.cn/index.html)提供了基于TCGA和GTEx数据库的多功能分析。应用Kaplan-Meier plotter(含165名结直肠癌患者)和GEPIA(含270名结直肠癌患者)来评估Hub基因表达与结直肠癌患者总生存期(overall survival,OS)的关系,筛选与预后相关核心基因。根据Hub基因表达的中位数将结直肠癌患者分为高表达组和低表达组,以基因表达量的下限50%和上限50%作为分析标准,Log-rank检验P<0.05为差异有统计学意义。

1.6 与预后相关核心基因的mRNA表达验证

应用Oncmine数据库(https://www .oncomine.org)和GEPIA数据库对与预后相关的核心基因在结直肠癌样本和正常样本中的mRNA表达量进行验证及可视化。同时满足|logFC(fold change)|>1和P<0.01为差异有统计学意义。

1.7 核心基因的启动子甲基化水平检测

Ualcan数据库(http://ualcan.path.uab.edu/index.html)是基于TCGA中的相关癌症数据进行基因甲基化、相关性分析等多功能分析数据库[10]。应用Ualcan数据库,对结直肠癌组织和正常对照组织中核心基因的启动子甲基化水平进行分析及可视化,设置P<0.05为差异有统计学意义。

2 结 果

2.1 筛选出结直肠癌的DEGs

从GEO数据库获取两个符合纳入标准的数据集,其中GSE87211共纳入363例样本(203例结直肠癌组织和160例正常组织),GSE44076共纳入196例样本(98例结直肠癌组织和98例正常组织)。根据筛选标准|logFC(fold change)|>2和adjustedP<0.01,从GSE87211数据集中得到853个DEGs(357个上调基因和496个下调基因),GSE44076数据集中得到467个DEGs(119个上调基因和348个下调基因)。数据集的前50个DEGs的聚类热图见图2A、C,DEGs的分布火山图见图2B、D。Venn图(图2E)显示了两个数据集取交集的基因数,共有256个共同的DEGs,其中包括73个表达上调基因和183个表达下调基因。

图2 结直肠癌DEGs

2.2 DEGs的GO功能注释和KEGG通路富集分析

GO富集分析结果显示,DEGs在生物过程方面(biological process,BP)主要富集在细胞外基质降解、分子黏附等;在细胞组分方面(cellular component,CC)主要富集在胶原蛋白类细胞外基质、基底细胞膜等;在分子功能方面(molecular function,MF)方面主要富集在受体配体相互作用、趋化因子活动等(图3A~C)。KEGG富集分析结果显示,DEGs主要富集在PPAR信号通路、氮代谢等(图3D)。同时分别对上调和下调的DEGs进行了富集分析,结果见表1和表2。

表1 上调DEGs的GO和KEGG富集

表2 下调DEGs的GO和KEGG富集

图3 DEGs的GO和KEGG富集

2.3 构建DEGs的PPI网络和筛选Hub基因

将DEGs上传至STRING,设置cut off≥0.9(高置信度),构建PPI网络。去除与其他蛋白明显无相互作用的蛋白节点,如图4A所示,PPI网络中共含64个节点,286条相互作用的连线,PPI网络富集P< 0.001运用Cytoscape软件中的MCODE插件,设置MCODE评分>10分,筛选得到连接最紧密的1个核心模块,共包含13个Hub基因(图4B)。

图4 DEGs的PPI网络(A)和核心模块的Hub基因(B)

(Table 1 continues on next page)

(Table 2 continues on next page)

2.4 Hub基因的生存预后分析

运用GEPIA和Kaplan-Meier plotter分析与绘制生存预后曲线可视化Hub基因与结直肠癌患者生存预后的关系,设置Log-rankP<0.05为差异有统计学意义。其中CXCL2和GNG4基因在两种网站的分析结果中均表现出与患者OS的显著相关性(图5),认为是与患者预后相关的核心基因。高表达CXCL2的患者相较于低表达患者预后更好,高表达GNG4的患者相较于低表达患者预后更差。其余基因与患者OS无明显相关性,或在两种网站分析中结果未达成一致(表3)。

图5 基于GEPIA(A)和Kaplan-Meier plotter(B)绘制的预后相关核心基因的生存曲线

表3 基于GEPIA和Kaplan-Meier plotter的13个Hub基因的生存预后分析

2.5 核心基因CXCL2和GNG4的mRNA表达验证

采用GEPIA与Oncomine两种数据库分别对核心基因CXCL2和GNG4在结直肠癌样本与正常对照样本中的mRNA表达进行验证,设置|log2FC|>1和P<0.01为差异有统计学意义,CXCL2和GNG4在结直肠癌组织中均显著高表达(图6A、B),与在GEO数据库筛选出的GSE872211和GSE44076数据集中的表达结果一致。

图6 基于GEPIA中TCGA和GTEx的数据、Oncomine中的7个研究和UALCAN中的TCGA数据分析验证CXCL2和GNG4在结直肠癌和正常组织中的mRNA表达水平(A、B)和甲基化水平(C)

2.6 核心基因CXCL2和GNG4的启动子甲基化水平

通过Ualcan分析CXCL2和GNG4的启动子甲基化水平,P<0.05为差异有统计学意义。如图6 C所示,y轴的Beta值表示甲基化水平从0(未甲基化)到1(完全甲基化),CXCL2的中位Beta值在正常组织中为0.14,结直肠癌组织中为0.09,GNG4的中位Beta值在正常组织中为0.16,结直肠癌组织中为0.15。与正常组织相比,结直肠癌组织的CXCL2和GNG4甲基化水平均显著降低。

3 讨 论

晚期结直肠癌患者预后极差,其5年生存率不足12%[5,11]。深入研究结直肠癌发生进展的生物学过程、分子机制、涉及的信号通路,以发现有效的生物标志物用于结直肠癌的早期诊断、预后评估和治疗具有重要意义。

本研究从GEO数据库中筛选出含大量结直肠癌和正常对照组织的基因芯片的信息数据集GSE87211和GSE44076,共包含559例样本(301例结直肠癌样本和258例正常对照样本)。先对每个数据集筛选各自DEGs,再取交集得到共同的256个DEGs(73个表达上调基因和183个表达下调基因)。对DEGs进行GO和KEGG富集分析,发现DEGs主要富集参与细胞外基质降解、分子黏附等生物过程;存在于胶原蛋白类细胞外基质、基底细胞膜等细胞组分;发挥受体配体相互作用、趋化因子活动等分子功能;KEGG通路主要富集在PPAR信号通路、氮代谢等。由此,我们对DEGs的功能、作用的信号通路有了更深入的了解。进一步对DEGs的PPI分析得到13个可能在结直肠癌的发生进展中起关键作用的Hub基因,其中CXCL2和GNG4基因与结直肠癌患者的预后密切相关。

CXCL2是趋化因子家族的成员,属于内源性配体,是一种小分子分泌蛋白[12]。目前多项研究表明,CXCL2作为癌基因或抑癌基因与多种肿瘤密切相关。Ding等[13]发现,肝癌组织中CXCL2的表达水平显著低于配对正常肝组织,与肝癌的不良预后相关。其过表达对肝癌细胞的增殖和生长有明显的抑制作用,并能通过细胞核和线粒体凋亡途径诱导肝癌细胞凋亡,通过ERK1/2信号通路对肝癌细胞的细胞周期进行负调控。此外Subat等[14]对肝癌细胞DNA脱甲基化处理后CXCL2显著上调,提示CXCL2的作用机制可能受甲基化调控。另有研究[15]发现,CXCL2的表达和CD33+髓源性抑制细胞(myeloid-derived suppressor cells,MDSCs)的聚集在膀胱癌中明显增加,且与疾病分期和预后不良显著相关。CXCL2可通过介导膀胱癌中MDSC的趋化作用募集MDSC,进而提高肿瘤的免疫抑制能力,促进肿瘤发生发展。在本研究中,相较于正常组织,CXCL2在结直肠癌中明显过表达。但有趣的是,生存分析显示,CXCL2高表达的结直肠癌患者表现出更好的生存预后。Acosta等[16]的报道指出,CXCR2在癌前病变和早期癌症中表达升高,而晚期癌症中表达缺失,抑制CXCR2能抑制衰老和DNA损伤反应,与恶性肿瘤发展中逃避衰老的观点一致。而CXCL2信号可通过CXCR2受体在肿瘤发生的早期加强衰老,起到阻止肿瘤进一步恶性转化的作用,从而抑制肿瘤生长,或许可以解释CXCL2在结直肠癌发生和预后中的双重作用。

GNG4是G蛋白复合体家族中的一员[17]。Pal等[18]的研究表明,GNG4是胶质母细胞瘤(glioblastoma,GBM)中甲基化程度最高、表达水平最低的基因之一,通过甲基化抑制剂的处理,可以逆转GBM细胞中GNG4转录水平的降低。过表达GNG4可抑制GBM细胞的增殖、集落形成、迁移和侵袭,提示GNG4在GBM中具有潜在的抑癌作用。Kishibuchi 等[19]发现,GNG4在胸腺癌中也表现出高度甲基化,DNA甲基化程度较高的胸腺癌患者的无复发生存率明显低于DNA甲基化水平较低的患者。另外,GNG4的高表达与左半结肠癌患者的病理分期密切相关[20],还是影响直肠癌患者的新辅助放化疗疗效的重要因素[21]。我们的研究发现CXCL2和GNG4在结直肠癌组织中过表达,处于结直肠癌PPI网络中的核心地位,对患者生存预后存在显著影响,但其在结直肠癌中具体的作用及作用机制有待进一步的实验研究。

利用GEPIA和Oncomine中数据对CXCL2和GNG4在结直肠癌和正常组织中的mRNA表达进行验证,结果与GEO数据库两数据集中结果一致。另外,CXCL2和GNG4在结直肠癌组织高表达,同时表现出低甲基化水平,提示CXCL2和GNG4的启动子甲基化可能是调控两基因表达的重要因素。

综上所述,本研究通过生物信息学技术筛选获得了可能影响结直肠癌发生、进展、预后的核心基因,为结直肠癌的发病和进展提供了新的见解,为探索结直肠癌的发生发展的机制提供了新的思路,并初步证实启动子甲基化是调控CXCL2和GNG4基因表达的重要因素。但他们能否在结直肠癌中发挥具体作用以及要了解其具体作用机制需要进一步的实验探索。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢
甲基化直肠癌通路
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
一种肿瘤甲基化谱纯化的统计方法朱宜静
5-氮杂胞苷调节植物基因表达研究进展与应用展望
直肠癌术前分期诊断中CT与MRI检查的应用效果对比
甲基苯丙胺改变成瘾小鼠突触可塑性基因的甲基化修饰
植物DNA甲基化研究进展
MRI在直肠癌诊断中的价值及预后的应用研究
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究