戴显通 李 浩 孙丽萍
中国医科大学附属第一医院肿瘤病因与筛查研究室 辽宁省高校肿瘤病因与预防重点实验室(110001)
背景:胃肠道癌症的发生、发展是多基因参与、多因素作用的结果。DNA甲基化是重要的表观遗传调控方式之一,对胃肠道癌症的诊断和治疗具有重要作用。目的:利用生物信息学分析方法,筛选并验证胃肠道癌症共同的差异甲基化-差异表达基因,为解析DNA甲基化在胃肠道癌症发生、发展中的分子机制提供理论依据。方法:选取GEO数据库中表达谱芯片和甲基化芯片数据,应用GEO2R筛选胃肠道癌症共同的差异甲基化-差异表达基因,STRING数据库构建蛋白质-蛋白质相互作用(PPI)网络,筛选出核心基因,行GO分析和KEGG分析,并应用TCGA数据库进行验证。结果:共筛选出胃肠道癌症60个高甲基化-低表达基因(Hyper-LGs)和407个低甲基化-高表达基因(Hypo-HGs)。GO分析示Hyper-LGs涉及46个功能,Hypo-HGs涉及164个功能。KEGG分析示Hyper-LGs主要富集于Rap1信号通路、吗啡成瘾通路等,而Hypo-HGs主要富集于ECM-受体相互作用信号通路、细胞周期通路、PI3K-Akt信号通路等。TCGA数据库验证结果显示,CDH2为胃肠道癌症共同的Hyper-LGs,EXO1为共同的Hypo-HGs。结论:基于生物信息学的差异甲基化-差异表达基因联合筛选分析可为阐明DNA甲基化在胃肠道癌症发生、发展中的表观遗传学作用提供新的线索,有助于全面解析胃肠道癌症DNA甲基化调控的作用及其机制,为胃肠道癌症诊断标志物的筛选和药物治疗精准靶点的选择提供理论基础。
胃癌和结直肠癌是我国常见的恶性肿瘤,其发病率分列恶性肿瘤发病率的第二、三位,死亡率位居第三位和第五位[1]。胃肠道肿瘤的发生、发展是多基因参与、多因素作用的结果,涉及遗传学变异和表观遗传学改变等多个分子事件[2]。表观遗传调控是正常生理调节的组成部分,包括DNA甲基化、非编码RNA、组蛋白修饰、染色质重构等[3]。其中,DNA甲基化是最常见的表观遗传修饰之一,主要发生于基因核心启动子区CpG岛胞嘧啶残基第5位碳原子处。DNA甲基化主要通过招募抑制基因表达的蛋白质或阻止转录因子与DNA结合来调控基因的表达[4],广泛参与胃肠道肿瘤的发生、发展。胃癌组织中TCF21[5]、NDRG2[6]表达降低与启动子区异常高甲基化显著相关;MDGA2在胃癌组织中呈高甲基化状态,且与患者预后不良有关[7];胃癌组织中BCL6B高甲基化者的5年生存率显著降低[8];p16、RUNX3、MLH1、CDH1等基因异常甲基化与胃癌发生、发展和预后有关[9]。NDRG2低表达的结直肠癌细胞株启动子区呈高甲基化状态[10];结直肠息肉RUNX3启动子高甲基化致基因失活是结直肠癌进展的早期事件[11];CACNA1G、IGF2、NEUROG1、RUNX3、SOCS1等基因甲基化状态与结直肠癌临床病理参数显著相关[12]。因此,联合分析胃癌与结直肠癌的差异基因并经一致性分析、验证,有望解析胃肠道癌症发生、发展中真正受甲基化调控的基因,并以此为基础开展胃肠道癌症的表观遗传调控研究。本研究通过利用公共数据库资源、生物信息学分析方法,在筛选甲基化相关差异表达基因后,进行基因功能和信号通路富集分析,旨在鉴定参与胃肠道癌症发生、发展调控的重要功能模块和关键基因,从而为解析胃肠道癌症的发病机制提供有价值的理论参考。
本研究所有微阵列数据DNA的甲基化芯片和mRNA表达谱芯片均来自于美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)的基因表达数据库(Gene Expression Omnibus, GEO)(https://www.ncbi.nlm.nih.gov/geo/)。GSE85464、GSE103186和GSE101764、GSE77718分别为胃癌、结直肠癌的DNA甲基化芯片;GSE66229、GSE13911和GSE37182、GSE44076分别为胃癌、结直肠癌的mRNA表达谱芯片。其中,GSE85464包括19对胃癌组织及其癌旁对照组织,GSE103186包括130例胃癌组织和61例对照组织,GSE101764包括112例结直肠癌组织和149例对照组织,GSE77718包括96对结直肠癌组织及其癌旁对照组织;GSE66229包括300例胃癌组织和100例对照组织,GSE13911包括37例胃癌组织和32例对照组织,GSE37182包括84例结直肠癌组织和88例对照组织,GSE44076包括98对结直肠癌组织及其癌旁对照组织。
1. 表达芯片的数据处理:①根据胃癌和结直肠癌表达谱芯片注释信息,对各芯片中的样本进行分组(包括癌症组和对照组);②利用GEO2R (http://www.ncbi.nlm.nih.gov/geo/geo2r/)工具对芯片中缺失值进行补充和标准化处理,计算癌症组与对照组的P值,以P<0.05作为阈值确定差异基因,其中LogFC>0为高表达基因,LogFC<0为低表达基因。
2. 甲基化芯片的数据处理:①使用R语言进行甲基化数据处理,在GEO数据库中下载所选甲基化芯片的矩阵文件与注释文件;②利用impute包补全矩阵文件的缺失值,wateRmelon包进行数据标准化处理;③利用minfi包中dmpFinder函数进行甲基化位点的差异统计,以P<0.05为阈值确定差异甲基化位点,其中LogFC>0为高甲基化位点,LogFC<0为低甲基化位点;④利用Illumina Human Methylation 450k manifest包对差异甲基化位点进行注释并去重以确定基因信息。
整合筛选出胃癌和结直肠癌差异甲基化、差异表达基因集,分别对4个表达谱芯片中的差异甲基化、差异表达基因集再取交集,得到胃癌与结直肠癌共同高表达基因集、低表达基因集、高甲基化基因集和低甲基化基因集。对上述四个共同基因集取交集,得到胃肠道癌症共同的高甲基化-低表达基因集(Hyper-LGs)和低甲基化-高表达基因集(Hypo-HGs)。
采用STRING数据库工具进行分析,交互作用综合评分为0.7分定义为显著,相互作用连接数大于5个认为是核心基因。利用Cytoscape 3.6.1建立PPI网络和模块分析,利用软件内置MCODE聚类工具筛选模块(标准:MCODE评分≥4分,同时基因节点数量≥4个)。P<0.05为差异有统计学意义。
利用STRING数据库对所选MCODE模块中的基因进行GO(Gene Ontology)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析。GO分析是对基因产物进行简单注释的主要生物信息学工具,包含细胞成分(cellular component)、分子功能(molecular function)以及生物过程(biological process)[13]。KEGG分析是一套包含基因组、信号途径、疾病和药物信息的数据库。然后利用DAVID(http://david.abcc.ncifcrf.gov/)在线工具对Hyper-LGs和Hypo-HGs行GO和KEGG分析,以P<0.05作为阈值,得到差异基因显著富集的信号通路。利用ggplot2程序包对差异显著的结果进行可视化。
利用Oncomine数据库,选择表达数据库中的TCGA数据集,验证筛选出的核心基因在胃肠道癌症中的表达差异。利用MethHC数据库中的TCGA甲基化数据,验证筛选出的核心基因在胃肠道癌症中的甲基化差异。
表达谱芯片结果显示,分别筛选出9 589个HGs和8 032个LGs(GSE66229)、3 842个HGs和8 714个LGs(GSE13911)、17 463个HGs和1 200个LGs(GSE37182)、7 942个HGs和7 836个LGs(GSE44076)。甲基化芯片结果显示,分别筛选出4 420个高甲基化基因和8 510个低甲基化基因(GSE85464)、2 712个高甲基化基因和8 713个低甲基化基因(GSE103186)、3 208个高甲基化基因和7 426个低甲基化基因(GSE101764)、4 817个高甲基化基因和8 112个低甲基化基因(GSE77718)。胃癌与结直肠癌筛选出共同高表达基因2 643个、共同低表达基因610个、1 082个共同高甲基化基因和4 182个共同低甲基化基因,其中Hyper-LGs 60个、Hypo-HGs 407个(图1)。
PPI网络分析显示Hyper-LGs有60个蛋白节点和38条连接线,Hypo-HGs有406个蛋白节点和1 283条连接线。Hyper-LGs前四位的核心基因分别为ITPKB、FGF2、CDH2和VIM,Hypo-HGs前五位的核心基因分别为PLK1、BRCA1、MAD2L1、EXO1和RRM2。
图1 差异甲基化-差异表达谱联合分析结果
Hypo-HGs包含13个模块聚集,其中模块1主要富集于细胞周期(cell cycle)和有丝分裂细胞周期过程(mitotic cell cycle process),模块2主要富集于细胞外基质成分(extracellular matrix organization)、含胶原蛋白的细胞外基质(collagen-containing extracellular matrix)以及蛋白质消化和吸收(protein digestion and absorption),模块3主要富集于含蛋白质的复合物(protein-containing complex)、蛋白酶复合物(proteasome complex)以及核糖体(ribosome)(图2),而Hyper-LGs无模块聚集。
GO分析结果显示,Hyper-LGs主要富集于黏着斑(focal adhesion)、钙通道调节剂活性(calcium channel regulator activity)和激活MAPK活性(activation of MAPK activity)等46个功能;Hypo-HGs主要富集于核质(nucleoplasm)、蛋白质结合(protein binding)和胞膜(membrane)等160个功能。KEGG富集分析结果显示,Hyper-LGs主要富集于Rap1信号通路(Rap1 signaling pathway)、吗啡成瘾通路(morphine addiction pathway);Hypo-HGs主要富集于ECM-受体相互作用通路(ECM-receptor interaction pathway)、细胞周期通路(cell cycle)和PI3K-Akt 信号通路(PI3K-Akt signaling pathway)(图3、图4)。
4个Hyper-LGs核心基因、5个Hypo-HGs核心基因经胃癌、结直肠癌TCGA数据库验证分析结果显示,CDH2为胃肠道癌症的共同Hyper-LGs,EXO1为共同的Hypo-HGs(表1)。
图2 Hypo-HGs模块PPI及其GO、KEGG分析
图3 Hyper-LGs的GO和KEGG通路富集分析
图4 Hypo-HGs的GO和KEGG通路富集分析
表1 核心基因的TCGA数据库验证
胃肠道肿瘤是高发病率、高死亡率的疾病[14],其发生、发展是多基因参与、多因素作用的过程,但目前对其分子机制的理解依然有限。基因调控异常是癌症发生的重要原因之一[15],DNA甲基化是目前肿瘤分子机制研究的热点之一。低甲基化通常在早期出现且与染色体不稳定性和印迹的丧失有关,而高甲基化与启动子活性相关且可继发于基因沉默[16]。癌基因高表达、抑癌基因低表达是造成癌症发生和发展的重要因素。启动子区转录因子结合位点甲基化状态所致的基因表达差异,是胃肠道癌症发生、发展的重要分子机制[17]。
本研究利用GEO数据库的甲基化和表达谱芯片数据,筛选出胃肠道癌症的共同差异表达基因,探讨其参与胃肠道癌症发生、发展的重要生物学功能基因及其信号转导通路,并对核心基因进行验证,为胃肠道癌症标志物的探索以及治疗靶点的研究提供了新的线索。
本研究中,GO分析结果提示,Hyper-LGs与钙通道调节分子活性和GPI连接的肾素受体活性相关,而细胞黏附力和钙信号是影响肿瘤细胞转移和侵袭的重要通路。GO分析结果提示,Hyper-LGs富集于MAPK活性激活通路。有研究[18]发现,甲基化诱导的SPG20沉默会通过激活EGFR/MAPK信号转导途径来促进胃癌细胞增殖。KEGG分析显示Hyper-LGs与Rap1信号通路相关,但目前关于胃肠道肿瘤异常甲基化对Rap1信号通路相关基因调控的研究较少见,其分子机制仍不完全明确。此外,Hypo-HGs中COL4A2、COL4A1、COL3A1、COL6A3、ITGA11、LAMC2、COL1A1、THBS2、COL5A1基因富集于细胞粘附的生物学过程和ECM-受体相互作用。ECM由结构和功能性大分子的复杂混合物组成,在细胞、组织的结构和功能维持中起有重要作用。细胞与ECM之间的特异性相互作用可直接或间接控制细胞活动,如粘附、迁移、分化、增殖和凋亡[19]。因此,这些基因可能通过甲基化状态的改变影响细胞的粘附作用,进而影响细胞与ECM之间的相互作用并参与胃肠道肿瘤细胞的迁移、分化等过程。Hypo-HGs富集基因数量最多的通路为PI3K-Akt信号通路,该通路可通过促进肿瘤细胞增殖、抑制肿瘤细胞凋亡、促进血管生成等分子机制参与胃肠道癌症的侵袭和转移[20-24]。
对异常甲基化-异常表达基因进行PPI网络的构建,有助于更好地理解差异基因之间的相互作用关系。本研究发现了3个Hypo-HGs最有意义的功能模块。模块1的生物学过程主要富集于细胞有丝分裂周期过程和细胞周期。细胞周期异常调节会导致细胞过度增殖和恶性肿瘤的发生、发展[16],说明这一模块内的基因可能通过对细胞周期(如有丝分裂过程)的影响调控胃肠肿瘤细胞的生长。Wang等[7]的研究发现,MDGA2通过阻滞G1-S细胞周期来诱导细胞凋亡、抑制细胞增殖,从而抑制肿瘤生长;MDGA2高甲基化状态可促进胃癌发生、发展,缩短患者生存期。Yu等[25]发现,胃癌细胞CDCA3启动子区低甲基化通过抑制SP1与近端启动子区的相互作用,促进CDCA3在胃癌细胞中的表达,进而抑制细胞增殖和侵袭。模块2主要富集于ECM、含胶原蛋白的细胞外基质以及蛋白质的消化和吸收。ECM与肿瘤细胞、周围肿瘤相关基质细胞共同构成了肿瘤微环境[26]。ECM本身不具有恶性肿瘤生物学功能,但其似乎通过提供有利于肿瘤的微环境来促进癌症发展。模块3主要富集于含蛋白质的复合物、蛋白酶复合物和核糖体,提示这一模块可能通过参与蛋白质翻译过程来调控基因表达。对于这三个模块中发挥重要作用的关键基因及其参与的调控通路等尚需行深入研究。
TCGA数据库验证结果提示,CDH2为胃肠道癌症的共同Hyper-LGs,EXO1为共同的Hypo-HGs。CDH2负责编码黏钙素超家族的黏钙素2,但其甲基化和功能在胃癌和结直肠癌中的作用尚未见相关报道。EXO1有助于调控细胞周期、复制叉的维持以及复制后的DNA修复,其高表达在细胞周期和细胞复制中发挥重要作用,可能对癌症的发生、发展起重要作用[27],但其在胃肠道癌症中尚未见甲基化和功能相关报道。
综上所述,本研究利用公共数据库资源和生物信息学分析方法,对胃肠道癌症中差异甲基化-差异表达基因进行联合分析以及生物学功能、通路富集分析,解析了胃肠道肿瘤中甲基化调控的重要作用及其机制,从而为阐明甲基化在胃肠道肿瘤发生、发展中的表观遗传学作用提供了新的线索,为其诊断和治疗靶点的筛选提供了理论基础以及有价值的参考。