刘丽丽,朱芳来
(安徽医科大学附属安庆市第一人民医院消化内科,安徽 安庆 246000)
胃癌是全球最常见的恶性肿瘤之一,据相关资料显示,2018年全球新发胃癌1 000 000例,死亡783 000例,居全球恶性肿瘤发病率第五位,居肿瘤死亡率第三位[1]。2015年我国癌症调查资料显示全年新发胃癌数400 000例,居我国恶性肿瘤发病率第二位[2]。目前胃癌的诊断主要依靠胃镜及影像学检查,但均存在检出率低的缺点,且多数检出者已为进展期或晚期,错过了最佳治疗时期。近年来胃癌的发病率及死亡率均呈逐年上升趋势[3],对我国及全球的卫生健康事业提出了巨大的挑战。因此,发现新的标志物对于胃癌的早期诊断及干预意义重大。本文基于生物信息学分析方法,利用公共数据库数据,筛选与胃癌生存预后的相关基因,为胃癌的早期诊断提供新的检测标志物及新的治疗方向。本次研究经过本院医学伦理委员会同意。
1.1基因芯片数据的获取:通过公共数据库NCBI Gene Expression Omnibus(NCBI GEO)(https://www.ncbi.nlm.nih.gov/geo/)下载与胃癌相关的基因芯片数据,纳入标准:①转录组数据;②物种为人类;③包含正常对照组。得到四个与胃癌相关的基因芯片数据集:GSE19826(GPL570平台),GSE29998(GPL6947平台),GSE54129(GPL570平台),GSE79973(GPL570平台)。所有芯片数据均由贡献者上传至GEO数据库,GEO提供原始芯片数据和经过预处理的矩阵文件。四个胃癌芯片数据集共包含肿瘤组织样本183例,正常胃黏膜组织标本95例。
1.2数据处理及对差异表达基因的筛选:考虑芯片数据来源于不同的处理平台,数据处理方式存在不同,因此,在对不同芯片数据进行分析处理之前,统一采取相同标准进行标准化处理,利用RMA(Robust Multiarray Average)算法对所有数据进行标准化处理。根据疾病情况将样本分为肿瘤组(tumor)及正常对照组(normal),利用R软件(v.3.5.0)中的Limma包对标准化处理后的芯片数据进行差异分析,设定P value值及对数化表达倍数变化(log2 fold change,log2FC)作为筛选差异基因的阈值,整合各芯片数据集后得出各芯片数据集中的差异表达的基因。
1.3不同芯片数据集中差异表达基因的整合:利用RRA算法对四个基因芯片数据集中具有差异表达的基因进行整合分析,获得不同芯片数据集中共有的差异表达基因。
1.4差异表达基因的GO分析及KEGG通路富集分析:DAVID(https://david.ncifcrf.gov)是基因功能分析最常用的在线分析网站,其可以对大规模的基因组数据进行功能分析。将四个芯片数据集整合后获得的差异表达基因导入DAVID 6.8在线分析网站,以P<0.05作为筛选条件。对差异表达基因进行功能注释,最常用的功能注释包括GO(Gene Ontology)分析及KEGG通路富集分析。通过在线网站分析这些差异表达基因主要的生物功能以及可能涉及的信号通路。
1.5蛋白互作网络构建:String(https://string-db.org)是研究蛋白与蛋白相互作用的在线生物信息学网站。本研究将表达差异的基因导入String 11.0在线分析网站,设置最低互作分值(minimum required interaction score)的可信度(high confidence:0.15),获得蛋白相互作用的数据,然后通过Cytoscape软件对结果进行可视化和进一步分析。
1.6生存分析:Kaplam-Meier Plotter(http://kmplot.com)是常用的在线生存分析网站。本研究将蛋白互作网络构建筛选出的基因导入Kaplam-Meier Plotter在线分析网站,以P<0.05为筛选标准。
2.1不同胃癌基因芯片中差异表达的基因:利用RMA算法对四个胃癌基因数据集进行标准化处理后,通过R软件Limma包对各数据进行处理,获得差异表达的基因。见图1。其中数据集GSE19826获得上调基因376个,下调基因478个,见图2A;数据集GSE29998上调基因879个,下调基因815个,见图2B;数据集GSE54129获得上调基因1 051个,下调基因1 080个,见图2C;数据集GSE79973获得上调基因460个,下调基因477个,见图2D。并利用火山图分别展示各数据集差异表达的基因。见图2。
A GSE19826的标注化处理;B GSE29998的标准化处理;C GSE54129的标准化处理;D GSE79973的标准化处理。
A GSE19826;B GSE29998;C GSE54129;D GSE79973
2.2四个胃癌数据集差异基因的整合:本研究用RRA算法对四个芯片数据集的差异基因进行整合后获得在四个数据集中共有的差异表达基因。最终确定了49个差异基因,其中有21个上调基因和27个下调基因。最后用R软件heatmap包绘制了前20个上调和前20个 下调基因的热。见图3。
图3 四个胃癌基因数据集的整合后获得最具差异表达的20个上调基因以及20个下调基因
2.3差异基因的GO分析及KEGG通路富集分析:利用RRA算法获得候选差异表达基因后,利用在线功能分析网站DAVID分析差异基因的功能及富集的信号通路。本研究限定P value<0.05为功能分析的限定条件。GO分析主要包括生物过程、细胞外组成及分子功能三部分。从分析结果可以得知,差异表达基因主要参与对胶原分解代谢、对药物的反应、细胞黏附等过程;而细胞组成分析显示这些基因大多参与细胞外区、细胞外基质、内质网腔等的组成;在分子功能方面,则主要与细胞外基质结构组成、蛋白酶结合、血小板衍生生长因子结合、视黄醇脱氢酶活性、内向整流钾通道活性、钙依赖性半胱氨酸型内肽酶活性等相关。见表1及图4。利用DAVID富集得到四条与差异基因相关的通路,包括蛋白质的消化与吸收通路(hsa04974:Protein digestion and absorption)、细胞外基质通路(hsa04512:ECM-receptor interaction)、局部黏附通路(hsa04510:Focal adhesion)以及细胞色素P450代谢通路(hsa00980:Metabolism of xenobiotics by cytochrome P450)。利用Cytoscape对其进行可视化处理后发现下调基因富集的通路主要为细胞色素P450及蛋白质的消化与吸收通路,上调基因则与细胞的局部黏附、蛋白质消化与吸收、细胞外基质通路有关。见图5。
表1 差异表达基因的GO分析
红色代表信号通路;橙色代表分子功能;蓝色代表细胞内组成;绿色代表生物过程
红色代表上调基因,蓝色代表下调基因,绿色代表信号通路
2.4蛋白互作网络构建的分析:为了进一步更好地说明这些差异表达基因与胃癌之间的关系,本研究利用在线分析网站String构建了蛋白互作网络,设定可信度为0.14后得到各差异表达基因之间的相互作用。见图6。利用Cytoscape进行可视化,筛选出相互作用节点度大于10的候选基因15个,分别为:FNDC,CTHRC,COL1A1,COL1A2,COL6A3,COL10A1,CDH3,INHBA,SULF1,FAP,SFRP4,BGN,THBS2,THY1,TIMP1。见图7。对这些候选基因功能分析后发现多数候选基因参与了组织器官的分化、发育过程,提示可能为胃癌发生的关键基因。
图6 差异表达基因的蛋白互作网络
红色代表上调基因,绿色代表下调基因
2.5差异基因生存分析:对筛选出的15个候选基因利用在线分析网站Kaplam-Meier Plotter进行生存分析后发现,除FAP和CDH3外,其余13个候选基因均与胃癌的预后相关,猜测为胃癌发病的关键基因。见图8。
图8 差异表达基因与胃癌预后的关系
胃癌的发生发展是一个涉及诸多因素的复杂过程,其中包括各种原癌基因与抑癌基因之间的失衡以及与肿瘤相关的信号通路的激活[4],但具体发病机制尚不清楚,目前对于胃癌的具体发病机制也仍在不断的研究中。目前对于胃癌的临床诊断主要为内镜及影像学等检查,但检出率均较低,且多数被检出者均已错过最佳治疗时机,预后差;实验室检查指标CA72-4虽对胃癌的发病有一定提示作用,但敏感性及灵敏度均较低。近三十年来,胃癌的发病呈总体上升趋势[3],对我国的医疗卫生事业提出了巨大挑战,因此,对胃癌做出早期诊断及早期干预对于个人、家庭、社会都意义重大,但我国目前尚缺乏系统的早期诊疗规范。因此,亟需发现有助于胃癌早期诊断的新的临床标志物。
本研究提示差异基因主要参与胶原分解代谢、组织器官的分化发育等过程,KEGG通路富集则提示差异表达基因能够参与蛋白质的消化与吸收、细胞局部黏附、细胞色素P450代谢、细胞外基质组织信号通路;为了进一步筛选与胃癌发生的相关基因,进一步查阅相关文献后发现,多数候选基因均与癌症的发生发展存在一定关系,如Wang等通过相关研究认为INHBA在胃癌患者中高水平表达时提示预后差[5];一篇关于TIMP1与胃癌之间关系的综述表明胃癌患者组织或外周血中的TIMP1水平水平升高与胃癌患者的预后不良有关[6];Zhong等同样发现发现高水平THY1与胃癌患者的预后呈负相关[7];COL1A1、COL1A2、COL6A3、COL10A1同属胶原蛋白家族,相关研究已经证实COL1A1与COL1A2在胃癌组织中高表达,并提示预后较差[8];而抑制COL6A3表达时可以通过PI3K-AKT信号通路抑制胃癌细胞的增殖、迁移、侵袭以及促进胃癌细胞的凋亡,从而改善胃癌患者的预后[9];而相关研究也证实COL10A1在胃癌的发展过程中扮演着重要角色,可以促进胃癌的侵袭及代谢过程[10],提示筛选出的候选基因可能为胃癌发生发展的关键基因。
综上所述,本研究利用生物信息学方法对四个胃癌芯片数据集进行分析及整合,获得差异表达基因,利用GO分析及KEGG通路富集分析对差异基因进行功能分析,揭示差异表达基因的生物功能及与之相关的信号通路,并通过构建蛋白互作网络从分子水平筛选与胃癌相关的差异表达基因,最后利用在线分析网站对候选基因进行与胃癌生存预后的分析,获得与胃癌发生发展的关键基因,为进一步的细胞水平的研究提供理论支持,并对胃癌发生机制的研究提供新的方向,并为胃癌的早期诊断提供新的检测标记物。