张良舜,叶桦
胃癌的发病率一直居高不下,其发病机制涉及众多基因和分子信号通路。生物信息分析结合分子生物学与信息技术,能够高效、大规模的获取生物信息。本文对公共基因芯片数据库(GEO)中的胃癌表达谱芯片进行信息技术分析,从而获得差异表达基因,研究差异表达基因所参与的信号通路和相互作用机制,有助于对胃癌病理机制的深入了解,协助寻找防治胃癌的有效方法,现报道如下。
1.1 一般资料 表达谱芯片数据来源于美国国立生物技术信息中心GEO中胃癌数据集,编号分别为GSE118897和GSE79973,均为Expression profiling by array,种属均为Homosapiens,包括20例胃癌组织和20例正常胃组织。
1.2 数据 处理及差异基因筛选GEO中的原始数据集采用Affy、FunRich、Limma、Pheatmap及Ggplot2R等程序包在R软件中进行分析,使用RMA算法进行背景校正、标准化及表达值计算。处理后数据采用Fold-change(FC)和T-test进行差异基因筛选,标准为P<0.05且|log(FC)|>1。
1.3 基因本体论(GO)富集分析 和京都基因与基因组百科全书(KEGG)通路分析使用R软件中的cluster Profiler程序包对差异表达基因分别进行GO富集分析和KEGG信号通路分析。通过GO对基因属性进行注释[1],从而了解差异表达基因的功能、定位及参与的生物学途径。采用Blast2Go软件,从生物过程(BP)、分子功能(MF)以及细胞组分(CC)三个方面对差异表达基因进行注释。生物体内生理病理变化是一系列基因协调作用的结果,KEGG通路数据库收录了生物学过程、疾病发生机理等多个方面的通路信息[2]。通过计算机利用基因信息对复杂的细胞活动和生物体行为作出计算推测。
1.4 PPI网络构建和分析 将两组样本筛选出的差异表达基因采用String 11.5分析,对胃癌差异表达基因进行蛋白质相互作用(PPI)网络分析,设置最低要求互动分数大于0.7。利用Cytoscape软件(version 3.9.0)计算评分,取最高相关度的前几名作为关键基因。采用MCODE插件对网络模型进行评价,选择score>3,node>4模块中的基因进行通路富集分析。
2.1 差异表达基因筛选结 果获得229个差异表达基因,其中上调基因96个(41.9%),下调基因133个(58.1%),见封二彩图1a。两组胃癌芯片数据集的差异基因表达热图见封二彩图1b。
图1 差异表达基因筛选结果
2.2 差异表达基因GO富集分析 对共同上调或下调的差异表达基因进行GO富集分析,以气泡图的形式呈现,见封二彩图2。尤其关注BP和MF的结果,其中糖胺聚糖结合、胶原结合、整合素结合、趋化因子活性、酶抑制剂活性、G蛋白偶联受体结合和磷脂酶抑制剂活性最为显著。
图2 差异表达基因GO富集分析
2.3 差异表达基因KEGG通路富集分析 差异表达基因主要涉及矿物质吸收、胰腺分泌物、疟疾、细胞周期及细胞外基质-受体相互作用等通路,见封二彩图3。
图3 差异表达基因KEGG通路富集分析
2.4 差异表达基因PPI分析 基于String数据库,筛选出最高度连通性的6个节点基因作为关键基因,分别是周期蛋白依赖性激酶(CDK1)、细胞分裂周期20同源物(CDC20)、细胞分裂周期关联8(CDCA8)、驱动蛋白家族成员2C(KIF2C)、母系胚亮氨酸拉链激酶(MELK)、泛素结合酶E2C(UBE2C)。
2.5 PPI网络关键模块分析 在Cytoscape软件中,使用MCODE插件对PPI进行关键模块的筛选,筛选出2个重要的子模块。A模块MCODE得分为19.4,由21个节点和194个相互作用关系构成(封二彩图4a),均为上调基因,由红色表示;B模块MCODE得分为5.0分,由5个节点和10个相互作用关系构成(封二彩图4b),均为下调基因,由绿色表示。对PPI中2个重要子模块所包含差异表达基因进行GO富集分析和KEGG信号通路分析。模块A中GO富集分析结果显示差异表达基因在后期促进复合物结合、ATP结合和激酶结合等分子功能中发挥重要作用,参与后期促进复合物依赖性分解代谢过程、有丝分裂纺锤体微管与动粒的附着和细胞周期检查点等生物过程。KEGG信号通路分析结果显示细胞周期、卵母细胞减数分裂和孕酮介导的卵母细胞成熟等信号通路有密切关联。模块B中KEGG信号通路分析结果显示矿物质吸收过程中发挥作用。
图4 MCODE分析差异表达基因的关键子模块
胃癌的发病机制是个多基因多通路的复杂进展过程[3-4]。虽然手术切除仍然是治疗胃癌的主要方式,但通过对胃癌发生机制相关基因及信号通路的深入探索,有助于开发新的胃癌治疗靶点,对提高预后有积极作用。
本研究基于String数据库型筛选出CDK1、CDC20、CDCA8、KIF2C、MELK和UBE2C 6个得分较高的关键基因,对上述6个核心基因进一步文献挖掘。发现胰岛素基因增强子结合蛋白1在丝氨酸269位点上被CDK1磷酸化,增强了其与周期蛋白B1和周期蛋白B2启动子的结合,增强了其在胃癌中的转录活性[5]。CDC20表达在多种人类癌症中增加,并在肿瘤发生和进展中发挥重要作用。Ding等[6]数据表明CDC20上调与胃癌的侵袭性进展和预后不良有关。驱动蛋白家族成员-23和CDCA8的表达存在正相关,驱动蛋白家族成员-23可能通过影响CDCA8的表达来促进胰腺癌的增殖[7]。本文中发现CDCA8在胃癌中上调,但是否能够促进胃癌的增殖需要实验进一步证明。KIF2C是驱动蛋白家族成员之一,是一种微管运动蛋白,其过表达与胃癌和结肠直肠癌患者的淋巴浸润和淋巴结转移相关[8]。MELK是一种细胞周期依赖性的丝/苏氨酸蛋白激酶,可能是针对胃癌治疗的潜在目标[9]。MELK是一种原癌基因,参与多种通路调节,可以通过FAK/Paxillin途径促进胃癌细胞迁移和侵袭。UBE2C属于E2泛素偶联酶家族成员,能够调控有丝分裂检验点以及控制细胞周期进程。UBE2C在许多人类恶性肿瘤中具有致突性的致癌作用,在胃癌患者中经常过度表达,UBE2CmRNA代替基因组扩增的高表达是在胃腺癌中观察到的主要变化[10]。上述的6个核心基因也均涉及细胞周期的过程,目前已知的Ki-67已经广泛使用在消化道早期肿瘤ESD术后标本的免疫组化实验,这种蛋白存在于细胞核中,蛋白的数量和细胞的分裂周期有非常紧密的联系。笔者经常使用Ki-67来协助早癌消化道肿瘤的诊断,在临床上具有重要意义。KEGG信号通路分析结果显示差异表达基因与卵母细胞减数分裂和孕酮介导的卵母细胞成熟等信号通路有密切关联。GO富集分析的生物过程结果中,比如有丝分裂纺锤体微管与动粒的附着过程和后期促进复合物依赖性分解代谢过程,都涉及细胞周期。
综上所述,本文通过生物信息学方法分析胃癌组织和正常胃组织的基因表达谱数据,发现多个关键基因和通路都涉及细胞周期。有序进行的细胞周期是维持生命体正常代谢和活动的前提。细胞周期相关基因和通路能够调控细胞周期进而控制细胞增殖,在肿瘤的发生发展中起到重要作用[11-12]。通过干预细胞周期相关基因和细胞信号通路来抑制胃癌发生和进展是当下研究热点。本研究结果为胃癌的发病机制、治疗和预后判断等研究提供了重要依据,需要结合进一步实验验证。