结直肠癌相关差异表达基因的生物信息学分析*

2018-12-25 08:57:56
胃肠病学 2018年11期
关键词:基因芯片细胞周期通路

王 婷 许 冰 张 静 郑 莹 董 蕾

西安交通大学第二附属医院消化内科 陕西省胃肠动力疾病研究重点实验室(710004)

背景:结直肠癌(CRC)是消化系统常见肿瘤,发病率和死亡率较高。目的:应用生物信息学方法对CRC差异表达基因进行分析,筛选与CRC发生、发展相关的基因。方法:从公共基因表达数据库(GEO)下载CRC基因芯片GSE32323、GSE21510、GSE9348数据集,使用R语言筛选差异表达基因。在DAVID数据库中对差异表达基因行GO和KEGG分析。应用STRING、Cytoscape构建蛋白质-蛋白质相互作用(PPI)网络,筛选出CRC的核心基因。结果:在三个数据集中共筛选出834个CRC共同差异表达基因,包括376个上调基因和456个下调基因。GO分析表明差异表达基因主要参与细胞分裂、增殖、代谢等过程。KEGG分析显示差异表达基因主要富集于p53通路和细胞外基质蛋白通路。PPI网络共筛选出20个核心基因。结论:运用生物信息学方法对CRC基因芯片进行分析可为CRC发病机制、肿瘤标记物的筛选和治疗药物靶点的选择提供理论基础。

结直肠癌(CRC)是消化系统常见的恶性肿瘤,其发病率在全部肿瘤中位居第三位,死亡率在男性肿瘤和女性肿瘤中分别位居第二、第三位[1-2]。基因突变、微环境改变等与CRC的发生、发展密切相关。近年CRC的筛查、诊断、治疗等取得了较大的进展,但仍存在早期诊断困难、肿瘤易转移复发、5年生存率低等问题。因此,探究与CRC相关的新的基因、分子标记物、分子治疗靶点等对研究CRC的发病机制、预防和治疗具有重要意义。

基因芯片是一种可快速、高通量获取基因表达信息的微阵列技术,不仅可作为研究肿瘤相关分子机制的新方法,也可用于临床分子标记物的预测和靶向药物的研发。本研究通过公共基因表达数据库(Gene Expression Omnibus,GEO)获取三个CRC基因芯片数据,筛选出差异表达基因,并进行生物信息学分析,最终筛选出20个核心基因,旨在为进一步揭示CRC的发病机制提供方向。

材料与方法

一、材料来源

从美国国立生物技术信息中心(NCBI)的GEO[3]公共数据库中下载基于GPL570平台的三个基因芯片GSE32323、GSE21510、GSE9348数据集。其中GSE32323包含17对配对的CRC组织和癌旁组织,GSE21510包含123例CRC组织和25例癌旁组织,GSE9348包含70例CRC组织和12例正常人结肠组织。

二、共同差异基因分析

利用R语言exprs函数提取基因表达矩阵文件,再应用R语言中的limma包分析数据集中的差异表达基因,差异表达基因筛选条件为|log 2差异倍数|≥1且P<0.01。利用FunRich Version 3.0软件分析三个数据集中的共同差异表达基因,MeV软件对共同差异表达基因行层次聚类分析。

三、GO分析和KEGG富集分析

利用DAVID数据库[4]对差异表达基因进行富集,行GO分析[5](以P<0.01设定为纳入标准)和KEGG分析[6](以P<0.05设定为纳入标准)。

四、蛋白质-蛋白质相互作用(PPI)网络和子模块基因构建分析

应用STRING数据库[7]行PPI分析,并利用Cytoscape软件进行可视化,行MCODE分析,筛选提取子网络,筛选条件设置为Degree cut off=2,node score cut off=0.2,k-core=2,以及max depth=100;并计算每个蛋白节点的Degree值,筛选核心基因。

结 果

一、CRC差异表达基因的筛选

从GSE32323、GSE21510、GSE9348数据集中分别筛选出1 420个、3 233个、3 010个差异表达基因(表1),其中834个基因在这三个数据集中均有表达(图1),376个基因表达上调,456个表达下调(图2)(其余2个基因在三个数据集中的表达不一致)。

二、GO和KEGG分析

GO分析结果显示,CRC中表达上调的376个基因主要参与细胞增殖、细胞分裂、DNA复制、胶原分解、细胞凋亡等过程(表2),表达下调的基因主要参与代谢、炎症、离子运输、单核细胞趋化等过程(表3)。KEGG通路富集分析显示表达上调的基因主要在细胞周期、p53通路、细胞外基质(ECM)通路中富集(表4)。

表1 三个数据集中CRC差异表达基因的分布情况 (n)

A:GSE32323;B:GSE21510;C:GSE9348

A:共同差异表达基因;B:共同高表达基因;C:共同低表达基因

表2 表达上调基因的GO分析

表3 表达下调基因的GO分析

图3 PPI子网络图

表4 CRC中高表达基因的KEGG通路富集分析结果

三、PPI网络构建分析

PPI网络图分析表达上调的基因显示共有79个蛋白节点、369条连接线(Score>0.04,P<0.01)。应用Cytoscape软件的MCODE法分析,结果显示2个子网络处于核心位置,共包含66个高表达关键基因(图3)。根据Degree值,筛选出前20个核心差异表达基因,分别为TOP2A、CDK1、CCNB1、MAD2L1、RFC4、AURKA、MCM4、BUB1B、CDC6、TTK、NCAPG、CDKN3、TPX2、DLGAP5、MCM2、ASPM、DTL、MCM3、TRIP13、KIF20A(图4)。

讨 论

利用基因芯片检测基因表达情况,并应用生物信息分析技术对芯片数据进行整理,最终将结果可视化,可发现在疾病发展中起重要作用的基因,以及可能潜在的分子机制。目前大多数基因芯片的研究集中在单独芯片的数据分析,但由于不同平台、不同样本、不同研究者之间存在差异,可能导致基因芯片数据的不稳定。为了增加数据的可靠性,本研究选取三个基因芯片,取交集以确保筛选出的差异表达基因的可信度。

图4 Degree值最高的20个核心基因

多项研究已证实p53基因突变、细胞周期阻滞、异常细胞分裂、增殖、DNA复制等与CRC的发生、发展密切相关[8-11]。p53是一种重要的肿瘤抑制基因,可调节不同的下游基因,在多种信号转导过程中发挥重要功能[8]。不同的细胞应激状态下,p53可诱导细胞周期阻滞、凋亡、衰老,如DNA损伤、缺氧、癌基因激活等。p53的激活可触发线粒体和死亡受体诱导的凋亡途径[10]。细胞周期调控紊乱所致的细胞恶性转化和肿瘤细胞失控性增殖是CRC最基本的生物学特征之一[9]。细胞周期受细胞周期蛋白和细胞周期蛋白依赖性激酶(CDK)的调控,故无论是细胞周期调控相关蛋白本身表达失调,亦或是上游抑癌基因对周期相关蛋白的调控,均与CRC的发生密切相关。p21WAF1是CDK家族成员,亦为p53下游基因,可阻碍细胞周期从G1期向S期转变[11]。同时p53-p21WAF1途径也可诱导细胞衰老[11]。ECM参与细胞信号转导、生长、分化和迁移,重构的ECM为肿瘤细胞增殖、分化、侵袭、转移提供了基础,在CRC的发生和转移中发挥重要作用[12-13]。由此可见,p53信号通路、ECM受体通路,以及细胞周期调控紊乱、细胞凋亡等生物学过程与CRC的发生、发展密切相关。本研究结果显示,三个数据集中表达上调的基因376个,456个基因表达下调。GO和KEGG分析显示CRC中表达上调的376个基因主要参与细胞增殖、细胞分裂、DNA复制、细胞凋亡、胶原分解等生物学过程,并在细胞周期相关通路、p53通路和ECM受体通路中富集。

本研究最终筛选出了与CRC发生、发展密切相关的20个核心基因。其中TOP2A、CDK1、CCNB1属细胞周期调控蛋白,染色质免疫共沉淀测序证实这3个基因是SOX9的分子靶点,而SOX9与CRC发生密切相关[14]。目前研究证实TOP2A在CRC中高表达,但对CRC患者预后的作用仍存在争议。TOP2A是表柔比星药物的主要分子靶标,在DNA复制和转录期间对维持染色体的拓扑状态起关键作用,这可能有助于CRC的治疗[15]。CDK家族、cyclin家族、MCM家族与肿瘤发生的密切相关。本研究筛选出的关键核心基因CDK1、CCNB1、MCM2已有报道发现与CRC有关[14,16]。MCM3在多种肿瘤中过表达,参与多种肿瘤的发生[17]。CDKN3是细胞周期依赖性激酶抑制剂,Yang等[18]的研究发现CDKN3可抑制SW480细胞增殖和迁移,阻滞SW480细胞周期并诱导其凋亡。有丝分裂纺锤体异常缺陷在肿瘤发展过程中起重要作用[19]。本研究筛选出的核心基因BUB1B、MAD2L1、TTK、CDC6、TPX2、ASPM、NCAPG等均参与有丝分裂过程。有丝分裂纺锤体组装检控点(SAC)是保证细胞染色体正确分离的重要机制之一。SAC可监控纺锤体微管与着丝点的连接,确保染色体均等分配[20]。SAC基因发生突变使染色体不能正常分离,可能会导致非整倍体的形成,促进肿瘤的发生[21]。其中BUB、MAD蛋白是SAC的核心蛋白,有研究表明BUB1B、MAD2L1突变与CRC的发生有关[22-23]。Wei等[24]的研究表明抑制TPX2表达可抑制结肠癌细胞在体内外的增殖和致瘤性,显著降低结肠癌细胞的迁移和侵袭能力。Xiang等[25]发现RFC4的缺失可抑制CRC细胞增殖,诱导S期阻滞,与CRC预后不良有关。Sheng等[26]发现,TRIP13在体外可促进CRC细胞增殖、迁移和侵袭,并在体内促进皮下肿瘤的形成。Baraniskin等[27]发现miR-30a-5p通过靶向结合DTL抑制结肠肿瘤的生长。Goos等[28]的研究表明AURKA表达升高与CRC肝转移患者预后不良有关。Niittymäki等[29]的研究发现在微卫星不稳定性CRC中杂合TTK突变率增加,可能与CRC的发生有关。目前尚缺乏MCM4、DLGAP5、KIF20A、CDC6、ASPM、NCAPG与CRC关系的研究。

总之,本研究采用R语言和生物信息学分析对三个数据集进行研究,构建PPI网络,筛选出可能与CRC发生密切相关的20个核心基因,其主要参与了CRC异常细胞分裂、增殖等生物学过程,参与细胞周期和p53信号通路。这些发现提高了对CRC发病机制和潜在分子机制的认识,同时为肿瘤标记物的筛选和药物靶点的选择提供了理论基础。但仍需进一步行分子生物学实验和动物实验来验证相关基因的功能。

猜你喜欢
基因芯片细胞周期通路
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
今日农业(2021年4期)2021-06-09 06:59:56
红霉素联合顺铂对A549细胞的细胞周期和凋亡的影响
双管单色荧光PCR法与基因芯片法检测CYP2C19基因多态性的比较研究
NSCLC survivin表达特点及其与细胞周期的关系研究
X线照射剂量率对A549肺癌细胞周期的影响
癌症进展(2016年10期)2016-03-20 13:15:43
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
应用基因芯片技术检测四种结核药物敏感试验的研究
哈尔滨医药(2015年3期)2015-12-01 03:57:44
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
创业家(2015年1期)2015-02-27 07:52:02