结肠癌相关生物标记物和信号通路的生物信息学筛选

2018-09-18 01:08张宗泽
胃肠病学 2018年8期
关键词:结肠癌通路数据库

向 梦 张 婷 张宗泽

武汉大学中南医院麻醉手术科(430071)

背景:结肠癌是最常见的恶性肿瘤之一,生物信息学方法能有效挖掘基因芯片数据,筛选结肠癌相关的候选生物标记物。目的:使用生物信息学方法并结合肿瘤公共数据库的分析来筛选结肠癌可能的生物标记物。方法:从GEO数据库中下载GSE44861基因表达谱,以R软件“limma”包筛选差异表达基因,行GO和KEGG分析,并构建蛋白质-蛋白质相互作用(PPI)网络,选择核心模块并验证核心基因。结果:芯片GSE44861包含来自肿瘤和癌旁正常组织的111个结肠组织。在结肠癌组织中筛选出367个差异表达基因,包括123个上调基因和244个下调基因。GO和KEGG分析显示,差异表达基因分别在生物过程和15条KEGG通路中富集。PPI网络模块鉴定出6个核心基因,结肠癌组织中CXCL1、CXCL3表达升高,CXCL12、LPAR1、PYY、SST表达降低,与验证集GSE44076、Oncomine数据库、GEPIA数据库的验证结果一致。结论:本研究所鉴定的差异表达基因和核心基因可促进对结肠癌分子机制的理解,并且可能成为结肠癌诊断和治疗的分子生物标记物。

结肠癌是最常见的恶性肿瘤之一,其发病近年呈上升趋势,但5年生存率仅为65%[1]。据报道,大多数结肠癌导致的死亡是由于肿瘤转移[2],因此,寻找合适的肿瘤标记物进行早期诊断和治疗是非常有必要的。目前,一些生物标记物已用于临床实践,如K-ras基因突变被认为是EGFR阴性的预测性生物标记物;对于Ⅱ期结肠癌患者,MMR缺陷或MSI可预测氟尿嘧啶单药治疗是否有益。

目前微阵列广泛应用于分子生物学,具有广泛的应用前景,如癌症分子分类、诊断生物标记物的预测和癌症新药靶点的发现等[3]。近年来,微阵列基因表达谱分析已发现各种肿瘤与其他组织之间的分子差异,揭示了富含各种途径和生物过程的数百个差异表达基因[4]。同时,生物信息学方法为筛查具有结肠癌预后和治疗意义的生物标记物提供了平台。Li等[5]利用转录组和DNA甲基化分析发现,饮食诱导的肥胖可预测结肠癌风险。Huang等[6]使用TCGA数据集发现K-ras、p53、SMAD4和BRAF为评估结直肠癌患者预后和转移状态的潜在标记物。由此可见,基因芯片在疾病诊断中具有重要作用,可用于肿瘤基因表达检测、寻找肿瘤分子靶标。本研究通过生物信息学分析并结合肿瘤公共数据平台,旨在鉴定结肠癌可能的生物标记物,从而为结肠癌分子水平的研究提供有价值的信息,并筛选出可能的诊断和治疗的生物标记物。

材料与方法

一、数据采集

从美国国立生物技术信息中心(NCBI)公共数据平台Gene Expression Omnibus(GEO)(http://www.ncbi.nlm.nih.gov/geo/)下载结肠癌基因芯片数据GSE44861的原始数据压缩包,该数据包括肿瘤和癌旁正常组织的111个结肠组织的基因表达谱。芯片平台为Affymetrix Human Genome U133A Array。

二、数据预处理

根据预处理程序计算原始表达数据:RMA背景校正,log2转换,分位数归一化和使用R软件“affy”包的中值抛光算法汇总。探针由Affymetrix注释文件注释。根据Pearson相关矩阵中不同样本之间的距离,通过样本聚类来评估微阵列质量(图1)。

三、差异表达基因筛选

使用R软件“limma”包来筛选结肠癌样品和结肠癌旁样品之间的差异表达基因,以P<0.05和|log2 差异倍数|>1设定为纳入标准。

四、功能和通路富集分析

使用DAVID数据库[7](http://david.abcc.ncifcrf.gov/)对差异表达基因进行富集,并行GO(Gene Ontology)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)分析,以P<0.05 设定为纳入标准。

五、蛋白质-蛋白质相互作用(PPI)网络构建

为评估差异表达基因之间的相互关系,使用STRING数据库(http://www.string-db.org/)来评估PPI信息,并用Cytoscape软件进行可视化。将置信度>0.4定义为有效值。

六、核心模块的选择和验证

使用MCODE(molecular complex detection)插件在Cytoscape软件中选择PPI网络的核心模块[8]。按以下条件设置参数:degree=10,node score=0.2,k-core=2,max, depth=100。采用芯片GSE44861中的数据对核心基因进行验证,然后通过芯片GSE44076、Oncomine数据库(http://www.oncomine.org/)和GEPIA数据库(http://gepia.cancer-pku.cn/)验证核心模块中的基因[9]。

结 果

一、筛选结肠癌组织中的差异表达基因

分析GSE44861基因表达谱,共筛选出367个差异表达基因, 其中123个上调,244个下调。所有差异表达基因的火山图见图2。

图1 GSE44861的样本聚类树

二、功能和通路富集分析

GO分析结果表明,差异表达基因在生物过程中显着富集,包括细胞外基质组成、细胞对锌离子的反应、生长负调控、胶原蛋白分解代谢过程等(图3A)。此外,差异表达基因在15条KEGG通路中富集,其中矿物质吸收、胆汁分析、氮代谢、AKT信号通路、化学致癌性等通路尤为突出(图3B)。

三、PPI网络

将从STRING数据库中下载而来的数据导入Cytoscape软件,得到差异表达基因PPI网络图,其中83个基因上调和120个基因下调(图4)。

四、核心模块的选择和验证

根据设置的参数,得到一个有统计学差异的模块(在MCODE中有6个节点,评分为6分)。核心模块中的成员包括CXC趋化因子配体1(CXCL1)、CXCL3、CXCL12、溶血磷脂酸受体1(LPAR1)、酪酪肽(PYY)、生长激素抑制素(SST)(图5)。芯片GSE44076验证核心基因表达显示,结肠癌组织中CXCL1、CXCL3表达明显升高,CXCL12、LPAR1、PYY、SST表达明显降低(图6),与Oncomine数据库、GEPIA数据库的验证结果一致(图7~8)。

讨 论

A:GO分析;B:KEGG分析

红色代表上调的基因,蓝色代表下调的基因

红色代表上调的基因,蓝色代表下调的基因

结肠癌是全球癌症死亡的第二大原因[10],尽管近年的研究已取得重大进展,但其疗效仍依赖于结肠癌是否能被早期诊断[11],故寻找其特异性生物标记物对肿瘤的早期诊断和治疗是非常有意义的。

***P<0.001

图7 Oncomine数据库验证核心基因

*P<0.001

GSE44861基因芯片数据集的样本量较大,包括肿瘤样本与对应癌旁样本的111个结肠组织基因表达谱,故以此作为测试集来筛选生物标记物较为可靠。本研究结果显示共筛选出367个差异表达基因,其中123个上调,244个下调。GO分析表明差异表达基因在生物过程中显着富集,包括细胞外基质组成、细胞对锌离子的反应、生长负调控、胶原蛋白分解代谢过程等。此外,差异表达基因中有15种KEGG通路过表达。PPI网络显示核心基因分别为CXCL1、CXCL3、CXCL12、LPAR1、PYY、SST。

CXCL1属CXC趋化因子家族的小细胞因子,最初发现其参与黑素瘤的致癌作用[12]。CXCL1高表达与多种肿瘤的预后不良有关,如乳腺癌、胃癌、膀胱癌等[13-15]。CXCL3的主要功能为控制细胞迁移和黏附[16]。CXCL3与乳腺癌转移高度相关,有望成为乳腺癌治疗的可行靶点[17];多数侵袭性前列腺癌中可见CXCL3高表达。CXCL12有多种不同的亚型,在乳腺癌中低表达,与肿瘤侵袭密切相关[18]。Roy等[19]证实CXCL12在体内外均能显著抑制胰腺癌增殖,通过调节肿瘤生长和转移部位的细胞凋亡,从而发挥抑癌作用。LPAR1是结合脂质信号分子溶血磷脂酸的G蛋白偶联受体,可明显抑制肝癌细胞SKHep1的迁移[20]。Liang等[21]发现LPAR1和CXCL12为结直肠癌相关枢纽基因,参与肿瘤相关信号通路的转导,可作为结直肠癌诊疗的潜在靶标。PYY是重要的胃肠肽激素,能抑制胰腺癌MiaPaCa-2细胞增殖[22]。SST可治疗多种肿瘤,包括垂体腺瘤、胃肠胰腺肿瘤等[23]。本研究发现,结肠癌中CXCL1和CXCL3表达明显升高,CXCL12、LPAR1、PYY、SST表达明显降低,但能否成为评估结肠癌转移和预后的指标仍有待进一步验证。

总之,本研究通过使用生物信息学分析,找出可能参与结肠癌进展的367个差异表达基因,并进一步分析了6个核心基因。但仍然需行进一步分子生物学实验来对其可能的功能和机制进行更深层次的研究。

猜你喜欢
结肠癌通路数据库
数据库
MicroRNA-381的表达下降促进结肠癌的增殖与侵袭
数据库
腹腔镜下横结肠癌全结肠系膜切除术的临床应用
数据库
数据库
结肠癌切除术术后护理
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
proBDNF-p75NTR通路抑制C6细胞增殖
腹腔镜下结肠癌根治术与开腹手术治疗结肠癌的效果对比