髓母细胞瘤基因表达谱芯片关键基因的生物信息学分析

2018-07-23 08:07唐圣桃陶依然王鲲宇
生命科学研究 2018年6期
关键词:差异基因母细胞蛋白质

刘 敏,董 强,唐圣桃,陶依然,吴 铮,王鲲宇,王 文*

(1.首都医科大学宣武医院,中国北京100053;2.河北北方学院,中国河北张家口075000;3.兰州大学第二医院,中国甘肃兰州730030;4.郴州市第一人民医院,中国湖南郴州423000)

髓母细胞瘤(medulloblastoma,MB)是儿童易患的侵袭性脑肿瘤,占儿科脑肿瘤的20%,也是引起儿童癌症发病率和死亡率升高的主要因素[1,2]。据世界卫生组织(World Health Organization,WHO)分类标准,这种胚胎性小脑肿瘤属于Ⅳ级恶性肿瘤,通常沿脑脊液循环途径向脑内其他区域及脊髓转移。MB的病理类型分为4种:Wnt(Wingless signaling pathway-activated)、SHH(Sonic Hedgehog signaling pathway-activated)、group 3 和 group 4[3]。目前MB的治疗包括手术的完整切除及术后全脑和脊髓的放疗、大剂量化疗。随着手术方式的改进及放化疗策略的完善,MB患者死亡率和致残率已明显下降,但依然有大约三分之一的患者预后不佳,病情最终恶化[4]。因此,分子靶向治疗成为MB治疗的新方法[5]。随着表达谱芯片、高通量测序等生物信息学的发展,研究者可以在全基因组水平上进行大规模、高通量、高灵敏度、高精确度的基因序列测定及功能研究[6,7]。这为MB分子机制研究提供了新手段。

本研究通过下载GEO数据库中原始数据,利用R语言对髓母细胞瘤基因芯片表达谱数据进行差异基因筛选,然后通过DAVID(Database for Annotation,Visualization and Integrated Discovery)数据库对差异表达的基因进行GO(Gene Ontology)功能富集、KEGG(Kyoto Encyclopedia of Genes and Genomes)信号通路分析;用STRING数据库及Cytoscape软件进行蛋白质相互作用(protein-protein interaction,PPI)可视化分析,同时筛选网络调控的关键基因。以上分析可为MB分子机制的进一步研究提供线索和思路。

1 材料和方法

1.1 数据来源

通过美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的GEO数据库下载基因表达谱芯片数据集GSE50161。本研究选取GSE50161数据集中22例髓母细胞瘤样本和13例正常脑组织样本进行分析。

1.2 数据归一化处理及差异基因筛选

GSE50161原始表达谱数据利用R语言(3.3.0;www.r-project.org)的“affy”包进行表达谱原始数据背景校正、标准化处理,利用limmar包以贝叶斯检验的方法分析髓母细胞瘤与正常脑组织中差异表达的基因[8,9]。以|log2(fold change)|(|log2FC|)>2且adjust P<0.01作为筛选标准,分析22例髓母细胞瘤组织样本和13例正常组织样本中差异表达比较明显的基因。

1.3 GO功能富集和KEGG通路分析

DAVID数据库是一个功能基因注释的在线分析平台,它为研究人员提供了一套全面的功能注释工具,以便了解大量功能基因的生物学意义[10]。通过DAVID分析工具,对差异表达的基因进行KEGG信号通路分析。同时从生物过程(biological process,BP)、细胞组成(cellular component,CC)和分子功能(molecular function,MF)方面对差异表达的基因进行功能富集分析。最后利用R语言中的“clusterProfiler”和“ggplot2”对GO功能富集和KEGG信号通路进行可视化分析[11,12]。

1.4 蛋白质相互作用(PPI)和关键基因分析

为了预测蛋白质之间相互作用的调控关系,本研究使用STRING(https://string-db.org)在线分析工具构建MB组织与正常脑组织中差异表达基因的蛋白质互作网络[13]。另外,通过Cytoscape(http://cytoscape.org/download_old_versions.html)软件进行可视化蛋白质互相网络分析[14],采用cytoHubba插件定义蛋白质调控网络的前10个关键基因[15]。

2 结果

2.1 差异基因

根据GEO数据库表达谱芯片数据,本研究分析了正常组织与髓母细胞瘤组织中具有明显差异表达的基因。首先对两组数据中的基因表达值进行标准化处理,标准化后以小提琴图呈现(图1A)。然后以|log2FC|>2.0和P<0.01为筛选标准,总共筛选出999个差异表达基因,其中上调基因690个,下调基因309个,分别占总差异表达基因的69%和31%(图1B)。最后对差异表达基因进行聚类热图分析,可视化差异基因在不同样本中的表达(图2)。

2.2 GO和KEGG分析

采用R语言clusterProfiler软件包分别对999个差异基因进行生物学功能分析,包括生物过程(BP)、细胞组成(CC)和分子功能(MF)。以伪发现率(false discovery rate,FDR)<0.05 且计数>2 作为阈值,按P值排序选取前10位的功能富集类别,结果如图3A所示。差异基因功能主要富集于有丝分裂的核分裂、染色体分离、组蛋白激酶活性、趋化因子活性、微管运动活动、微管蛋白结合、RAGE受体结合等生物学过程。KEGG信号通路分析结果显示,差异基因主要富集于NF-κB信号通路、IL-17信号通路、PI3K/Akt信号通路、T细胞受体等与肿瘤相关的经典信号通路(图3B)。

2.3 差异基因所编码蛋白质间的互作网络分析

STRING是一个由已知和预测的蛋白质相互作用数据组成的数据库。本研究将999个存在显著差异表达的基因输入STRING在线分析工具,分析其蛋白质之间的相互作用关系,然后将所得数据导入Cytoscape软件,可视化蛋白质互作网络,并利用插件cytoHubba分析出CCNB1、AURKB、MAD2L1、CENPE、KIF2C、BUB1、BUB1B、NDC80、CENPF、CDC20 十个 hub 基因(图 4)。

3 讨论

图1 样本基因表达量的背景校正和差异基因分析(A)校正后样本表达量的小提琴图。横轴表示不同样本组织(红色代表髓母细胞瘤样本,绿色代表正常样本),纵轴表示基因表达量,中间菱形表示样本表达的中位值;(B)差异表达基因的火山图。红色表示表达水平上调的基因,绿色表示表达水平下调的基因。Fig.1 Background correction of sample gene expression and the differential gene analysis(A)Violin plot of corrected sample expression.The horizontal axis shows different sample tissues(red represents medulloblastoma samples and green represents normal samples),and the vertical axis shows the expression level.The middle diamond shows the median value of the sample expression;(B)Volcano map of differentially expressed genes.Red and green indicate increased and decreased expression,respectively.

图2 髓母细胞瘤组织与正常脑组织中差异表达基因的聚类热图绿色表示下调,红色表示上调;蓝色表示正常的组织样本,橙色为髓母细胞瘤样本。Fig.2 Cluster heat map of differential expression genes between the medulloblastoma tissue and normal brain tissueGreen and red indicate down-regulated genes and up-regulated genes,respectively.Blue and orange represent normal tissue samples and medulloblastoma samples,respectively.

MB是儿童易患的恶性程度很高的侵袭性脑肿瘤,并且容易复发。最近研究显示,MB的分子类型在复发和原发肿瘤中不完全相同,复发前后存在遗传学差异[16,17]。所以,探索MB的发病机制,寻找MB早期诊断、复发和预后相关的分子标志物是目前急需解决的问题。近年来,基因组学、转录组学和蛋白质组学成为肿瘤在分子水平进行机制研究的主要方法[18~21],而基因芯片、高通量测序等现代生物技术的快速发展以及生物信息学方法的应用为我们从分子水平探索MB的发生、发展提供了很好的手段。本研究采用生物信息学方法,比较分析了MB组织和正常脑组织中表达具有显著差异的基因,定义了999个差异表达基因,同时对差异基因进行了GO功能注释及KEGG信号通路分析,并通过PPI网络对MB差异基因所编码蛋白质间的调控网络进行了可视化分析。

对999个差异表达的基因(包括690个上调基因和309个下调基因)进行GO功能富集和KEGG信号通路分析,结果显示:这些差异基因的生物学过程主要富集于有丝分裂的核分裂、染色体分离、组蛋白激酶活性、趋化因子活性、微管运动活动、微管蛋白结合、RAGE受体结合。它们通过调控细胞的有丝分裂,影响细胞的分裂增殖,促进肿瘤的发生发展。KGEE通路主要富集于NF-κB信号通路、IL-17信号通路、PI3K/Akt信号通路、T细胞受体信号通路。之前的研究显示,这些信号通路与肿瘤的增殖、侵袭和迁移以及细胞凋亡密切相关[22~24],在MB发生发展中起着重要作用。

图3 差异基因GO和KEGG分析(A)差异表达基因的GO富集。纵轴表示富集的生物学功能,横轴表示每个生物学功能富集的基因个数,柱子颜色表示P值大小;(B)差异表达基因的KEGG信号通路富集。横轴表示通路富集分数,纵轴表示差异表达基因富集的信号通路,颜色表示P值大小。Fig.3 The GO and KEGG analysis of differential expression genes(A)GO enrichment of the differentially expressed genes.The vertical axis represents enrichment of biological functions,and the horizontal axis represents the number of genes enriched for each biological function,and the color of column indicates the P value;(B)KEGG signaling pathway enrichment of the differential expression genes.The horizontal axis represents the pathway enrichment fraction,and the vertical axis represents the signal pathway for differentially expressed gene enrichment,and the color indicates the P value.

图4 蛋白质互作网络分析Fig.4 Protein-protein interaction network

通过PPI网络我们定义了CCNB1、AURKB、MAD2L1、CENPE、KIF2C、BUB1、BUB1B、NDC80、CENPF、CDC20十个关键基因。细胞周期蛋白B1(cyclin B1,CCNB1)是有丝分裂M期蛋白质,被视为肿瘤抗原,可以用于评价肿瘤的恶性程度。De Haas等[25]的研究显示,CCNB1在MB中高表达,可以作为一个独立的分子标志物判断患者的预后。AURKB是Aurora激酶家族成员,对染色质凝集、分离和胞质分裂起关键作用。Diaz等[26]研究发现,通过抑制AURKB蛋白的表达,能够在体内和体外抑制MYC过表达的group 3型MB细胞的增殖,同时能够增强对group 3型MB治疗的敏感性。有丝分裂停滞缺陷蛋白2(mitotic arrest deficiency protein 2,MAD2L1)是调控细胞有丝分裂的关键蛋白质,在肿瘤中的表达情况跟肿瘤患者的预后相关[27]。着丝粒相关蛋白E(centromere-associated protein E,CENPE)和着丝粒蛋白F(centromere protein F,CENPF)是一类调控着丝粒运动的蛋白质,主要功能为通过调控细胞有丝分裂和细胞周期,影响细胞增殖和分裂,与多种肿瘤的增殖密切相关[28,29]。KIF2C又称有丝分裂着丝粒相关驱动蛋白(mitotic centromere associated kinesin,MCAK),是驱动蛋白家族的一员,通过参与微管解聚、二极纺锤体形成以及染色体分离,调节有丝分裂和细胞周期[30]。BUB1/BUB1B是一种可以检测到纺锤体微管附着在着丝粒上的蛋白质,研究发现BUB1/BUB1B在胶质瘤发生发展中有重要作用,可以作为胶质母细胞瘤靶向治疗的候选分子[31,32]。核分裂周期蛋白80(nuclear division cycle 80,NDC80)是有丝分裂调节因子的核心组成部分。NDC80是一种四聚体蛋白复合物,在细胞有丝分裂过程中起重要作用。研究显示,NDC80在肿瘤中高表达,可作为某些肿瘤的诊断标志物[33,34]。细胞分裂周期蛋白20(cell division cycle protein 20,CDC20)是有丝分裂过程中所必需的细胞周期调节分子,其主要通过活化APC形成一种E3泛素连接酶复合物,调控cyclin B的泛素化和降解,从而促进有丝分裂后期的开始[35]。从上述分析可知,许多生物标志物通过调控细胞周期途径影响肿瘤的发生发展,其中包括本文筛选的10个关键基因。因此,进一步对细胞周期相关的关键基因展开探索具有重要意义。

综上所述,基于GEO数据库中的基因表达谱分析,本研究鉴定了正常脑组织和MS组织中差异表达的基因999个,同时通过生物信息学的方法分析得到了 CCNB1、AURKB、MAD2L1、CENPE、KIF2C、BUB1、BUB1B、NDC80、CENPF、CDC20 十个关键基因。这些关键基因主要通过参与调控细胞周期通路影响MS的发生发展。它们可能是探索MS生物学机制的潜在生物标志物,可用作MS诊断或干预治疗的潜在靶标。本研究为进一步探索MS发生发展的分子机制提供了新思路。

猜你喜欢
差异基因母细胞蛋白质
成人幕上髓母细胞瘤1例误诊分析
蛋白质自由
人工智能与蛋白质结构
顶骨炎性肌纤维母细胞瘤一例
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
髓外硬膜内软骨母细胞瘤1例
预防小儿母细胞瘤,10个细节别忽视
紫檀芪处理对酿酒酵母基因组表达变化的影响
SSH技术在丝状真菌功能基因筛选中的应用
肾阳虚证骨关节炎温针疗效的差异基因表达谱研究