郭文才 李 锐 李龙祥 吴 勇
神经母细胞瘤占15 岁以下儿童肿瘤的7%,可分为低危、中危和高危[1]。目前。中、低危神经母细胞瘤的长期生存率超过90%[2,3],但高危神经母细胞瘤的长期生存率仍低于50%[4]。研究表明,许多分子标志物与肿瘤的发生发展密切相关,可用于早期筛查[5]。GEO是一个国际公共数据库,为探讨肿瘤基因表达提供了基础[6]。我们从GEO 数据库下载2 个神经母细胞瘤数据集(GSE49710、GSE73517),筛选高危神经母细胞瘤差异表达基因(differential expression gene,DEG),为高危神经母细胞瘤的诊治提供参考。
1.1 基因表达和临床数据的收集 两个基因表达数据集(GSE49710、GSE73517)来自NCBI 的GeneExpressionSynthesis(GEO)数据库,可从网站(http://www.ncbi.nlm.nih.gov/geo/)获取。GSE49710 阵列数据由Zhang 等提交,包括498 例神经母细胞瘤。GSE73517 数据集由105 个神经母细胞瘤组成,由Henrich 等 提 交。GSE49710 和GSE73517 数 据 集 基于GPL16876 平台(Agilent-020382HumanCustomMicroarray44k;发布于2013年3月28日)。
1.2 DEG 的鉴定 应用Affy 软件包(http://cran.r-project.org/)实现稳健的多阵列平均算法,将原始阵列数据转换为表达式值,并进行背景校正以归一化和汇总探针。基于R语言的“limma”软件包的配对t检验用于分析高危和非高危神经母细胞瘤之间的DEG。调整后的P值<0.05 和|log2FC|>1.5 被认为是DEG 筛选的临界值。“Venny”是一个网络分析工具(https://bioinfogp.cnb.csic.es/tools/venny/index.html),用于分析交集EDG。
1.3 GO 和KEGG 对DEG 进行富集分析GO(http://www.geneontology.org)为基因数据提供功能分类,包括生物过程、细胞成分和分子功能。因此,GO 分析是一种广泛使用的基因和基因产物注释工具。KEGG(http://www.genome.ad.jp/kegg/)是一个网络网站,分析、解释和可视化基因功能。DAVID(http://david.abcc.ncifcrf.gov/)是一个带注释的、可视化的、全面的发现数据库,也是一种基因功能分类的在线工具,可用于评估基因的生物学功能。利用DAVID 网站进行GO富集分析和KEGG通路分析,探讨DEG的功能。P<0.05认为具有统计学意义。
1.4 PPI 网络构建与中枢基因鉴定STRING(版本:11.0,https://string-db.org)用于识别相互作用的基因和蛋白质,将DEG导入其中构建PPI网络,显示物理和功能相互作用。选择总分>0.4 的蛋白质对进行PPI网络构建。此外,Cytoscape软件(V.3.8.0)用于可视化PPI 网络。使用cytoHubba 中的12 种方法(Betweenness、BottleNeck、Closeness、ClusteringCoefficient、Degree、DMNC、EcCentricity、EPC、MCC、MNC、Radality 和Stress)对hub 基因进行排序和评估,最终生成hub 基因网络;DAVID 用于GO 的hub 基因富集分析,KEGG进一步说明结果的可靠性。
2.1 高危神经母细胞瘤的DEG识别GSE49710包括34 个上调DEG 和284 个下调DEG,GSE73517 包括62个上调DEG和309个下调DEG。见图1。
图1 高危神经母细胞瘤差异表达基因分析
2.2 高危神经母细胞瘤DEG 的GO 和KEGG 富集分析Venny 图显示补充表,255 个DEG 中,31 个上调(图2a)和224个下调(图2b)。GO分析显示,高危神经母细胞瘤DEG 调节的生物过程主要集中在细胞粘附、GTP 酶活性的正调节、转录的负调节、DNA 模板化、凋亡过程的负调节、中枢神经系统发育,调节的细胞成分富集在膜的组成部分、细胞外区域、质膜的组成部分、细胞外空间,调节的分子功能富集于钙离子结合、受体结合(图2c)。KEGG 分析显示高危神经母细胞瘤DEG 在可卡因成瘾、造血细胞谱系、NOD 样受体信号通路、糖胺聚糖生物合成-硫酸乙酰肝素/肝素中显著富集(图2d)。
图2 高危神经母细胞瘤差异表达基因的富集分析
2.3 PPI 网络构建、模块分析和枢纽基因确定STRING 分析255 个DEG 生成PPI 网络见图3。在Cytoscape 中使用MCODE 插件识别中心模块的基因,对得分最高的模块(5.852)进行GO富集分析,共鉴定出5个重要的中心模块,得分最高的模块的GO分析表明其与细胞表面受体信号通路、质膜和早期内体有关(图4a、4b)。同时,使用Cytoscape 中cytohubba 插件的“Degree”算法来计算EDG 的重要性排名,绘制top25DEGs的PPI网络图并进行GO分析,结果表明与腺苷酸环化酶调节G蛋白偶联受体信号通路、胞外区和肽激素结合密切相关(图4c、4d)。最终得到5个中枢基因为ADRB2、MC4R、CD69、RBFOX1和IL7R。
图3 高危神经母细胞瘤255 个差异表达基因的蛋白质相互作用网络图
图4 高危神经母细胞瘤中枢基因的鉴定
早诊断和早治疗是延长高危神经母细胞瘤生存时间的关键。随着生物信息学的发展,DNA 微阵列越来越多地用于研究肿瘤的早期诊断、治疗和预后评估[7]。与单队列研究相比,多队列研究往往具有较低的假阳性和假阴性率[8]。然而,由于批次效应和生物学差异等原因,来自不同平台的多个微阵列可能会掩盖和混淆真实情况[9]。为了提高DEG鉴定的可靠性,我们在同一平台上选择了两个微阵列数据集,共鉴定出689 个DEG,其中255 个DEG 在两个数据集中有显着差异;进一步GO 富集显示DEG 的表达主要与生物过程有关,如细胞粘附、GTP酶活性的正调控、转录的负调控等;分子功能主要涉及钙离子结合和受体结合;KEGG 富集分析显示DEG 在可卡因成瘾、造血细胞谱系和NOD样受体信号通路中显着富集。细胞粘附的减少、细胞能量供应的增加以及某些基因表达的失衡是肿瘤发生、发展的关键步骤[10,11]。Tajbakhsh 等[12]指出钙离子在肿瘤的发生和发展中起着至关重要的作用。NOD 样受体在肿瘤转移和炎症性疾病中也起着至关重要的作用[13,14]。本文筛选出的DEG 与这些文献报道的分子功能密切相关。
为识别出的DEG 构建PPI 网络,并根据度级别定义关键基因,最终确定5 个中枢基因(DRB2、MC4R、CD69、RBFOX1 和IL7R)。HUB 基因功能富集分析表明神经母细胞瘤的发生与环化酶调节G蛋白偶联受体信号、胞外区、肽激素结合有关。对5个HUB 基因进行目标数据集的生存分析,筛选出具有预后意义的ADRB2、MC4R 和RBFOX1。ADRB2 属于由肾上腺素或去甲肾上腺素激活的跨膜G蛋白偶联受体的超家族A[15],与cAMP 的产生有关。cAMP与肿瘤的发生发展相关[16,17]。研究表明,ADRB2 与许多肿瘤的发生、发展、进展或转移有关[18],以及肿瘤耐药性[19],甚至有作为分子靶点进行靶向治疗的潜力[20]。这提示ADBR2 基因可能是高危神经母细胞瘤潜在靶分子和早期检测和预后的潜在标志物。
总之,ADRB2、MC4R、CD69、RBFOX1和IL7R为高危神经母细胞瘤的中枢基因。这些基因可能成为提高高危神经母细胞瘤诊断、优化化疗和预测预后的潜在靶点,也可能为高危神经母细胞瘤的治疗提供潜在的治疗靶点。