赵文慧,徐冬祥,钟 雷,冯万文
(徐州医科大学附属连云港市立东方医院:1.检验科;2.临床研究中心,江苏连云港 222042)
原始神经外胚层瘤(primitive neuroetodermal tumors,PNETs)是一类发生在中枢神经系统以及软组织、骨和肺等周围组织器官的神经外胚层来源的罕见恶性肿瘤,分为中枢神经系统性原始神经外胚层瘤(central nervous system primitive neuroetodermal tumors,CNS-PNETs)和外周性原始神经外胚层瘤(peripheral primitive neuroetodermal tumors,pPNETs)。CNS-PNETs多见于儿童和青少年,具有恶性程度高、侵袭性强以及预后差等特点[1]。目前对CNSPNETs的治疗手段以外科手术切除和高剂量放化疗为主,但总体治疗效果不佳,并且放化疗可引起严重的临床副作用[2-3]。由于CNS-PNETs的病因和致病机制尚不清楚,因此深入研究CNS-PNETs的发病机制对寻找有效的治疗策略和靶点、提高患者的生活质量具有重要意义。
随着基因表达芯片和高通量测序的飞速发展,利用生物信息学手段对临床样本进行大数据挖掘分析,有助于研究疾病的发生发展机制,为实验研究提供可靠的思路。本研究采用生物信息学(bioinformatics)方法,从GEO数据库下载CNS-PNETs的基因表达谱芯片的数据进行分析,筛选出CNS-PNETs与正常脑组织的差异表达基因(differentially expressed genes,DEGs),并对其进行功能和通路富集分析以及蛋白质间的相互作用分析,从而筛选出可能参与CNS-PNETs发病机制的关键靶分子,为探究CNSPNETs发生发展的分子机制及临床诊断、治疗、预后提供理论依据。
基因表达数据库(Gene Expression Omnibus,GEO,https://www.ncbi.nlm.nih.gov/geo/)作为当今世界上最全面的公共数据库之一,广泛应用于科研的各个领域。使用关键词“primitive neuroectodermal tumors with central nervous system,CNS-PNETs”进行搜索,下载GSE35493和GSE74195的两个数据集。GSE35493和GSE74195均位于GPL 570平台([HG-U 133_Plus_2]Affymetrix Human Genome U 133 Plus 2.0 Array),表达数据类型为Expression profiling by array,种 属 Homo sapiens。其 中GSE35493共包含71个样本,选取符合要求的9例CNS-PNETs样本和7例对照组样本;GSE74195包含51个样本,选取5例CNS-PNETs数据和5例对照组样本。
GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)是GEO数据库的在线分析工具,用来进行DEGs的分析。GEO2R基于R程序语言,利用R语言中两个程序包,即GEOquery和limma,应用t检验来筛选DEGs[4]。本研究DEGs筛选的标准:校正P值(adjustedP-value)<0.05,|log2fold change(log2FC)|≥2。
通过GEO2R筛选出来的两个芯片数据的DEGs,使用Venn在线分析软件(http://bioinformatics.psb.ugent.be/webtools/Venn/)获得数据集DEGs的交集基因。其中log2FC>0代表上调基因,log2FC<0代表下调基因。
利用DAVID(The Database for Annotation,Visualization and Integrated Discovery)在线分析工具(https://david.ncifcrf.gov/home.jsp)对筛选出来的DEGs进行基因本体论(gene ontology,GO)功能注释和通路富集(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析。GO是识别和注释基因生物学特性的强大工具,按照生物途径分为生物学过程(biological process,BP)、分子功能(molecular function,MF)和细胞组成(cellular component,CC)。KEGG通路富集分析则显示差异基因富集的信号通路。P<0.05为差异有统计学意义。
STRING数据库(https://string-db.org/)是一个由已知或预测蛋白质间相互作用数据组成的数据库。数据库的结果来自实验数据、数据库,可以用于预测生物信息学数据[5]。通过STRING 11.0对DEGs进行蛋白-蛋白相互作用(protein-protein interaction,PPI)网络分析,然后将原始结果导入到Cytoscape 3.6.0软件中(https://cytoscape.org/),利用插件cytoHubba中的MCC评分标准寻找关键基因(Hub genes)。
应用GEO2R对两个数据集GSE35493和GSE74195进行分析处理,在GSE35493中获得1 925个DEGs,其中804个上调基因,1 121个下调基因;同时在GSE74195中获得491个DEGs,其中96个上调基因,395个下调基因。两个芯片数据中的CNSPNETs和对照组的DEGs分别用火山图显示(图1A、图1B)。并将前50个上调和下调的DEGs做热图(图1C、图1D)。利用Venn获取两个数据集共有的DEGs,结果显示:共获得262个DEGs,其中包括49个上调基因和213个下调基因(图1E、图1F)。
图1 差异表达基因的筛选Fig.1 Screening of differentially expressed genes
利用数据库DAVID对筛选出来的上调和下调的DEGs进行GO功能和KEGG信号通路富集分析。GO功能富集分析结果显示(表1):在BP中,上调DEGs主要富集于DNA转录和有丝分裂核分裂,以及细胞分裂等生物过程,下调DEGs则主要富集于运动行为、学习记忆和突触信号传递等生物过程;在MF中,上调DEGs主要富集于ATP结合以及染色质结合、组蛋白结合等功能,下调DEGs则主要富集于钙离子结合、门控离子通道活动以及谷氨酸受体活动等功能;在CC中,上调DEGs主要富集于细胞核、细胞质以及纺锤体微管等细胞组分,下调DEGs则主要富集于突触、细胞连接以及神经元投射等细胞组分。KEGG信号通路富集分析结果显示(表2):上调DEGs主要富集于细胞周期、肿瘤相关通路以及p53信号通路等信号通路,下调DEGs则主要富集于突触相关信号通路、cAMP信号通路以及钙离子信号通路等信号通路。
表1 差异表达基因的GO功能分析Tab.1 GO analysis of differentially expressed genes
表2 差异表达基因的KEGG通路富集分析Tab.2 KEGG pathways analysis of differentially expressed genes
利用数据库STRING对筛选出来的上调和下调的DEGs构建蛋白质互作网络(图2A),然后将得到的数据导入Cytoscape 3.6.0软件中,利用插件cytoHubba找到前10位Hub基因(图2B),然后根据degree进行排序(表3),前10位Hub基因分别是CDK1,CDC20,MAD2L1,KIF11,ASPM,TOP2A,TTK,NDC80,NUSAP1,DLGAP59。
表3 差异表达基因的关键基因Tab.3 Hub genes in differentially expressed genes
图2 差异表达基因的蛋白互作网络图及关键基因Fig.2 PPI network and hub genes of differentially expressed genes
CNS-PNETs是一种具有高度侵袭性的WHOⅣ级恶性脑肿瘤。研究表明,14岁以下的脑瘤患者中CNS-PNETs仅占2%,但致死率却高达7.5%[6]。近年来,虽然对CNS-PNETs的治疗方案不断完善,但是生存率没有显著的提升,5年存活率仍保持在15%~50%[7],其中转移是导致生存率低和预后差的主要原因。因此,深入探索CNS-PNETs的发病机制和寻找新的治疗靶点对改善预后尤为重要。
本研究利用GEO2R在线工具对GEO数据库中的GSE35493和GSE74195进行DEGs筛选,然后利用Venn在线工具进一步筛选出两个数据集的DEGs的交集基因,共获得262个DEGs,包括49个上调基因和213个下调基因。通过DAVID并对DGEs进行GO功能和KEGG信号通路富集分析,发现上调差异基因主要参与DNA转录、有丝分裂核分裂和细胞分裂等生物功能以及细胞周期、肿瘤相关通路和p53信号通路等,下调差异基因主要参与钙离子结合、门控离子通道活动和谷氨酸受体活动等功能以及突触相关信号通路、cAMP信号通路与钙离子信号通路等信号通路。并且发现上调差异基因富集功能以及信号通道几乎都是肿瘤发生发展的特征或关键因素[8]。例如,p53信号通路是大多数肿瘤发生发展的经典信号通路之一。研究表明p53基因突变与CNS-PNETs发生密切相关[9];此外p53功能障碍与c-Myc以及Wnt/beta-catenin信号共同促进了PNETs的形成[10]。下调差异基因富集的功能和通路大多与神经细胞密切相关,包括突触功能和各种类型的离子通道活动[11]。因此,上述差异基因的表达以及相关信号通路可能共同参与了CNS-PNETs的发病机制。
利用蛋白互作数据库STRING以及Cytoscape软件中的cytoHubba分析DEGs,获取了前10位的Hub基因,分别是CDK1,CDC20,MAD2L1,KIF11,ASPM,TOP2A,TTK,NDC80,NUSAP1,DLGAP5。
CDK1是丝氨酸/苏氨酸蛋白激酶家族成员之一,在细胞周期调控中发挥关键作用。研究发现,CDK1可以通过调控细胞周期S期和G2/M期以及扰乱染色体稳定性等途径介导多种肿瘤的发生发展[12],包括胶质瘤、乳腺癌和肝癌等。另有研究表明,在25%CNS-PNETs中检测出有多个CDK/CYCLIND基因扩增现象[13],提示CDK1可能是CNS-PNETs治疗的潜在靶点。
CDC20是参与细胞周期调控的关键分子,在肿瘤发生中起到致癌作用[14]。越来越多的研究发现,CDC20在多种肿瘤组织中高表达,并且其高表达水平与肿瘤的恶性程度以及不良预后密切相关[15]。比如,CDC20在低级别的胶质瘤中低表达,但在恶性胶质瘤中高表达,并且参与肿瘤的转移和侵袭。CHENG等[16]发现,应用CDC20抑制剂能够显著抑制胰腺癌和乳腺癌细胞的转移。CNS-PNETs生存率低和预后差的重要原因之一是该肿瘤易发生转移,而CDC20高表达能够促进肿瘤的转移和侵袭。因此,CDC20可能是CNS-PNETs发生和转移侵袭的关键调控分子。
MAD2L1是纺锤体组装检验点组成成分之一,在维持染色体分离以及染色体稳定性中起重要作用[17]。研究表明,MAD2L1的表达与肿瘤的发生发展密切相关。WU等[18]研究发现,敲减MAD2L1的表达水平能有效抑制胶质瘤细胞的增殖、存活以及迁移。此外,GOGOLIN等[19]发现,敲减MAD2L1也可以诱导成神经细胞瘤细胞的凋亡。
KIF11作为一种有丝分裂的驱动蛋白,控制中期双极纺锤体的形成。抑制KIF11的功能会导致细胞周期G2/M阻滞,最终引起细胞凋亡[20]。另外KIF11还可以调控轴突分支、生长锥运动和细胞运动性[21]。近年来,许多学者将KIF11功能水平与肿瘤的发生发展联系起来。VENERE等[22]研究表明,KIF11是调控恶性胶质瘤增殖、侵袭和自我更新的重要驱动因子。
ASPM是一种微管相关的中心体蛋白,与原发性小头畸形和多种肿瘤发生发展密切相关,包括胶质瘤、成神经管细胞瘤和肝癌等[23]。WILLIAMS等[24]研究发现,ASPM能够维持小鼠出生后的小脑神经形成以及成神经管细胞瘤的生长。基因水平上敲除ASPM后可显著抑制该肿瘤的生长和促进DNA的损伤。成神经管细胞瘤是一类起源于小脑祖细胞的胚胎恶性肿瘤,症状特征类似原始神经外胚层瘤。目前大多数PNETs的治疗手段参考成神经管细胞瘤[25]。上述结果表明,ASPM可能作为治疗CNS-PNETs的新靶点。
另 外,多 项 研究 表 明TOP2A、TTK、NDC80、NUSAP1、DLGAP5的表达水平与肿瘤的发生发展密切相关[26-30],但它们在CNS-PNETs中的作用尚未见报告。因此,对上述基因需要进行深入的实验研究,以阐明它们在CNS-PNETs中可能的分子机制。
通过生物信息学方法初步揭示了可能参与CNS-PNETs的信号通路和关键靶分子,但本研究尚存在以下不足:第一,本研究数据库中的样本量较小,不能完整反映差异基因的真实表达情况,需要进一步扩大样本量进行深入研究;第二,缺乏体内体外的实验研究和其他数据库间的交叉验证;第三,没有对关键靶分子在CNS-PNETs中潜在的诊断和治疗作用进行评估。因此,后续需要进一步探索这些关键靶分子在CNS-PNETs中的功能及是否可以作为诊断标志物和治疗靶点。
综上所述,本研究利用生物信息学方法对CNSPNETs两个基因表达谱芯片数据进行了进一步挖掘,共获得了262个DEGs和相关信号通路,对GO功能和KEGG信号通路富集进行了分析,结果显示DEGs涉及DNA转录和有丝分裂核分裂、细胞分裂和突触信号传递等生物过程,参与细胞周期、肿瘤相关通路以及p53信号通路、突触相关信号通路、cAMP信号通路以及钙离子信号通路等。CDK1,CDC20,MAD2L1,KIF11,ASPM等10个Hub基因在CNSPNETs中高表达可能在其发生发展中起重要作用。本研究为探索CNS-PNETs的分子机制以及寻找新的治疗靶标提供了新思路。