李 帅,郑振中,张宇鹏,刘子群 ,肖什朋,欧阳正晓,王 冰
中南大学湘雅二医院 1脊柱外科 2骨科,长沙 410011
骨肉瘤是骨组织中侵袭性最强的恶性肿瘤之一,好发于儿童和青少年[1],15%~20%骨肉瘤患者在首次确诊时就伴有肺转移[2- 3]。根据组织学表现,可将其分为高级别、中级别及低级别骨肉瘤3种类型[4]。尽管新辅助化疗的出现与应用,让骨肉瘤的治疗有了更多的选择和突破,但患者的总体生存率并没有明显改变[5]。因此,寻找骨肉瘤新的预后因素和治疗靶点是非常有必要的。近年来,多种公共数据库被广泛应用于肿瘤的诊断和预后生物标志物的研究,并且微阵列技术在基因分析中起着越来越重要的作用。基因表达谱数据库是医学肿瘤学中的一个重要工具,具有重要的临床应用价值[6- 8]。随着大量基因表达谱数据的研究及基因微阵列技术的应用,表明差异表达基因(differentially expressed genes,DEGs)参与多种生物过程、途径和分子功能[9- 10]。本研究通过基因表达综合(gene expression omnibus,GEO)数据库获取与骨肉瘤相关的基因表达谱GSE16088和GSE12865,并运用生物信息学方法筛选出骨肉瘤潜在的关键基因(Hub基因),并分析其免疫浸润模式,为骨肉瘤的发病机制和治疗策略研究提供新的方向。
数据来源及筛选在GEO公共数据库(https://www.ncbi.nlm.nih.gov/geo/)检索并获取GSE16088和GSE12865的基因表达谱数据。GSE16088数据集基于GPL96平台,其中包含14例骨肉瘤样本和6例正常对照组织样本的基因表达信息;GSE12865数据集基于GPL6244平台,其中包含12例骨肉瘤样本和2例正常人成骨细胞样本的基因表达信息。
差异表达分析利用R软件中的limma软件包[11],分别对两组芯片的骨肉瘤样本和正常对照样本进行差异表达分析,鉴定DEGs并绘制火山图。以|log2FC|>1.5和校正后P<0.05为阈值筛选DEGs。采用维恩图(https://bioinformatics.psb.ugent.be/webtools/Venn/)确定GSE16088和GSE12865数据集的交集基因。使用R软件中的ggplot2软件包绘制DEGs表达的热图。
DEGs功能富集分析利用生物学信息注释及可视化数据库(database for annotation,visualization and integrated discovery,DAVID)(https://david.ncifcrf.gov/)对骨肉瘤DEGs进行基因本体(gene ontology,GO)功能注释和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)富集分析。其中,GO功能注释包括生物学过程、细胞组成和分子功能分析来预测蛋白质的功能[12];KEGG富集分析会将DEGs富集在特定的通路,以构建分子间的相互作用和关系网络[13]。
免疫细胞浸润分析采用CIBERSORT算法预测GSE16088中肿瘤组织样本与正常组织样本的22种免疫细胞的浸润情况[14]。22种免疫细胞包括7种类型的T细胞(CD8+T细胞、幼稚CD4+T细胞、静息记忆CD4+T细胞、活化记忆CD4+T细胞、滤泡辅助性T细胞、调节性T细胞、γδT细胞)、3种类型的巨噬细胞(M0、M1和M2)以及幼稚B细胞、记忆B细胞、浆细胞,静息自然杀伤细胞、活化自然杀伤细胞、单核细胞、静息树突状细胞、活化树突状细胞、静息肥大细胞、活化肥大细胞、嗜酸性粒细胞和中性粒细胞。以P<0.05筛选免疫细胞,使用R软件分析22种免疫细胞在骨肉瘤和正常组织样本中的浸润情况。同时进行主成分分析(principal components analysis,PCA)以确定骨肉瘤和正常组织样本之间的差异。
蛋白质-蛋白质相互作用网络构建与关键基因的筛选为了获取基因间相互作用的关系,采用基因相互作用数据库检索工具(search tool for the retrieval of interacting genes,STRING)对已获取的108个DEGs进行蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络的构建[15]。筛选置信度得分≥0.9的互作蛋白[16],网络中每个节点代表1个蛋白质,连线代表蛋白质之间的相互作用,去除网络中游离的蛋白质,通过Cytoscape软件(https://cytoscape.org/)的CytoHubba插件按基因节点的连接度筛选前5位Hub基因[17]。使用肿瘤基因组图谱(the cancer genome atlas,TCGA)数据库验证Hub基因在骨肉瘤样本及正常组织样本中的表达情况。
DEGs的鉴定通过差异性表达分析从GSE16088数据集中鉴定出2089个DEGs,包括1327个上调基因和762个下调基因;从GSE12865数据集中鉴定出856个DEGs,包括521个上调基因和335个下调基因(图1)。取GSE16088和GSE12865数据集的交集,最终鉴定出108个DEGs,构建108个DEGs的表达热图(图2)。在GSE16088和GSE12865数据集中,DEGs在骨肉瘤组与正常对照组之间的表达差异有统计学意义(t=3.341,P=0.0031;t=3.726,P=0.0019)。
DEGs功能富集分析GO功能注释结果显示,DEGs主要富集于整合素结合、细胞外基质(extracellular matrix,ECM)结构成分和胞外基质结合等(图3)。KEGG通路分析结果显示,DEGs主要富集于ECM受体相互作用和磷脂酰肌醇3-激酶(phosphatidylinositol 3-kinase,PI3K)/蛋白激酶B(protein kinase B,Akt)信号通路(表1)。
免疫细胞浸润分析经过计算和筛选,得到14例骨肉瘤样本和5例正常组织样本的免疫细胞含量矩阵。22种免疫细胞浸润分析结果显示,与其他免疫细胞(如T细胞和B细胞等)相比,骨肉瘤样本中巨噬细胞浸润占主导地位(图4A、B)。PCA分析显示14例骨肉瘤样本和5例正常组织样本之间的免疫细胞浸润模式具有明显的个体差异(t=2.948,P=0.008)(图4C)。M0型巨噬细胞与CD8+T细胞之间相互作用最明显(图4D)。与正常组织样本相比,骨肉瘤样本M0型巨噬细胞浸润程度差异具有统计学意义(t=3.101,P=0.002)(图4E)。
PPI网络构建与Hub基因识别及验证DEGs共有107个节点和145条边参与PPI网络的构建(图5A)。对PPI中的连接度进行评估,最终筛选出分泌型磷蛋白1(secreted phosphoprotein 1,SPP1)、基质金属肽酶2(matrix metallopeptidase 2,MMP2)、赖氨酰氧化酶(lysyl oxidase,LOX)、V型胶原蛋白α(II)链(collagen type V alpha 2 chain,COL5A2)、黑色素瘤细胞黏附分子(melanoma cell adhesion molecule,MCAM)5个Hub基因(图5B)。在TCGA数据库中验证Hub基因的表达情况,结果显示SPP1(t=5.051,P=0.0005)、MMP2(t=3.714,P=0.0091)、LOX(t=4.504,P=0.0029)、COL5A2(t=2.514,P=0.0206)、MCAM(t=2.836,P=0.0172)在骨肉瘤样本与正常组织样本之间的表达差异有统计学意义。
DEGs:差异表达基因;红色代表上调基因,绿色代表下调基因
A.GSE16088;B.GSE12865
GO:基因本体
表1 DEGs的KEGG通路分析
A.22种免疫细胞在骨肉瘤和正常组织中的分布;B.热图显示骨肉瘤和正常组织免疫细胞浸润的差异;C.主成分分析中,骨肉瘤和正常组织间免疫细胞浸润模式存在显著差异(P=0.008);D.22种免疫细胞的共表达热图;E.小提琴图显示免疫细胞浸润差异
PPI:蛋白质-蛋白质相互作用
近年来,越来越多的来自GEO数据库的微阵列数据被用来分析DEGs以揭示各类疾病发生发展的机制。差异性表达分析是根据|logFC|的大小来筛选DEGs,然后对其进行GO功能注释和KEGG富集分析。此外,还可以通过整合DEGs编码的蛋白质相互作用和microRNA-mRNA的相互作用形成一个完整的调控网络,用来预测疾病潜在的关键基因和发病机制。
在本研究中,共检测到108个DEGs,包括77个上调基因和31个下调基因。GO功能注释和KEGG富集分析结果表明,DEGs主要富集于整合素结合、ECM结构、ECM受体相互作用和PI3K/Akt信号通路。这些都与肿瘤的发生发展密切相关。通过CIBERSORT算法评估GSE16088中免疫细胞的浸润模式,比较骨肉瘤样本和正常组织样本中免疫细胞浸润模式的差异,结果发现在骨肉瘤组织中巨噬细胞是最重要的浸润细胞。通过PPI网络的构建,筛选出5个Hub基因,包括SPP1、MMP2、LOX、COL5A2、MCAM,所有这些基因在骨肉瘤中均上调,并且在TCGA数据库中验证这些基因在骨肉瘤样本和正常组织样本中的表达确实存在差异。
大量研究表明,上皮细胞-间充质转化(epithelial-mesenchymal transition,EMT)是肿瘤转移过程中的关键一环,当细胞与细胞间的连接减弱或消失时,肿瘤细胞就会从原发部位脱离并获得侵袭和迁移的能力[18- 19]。肿瘤相关ECM也是肿瘤进展的关键因素之一,由胶原结合整合素介导的ECM发生重组(如胶原沉积)可能会影响肿瘤的预后[20]。此外,DEGs富集在TGF-β、PI3K/Akt和Wnt等信号通路,表明这些通路与骨肉瘤的发生发展密切相关。已有文献报道TGF-β的过度表达与骨肉瘤的肺转移有关[21],并与骨肉瘤的恶性程度相关[22]。PI3K/Akt信号通路被认为参与多种肿瘤的发生、发展及转移,越来越多的证据表明,该通路在骨肉瘤中被过度激活,并参与肿瘤的发生、增殖、侵袭、细胞周期进展、凋亡抑制、血管生成、转移和化疗耐药等[23]。抑制Wnt通路可以逆转EMT[24],从而降低骨肉瘤的侵袭性。本研究发现的DEGs主要富集于PI3K/Akt信号通路,表明该信号通路与骨肉瘤的发病机制和进展密切相关。
肿瘤的发生和发展不仅与本身特性有关,还受其所在肿瘤微环境(tumor microenvironment,TME)的影响[25]。TME由基质细胞(如成纤维细胞、巨噬细胞、内皮细胞等)、ECM成分(如炎性细胞因子、趋化因子等)和外泌体(载有小分子的细胞外囊泡)等构成,在肿瘤的发生发展过程中发挥着重要的作用[26]。据文献报道,基质细胞中的肿瘤相关巨噬细胞,即M2型巨噬细胞可促进血管生成、基质重塑[27],并与骨肉瘤的进展和预后密切相关[28]。本研究结果显示,巨噬细胞是骨肉瘤中最主要的浸润性免疫细胞,包括未分化的M0型巨噬细胞和M2型巨噬细胞,而M2型巨噬细胞在骨肉瘤微环境中的作用有待进一步研究。
本研究通过构建PPI网络鉴定出5个Hub基因,其中SPP1参与细胞黏附、局灶黏附和ECM受体相互作用。有文献报道溶酶体相关膜蛋白3(lysosome-associated membrane protein 3,LAMP3)/SPP1信号转导可能成为预测骨肉瘤转移的潜在靶点[29],但仍需进一步研究证实。EMT是包括骨肉瘤在内的多种恶性肿瘤局部和远处转移的重要生物过程。MMP在促进组织细胞的再生、调控细胞的程序性死亡、促进血管生成和其他许多重要组织功能的调节过程中发挥着重要的作用[30]。Yao等[31]报道LINC01128作为miR- 299- 3p的海绵起调控作用,促进MMP2的表达并激活Wnt/β-catenin信号通路,从而促进骨肉瘤的发生与发展。近年来,LOX也被证实参与肿瘤的发生发展和转移。Murdocca等[32]报道LOX在胶质母细胞瘤、骨肉瘤、前列腺癌、结肠癌、乳腺癌、肺癌和胰腺癌等多种恶性肿瘤中能够促进新生血管生成和EMT形成。
综上,本研究通过生物信息分析筛选与骨肉瘤相关的DEGs及Hub基因,并发现骨肉瘤组织中重要的免疫浸润细胞,这些结果可能为骨肉瘤的治疗提供新的视角。