基于GEO和TARGET数据库分析骨肉瘤转移和预后的关键基因

2023-12-01 08:56裴忠霞孙晶
中国医科大学学报 2023年11期
关键词:差异基因关键通路

裴忠霞,孙晶

(中国医科大学附属第一医院骨科,沈阳 110001)

骨肉瘤常见于儿童、青少年以及60岁以上人群,具有预后差、致残率高的特点[1]。骨肉瘤具有较高的局部侵袭和早期转移倾向[2]。目前,有关骨肉瘤患者的治疗方法主要包括手术、放疗、化疗和新辅助化疗等,很大程度上改善了骨肉瘤患者的预后[3],但转移性和复发性骨肉瘤的预后仍不理想,5年生存率仅为50%[4]。因此,探索骨肉瘤转移的发病机制,寻找相关预后指标,有助于为转移性骨肉瘤患者的治疗提供新的靶点。

近年来,随着高通量测序技术的发展,基于生物信息学方法进行的大数据挖掘分析被广泛用于探索肿瘤的诊断和预后相关的生物标志物[5]。本研究使用基因表达综合数据库 (Gene Expression Omnibus,GEO)和TARGET等公共数据库筛选和分析骨肉瘤转移相关的差异表达基因 (differentially expressed genes,DEGs),探讨其对骨肉瘤患者预后的影响,为骨肉瘤转移的分子诊断研究和临床治疗提供新的理论依据。

1 材料与方法

1.1 数据收集

从GEO (https://www.ncbi.nlm.nih.gov/geo/) 中筛选骨肉瘤转移相关的数据集,获取符合研究的基因芯片数据集GSE21257,芯片平台为GPL10295。该数据集包含5年内未发生转移的骨肉瘤患者样本19例和5年内发生转移的骨肉瘤患者样本34例,根据转移情况将样本分为未转移组和转移组。

1.2 筛选2组样本之间的DEGs

采用GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/) 在线分析工具检测未转移组与转移组样本之间的DEGs。具体筛选标准为调整后P< 0.05且log2|FC| > 1。DEGs结果通过火山图和热图分别表示。

1.3 DEGs的相关功能富集分析

通过DAVID数据库 (https://david.ncifcrf.gov/) 对DEGs进行基因本体 (Gene Ontology,GO) 功能注释和京都基因与基因组数据库 (Kyoto Encyclopedia of Genes and Genomes,KEGG) 分析。其中 GO 分析包括生物过程 (biological process,BP)、细胞成分 (cellular component,CC) 和分子功能 (molecular function,MF)。以调整后P< 0.05为条件,筛选有统计学差异的蛋白质功能和相关信号通路。

1.4 构建蛋白质-蛋白质相互作用 (protein-protein interation,PPI) 网络及关键基因的筛选

为了明确DEGs的蛋白质之间相互作用关系,采用STRING (https://string-db.org) 数据库建立DEGs的PPI网络。筛选最低交互分数> 0.4的相互作用蛋白,随后将得到的蛋白质数据导入到Cytoscape软件(v3.9.1),按照Betweenness Centrality (BC) 数值的大小绘制PPI同心圆,随后使用cytoHubba插件按照度值算法选取 PPI 图中排名前5的关键基因用于骨肉瘤的生存等相关研究。

1.5 采用TARGET数据库分析骨肉瘤患者的生存差异

TARGET (https://ocg.cancer.gov/programs/target/) 是目前最大的儿童肿瘤数据库,该数据库纳入了87例骨肉瘤患者完整的生存数据 (其中1例数据不完整,下载时间为2022年11月10日)。从TARGET数据库中获得了骨肉瘤患者的基因表达和临床数据矩阵。多基因相关性图通过R软件包pheatmap进行展示,基因的单因素Cox分析通过R软件包forestplot进行实现。将关键基因的表达按照高低进行分组,通过R软件包survival分析关键基因对骨肉瘤患者预后的影响。

1.6 统计学分析

应用GraphPad Prism 9.4.1 对数据进行统计分析和绘图。多组间的比较采用单因素方差分析,组间两两比较采用LSD-t检验,采用单因素Cox回归分析关键基因对患者预后的影响,采用Spearman相关性分析检验关键基因之间的相关性,log-rank用于检验Kaplan-Meier (K-M) 曲线生存分析,比较2组之间的生存差异。P< 0.05为差异有统计学意义。

2 结果

2.1 DEGs的分析和筛选

GEO2R在线分析共得到55个DEGs。其中下调基因22个,上调基因33个。分别绘制DEGs的火山图(图1A) 和前10个上调差异基因与前10个下调差异基因的热图 (图1B)。

图1 GSE21257芯片数据中DEGs的火山图和热图Fig.1 Volcano plot and heat map of DEGs in the GSE21257 gene microarray

2.2 GO功能富集和KEGG通路富集分析

通过DAVID在线数据分析软件对DEGs进行GO和KEGG分析,按照调整后P值大小排序,分别选取排名前3位BP、CC、MF和KEGG通路,见表1。功能注释结果显示,BP方面,差异基因主要参与抗原加工和外源肽抗原通过MHC Ⅱ类呈递,肽抗原与MHCⅡ类蛋白复合体组装,免疫球蛋白的产生参与免疫球蛋白介导的免疫反应;CC方面,差异基因主要参与MHC Ⅱ类蛋白复合体,膜泡运输,内质网膜腔侧的整体成分;MF方面,差异基因主要参与MHC Ⅱ类蛋白复合体结合,MHC Ⅱ类受体活性,肽抗原结合。KEGG通路富集分析发现,差异基因主要参与黄色金葡萄球菌感染、哮喘和Ⅰ型糖尿病。

表1 差异表达基因的 GO功能富集和KEGG通路富集分析Tab.1 GO functional and KEGG pathway enrichment analysis of differentially expressed genes

2.3 PPI分析与关键基因筛选

将GSE21257数据集的55个DEGs导入到STRING数据库,设定筛选阈值为0.4,绘制PPI网络图,共得到53个节点和178条边,平均节点度为6.72,见图2A。随后,将STRING数据库分析的蛋白互作网络关系文件结果导入Cytoscape软件进行进一步分析,并以BC值大小绘制同心圆。随后用cytoHubba 插件,根据度值得出排名前5位的关键基因为TYROBP、ITGB2、C1QB、C1QC、CD74,5个关键基因在骨肉瘤转移样本中均下调,见图2B。

图2 DEGs的PPI网络图和5个关键基因Fig.2 PPI network diagram of differentially expressed genes and five key genes

2.4 关键基因在骨肉瘤样本中的相关性分析和生存分析

将TARGET数据库骨肉瘤样本基因表达矩阵和临床信息数据下载后,通过R软件包pheatmap分析关键基因在骨肉瘤样本中的相关性,结果显示,5个关键基因TYROBP、ITGB2、C1QB、C1QC、CD74在骨肉瘤样本中均呈正相关 (图3A)。通过分析TARGET数据库骨肉瘤患者的生存模型,发现关键基因TYROBP、C1QB和CD74的表达与骨肉瘤患者的预后有统计学差异,见图3B (P< 0.05),此外,CD74与骨肉瘤患者的无病生存期 (disease free survival,DFS)相关,见图3C (P< 0.05)。进一步进行K-M生存曲线分析发现,高表达TYROBP、C1QB和CD74组总生存期(overall survival,OS) 较长 (P< 0.05),CD74基因的上调使骨肉瘤患者有良好的DFS (P< 0.05),预后较好,见图4。

图3 关键基因在骨肉瘤样本中的相关性和基因单因素Cox分析Fig.3 Correlation and gene univariate Cox analysis of key genes in osteosarcoma samples

图4 与预后相关的关键基因的生存曲线分析Fig.4 Survival curve analysis of key genes associated with prognosis

3 讨论

骨肉瘤起源于骨髓中的一个单细胞,最终会产生一个多克隆的、异质性的肿瘤块,被认为是分子畸变方面最复杂的癌症之一[6]。如果不及时治疗,90%的骨肉瘤患者将死于肺转移[7]。骨肉瘤最常见于股骨远端,其次为胫骨近端和肱骨近端[8]。最初针对骨肉瘤的治疗主要是外科手术,但致残率较高,严重影响患者的生活质量且早期极易发生肺部转移[9]。20世纪初,随着化疗技术的不断更新,手术联合化疗使骨肉瘤患者的5年生存率提高至52%[9]。然而,由于骨肉瘤的恶性程度高易转移的特点,患者的OS仍远不能令人满意,尤其是晚期骨肉瘤患者。因此,一些针对骨肉瘤发展过程的新疗法,如抗血管生成药物和免疫疗法已被应用于骨肉瘤的临床治疗,但其效性和潜在机制仍不清楚[4]。深入了解骨肉瘤发生发展相关的分子病理机制,有助于筛选骨肉瘤早期诊断、靶向及免疫治疗和预后分析的关键分子或生物标志物。

本研究基于生物信息学分析方法,首先将GSE21257芯片数据集[10]5年内未发生转移的骨肉瘤患者与5年内发生转移的骨肉瘤患者的全基因组基因表达谱进行比较,筛选出55个DEGs。通过GO功能富集分析和KEGG信号通路分析,发现差异基因主要参与MHC Ⅱ类蛋白复合体组装,免疫球蛋白介导的免疫反应,MHC Ⅱ类受体活性,肽抗原结合等。这一结果提示参与抗原呈递基因的失调可能是骨肉瘤发生的早期事件,MHC Ⅱ只在抗原呈递细胞表面表达,如巨噬细胞、树突状细胞和B细胞[11]。抗原呈递细胞通过将MHC Ⅱ与多肽结合,向辅助T细胞呈现外源性多肽或内源性多肽,从而告知机体正在被入侵[12]。信号通路方面主要参与金黄色葡萄球菌感染、哮喘和Ⅰ型糖尿病等。与本研究结果一致,TUOHY等[13]发现金黄色葡萄球菌感染会上调骨肉瘤患者炎症免疫反应,从而抵消骨肉瘤引起的免疫抑制,为优化炎症刺激以触发抗骨肉瘤巨噬细胞反应提供了一种潜在的治疗策略。

利用PPI分析对差异基因进一步筛选得到5个骨肉瘤转移关键基因:TYROBP、ITGB2、C1QB、C1QC和CD74。研究[14-15]发现TYROBP和ITGB2的高表达与骨肉瘤患者更好的OS相关,是预测骨肉瘤的独立预后因素。另有研究[16-17]表明关键基因C1QB、C1QC和CD74可能是骨肉瘤免疫微环境重构的潜在指标,有助于预测骨肉瘤患者的预后。通过分析TARGET数据库中骨肉瘤患者的临床数据,发现关键基因在骨肉瘤样本中均呈正相关,其中TYROBP、C1QB和CD74的高表达与骨肉瘤患者良好的OS相关,此外,CD74的高表达提示骨肉瘤患者的DFS较长。

综上所述,本研究通过生物信息方法筛选出骨肉瘤转移和预后相关的关键基因TYROBP、C1QB和CD74,在5年内发生骨肉瘤转移的样本中均呈现低表达,可能与骨肉瘤的发生和发展相关。这些结果表明TYROBP、C1QB和CD74在骨肉瘤患者良好的预后中起到关键作用。但考虑到上述研究为数据挖掘形式,具体的作用机制尚需进一步的基础和临床实验研究证实。

猜你喜欢
差异基因关键通路
硝酸甘油,用对是关键
高考考好是关键
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
紫檀芪处理对酿酒酵母基因组表达变化的影响
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
SSH技术在丝状真菌功能基因筛选中的应用
Hippo/YAP和Wnt/β-catenin通路的对话
生意无大小,关键是怎么做?