骨肉瘤潜在关键基因及相关通路的鉴定△

2022-04-24 00:39张懿明毛良浩倪晨烈尹正宇仲新宇李大鹏
中国矫形外科杂志 2022年7期
关键词:通路样本关键

张懿明,毛良浩,江 攀,倪晨烈,李 建,尹正宇,仲新宇,张 兵,李大鹏

(江苏大学附属医院脊柱外科,江苏镇江 212000)

骨肉瘤(osteosarcoma,OS)是一种常见的原发 性恶性骨肿瘤,起源于间充质组织,在儿童和青少年中发病率较高,具有高侵袭性、易复发和远处转移的特点[1]。通过新辅助化疗、手术、化疗及生物治疗的综合疗法,未转移骨肉瘤患者的总生存率由不足20%逐渐提高到70%;然而,转移或复发患者的总体预后仍然较差,总生存率仅为20%左右[2]。分子生物学的发展为骨肉瘤的诊断和治疗提供了新见解,研究发现 TP53、RB1、NOTCH1、REQL4、INK4a的突变及TGF-β、c-Myc和IGF通路的失调与骨肉瘤的发生发展关密切相关[3,4],然而具体分子机制仍有待进一步挖掘。高通量测序技术和生物信息学分析相结合,有助于更好地了解骨肉瘤潜在的分子机制,寻找治疗靶点,从而延长骨肉瘤患者的生存时间[5,6]。有研究通过综合生物信息学分析发现RPUSD1基因高表达与骨肉瘤患者的不良预后相关,并可能通过细胞代谢等相关通路发挥作用,为进一步的体内外实验提供依据[7]。本研究分别分析了GSE11414和GSE14359芯片表达数据集,筛选骨肉瘤和成骨细胞之间的差异基因。通过GO和KEGG通路富集分析进一步探索两个数据集中共表达差异基因的潜在生物学功能。通过STRING数据库构建蛋白相互作用网络,并使用Cytoscape挖掘关键基因,最后使用LOGpc数据库评估关键基因的预后价值,以期为骨肉瘤防治和研究提供新的思路。

1 材料和方法

1.1 芯片数据

两个芯片表达数据集(GSE11414和GSE14359)从美国国家生物技术信息中心(the National Center for Biotechnology Information,NCBI)的基因表达公共数据库(Gene Expression Omnibus,GEO,https://www.ncbi.nlm.nih.gov/geo/)获得。GSE14359数据集由1个人原代成骨细胞样本、5个普通型骨肉瘤冰冻样本以及4个骨肉瘤肺转移肿瘤样本组成,每个样本均有2个复本,基于GPL96分析平台([HGU133A] Affymetrix Human Genome U133A Array)。作者选择了其中的10个常规骨肉瘤样本和2个非肿瘤原代成骨细胞样本进行进一步分析。GSE11414数据集包含1个正常人成骨细胞,1个U2OS骨肉瘤细胞系,1个MG63骨肉瘤细胞系的测序结果,每个样本有2个复本,数据集基于GPL6244芯片分析平台([HuGene-1_0-st] Affymetrix human Gene 1.0 ST Array[transcript(Gene)version])。GSE11414中的所有样本均被纳入本研究进行分析。

1.2 差异表达基因筛选

利用GEO2R在线分析工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/)分别对两个芯片表达数据集(GSE11414和GSE14359)中骨肉瘤样本和正常成骨细胞样本之间的差异表达基因进行鉴定。差异基因的筛选标准为|logFC|>1且adjust P值<0.05。logFC>1的差异基因被认为是上调基因,logFC<-1的差异基因被认为是下调基因。利用韦恩图在线网页工具(bioinformatics.psb.ugenta.be/webtools/Venn/) 获取两个芯片表达数据集之间的共表达差异表达基因。

1.3 GO和KEGG通路富集分析

为了进一步揭示共表达差异基因的重要功能和生物学途径,作者对其进行了GO功能和KEGG通路富集分析。GO是一种常用的基因注释和功能基因组学分析方法,包括生物过程(biological process,BP)、分子功能(molecular function,MF)和细胞成分(cel⁃lular component,CC)[8]。 KEGG (http://www.genome.jp/)是一个广泛使用的数据库,存储了大量关于基因组信息与生物途径、化学物质、疾病和药物的数据[9]。利用 R 软件中的“clusterProfiler”、“org.Hs.eg.db”、“ggplot2”程序包对差异表达基因进行GO和KEGG通路富集分析及可视化,P<0.05为差异具有统计学意义。

1.4 蛋白相互作用网络构建

基于筛选的共表达差异基因,作者利用STRING数 据 库 (STRING,version 11.0,http://string-db.org/)构建蛋白质相互作用(protein-protein interaction,PPI)网络,并由Cytoscape软件可视化,蛋白互作得分>0.15为筛选标准(满分为1)。此外差异表达基因的logFC值也被导入Cytoscape中以显示基因上/下调节状态。利用Cytoscape中的CytoHubba插件筛选关键基因进行下一步分析。

1.5 关键基因预后分析

LOGpc数据库(http://bioinfo.henu.edu.cn)可提供查询分析多种癌症的预后生存数据,其数据主要来源 GEO和 TCGA(The Cancer Genome Atlas,TCGA)等数据库[10]。将由CytoHubba筛选得到的关键基因输入LOGpc数据库中进行生存分析,选择骨肉瘤GSE39058数据集探究关键基因表达水平与骨肉瘤患者无复发生存期(recurrence-free survival,RFS)的关系,所有参数设为默认值。

2 结 果

2.1 差异表达基因筛选

以|log2FC|>1且adjust P<0.05为筛选标准,从GSE11414数据集中共得到735个差异基因,其中262个上调基因,473个下调基因,从GSE14359中共筛选得到1 376个差异基因,其中791个上调基因,585个下调基因;随后,通过Venn分析,在两个数据集之间筛选得到111个共表达差异基因,其中28个基因显著上调(图1a),83个基因显著下调(图1b)。

2.2 GO和KEGG通路富集分析

为了探索共表达差异基因潜在的生物学功能,本研究使用R软件进行了GO注释和KEGG通路富集分析,P<0.05为差异有统计学意义。GO富集分析结果显示111个共表达差异基因参与的生物学进程有细胞外结构组织、细胞外基质组织、细胞基质粘附等;分子功能则主要富集于整合素结合、糖胺聚糖结合、细胞外基质结构组成;细胞成分方面,差异基因主要存在于包含胶原的细胞外基质、溶酶体管腔、空泡腔(图1c)。KEGG通路富集分析结果显示这些差异基因主要富集于p53信号通路、转化生长因子β(transforming growth factor-β,TGF-β)信号通路及肿瘤坏死因子(tumor necrosis factor,TNF)信号通路等(图1d)。

图1 来自两个基因数据集(GSE14359和GSE11414)共表达差异基因的韦恩图及功能富集结果 1a:GSE14359和GSE11414数据集中共识别28个上调的共表达差异基因 1b:GSE14359和GSE11414数据集中共识别83个下调的共表达差异基因 1c:111个共表达差异基因GO富集分析气泡图,每个气泡大小代表富集的基因数量,而颜色由蓝到红对应P值由大到小 1d:111个共表达差异基因KEGG通路富集分析气泡图,每个气泡大小代表富集的基因数量,而颜色由蓝到红对应P值由大到小

2.3 蛋白相互作用网络构建

蛋白互作得分>0.15为筛选标准,通过STRING数据库预测了共表达差异基因之间的蛋白互作网络,并使用Cytoscape软件进行后续分析。整个PPI网络由104个节点和778条边组成,红色的节点表示上调的基因,绿色的节点表示下调的基因(图2a)。应用Cyto⁃Hubba插件根据MCC法筛选PPI网络中排名前10位的关键基因:纤连蛋白1(fibronectin 1,FN1)、血小板凝血酶蛋白1(thrombospondin-1,THBS1)、白细胞介素-6(interleukin 6,IL-6)、纤溶酶原激活物抑制因子1(serine protease inhibitor,clade E member 1,SER⁃PINE1)、窖蛋白1(caveolin-1,CAV1)、基质金属蛋白酶14(matrix metalloproteinase 14,MMP14)、弹性蛋白(elastin,ELN)、类胰岛素生长因子结合蛋白3(Insu⁃lin-like growth factor-binding protein 3,IGFBP3)、血管细胞黏附分子-1(vascular cell adhesion molecule 1,VCAM1)、细胞周期素依赖激酶抑制因子1A(cyclindependent kinase inhibitor 1A,CDKN1A)(图2b)。

2.4 关键基因预后分析

通过LOGpc数据库对筛选得到的关键基因进行生存分析,验证其在骨肉瘤中的预后价值。结果表明 THBS1(P<0.001,HR=10.930) 和 IGFBP3(P=0.043,HR=3.234)高表达与骨肉瘤患者的RFS负相关(图 2c,2d)。

图2 蛋白相互作用网络的构建和关键基因的生存分析 2a:PPI网络包含111个差异基因,每个节点代表一个蛋白质,每条线代表蛋白质之间的相互作用。红色节点代表上调基因,绿色节点代表下调基因 2b:通过CytoHubba插件筛选得到的10个关键基因及其相互作用关系,每条线代表蛋白质之间的相互作用 2c:生存分析显示THBS1高表达与骨肉瘤患者较短的无复发生存期有关 2d:生存分析显示IGFBP3高表达与骨肉瘤患者较短的无复发生存期有关

3 讨论

骨肉瘤是儿童和青少年最常见的骨肿瘤,大多数发生在长骨的干骺端,其特征是骨样沉积改变和高转移率[11]。目前,骨肉瘤患者的标准治疗策略是新辅助化疗(术前)、手术切除(截肢或最常见的保肢手术)和辅助化疗(术后)[12]。然而,在现有的治疗方案下,转移性骨肉瘤患者的10年生存率仍低于20%,迫切需要新的治疗策略[13]。近年来,生物信息学的发展为骨肉瘤的早期诊断和治疗提供了新见解[14,15]。本研究通过分析 GSE11414 和 GSE14359 芯片数据,对骨肉瘤和成骨细胞之间的差异基因进行功能富集分析,PPI网络分析以及预后分析,最终筛选了10个关键基因。

GO和KEGG通路富集分析结果显示差异基因主要富集于细胞外基质组织、整合素结合、包含胶原的细胞外基质、p53及TGF-β信号通路。研究表明,细胞外基质不仅为细胞提供物理支持、调节组织发育和内环境的稳定,还参与肿瘤细胞的增殖、侵袭、迁移、免疫逃逸[16]。而整合素是连接细胞外基质最重要的粘附分子受体,参与细胞粘附及信号传导,可与受体酪氨酸激酶协同作用通过磷脂酰肌醇-3-激酶/蛋白激酶 B(phosphatidylinositol 3-kinase/pro⁃tein kinase B,PI3K/AKT)通路促进癌细胞的有丝分裂和增殖[17]。p53是研究最充分的肿瘤抑制因子之一,参与调控细胞周期进展、凋亡、铁死亡、衰老、DNA修复等多种细胞过程[18]。而TGF-β在肿瘤中具有双重作用,既可通过诱导细胞周期阻滞和凋亡来抑制肿瘤的发生;又能刺激上皮间质转化,作用于肿瘤微环境间接促进肿瘤的发生[19,20]。由此可见差异基因可能通过p53和TGF-β信号通路参与骨肉瘤的发生发展,可以通过进一步的实验探究具体机制。

在对差异基因的PPI网络分析中,筛选得到10个关键基因,其中THBS1和IGFBP3高表达与骨肉瘤患者的RFS负相关。THBS1是血小板凝血酶蛋白家族成员之一,可通过THBS1/CD36/vasculostatin信号通路促进血管抑素的表达,抑制骨肉瘤血管生成及肿瘤生长[21]。然而 Hu 等[22]发现 THBS1 增加了转移相关基因的表达并通过激活FAK信号通路促进骨肉瘤的迁移、侵袭和肺转移。本研究发现THBS1高表达与骨肉瘤患者的不良预后有关。由此作者推测THBS1在骨肉瘤中可能发挥抑癌和促癌的双重作用,需要进一步实验阐明THBS1的生物学功能。而IGFBP3主要受p53调控,是循环中类胰岛素生长因子的主要载体,其在转录和翻译后水平的破坏与多种癌症的病理生理学有关[23]。Long 等[24]研究表明circ_0000285可以通过miR-409-3p/IGFBP3轴促进骨肉瘤的增殖,侵袭并抑制其凋亡。此外IGFBP-3还可通过PI3K/AKT和活化蛋白-1信号通路促进骨肉瘤细胞迁移,同时上调VCAM1表达水平[25]。以上研究结果提示IGFBP3可能与骨肉瘤的不良预后有关,与本研究的结果一致。

综上所述,本研究通过综合生物信息学分析为阐明骨肉瘤发生的分子机制提供了一系列关键基因和通路。但尚需进一步的体内外实验来证实这些关键基因在人骨肉瘤组织中的表达、具体功能及机制,以期为骨肉瘤靶向药物的研发和联合治疗提供新思路。

猜你喜欢
通路样本关键
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
变应性鼻炎中促炎信号通路与非促炎信号通路的研究进展*
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)
蒋百里:“关键是中国人自己要努力”
鹏鹏猪
画与话