王晨峰,卢旭华
海军军医大学长征医院骨科,上海 200003
椎间盘退行性变(IDD)是指在多种病因作用下导致椎间盘生物力学和组织结构改变、髓核水分减少、纤维环破裂、压迫脊髓和神经根进而引起腰腿痛的疾病,近年来逐渐趋于年轻化[1-2]。IDD是脊柱外科的研究重点之一,但是其病因和发生机制尚不明确。有研究[3-7]报道,IDD主要与炎性反应、细胞衰老和细胞外基质成分改变等有关。因此,深入探索IDD的发生机制、寻找其早期诊断标志物和治疗靶点具有重要意义。近年来,随着生物信息学技术的发展和普及,许多疾病相关的基因组测序成为研究热点。本研究通过基因表达汇编(GEO)数据库中IDD相关基因芯片数据,分析筛选获取差异表达基因(DEG),并对DEG进行功能富集和蛋白质-蛋白质相互作用(PPI)网络分析,以挖掘IDD疾病的新型标志物,为IDD的早期诊治提供新的思路。
从GEO中搜索脊柱IDD相关的芯片数据。下载GSE124272[8]和 GSE150408[9]数据集中的芯片数据,平台文件均为 GPL21185(Agilent-072363 SurePrint G3 Human GE v3 8x60K Microarray 039494)。GSE124272中包含健康志愿者和IDD患者外周全血样本各8例,GSE150408中包含健康志愿者和IDD患者外周全血样本各17例。下载GSE23130[10]数据集中的芯片数据作为验证集,平台文件为GPL1352[(U133_X3P)Affymetrix Human X3P Array],依 据Thompson退行性变等级[11]分类将23例总样本分为正常纤维环样本15例和IDD纤维环样本8例。
将GSE124272和GSE150408芯片数据整合,并通过平台文件中的基因名称对芯片数据进行注释。使用R 4.0软件sva数据分析包对2个芯片数据进行校正,去除批次效应,达到联合分析的目的。
通过R 4.0软件limma数据分析包比较正常人和IDD患者外周血中的基因表达改变。DEG的筛选标准均设定为校正后P< 0.05 和 | log2 差异倍数 |≥0.585,绘制火山图。然后依据DEG在不同样本中的表达情况进行聚类分析,观察基因间和样本间的分布关系。
基因本体(GO)是用于基因注释和分析基因生物学过程的主要生物信息学工具,京都基因与基因组百科全书(KEGG)是用于了解高级功能和生物系统的大规模分子数据库。使用在线数据库DAVID(https://david.ncifcrf.gov/)对DEG进行GO和KEGG通路分析,设定P< 0.05为有统计学意义。
将DEG导入STRING(http://string-db.org/)在线分析网站,按照组合得分> 0.9的标准并隐藏未参与构建PPI网络的蛋白,将输出结果导入Cytoscape 3.7.1软件进行可视化。利用Cytoscape 3.7.1软件的MCODE插件筛选PPI网络中最为显著的蛋白模块获取关键基因,并观察其在验证数据集中的表达情况。
利用GSE124272、GSE150408数据集中的数据,通过计算受试者工作特征(ROC)曲线评估关键基因在IDD中表达的诊断价值,曲线下面积即代表基因的诊断效能。
通过将GSE124272和GSE150408芯片数据联合分析后,共筛选出DEG 597个,包含上调基因363个和下调基因234个(图1)。聚类分析将表达量相近的基因聚集,结果显示4组样本质量合格,并且无批次效应的影响。GSE23130数据集经分析后,共筛选出DEG 1 017个。
图1 DEG筛选Fig.1 Screening of DEG
GO功能分析分为生物过程、细胞组分和分子功能3个部分,分析结果显示,DEG参与的生物过程主要为细胞黏附、生物黏附和细胞间黏附等,细胞组分主要为褶皱膜、细胞间连接和核质等,而分子功能则以多聚RNA结合、蛋白酶体结合和蛋白复合物结合等为主(图2a),提示DEG主要参与细胞黏附、细胞凋亡、趋化作用和细胞迁移等功能。KEGG信号通路分析结果显示,DEG主要参与细胞外基质受体相互作用和癌症中的信号通路(图2b)。
图2 DEG的GO和KEGG分析Fig.2 GO and KEGG analysis of DEG
由图3可见,PPI网络共有171个节点(蛋白)和313条边(蛋白之间的相互联系)。利用MCODE插件进行蛋白模块分析,获得最为显著的2个模块和17个关键基因,模块1由9个节点(LSM2、POLR2F、RBMX、POLR2C、HNRNPD、SUGP1、SRRT、SRSF7和PPIL4)和36条边组成(图4a),模块2由8个节点(RPS3A、RPL15、SSR1、RPL23A、RPS29、EEF1A1、SMG1和RPL22)和25条边构成(图4b)。经过GSE23130数据集验证发现,RBMX、EEF1A1、SSR1和POLR2C在外周血和椎间盘组织样本中均为DEG(图4c)。
图3 PPI网络分析Fig.3 PPI network analysis
图4 模块1、2的PPI网络分析及关键基因验证Fig.4 PPI network analysis and hub gene verification of modules 1,2
ROC曲线分析结果显示,外周血中RBMX、EEF1A1、SSR1和POLR2C对IDD诊断均具有一定价值,曲线下面积分别为0.763、0.741、0.710、0.702(图5a~d),4个基因构建的联合诊断模型诊断价值进一步提高(曲线下面积为0.795,图5e),提示这4个基因可作为IDD诊断的血液学标志物。
图5 关键基因的诊断能力Fig.5 Diagnostic efficacy of hub genes
IDD是临床常见病和多发病,严重影响患者生活质量。因此,通过生物信息学技术探索IDD的发生机制,挖掘疾病相关的生物标志物,对IDD的早期诊治具有重要意义。本研究结果表明,DEG主要参与细胞黏附、细胞凋亡、趋化作用和细胞迁移等功能。有研究[12]表明,在细胞和动物实验中通过抑制凋亡表型,可防止椎间盘过早发生退行性变,使其继续维持正常的生理功能,这或将成为IDD的治疗方向之一。本研究的KEGG信号通路富集分析结果显示,DEG主要富集于细胞外基质受体相互作用和癌症中的信号通路。并在分析过程中引入包含椎间盘组织样本的GSE23130数据集来进一步佐证结果的科学性和准确性,筛选出RBMX、EEF1A1、SSR1和POLR2C 4个关键基因,通过PPI网络分析和ROC曲线分析进一步明确了这4个关键基因可作为IDD的诊断标志物。
RBMX基因是着丝粒非编码RNP复合体的一个组成部分,其表达与Caspase3相关,并参与损伤后神经节细胞的凋亡过程[13]。EEF1A1负责将氨基酰tRNA酶解到核糖体,有研究[14-15]发现,EEF1A1可有效保护帕金森疾病引起的脑神经退行性变和死亡,与EEF1A2亚型共同参与神经退行性变性的进展。SSR1是一种糖基化内质网膜受体,与通过内质网膜的蛋白易位有关,可作为多种癌症的预后指标[16]。POLR2C编码RNA聚合酶Ⅱ的第三大亚基;Zhu等[17]的研究发现,POLR2C为腰椎IDD的关键基因,可作为IDD治疗的重要靶点。上述研究结果进一步支持了本研究结果的可信度。
全血组织样本获取途径极为便捷,筛选血液学诊断标志物可为疾病的早期诊治提供方向。Kyritsis等[18]分析脊髓损伤患者急性期外周血整体基因表达,鉴别急性脊髓损伤后全血细胞中自然杀伤细胞和巨噬细胞等的变化,后构建损伤程度预测模型,依据预测效力筛选出对脊髓损伤严重程度具有诊断和预后价值的生物标志物。Grad等[19]首次发现血浆中CCL5和CXCL6的升高与IDD程度密切相关,并推测这些趋化因子可能是诊断和监测IDD的血液学生物标志物。Qi等[20]证实,血清CTX-Ⅱ和COMP是诊断IDD的可靠指标,其浓度与IDD的发生过程呈正相关。本研究通过生物信息学分析方法筛选出IDD患者外周血诊断标志物RBMX、EEF1A1、SSR1和POLR2C,四者联合应用可提高对IDD的诊断效力。通过生物信息学方法筛选诊断标志物对IDD的早期诊治具有重大临床意义,也为后期实验提供了新的研究策略。
综上所述,通过生物信息学技术联合分析基因表达汇编数据芯片,探索IDD的诊断标志物,为进一步阐明IDD的发生机制及早期临床诊治提供理论参考,并为IDD靶向治疗药物的研发提供方向。