王珍珍 黄琦 黄钧涛 沈毅 邬振华
慢性鼻窦炎是目前临床最常见的慢性疾病之一,以鼻窦黏膜炎症、继发自然引流通道阻塞而导致的一系列临床症状为特征,如鼻塞、鼻涕、鼻后滴漏、面部胀痛、嗅觉减退或丧失、头痛、疲劳甚至抑郁。慢性鼻窦炎会严重影响患者的生活质量,加重经济负担[1-2]。研究表明,慢性鼻窦炎具有临床、病理和免疫多样性,尽管其病因和发病机制尚不完全清楚,但炎症相关因素起着重要作用,主要表现为鼻窦黏膜的慢性炎症,伴有大量淋巴细胞、巨噬细胞、浆细胞和嗜酸性粒细胞的炎性浸润及黏膜上皮结构的病理变化[3-4]。随着基因测序及生物信息学技术的发展,疾病的发病机制在基因层面得到了更详细的探究。采用生物基因测序技术和机器学习算法相结合,可将目标对象的特征数据纳入对应的数学模型,通过计算机迭代模拟,筛选出目标的候选相关特征[5-6]。基于此,本研究使用多种机器学习模型对慢性鼻窦炎的相关测序芯片进行分析,在此基础上,筛选出慢性鼻窦炎的相关基因,并与慢性鼻窦炎免疫微环境中的炎性细胞进行相关性分析,探讨其临床意义,现报道如下。
1.1 慢性鼻窦炎相关基因表达芯片获取 从高通量基因表达(Gene Expression Omnibus,GEO)数据库公开获取慢性鼻窦炎疾病相关基因芯片,选择GSE23552 芯片作为本次研究的训练集。该芯片由17 例慢性鼻窦炎样本和22 例正常对照样本组成,根据GPL 5175 平台的探针注释信息,对该芯片进行注释,使用R 软件的“limma”程序包对该芯片进行标准化处理,获得基因表达矩阵用于后续分析。本研究经宁波市医疗中心李惠利医院医学伦理委员会审查通过(批准文号:KY2023ML046)。
1.2 差异基因筛选、加权共表达分析及功能分析使用R 软件的“limma”程序包对上述GSE23552 芯片中的慢性鼻窦炎和正常对照样本进行基因表达差异分析,筛选标准:(1)|log2FC|>1(即两组基因表达量的差异>2 倍);(2)校准后P<0.05,当基因同时满足上述2 个条件时认为是慢性鼻窦炎样本和正常对照样本的差异基因。筛选后获得的差异基因的表达分布情况通过基因热图和火山图呈现。同时,采用加权共表达分析(weighted correlation network analysis,WGCNA)对两组样本进行分析,筛选相关基因,选择基因重要性>0.5 和模块相关性>0.8 作为过滤标准,过滤并筛选疾病相关基因。对上述差异基因和加权共表达分析的结果取交集,即为候选慢性鼻窦炎的相关基因,用于进一步机器学习筛选。将上述交集基因输入蛋白质相互作用数据库(search tool for retrieval of interacting genes/proteins,STRING)在线分析网站,分析上述基因蛋白相互作用关系,构建蛋白互作(protein-protein interaction,PPI)网络。此外,选择P<0.05 作为筛选标准对交集基因行基因本体(gene ontology,GO)富集分析和京都基因与基因组百科全书(Kyoto encylopaedia of genes and genomes,KEGG)分析,探究其潜在的生物学功能及有关信号通路。
1.3 机器学习筛选核心基因及验证 分别使用最小绝对值收敛和选择算子算法(least absolute shrinkage and selection operator,LASSO)、随机森林算法以及支持向量机递归特征消除算法(support vector machine-recursive feature elimination,SVM-RFE)对上述慢性鼻窦炎候选基因进行筛选,分别获得3 种算法下的特征基因集,并对上述3 种算法的结果取交集,获得慢性鼻窦炎疾病相关基因。使用箱式图反映基因在慢性鼻窦炎样本和正常对照样本的差异显著性,使用ROC 曲线的AUC 评估基因的诊断效能,并使用GSE179265 芯片作为外部队列进行相关外部验证。
1.4 慢性鼻窦炎免疫微环境分析 采用CIBERSORT 算法对训练集芯片进行免疫浸润分析,对每个样本中的22 种免疫细胞浸润情况进行预测,并进行相关差异分析。此外,对慢性鼻窦炎样本和正常对照样本的免疫细胞浸润情况进行差异比较,采用Spearman 秩相关对诊断基因与免疫细胞浸润情况进行相关性分析。
2.1 慢性鼻窦炎差异基因筛选及加权共表达分析结果 基于|log2FC| >1,校准后P<0.05 标准对GSE23552 芯片进行差异表达分析,共获得309 个差异基因,其中126 个基因在正常对照样本中上调,其余183 个基因在慢性鼻窦炎样本中上调(图1A,见插页)。使用加权共表达分析对上述样本进行聚类(图1B,见插页),筛选疾病相关基因模块。如图1C(插页)所示,天青色、蓝色、棕色模块中的基因与慢性鼻窦炎相关,综合考虑模块的显著性检验P值、图1D(插页)中的基因显著性及图1E(插页)模块相关性,选择天青色模块的总计214 个核心基因作为慢性鼻窦炎差异基因最终筛选结果。
图1 慢性鼻窦炎候选基因的筛选(A:慢性鼻窦炎差异性基因火山图;B:加权共表达对差异性基因进一步分析筛选出疾病相关基因模块;C:分析各模块基因与慢性鼻窦炎的相关性;D:各模块基因的显著性;E:选择天青色模块进行加权共表达分析,筛选出214 个相关基因)
2.2 慢性鼻窦炎差异基因PPI 网络及功能分析 将上述309 个差异表达基因和214 个加权共表达分析模块基因取交集后,共获得184 个交集基因。将其输入STRING 在线数据库后,获得其PPI 网络关系图。使用R 软件对交集基因行GO 富集分析(图2A,见插页),结果表明,上述184 交集基因主要参与白细胞游出、免疫反应的细胞激活等生物学过程。KEGG 分析显示(图2B,见插页),上述交集基因主要参与细胞因子-细胞因子受体的相互作用、趋化因子信号通路、病毒蛋白与细胞因子和细胞因子受体的相互作用、中性粒细胞细胞外陷阱的形成等相关信号通路。
图2 相关功能分析(A:基本本体富集分析;B:京都基因与基因组百科全书分析)
2.3 慢性鼻窦炎相关诊断基因机器学习筛选及验证 LASSO 回归结果表明,当基因数为9 时该算法拟合效果最好,所筛选获得基因包括PLP1、ADRA1A、CSRP1、SCN7A、ALX1、CD180、LPHN3、SLAMF6 和EVI2B(图3A、B,见插页)。随机森林算法分析结果表明,当决策树数目为10 时模型拟合最优,进而选择重要性>1 的基因作为候选诊断基因,包括CSRP1、PLP1、F13A1、CGNL1、FHL1、EMR3、GPR97、CD209、SPON1 和CCR3(图3C、D,见插页)。SVM-RFE 分析表明,SCN7A、ADRA1A、ALX1 和PLP1可作为疾病诊断的候选基因(图3E,见插页)。随后,对上述结果取交集,PLP1 在3 种算法拟合下均考虑为慢性鼻窦炎相关基因(图3F,见插页),故考虑其为潜在的疾病相关诊断基因。
图3 慢性鼻窦炎相关诊断基因的筛选(A、B:LASSO 回归得出拟合效果最好的9 个候选基因;C、D:随机森林算法分析得出拟合效果最好的10 个候选基因;E:SVM-RFE 分析得出4 个候选基因;F:3 种算法取交集得出最终得慢性鼻窦炎相关诊断基因PLP1)
对PLP1 进行相关性验证,结果表明,PLP1 基因在训练集(GSE23552)和验证集(GSE179265)均表现为在慢性鼻窦炎样本中下调(图4A、B),差异均有统计学意义(P<0.05)。ROC 曲线显示,PLP1 在训练集中的AUC 为1.000(图4C),在验证集中的AUC 为0.950(图4D),表明该基因有良好的诊断效能。
图4 PLP1 进行相关性验证(A、B:PLP1 在2 个慢性鼻窦炎样本集中表现为下调;C:PLP1 在训练集中的ROC 曲线;D:PLP1 在验证集中的ROC 曲线)
2.4 慢性鼻窦炎免疫微环境探究 采用CIBERSORT算法对训练集芯片中22 种免疫细胞浸润情况行免疫浸润分析预测,各免疫细胞在每个样本中的分布情况及占比见图5A(插页)。随后,对22 种免疫细胞的浸润情况作差异分析(图5B,见插页),结果表明慢性鼻窦炎样本中的浆细胞、CD8 T 细胞、活化NK细胞、单核细胞和M0 巨噬细胞较正常对照样本显著减少,而M2 巨噬细胞、静息肥大细胞和嗜酸性粒细胞显著增加。Spearman 秩相关分析显示,PLP1 基因表达与浆细胞、CD8 T 细胞、活化NK 细胞、单核细胞、M0 巨噬细胞和M1 巨噬细胞浸润呈正相关,与M2 巨噬细胞、静息肥大细胞、静息树突细胞、中性粒细胞和嗜酸性粒细胞浸润呈负相关(图5C、D,见插页)。其中,PLP1 表达量与嗜酸性粒细胞浸润相关系数r=-0.7(P<0.001)。
图5 PLP1 表达量与慢性鼻窦炎免疫微环境分析(A:CIBERSORT 对22 种免疫细胞浸润情况分析;B:Spearman 秩相关分析PLP1基因表达量与嗜酸性粒细胞的相关性;C:22 种免疫细胞的浸润情况的差异分析;D:PLP1 表达量与各细胞相关系数显示)
慢性鼻窦炎为耳鼻咽喉头颈外科常见疾病之一,是一种病因复杂、复发率高的鼻腔鼻窦黏膜的慢性炎症性疾病。随着对慢性鼻窦炎遗传学的深入探索,研究表明慢性鼻窦炎患者具有良好的遗传突变特征[7-8],但对其是否表现出可识别的单基因改变却缺乏研究。在此基础上,本文对公开的测序数据库中有效数据进行整合,通过加权共表达分析得出慢性鼻窦炎相关候选基因,通过PPI 网络及GO 富集分析与KEGG 分析得出上述候选基因主要位于细胞膜,与免疫相关反应有关。同时发现其通过白细胞介导免疫、免疫反应的细胞激活、白细胞趋化反应、免疫效应过程的调节等发挥生物学作用,本研究显示慢性鼻窦炎的发生、发展与细胞因子-细胞因子受体的相互作用、趋化因子信号通路等相关信号通路密切相关,这与之前的研究一致[9-10]。
研究表明PLP1 是髓鞘形成中最丰富的蛋白质,其在中枢神经系统的研究被广泛报道[11-12]。除神经系统病变外,PLP1 在其他疾病中也有相关研究,有文献报道原发性癌症患者中PLP1 的高水平表达与总体生存时间呈负相关[13],PLP1 可作为子宫肌瘤的潜在生物标志物[14]。本研究通过3 种算法对候选基因进行交集分析,最终得到潜在疾病相关诊断基因PLP1,并通过诊断ROC 曲线验证PLP1 在慢性鼻窦炎中的诊断效能,所研究的2 个数据集的AUC 为分别为1.000 和0.950,验证了PLP1 的诊断特异性,表明PLP1 可以作为慢性鼻窦炎的诊断基因,并可指导后续的相关分子生物学水平的研究。
巨噬细胞存在于各种组织中,在机体的发育、组织重塑、伤口愈合、血管生成和代谢中担任着重要角色。巨噬细胞根据其分泌的不同炎症介质及基因特征分为不同的亚型,每种亚型的免疫作用各不相同[15]。随着对慢性鼻窦炎患者免疫微环境的深入探索,研究表明慢性鼻窦炎中M2 型巨噬细胞数量在一定程度上有所增加,其主要通过复杂的免疫反应和组织重塑来调节慢性鼻窦炎的发病机制并影响鼻窦炎的预后及转归[16-17]。巨噬细胞是鼻黏膜中嗜酸性粒细胞趋化因子的重要细胞来源,可诱导嗜酸性粒细胞的产生[18]。研究表明在慢性鼻窦炎,特别是嗜酸性慢性鼻窦炎的发展过程中,嗜酸性粒细胞作为重要的效应细胞发挥作用,其作为一种有害的免疫细胞,加剧局部炎症反应,导致治疗效果不佳,增加了并发症的风险[19]。本研究对慢性鼻窦炎患者标本中的22 种免疫细胞浸润情况行免疫浸润分析及差异性分析,显示CRS 中嗜酸性粒细胞、M2 巨噬细胞显著增加,而M0 巨噬细胞较正常样本显著减少。对PLP1 基因与免疫细胞进行相关性分析,显示PLP1 基因表达与M0 巨噬细胞和M1 巨噬细胞浸润呈正相关,与M2 巨噬细胞、嗜酸性粒细胞浸润呈负相关,进一步表明了PLP1 作为低表达基因与慢性鼻窦炎的免疫相关性,影响着慢性鼻窦炎的预后及复发,显示其临床意义。
本研究尚有不足之处,尽管通过机器学习得出PLP1 可作为慢性鼻窦炎的诊断性基因,与慢性鼻窦炎的免疫微环境存在一定的相关性,但尚缺乏PCR 等相关实验数据支撑验证。
综上所述,本研究运用机器学习得出慢性鼻窦炎的发病机制中的相关诊断基因为PLP1,并初步推断出相关基因可能的作用机制及其与慢性鼻窦炎嗜酸性粒细胞的相关性,为后续进一步机制及通路的研究提供了方向。