莫海娟 赖银娟 黄志碧 梁冰倩 陆华媛
(广西医科大学公共卫生学院,南宁市 530021,电子邮箱:2401061229@qq.com)
近年来我国结核病的发病率和死亡率呈逐步下降趋势,但其患病率仍位居世界第二,仅次于印度[1]。脊柱结核占骨和关节结核的50%,是最常见的肺外结核,常导致不可逆转的神经损伤(包括瘫痪),降低患者的生活质量[2],引发严重的社会和经济问题。经典的Logistic回归模型是一种分析疾病影响因素的常用方法,但是对于非线性问题效果不佳[3]。随机森林法是由美国科学家Breiman将前期Bagging集成学习理论与Ho提出的随机子空间方法结合的一种新组合分类器 CART决策树算法。随机森林法在多种疾病研究中的应用已逐渐成为统计学研究热点,与传统的分类算法相比,其具有准确性高等优点[4]。本文采用随机森林算法结合Logistic回归模型探讨用于预测脊柱结核的模型,旨在用尽量少的自变量去预测脊柱结核,同时使模型具有较高的准确度。
1.1 临床资料 将2017年1月至2018年12月广西医科大学第一附属医院脊柱结核外科收治的250例脊柱结核患者作为研究组。纳入标准:(1)CT引导下穿刺活检病理结果证实为结核;(2)有相应的临床表现和影像学表现,且抗结核治疗有效。排除标准:(1)意识不清,无法表达病情者;(2)合并有其他感染性疾病者。研究组中男性149例、女性101例,年龄7~84(47.28±16.93)岁。并根据随机数字表法抽取同一时期来科室检查的250例非脊柱结核患者作为对照组,包括慢性腰背肌筋膜炎(诊断符合《临床诊疗指南骨科分册》[5])、脊柱肿瘤(手术时取活检病理证实),排除意识不清者。 对照组中男性145例、女性105例,年龄10~81(44.34±17.34) 岁。两组患者的性别、年龄差异均无统计学意义(均P>0.05),具有可比性。
1.2 资料收集 回顾性分析研究对象的相关基本信息和临床表现、实验室指标。(1)基本信息:性别、年龄。(2)临床表现:疲倦/乏力、体重下降、盗汗、贫血(男性血红蛋白<120 g/L,女性血红蛋白<110 g/L)、颈肩腰背痛、椎旁或腰大肌脓肿(X线出现单侧或者双侧局限性阴影)、椎间隙狭窄(X线显示间隙变窄或消失,边缘不齐、模糊)、骨质破坏(CT表现为虫蚀状骨质破坏,显示为蜂窝或斑片样改变)、脊柱生理曲度或椎体形状改变(表现为颈椎和腰椎变直)、椎前及椎旁软组织阴影增大腰椎(X线可见腰大肌阴影增大增深)、脊柱后凸(Cobb角>30°)、神经功能受损(表现为感觉减退平面,病理征阳性)、活动受限(表现为拾物试验阳性)。(3)实验室指标:血沉、白细胞计数、C反应蛋白、血清白蛋白水平。其中血沉的正常范围:成年男性为0~15 mm/h,女性为0~20 mm/h;白细胞计数的正常范围为(4~10)×109/L;C反应蛋白的正常范围为0.8~8 mg/L;血清白蛋白的正常范围为40~55 g/L。
1.3 统计学分析 采用IBM SPSS 25.0软件分析随机森林的预测变量的重要程度排序,根据滑动窗口序贯向前选择法(sliding windows sequential forward selection,SWSFS)[6]找出合适的变量个数。运用SPSS 24.0软件将考虑的变量纳入二元Logistic回归模型中进行分析。
1.3.1 变量重要程度的排序情况:在随机森林中,要构建的分类树与回归树算法模型数量为500,为了结果重现,随机数种子设为111。将临床常规诊断的指标纳入随机森林模型并分析各个变量的重要性排序,包括疲倦/乏力、体重下降、盗汗、贫血、颈肩腰背痛、椎旁或腰大肌脓肿、椎间隙狭窄、骨质破坏,脊柱生理曲度或椎体形状改变、椎前及椎旁软组织阴影增大、脊柱后凸、神经功能受损、活动受限以及血沉、白细胞计数、C反应蛋白、白蛋白水平。
1.3.2 去躁降维:利用SWSFS,按重要程度大小逐步加入变量,每加入1个新变量再次运行随机森林分析[6-7]。由于每棵树都是基于Bootstrap抽样获得的训练样本计算的,约有1/3的数据未被抽中,即为袋外数据集,最终获得袋外估算误差率,用以表示该随机森林模型进行预测时的误差。
1.3.3 Logistic回归:以是否患脊柱结核为因变量,将随机森林分析得出的结果作自变量,进行二元Logistic回归分析,运用后退法筛选变量,以α=0.05作为变量纳入模型的标准。
1.3.4 模型的评价:以Logistic回归中的混淆矩阵评价所建立模型的预测效能。
2结 果
2.1 随机森林变量的重要性排序情况 通过拆分到所有树中的平均变量数而减少节点杂质总量(按基尼指标测量),节点杂质减少越多,各个变量的重要性越靠前。重要性位列前5名的指标依次为低白蛋白、脊柱后凸、血沉、椎旁或腰大肌脓肿、贫血,见表1及图1。
表1 各个变量的节点杂质减少情况及重要性排序
图1 随机森林预测变量排序
2.2 去躁降维结果 结合随机森林排序情况,逐一加入变量,进行SWSFS过程,结果显示,当自变量达10个时,袋外估算误差率相对较低且稳定,见图2。
图2 SWSFS过程的袋外估算误差率
2.3 多因素Logistic回归分析 以是否患脊柱结核为因变量,以重要性位列前10的指标(低白蛋白、脊柱后凸、血沉、椎旁或腰大肌脓肿、贫血、骨质破坏、C反应蛋白、盗汗、活动受限、体重下降)作为自变量,进行多因素Logistic回归分析,变量赋值见表2。结果显示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌脓肿、贫血、骨质破坏、C反应蛋白升高、体重下降均与脊柱结核有关(均P<0.05),见表3。
表2 变量赋值
表3 多因素Logistic回归分析结果
2.4 基于随机森林模型的Logistic回归的模型评价 基于随机森林模型的Logistic回归对脊柱结核患者预测的正确率为94.0%(235/250),判断非脊柱结核患者的正确率为92.8%(232/250),总的准确度是93.4%(467/500),见表4。
表4 混淆矩阵
脊柱结核是一种继发于肺结核或淋巴结核的疾病,其受经济落后、结核耐药菌株不断出现及世界人口的大范围流动等因素的影响。脊柱结核患者常有结核病史,同时多有午后低热、消瘦、贫血、盗汗等伴随症状,从感染到出现相应临床表现一般需11.2个月[8]。
本研究从17个临床指标中,采用降维的方式,选择重要性位于前10的变量纳入多因素Logistic回归模型中进行分析。结果显示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌脓肿、贫血、骨质破坏、C反应蛋白升高、体重下降均与脊柱结核有关(均P<0.05),具有这些特征的患者患脊柱结核的可能性大。其中,贫血、体重下降均是结核感染的常见典型症状。血沉、C反应蛋白均是反映机体炎性活动的最常用指标,脊柱结核由结核杆菌感染引起,故机体血沉、C反应蛋白明显升高。骨质破坏是该病基本病症之一,结核杆菌感染后,结核的干酪化作用诱发局限性骨质破坏[9]。脊柱后凸亦是结核杆菌侵犯椎体而引起的畸形。此外,结核杆菌侵入椎体后形成的脓液可流到椎旁或椎旁软组织,如不加干预可累及腰大肌,表现为椎旁或腰大肌脓肿[10]。总之,如患者存在血沉、C反应蛋白、白蛋白异常,以及脊柱后凸、脊柱破坏、椎旁或腰大肌脓肿,应高度警惕脊柱结核的可能。
本研究运用随机森林算法找出影响脊柱结核发病的重要程度前10位的变量,进一步解析。从大多数变量中挑选影响较大的变量分析并预测,能够减少诊断的时间,节省人力。随机森林算法在脊柱结核预测风险上有理想的结局,但是多因素Logistic回归能直观地解释结果[11]。随机森林可以克服自变量间高度相关和非线性问题,Logistic回归可以弥补随机森林的解释困难性缺陷,两个模型结合预测脊柱结核的准确度高达93.4%,说明预测效果较佳。但本文的研究对象来源于医院,结果具有一定局限性,若要应用到社区,则需进一步增加样本含量及采集样本的途径。