宋 明 刘芸宏 吴晓慧 李 倩 王书会△
【提 要】 目的 基于决策树卡方自动交互检测(CHAID)算法和神经网络分析脑卒中手术患者医院感染危险因素,为早期筛查医院感染高危人群提供科学依据。方法 前瞻性收集2016年1月-2019年12月某三级甲等医院进行脑卒中手术患者的临床资料,应用CHAID算法和神经网络分析脑卒中患者医院感染的危险因素,并与多元logistic回归分析进行比较。用受试者工作特征曲线(ROC)下面积(AUC)比较不同模型的预测效果。结果 共纳入脑卒中手术患者1124例,医院感染269例,医院感染发生率为23.93%;决策树和神经网络分析均显示留置胃管、住院时间和静脉血栓是脑卒中手术患者医院感染的危险因素,决策树模型预测的正确率为81.1%,ROC曲线下面积为0.821(95%CI:0.799~0.848);神经网络模型预测的正确率为86.2%,ROC曲线下面积为0.874(95%CI:0.852~0.894);通过比较,两模型预测效果好,存在的差异有统计学意义(Z=5.565,P<0.001)。结论 神经网络分析模型预测效果优于决策树模型,两模型分别从不同层面探究脑卒中患者医院感染的危险因素,便于早期筛查医院感染的高危患者,开展有效的预防控制措施,降低医院感染的发生率。
脑卒中是一种常见的临床急症,迅速出现局限性或弥漫性脑功能缺失症状和体征,具有发病率高和死亡率高等特点[1]。中国每年新发脑卒中患者1600万例,死亡率为114.8/10万[2]。医院感染作为脑卒中患者术后常见的并发症,越来越引起人们的关注。医院感染不仅威胁患者健康,延长其住院日,还会进一步增加患者直接经济负担[3-5]。国内报道显示,脑卒中患者医院感染经济负担为53946.21元[6]。所以,早期识别脑卒中患者医院感染高危人群并采取相应的应对措施显得尤为重要。机器学习集统计学、数据挖掘、人工智能等为一体,越来越多地被运用到疾病预测中[7-8]。但是关于机器学习在脑卒中患者医院感染中的运用相对较少,所以本文将基于机器学习中的决策树卡方自动交互检测算法和神经网络建立脑卒中患者医院感染模型,从不同层面确定脑卒中手术患者医院感染的危险因素,并对模型进行比较,制定相应的预防策略来降低医院感染发生率。
1.对象
采用整群抽样的方法,选取2016-2019年某三级甲等医院1124例脑卒中手术患者为研究对象,将发生医院感染的患者作为病例组,未发生医院感染患者作为对照组。本研究经过医院伦理委员会审批。
按照《医院感染诊断标准(2001)》[9]确定医院感染病例。纳入标准:(1)CT或MRI确诊为脑卒中[10];(2)住院时间>48h;(3)患者年龄≥18岁;(4)进行手术治疗。排除标准:(1)仅行脑血管造影术者;(2)自动出院或死亡;(3)病例资料缺失者。
2.方法
采用目标性监测方法,收集脑卒中手术患者人口学和临床相关资料,包括:患者年龄,卒中类型,住院时间,手术类型,手术方式,是否机械通气、深静脉置管、留置胃管、气管切开,是否发生静脉血栓和患有高血压,入院美国国立卫生研究院卒中量表(National institute of health stroke scale,NIHSS)评分,Glasgow昏迷量表(Glasgow coma scale,GCS)评分,NNIS风险指数(NNIS risk index)等。
3.模型建立与评价
决策树采用CHAID算法,用Pearson卡方检验筛选最佳分类结果,最大生长深度为3,父节点和子节点的最小样本量为100和50,检验水准α=0.05。神经网络隐含层激活函数为双曲正切,输出层激活函数为softmax,系统自动优化隐含单元数。多元logistic回归分析采用Back-Wald法。以ROC曲线下面积(AUC)来评价模型预测效果。用MedcalcV 15.2软件对模型的ROC曲线进行绘制与比较。
4.统计分析
1.患者基本情况
选取1124例某三级甲等医院脑卒中手术患者,其中269例发生医院感染,感染发生率为23.93%,87.73%感染患者为出血型脑卒中。
2.脑卒中患者医院感染危险因素单因素分析
单因素分析显示,住院时间,卒中类型,手术类型,气管切开,机械通气,深静脉置管,静脉血栓,高血压,留置胃管,NIHSS评分,GCS评分,NNIS评分与脑卒中患者医院感染有关(P<0.05),见表1。
表1 脑卒中患者医院感染单因素分析
3.脑卒中患者医院感染危险因素多元logistic回归分析
多元logistic回归分析显示,卒中类型,住院时间,机械通气,静脉血栓,NIHSS评分,留置胃管是医院感染的独立危险因素(P<0.05),见表2。
表2 脑卒中患者医院感染多元logistic回归分析
4.脑卒中患者医院感染危险因素的决策树模型
将单因素分析有统计学差异的变量纳入决策树中,得出的模型共3层,共有11个节点,终端6个节点,筛选出4个解释变量,分别为置入胃管、住院时间、GCS评分、静脉血栓。结果显示,置入胃管是脑卒中患者医院感染最重要的影响因素,置入胃管患者医院感染发生率为52.0%,高于未置入胃管患者(11.3%);对于置入胃管患者,另外一个重要预测变量为住院时间,住院时间≥15天患者医院感染发生率为62.3%,高于住院时间≤14天的患者(31.6%);对于未置胃管患者,另外一个预测变量为GCS评分,中重度昏迷患者医院感染发生率为29.8%,高于轻度昏迷患者(8.5%)。
5.脑卒中患者医院感染危险因素的神经网络模型
神经网络模型采用多层感知器神经网络设置,输入单因素分析有统计学差异的变量,输出变量为是否发生医院感染,自动优化隐含层神经元数。脑卒中患者医院感染的前五名重要危险因素为住院时间(100%)、卒中类型(65.2%)、静脉血栓(63.7%)、深静脉置管(49.9%)、置入胃管(47%),见图2。
图2 脑卒中患者医院感染危险因素神经网络分析
6.脑卒中患者医院感染模型预测结果及评价
用logistic回归模型进行统计分析,根据脑卒中患者医院感染发生率预测值和真实值绘制ROC曲线,以约登指数最大值为最佳诊断界值,本模型为0.571,即P≥0.571时个体判别为医院感染。logistic回归模型预测正确率(84.1%)、灵敏度(76.8%)、特异度(80.3%)和约登指数(0.571)均高于决策树模型(81.1%,75.5%,77.3%,0.528),但神经网络模型预测正确率(86.2%)、特异度(85.4%)和约登指数(0.582)均高于logistic回归模型,灵敏度(72.8%)低于logistic回归模型。
对logistic回归、决策树和神经网络模型绘制ROC曲线,结果显示logistic回归模型的AUC为0.858,决策树模型AUC为0.821和神经网络模型AUC为0.874。模型的预测价值好[11],见图3。运用DeLong[12]方法对不同模型的AUC进行比较,结果为不同模型预测价值有统计学差异(P<0.05)。
图3 logistic回归、分类树和神经网络模型ROC曲线图
研究结果显示,脑卒中手术患者医院感染率为23.93%,与以往的研究类似[13]。脑卒中手术患者医院感染以出血型最为常见,主要原因可能为出血型脑卒中患者病情进展快,大多数患者进行手术治疗,手术时间长,且患者多伴有肢体功能障碍,所以医院感染发生率高[14-15]。
决策树模型显示置入胃管的脑卒中患者医院感染发生率高,其中患者住院时长≥15天且患有静脉血栓时,医院感染发生率最高,为74.00%,说明置入胃管、住院时间长且患有静脉血栓的患者是医院感染的高危人群。未置入胃管的患者,GCS评分为中重度昏迷的患者医院感染发生率高。GCS作为判断患者昏迷程度的指标,得分越低,昏迷程度越严重,昏迷的患者会因为误吸和吞咽功能障碍,易发生医院感染。这与以往研究类似[16-17]。
图1 脑卒中患者医院感染危险因素的决策树模型
神经网络模型预测脑卒中患者医院感染危险因素的前五位重要变量依次为住院时间、卒中类型、静脉血栓、深静脉置管、置入胃管。住院时间是脑卒中患者医院感染重要的影响因素,长期住院的患者暴露于复杂的医院环境中,增加了与病原菌接触的机会,此外,住院时间长可能是患者病情复杂的表现,因而住院时间越长,医院感染发生率高[18]。出血性脑卒中相较脑梗患者医院感染发生风险更高,可能与大多数患者进行手术治疗,且患者多伴有肢体功能障碍有关[14-15]。既往研究显示,感染与静脉血栓具有相关性,静脉血栓的形成影响病人血液循环,降低病人的抵抗力[19-20],增加感染风险。深静脉置管为有创操作,破坏了正常的生理屏障,留置时间长,易发生感染。胃管置入则会损伤患者贲门括约肌功能,导致胃液返流,最终患者因误吸增加肺部感染的机会[21]。
决策树和神经网络模型都筛选出置入胃管、住院时间和静脉血栓是脑卒中手术患者医院感染的危险因素,但是同时他们也筛选出不同的影响因素,如决策树中未置入胃管患者中,GCS评分是医院感染的影响因素;神经网络模型筛选出卒中类型和深静脉置管是医院感染的影响因素。这种差异可能是因为决策树模型采用了卡方检验的方法,形成树形图的过程中不断地分层,所以样本量会逐渐减少[22]。而且决策树模型会显示各变量间的交互作用[23],筛选有意义的变量。logistic回归模型展现了自变量和因变量之间的依存关系,但是当自变量间高度相关时则不能得出有效的分析结果[24]。而神经网络模型是一种类似于大脑神经突触连接的结构进行信息处理的数学模型。神经网络通过建立输入和输出神经元,识别变量间的非线性关系,具有很强的学习反馈能力[25],高速找寻最优解。此外,神经网络对数据分布没有要求,但决策树可能对连续变量拟合效果欠佳。综上所述,决策树和神经网络从不同层面预测脑卒中患者医院感染危险因素,并以可视化的形式展现,预测结果更加直观、明了。本研究发现,神经网络模型分析效果优于决策树和logistic回归模型,差异具有统计学差异,这与以往研究类似[26]。