Lasso-logistic模型在医院下呼吸道感染预测中的应用

2019-08-03 01:48康文博赵静雅吕雪峰韩雪琳田曙光陈芳艳苏雪婷王洪源
中国感染控制杂志 2019年7期
关键词:回归系数住院变量

康文博,赵静雅,吕雪峰,陈 勇,韩雪琳,田曙光,陈芳艳,苏雪婷,王洪源,韩 黎

(1. 北京大学公共卫生学院,北京 100191; 2. 中国人民解放军疾病预防控制中心医院感染监控中心,北京 100071; 3. 中央军委后勤保障部信息中心,北京 100842)

据世界卫生组织(WHO)2011年估计,世界范围内每年有上亿人受到医院感染的影响,医院感染已经成为一个严重的全球公共卫生问题,中低收入水平国家的医院感染负担远高于高收入水平国家(医院感染现患率分别为15.5% 和7.6%)[1]。2008—2014年全国医院感染监测网横断面调查结果显示,我国医院感染现患率逐渐下降,感染类型以下呼吸道感染为主[2-5]。准确的临床预测模型可以帮助筛选医院感染的高危对象,提高医院感染防控措施的针对性和效率。Chen等[6]利用2014年一项多所医院医院感染横断面调查数据,构建了医院下呼吸道感染风险评分方法(以下称为原始评分方法),共包括70个条目,训练集回代预测效果较好,但相对复杂的预测方法可能不利于临床日常使用[7]。Tibshirani[8]在1996年提出了Lasso(Least absolute shrinkage and selection operator),通过L1惩罚对自变量回归系数进行压缩,可以将对模型影响较小的变量系数压缩为0,筛选出相对重要的变量。使用Lasso方法的logistic回归又叫做Lasso-logistic回归,已有研究者将其应用于出生缺陷[9]、老年痴呆[10]等医学研究领域,其中李敏捷[9]建立的Lasso-logistic回归出生缺陷预测模型效果好于逐步法得到的logistic回归模型。本文以2014年调查数据为训练集,建立精简的医院下呼吸道感染Lasso-logistic回归预测模型,构建新的风险评分方法,并以2015、2016年调查数据为验证数据,与原始评分方法进行比较。

1 对象与方法

1.1 数据来源 研究数据来源于一项多所医院医院感染联网监测横断面调查,2014—2016年每年调查一次,其中2014年调查患者52 561例, 2015年30 313例,2016年26 320例。调查内容包括住院患者的一般情况、基础疾病状况、住院期间治疗和医院感染发生情况。

1.2 医院感染诊断标准 依据卫生部《医院感染诊断标准(试行)》(卫医发[2001]2号)[11]进行医院感染诊断。

1.3 研究对象特征描述 描述训练集与验证集纳入研究对象的一般特征、变量赋值见表1。

表1 研究对象特征描述变量赋值表

Table 1 Variable assignments of characteristic description of research objects

分类变量赋值情况性别0=女 ,1=男泌尿道插管0=否,1=是中央或周围动静脉置管0=否,1=是使用呼吸机0=否,1=是气管切开0=否,1=是血液透析0=否,1=是使用抗菌药物0=否,1=是手术切口类型未手术=0 ,Ⅰ类切口=1,Ⅱ类切口=2,Ⅲ类切口=3,Ⅳ类切口=4患有ICD10类目对应疾病0=否,1=是医院下呼吸道感染0=否,1=是

1.4 Lasso-logistic回归预测模型的建立 以医院下呼吸道感染诊断情况为结局变量,共纳入自变量247个,根据贝叶斯信息准则(Bayesian information criterion,BIC)选择合适的正则化参数λ,回归系数非0的变量纳入最终模型。Lasso的L1正则化路径估计使用预测-校正法(predictor-corrector method),各变量回归系数扩大相同的倍数后四舍五入取整,作为新的住院患者医院下呼吸道感染风险评分的风险指数。

1.5 预测效果评价 训练集的预测效果评价使用回代法。预测效果的评价采用受试者工作特征(receiver operating characteristic, ROC)曲线,灵敏度和特异度、阳性似然比和阴性似然比,以及净重新分类指数(net reclassification index, NRI)、整体鉴别指数(integrated discrimination index, IDI)和决策曲线(decision curve analysis, DCA)。

1.6 统计学处理 主要应用R(3.4.0)和SAS(9.4)软件进行统计分析,其中Lasso-logistic回归模型的建立使用R软件的glmpath包。不同ROC曲线间的比较常用的指标为ROC曲线下面积(area under curve, AUC)[12],对于配对ROC曲线,很小的AUC差别也可能是有统计学意义的[13],采用DeLong’s检验比较不同评分方法在验证集的预测AUC,检验水准取α=0.05。

2 结果

2.1 一般特征 训练集共纳入研究对象49 328例,其中839例发生医院下呼吸道感染,发病率为1.7%;验证集纳入研究对象50 997例,其中783例发生医院下呼吸道感染,发病率为1.5%。验证集人群男性比例、住院期间接受各种侵入性操作的比例均高于训练集,使用抗菌药物的比例低于训练集,其他特征相近。见表2。

表2 训练集与验证集研究对象的一般特征[例(%)]

Table 2 General characteristics of research objects of trai-ning dataset and validation dataset (No. of cases[%])

变量训练集(n=49 328)验证集(n=50 997)年龄[岁,中位数(P25,P75)]52.0 (35.0,66.0)53.3 (36.0,67.3)住院周数[中位数(P25,P75)]1.14 (0.57,2.14)1.14 (0.57,2.00)性别 男性21 173(42.9)30 933(60.7) 女性28 155(57.1)20 064(39.3)泌尿道插管 6 801(13.8)8 249(16.2)动静脉插管4 239(8.6)6 319(12.4)使用呼吸机2 272(4.6)2 929(5.7)气管切开814(1.7)922(1.8)血液透析615(1.2)910(1.8)使用抗菌药物7 191(14.6)6 903(13.5)手术10 518(21.3)13 457(26.4)医院下呼吸道感染 839(1.7)783(1.5)

2.2 Lasso-logistic回归与简单评分 Lasso过程共进行了360步,初始正则化参数λmax为1 335.6。第24步时BIC达到最小值6 690.4,λ=130.8,模型中非0回归系数有17个,参数估计结果见表3。

使用抗菌药物、手术切口清洁度高的患者医院下呼吸道感染风险降低,其他变量均为患者医院下呼吸道感染的危险因素。最先“进入”模型(回归系数在某步后变为非0)的变量依次是气管切开和动静脉置管。年龄和住院时间对患者医院下呼吸道感染风险影响明显高于其他变量,见图1。以年龄回归系数的绝对值为1个单位,各回归系数除以该值后四舍五入成整数作为风险指数,构建风险评分方法(见表4),如性别的回归系数为0.463, 0.463/0.142≈3,则风险指数为3。简单评分的训练集AUC为0.883 [95%CI(0.872,0.895)],推荐以14分为预测分割点,灵敏度和特异度分别为0.84、0.76,阳性似然比和阴性似然比分别为3.54、0.21。

表3 Lasso-logistic回归最终模型参数估计

Table 3 Estimated parameters of final Lasso-logistic regre-ssion model

变量回归系数标准化系数年龄*0.142 0.441性别0.463 0.229住院周数*0.400 0.493动静脉置管0.860 0.241泌尿道插管0.570 0.197气管切开1.207 0.154手术切口类型-0.020 -0.016使用呼吸机0.462 0.097使用抗菌药物-0.171 -0.061ICD10疾病类目 支气管和肺恶性肿瘤(C34)0.171 0.029 髓样白血病(C92)0.211 0.014 颅内出血(I61)0.684 0.078 大脑动脉闭塞和狭窄无脑梗死(I66)1.655 0.047 气管和支气管先天畸形(Q32)3.480 0.016 其他协调缺乏(R27)1.319 0.017 其他的一般症状和体征(R68)0.129 0.003 器官和组织移植状态(Z94)0.391 0.029

*:模型中使用的年龄和住院时间变量非原始变量,均根据由限制性立方样条(restricted cubic spline,RCS)得到的非线性相关关系进行了重新赋值,年龄(岁)赋值规则如下:[0,5]=2,(5,15]=1, (15,35] =0, (35,40)=1, 40岁以上每5岁一个组(含下限不含上限)依次加1;住院时间(周)的赋值规则如下:[0,1)=0, [1,2)=1,[2,3)=2,[3,4)=3,≥4 =4,重新赋值后的变量均作为连续变量纳入模型

*:标准化回归系数绝对值较小的变量,从上至下依次为Z94、C34、R27、Q32、C92、R68、手术切口类型

图1 最终模型内变量0~24步标准化回归系数路径图

Figure 1 Standardized regression coefficient path of step 0-24 for variables included in final model

表4 医院下呼吸道感染患者风险简单评分表

Table 4 Simple risk scoring system for healthcare-associated lower respiratory tract infection

项目风险指数*接受Ⅳ类切口手术的患者-1使用抗菌药物-1年龄(岁):[0,5]得2,1 (5,15]得1, (15,35]得0 (35,40)得1 ≥40 每5岁一个组(含下限不含上限),依次加1 患有C34、C92、R68疾病1男性3使用呼吸机3住院时间每满一周加3,最多加123患有Z94病症3泌尿道插管4患有I61疾病5动静脉置管6气管切开9患有R27疾病9患有I66疾病12患有Q32疾病25

*:研究对象风险得分左侧项目对应风险指数值总和值

2.3 预测效果比较 简单评分与原始评分方法评分的验证集ROC曲线几乎重合,DeLong’s检验显示AUC差异无统计学意义(Z=0.371,P=0.710),见图2。在推荐分割点14分处,简单评分的灵敏度和特异度分别为0.84、0.76,阳性似然比和阴性似然比分别为3.54、0.21。两评分的决策曲线几乎重合,见图3。阈概率在[0, 0.2]时,两种评分的净收益均明显高于None模型;当阈概率大于0.2时,与None模型无明显差别,无应用价值。依据推荐预测分值为阈值(原始评分方法及本研究提出的简单评分中均推荐14分为预测分割点)建立预测结果的重分类表(见表5),计算简单评分相比于原始评分方法的NRI值为-0.0149,说明净重新分类收益无统计学意义(Z=-1.301,P=0.193),IDI值0.006,95%CI为(0.001, 0.010) ,说明整体鉴别的改善有统计学意义(P=0.014)。

图2 简单评分与原始评分方法的验证集ROC曲线

Figure 2 ROC curves of simple and original scoring methods in validation dataset

图3 简单评分与原始评分方法的决策曲线

Figure 3 Decision curves of simple and original scoring methods

表5 原始评分与简单评分方法的预测结果重分类表

Table 5 Reclassification of predicative result of original and simple scoring methods

原始评分方法简单评分患者组阴性阳性合计非患者组阴性阳性合计阴性 89 5314234 0354 21338 248阳性26615641 1 73210 23411 966合计11566878335 76714 44750 214

3 讨论

Lasso-logistic回归预测模型显示,住院患者医院下呼吸道感染的发生受人口学特征、基础疾病特征及住院时间和接受治疗情况的影响,与以往研究[14-15]结果较一致,其中患者的住院日数、年龄对医院下呼吸道感染的影响较大,性别、侵入性操作、使用抗菌药物的影响属于中等水平,手术切口类型及各类基础疾病的影响相对较小,说明在医院下呼吸道感染的防控工作中,应重点关注住院时间较长的高龄、男性患者,规范侵入性操作前、中、后的感染预防措施。

Chen等[6]构建的住院患者医院下呼吸道感染的风险评分方法包括70个条目。本研究建立的简单评分方法仅包含17个条目,数量上减少>3/4,且验证集的预测效果相近,是对原始评分方法的一次成功简化。评分条目的减少主要表现在基础疾病方面,原始评分方法中包括了61个ICD10类目,简单评分中仅包含8个ICD10类目,其中风险指数较高的疾病类目包括颅内出血(I61)、大脑动脉闭塞和狭窄无脑梗死(I66)、气管和支气管先天畸形(Q32)、其他协调缺乏(R27),对患有以上疾病类目对应疾病的住院患者护理工作应该得到加强。原始评分方法中,结肠恶性肿瘤(ICD10类目为C18)、前列腺增生(ICD10类目为N40)的风险指数为-8,说明患有这些疾病的患者医院下呼吸道感染的风险低于非此类疾病的患者,通常疾病会使机体免疫力下降,简化后评分中各类基础疾病的风险指数均为正值,从免疫学角度上可能更合理,说明Lasso过程确实剔除了一些噪声变量。

简单评分的训练集AUC为0.883,验证集AUC为0.866,优于其他医院感染预测研究[16-20],判别能力良好,与训练集相比验证集AUC仅下降了0.017,与其他验证研究相比下降幅度较小[18-19],预测效果稳定。

Lasso的变量压缩程度及预测效果依赖于正则化参数的选择。国内研究者[9,21-23]将Lasso应用于健康领域相关研究时,多使用交叉验证选择最终模型。实际上,使用BIC选择正则化参数 ,可以得到与真实模型高度一致的变量选择结果,当自变量中的噪声变量较多时,BIC能够在预测误差相对小的前提下,选择出更为简练的模型[24-25]。本研究首次将Lasso-logistic回归模型应用于医院感染研究中,根据BIC准则选择正则化参数达到了预期效果,在挑选出更少、更重要自变量的同时保证了预测的准确性,可以为研究者使用Lasso方法选择合适的正则化参数选择策略提供经验。

本研究可能存在以下局限性:医院感染的发生除与住院患者自身情况、医疗干预有关外,还可能受到医院的微生物环境等因素的影响,如某科室病房内有患者近期发生过医院感染,则提示环境中可能存在某种易感微生物,此时住院患者感染的风险可能会增加。本研究使用的调查数据不包含医院微生物环境方面的信息,如果纳入相关的变量,预测效果可能会进一步提高。

猜你喜欢
回归系数住院变量
妈妈住院了
昆明市2012~2020年HIV/AIDS住院患者的疾病谱
寻求不变量解决折叠问题
抓住不变量解题
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
Alzheimer’s patient’s heart doesn’t forget a mother’s day tradition
分离变量法:常见的通性通法
城镇居民收入差距主要因素回归分析