徐舒慧,张 欣
中国医学科学院 北京协和医学院,北京 100144
《全国护理事业发展规划(2016-2020年)》指出,云计算、大数据等信息技术快速发展,可促进科学护理管理。机器学习可帮助护理人员发现海量数据的潜在规律,将繁杂的数据转化为客观且易懂的知识,对护理研究和实践具有重大意义[1]。决策树算法常用于分类预测或规则提取,相比于其他机器学习算法,具有结果易于解读、效率高、有较多的分类和较高的预测精度等优点[2],已经广泛应用于住院患者风险管理[3]、护理人力资源管理[4]、住院费用分组[5],可以降低患者住院期间的不良结局发生率、促进资源的合理分配等。本文针对决策树算法在国内外护理学领域的应用研究进行概述,旨在为我国开展护理研究提供新的方法和思路。
决策树算法是机器学习中的分类算法,通过创建一系列决策规则来预测类别响应变量,将可能发生的结局(包括偶然事件、资源成本、效益等)的分布以树的形式呈现[6]。该算法对连续的、更小的数据分区应用分割规则,每个分区是树上的一个节点,包含所有数据的分区是根节点;选择分割是为了在每个产生的分区中,最小化节点杂质或异构的一些度量;拆分过程在树的每个分支上重复,直到额外的拆分不会导致节点杂质的进一步减少,或者达到某些其他预先指定的停止条件。从树的根节点开始至叶子节点为一条分类规则,代表相应数据的类别预测,可以通过目标变量预测属性变量[2]。与传统的逻辑回归算法和其他机器学习算法相比,具有以下优势:可处理连续或离散数据;树结构简单,可解释性强;非参数算法,可有效处理大型复杂数据集,而不强加复杂的参数结构;训练样本量小于其他数据挖掘和统计学方法;没有多重共线性的影响,能够挖掘变量之间的相互效应;不需要使用者了解很多该算法的背景知识,易于护理人员运用。用于开发决策树的常用算法包括分类与回归树(classification and regression tree,CART)、卡方自动互相检验法(chi-squared automatic interaction detector,CHAID)/穷尽卡方自动互相检验法(exhaustive chi-squared automatic interaction detector,E-CHAID)等。
护理风险管理可有效消除或减少临床护理工作中的护理风险及其后果[7],是提高护理活动安全性和有效性的重要内容,决策树算法在护理风险管理领域应用最为广泛。
2.1.1决策树算法在护理不良事件风险预测中的应用
护理不良事件的风险预测为患者安全提供保障。在传统临床工作中,我国护理人员多依靠评估量表和主观经验预测患者发生护理不良事件的风险,而护理不良事件的发生并非由几个因素间的简单线性关系导致,此外,临床护士工作强度大,易导致信息采集不完整。因此,护理不良事件发生率并未有效降低[8]。决策树算法可以对大量没有规律的数据进行分析,得出护理不良事件的关键风险因素,简便易行,可以用于高危人群的筛选,为早期预防提供理论支持。宋杰[9]借助大数据技术分析1 673例皮肤损伤护理不良事件的独立危险因素,运用支持向量机、决策树算法、随机森林和人工神经网络基于独立危险因素分别构建预测模型;决策树模型的准确率、召回率、精确率和F1值均高于人工神经网络,研究者基于此研究结果建立了皮肤损伤护理不良事件综合管理平台,实现了数据的连续分析和智能化自动预测。确定危重患者的压力性损伤风险是复杂且具有挑战性的。Cox等[10]利用来自重症监护医学信息库的大数据集,提取1 460例患者的资料进行决策树算法分析,决策树模型显示,接受去甲肾上腺素治疗、年龄>65岁、住院时间不超过10 d、Braden量表评分≤15分的患者,有63.6%的压力性损伤风险。可见,在护理不良事件分析中,通过建立决策树风险预测模型,可以节约护理人员早期识别危险因素及高危人群的时间且精准度高,及时给予干预,从而降低护理不良事件发生率[10-11]。
2.1.2决策树算法在医院获得性感染(hospital-acquired infection,HAI)风险预测中的应用
HAI是医疗质量和医疗技术发展的一大障碍,仅靠医务工作者自主上报或回顾性调查难以降低HAI发生率。目前,HAI预警系统多基于《医院感染诊断标准(试行)》中的条例,缺乏基于真实HAI数据的分析和研究[12]。利用HAI决策树预警模型可以有效降低感染管理人员的筛查时间,继而进行干预,降低HAI发生率[12]。樊雯婧等[13]应用决策树CHAID和二分类Logistic回归分析法分别构建住院患者医院感染风险预测模型,结果显示泌尿道插管、住院时间≥31 d、使用呼吸机是发生HAI的重要风险因素;决策树模型风险预测的正确率为88.2%,曲线下面积高于Logistic回归模型。Park等[14]使用决策树算法、逻辑回归和支持向量机三种数据挖掘技术来识别获得性导尿管相关尿路感染的影响因素,发现女性、年龄较大(50岁及以上)、住院时间长、严重的基础疾病、导管使用时间延长、留置导尿管超过48 h等为风险因素。周佩敏等[15]采用决策树算法分析成人全髋关节置换术后手术部位感染的风险因素,结果显示,手术时间是最主要的影响因素。可见,决策树算法可以直观地显示输入变量间的关系及不同变量对结局的影响,还能细致描述某一变量在不同亚组中发挥的作用。
2.1.3决策树算法在住院患者病情恶化早期预警中的应用
为帮助护士早期识别病情变化风险,国内外学者已经建立了多种病情预警评估工具,但存在纳入的生理指标有限、单一时点的评分缺乏连续性、展示患者病情变化趋势较片面等不足[16]。决策树算法在病情识别上的应用为以上问题的解决提供了新的思路[17]。院内心搏骤停是可以预防的,因为患者在事件发生前往往表现出病情恶化的迹象,Li等[18]对21 337例成年急性冠脉综合征患者进行病例对照研究,从电子健康记录中提取生命体征、人口学和实验室数据,采用决策树分析和10倍交叉验证来预测院内心搏骤停的风险;决策树分析检测到7个解释变量,分别为VitalPAC早期预警评分、致命性心律失常、心功能分级、心肌肌钙蛋白I、血尿素氮、年龄、糖尿病,模型的曲线下面积为0.844,10倍交叉验证的风险估计数为0.198。这一简单的预测模型可以为医护人员提供一个实用的床边工具,并可以对病情恶化患者的决策产生积极影响。基于决策树的早期预警模型减少了虚假警报,使得预警信号早期被发现,以便及时干预,对临床工作人员和患者具有重要意义。这些模型还需要进一步的发展和进行必要的前瞻性研究。
住院费用可以反映医疗卫生资源的分配使用情况,护理费用则显示护理资源的使用状况,慢性病、精神疾病、康复患者所需的大量护理活动还未作为单独项目纳入护理收费标准中,人力资源不能得到合理的分配和应用[19]。刘嘉等[19]以护理费用(资源利用程度)为目标变量,通过CHAID法将58%(379例)患者作为训练集建立决策树模型,确定影响因素的重要程度并建立分组模型;将42%(274例)患者作为预测集,预测模型预测准确率达到95.71%,预测效果理想,可实现新数据的预测;建立的分组方案及护理费用收费标准可为费用控制和护理费用支付方式改革提供参考。我国有研究选取某医院医疗机构信息系统中的急性白血病患者数据,运用疾病诊断相关分类(diagnosis related groups,DRGs)模式和CHAID算法分析影响住院费用的主要因素并建立住院费用分组模型,设置60%样本数作为训练集、40%作为预测集,结果显示住院时间(0.764)、年龄(0.114)、并发症(0.096)是影响患者住院费用的重要因素,住院时间、年龄、并发症作为住院费用分组节点纳入决策树模型生成住院费用分组模型,模型住院费用预测值与实际值线性程度高[5]。将DRGs模式结合决策树算法建立住院费用分组模型,该模型能够直观分析出影响住院费用的重要变量,继而制定相应措施,以不断提升医疗质量、减轻患者经济负担,同时为我国政府部门制定医保费用支付标准提供理论依据[5]。需要注意的是,研究者应该根据因变量类型选择合适的决策树算法,对输出的决策树模型进行比较,以得到更理想的决策树模型,揭示变量间的真实关系。
合理配置护理人力资源,在提高护士薪酬待遇的基础上,建立科学的护士绩效考核和薪酬分配制度,是护理管理的重要探索内容[20]。目前基于客观指标和数据的评价方法过于复杂,存在费时、费力、费工、即时性和准确性不足等缺点[21]。决策树算法不需要使用者掌握复杂的知识,护理管理者可即时根据决策树形成的各预测因素、分类规则及因素组合情况对病区每日工作量进行划分,有利于短期内护理人力资源的弹性调配[4]。吴疆等[22]对全院护理单元的工作数量、质量、效率、业绩共90项指标数据进行决策树分类分析,依据首优差异变量将护理单元划分为不同集群,以此为依据完成护理单元绩效分类,护理绩效的总满意度由72.41%提升到98.28%。基于医院信息数据平台,利用决策树算法,建立能综合护理工作量、专业技术风险和护理质量的等级分类集群,从而为单元内护理绩效评价与绩效奖金等级系数的确定提供科学、客观、公平、公正的分类评价方法与依据[23],不仅能提高护士对护理绩效评价的满意度、降低人员流失率,还有利于护理人力资源的合理配置。
决策树是改进临床实践决策过程的一种有效且实用的工具,已经在我国的护理风险管理、住院费用管理、护理人力资源管理领域进行了初步应用,并得到了较为理想的结果。因为其可操作性强、结果易于解读、具有良好的预测精度、处理小样本的能力也较为出色,因此未来可以尝试将其更多地运用于护理实践或教学活动中。而目前我国研究的形式较单一,联合运用决策树和其他机器学习算法处理数据的能力弱;未来研究可借鉴国外研究经验,合理联用多种机器学习算法,以得到理想的模型。目前国内研究多基于回顾性数据集,易出现历史记录错误、数据缺失等问题,导致所建立模型的适用性较差;未来应开展多中心、前瞻性研究,对决策树模型进行效能验证。将通过验证的预警模型嵌入电子病历系统,实时地调取电子健康系统的大数据进行分析,从而解决预测护理风险、弹性调配护理人力资源、控制护理质量等护理管理问题。