心外科手术患者重症监护室住院时间预测模型研究

2022-07-15 08:09吴念悦张浩天李功利刘加林
电子科技大学学报 2022年4期
关键词:决策树住院因子

张 平,吴念悦,张浩天,李功利,刘加林,李 科*

(1. 电子科技大学生命科学与技术学院 成都 610054;2. 四川大学华西医学院 成都 610041;3. 四川省屏山县人民医院 四川 宜宾 645353)

心脏外科手术因其手术器官特殊、手术环节复杂等,其围术期的病死率较高[1-2],因此手术后重症监护室(intensive care unit, ICU)需要及时准确地评估病情及住院时间。

临床研究发现,患者在ICU 的住院时间会从根本上影响患者的预后效果[3]。住院时间是一个复杂的衡量指标,受很多因素的影响,包括患者人口统计数据、治疗复杂性、并发症和出院计划等,量化和优化患者在ICU 中的治疗时间对医疗成本的控制和临床服务质量的提高具有重要作用[4-5]。较长的ICU 治疗时间意味着更多的重症监护资源和高昂的医疗费用[6],ICU 治疗时间延长也可能影响ICU 护理质量,增加医疗成本,且可能使病情恶化,并可能减少对最需要患者的照护[7]。

因此,合理预测心脏手术患者的治疗时间,对ICU 患者手术治疗效果的评估有重要意义。但在临床操作时,手术患者住院时间的预测通常依赖医护人员的经验,本文探索基于机器学习方法预测重症患者心脏手术后ICU 的治疗时间。

在ICU 患者临床数据分析中,有研究使用机器学习预测患者的死亡率或疾病发生率,文献[8]采用机器学习方法预测脓毒症患者死亡率,其预测结果比简化急性生理学评分等传统评分量表更为准确。文献[9]以7 天为界,对外科重症监护室中的患者进行分类和预测,通过神经网络方法预测随着时间的推移而降低的慢性变化。

在重症感染患者ICU 治疗时间的危险因素研究方面,文献[10]分析影响重症感染患者ICU 治疗时间的危险因素,发现血清乳酸水平是重要的危险因素之一。文献[11]采用统计方法对ICU 治疗时间进行影响因素分析,发现慢性健康状况系统Ⅱ评分、血乳酸浓度、平均动脉压、血清钠浓度是治疗时间的影响因素。文献[12]建立实时预测儿科重症监护室住院时间的模型,并将该模型集成到计算机决策支持系统中,以改善患者流程管理。该模型将预测的住院时间与实际住院时间进行实时比较,研究变量包括年龄、入院状态、是否再次入院,时间变量包括目前住院时间、医疗状况、通气情况、实验室指标、饮食情况、活动情况和异物情况等。

本文针对临床上及时分析重症患者ICU 治疗时间影响因素以及准确预测其所需住院时间,研究基于最小绝对收缩选择算子(least absolute shrinkage and selection operator, Lasso)的心脏手术患者重症监护室住院时间的重要预测因子优化方法,构建基于梯度提升决策树算法的心外科手术患者ICU 住院时间预测模型。实验结果可为辅助临床预测、临床决策支持系统提供算法支撑。

1 研究方法与模型

1.1 梯度提升决策树

梯度提升决策树算法[13](gradient boosting decision tree, GBDT)是一种迭代的决策树算法,通过多轮迭代生成弱分类器,每个分类器都在前一轮分类器残差的基础上进行训练。对弱分类器的要求通常足够简单,且具有低方差和高偏差。训练过程是为了减少偏差以提高最终分类器的准确率,每次训练的目的都是为了减少最后的残差。为了连续地减小残余误差,需要在残差减小的梯度方向上训练新的模型。每个新模型都是在梯度方向上减小前一个模型的残差。

每一棵决策树Tm按照分枝增益最大的方式进行增长,最终的回归树Tm的训练目标则是真实值与(T1+T2+···+Tm−1)结果的残差最小,整体而言GBDT 是一种基于Boosting 思想的加性模型。

该算法的主要步骤如下。

1) 初始化弱学习器:

式中,N为样本数;L为损失函数。

2) 对于样本i=1,2···,N,计算负梯度:

3) 计算第m棵树的参数:

式中,h为决策树函数。

4) 最优化第m棵树的权重:

5) 最终得到强学习器表达式:

本文数据集里存在较多的连续型数据与离散型数据,同时,需要对于医护记录出错导致的异常值有很强鲁棒性的算法。GBDT 算法作为针对真实分布拟合最好的算法之一,较适合ICU 这种复杂的医疗环境的数据分析。

1.2 Lasso 回归

Lasso[14]是一种正规化线性回归方法,在特征选择方面有广泛应用[15]。Lasso 回归的特点是在拟合广义线性模型时进行变量筛选和复杂度调整。因此,无论目标因变量是连续的、二元的还是多元离散的,都可以使用Lasso 回归进行建模和预测。通常当变量的数量大于数据点的数量时,或者当离散变量具有太多唯一值时,可能产生过拟合。因此,本文使用Lasso 回归来防止过度拟合。同时,Lasso 回归能忽略不重要的特征,构建一个稀疏且更易解释的模型。

Lasso 回归的表达式为:

本文通过调节参数λ,从所有预测影响因子中筛选出重要的因子,作为分析影响患者住院时间的主要因素。本文算法可忽略不重要的部分特征,防止过度拟合,最终构建了一个稀疏且更易解释的住院时间预测模型。

1.3 数据集

本文使用的是2021 年3 月16 日发布的MIMICIV 1.0。 MIMIC-IV 数据库包含2008 年−2019 年贝斯以色列女执事医疗中心ICU 的4 万多名患者的信息(https://physionet.org/content/mimiciv/1.0/)[16],该数据库是一个大型、开放的数据库,包括实验室计量结果、药品、保险、护理记录、生命体征计量等多种数据信息。也是目前重症领域中数据完整性较好的数据库,拥有近年来心脏手术患者的治疗流程、预后情况等记录。本文模型的预测结果不会因为医疗机构治疗水平的提升以及心脏外科的发展而产生偏差,时效性较好。

2 实验结果与分析

本文研究流程如图1 所示,首先在MIMIC-IV数据库中筛选患者,从10938 名患者中选出7567名患者,然后使用Lasso 回归从126 个预测因子中筛选出41 个重要的预测因子,结合筛选的预测因子和全部预测因子分别使用传统逻辑回归(logistic regression, LR)算法和GBDT 算法进行训练。训练模型前,采用网格搜索优化模型参数。

图1 模型构建流程图

本文实验使用计算机CPU 处理器为Intel Core i5-8500 3.00 GHz,内存为8 GB。算法使用Python语言,集成开发环境使用jupyter notebook,且使用了第三方工具包scikit-learn。

2.1 患者纳入

本文通过国际疾病分类手术码ICD-9-CM-3 纳入心脏手术患者数据,最初纳入了10938 名接受心脏手术的患者。然后,将缺失值超过15%的患者排除在分析之外[17],18 岁以下的患者和死亡患者也被排除在外,最终共有7567 名患者被纳入,纳入患者数据的平均心率为81.69,平均格拉斯哥昏迷评分为8.46,在ICU 的平均住院时间为3.12 天。

2.2 数据预处理

本文提取了患者在ICU 住院前12 h 内的数据。为了尽可能纳入所有影响住院时间的因子,提取了心率、收缩压、体温、通气状态、格拉斯哥昏迷评分等38 个特征。对于重复测量的变量如心率、白细胞计数等,根据其生理意义在12 h 内统计最大值、最小值和平均值。对于唯一的变量,如年龄,直接使用原始值。对于非数字变量,如入院类型和种族,使用one-hot 编码处理。最终,共有126 个预测因子作为模型的输入。

目前,对于住院时间的研究通过单变量分析住院时间的影响因素,或者采用简单二分类对患者住院时间进行预测,存在明显不足[7,11,18]。为了对患者住院时间进行更细致地划分,本文根据专业心外科团队的建议,将结果指标中患者的住院时间分为4 类:少于3 天、大于等于3 天且小于7 天、大于等于7 天且小于14 天、大于等于14 天,建立四分类预测模型。这种划分相比二分类模型更有助于明确衡量患者的住院时间,有利于准确地评估患者病情以及预后效果。

2.3 基于Lasso 的预测因子筛选的临床意义

本文使用Lasso 回归筛选重要的预测因子,参数 λ为0.05。经过Lasso 算法筛选,从126 个预测因子中得到对ICU 住院时间影响较大的41 个预测因子,具体如表1 所示,预测因子中部分权重较大的预测因子权重值如图2 所示。

表1 重要预测因子表

图2 Lasso 回归筛选的变量权重图

从图2 可见,预测因子中诊断个数和手术个数两个变量对ICU 住院时间有显著影响,权重均在0.8以上,显然患者被诊断出患有的疾病越多,需要进行的手术越多,住院时间也会越长,这是一个符合临床预期的结果。预测因子乳酸盐浓度目前在ICU 中被用作诊断工具和预后指标,因为乳酸盐浓度越高,死亡的风险越大,这一结果与文献[8,19]一致,这在一定程度上提示医护人员在护理患者时应注意的细节。通过Lasso 回归分析,血清肌酐浓度(权重为0.192)是第七大最重要的预测指标,因为最小肌酐浓度是预测急性肾损伤最重要的变量,这一结果与文献[20]一致。此外,心率和血压、格拉斯哥昏迷评分(GCS)、入院类型和ICU 病房类型也对心脏外科患者在ICU 的住院时间有一定影响。

基于Lasso 算法的预测因子筛选结果符合其临床意义,并与相关文献结果一致,说明通过机器学习方法进行ICU 住院时间影响因子筛选是可行的,有助于临床决策支持系统的开发。

2.4 GBDT 模型参数优化

训练模型前,通过网格搜索优化模型参数,穷举搜索并将参数通过交叉验证以优化得到最优模型。网格搜索分为粗搜索和细搜索两个步骤[20],通过粗搜索确定参数的近似范围,然后进一步通过细搜索确定在近似范围内的准确参数值。

通过网格搜索,确定本文中GBDT 分类模型的重要参数:每个弱学习器的权重缩减系数为0.1,弱学习器的最大迭代次数为40,决策树最大深度为10,叶子节点最少样本数为90,内部节点再划分所需最小样本数为300,最大的叶子节点个数为6,一个叶子节点所需的总权重的最小加权分数为0。

2.5 基于GBDT 的住院时间预测分析

在本文实验中,每次训练随机抽取全体80%的数据作为训练集,20%的数据作为测试集,训练1000 次后,最终评估模型效果。

图3 显示,训练全部126 个预测因子的逻辑回归算法平均准确度为0.603(95%置信区间 CI:[0.602, 0.604]),训练全部预测因子的GBDT 算法平均准确度为0.688(95%置信区间 CI:[0.687,0.689]),训练筛选出的41 个预测因子的GBDT算法平均准确度为0.687(95%置信区间 CI:[0.687,0.688])。

图3 模型准确度箱线图

可以看出,训练所有预测因子的GBDT 模型与传统LR 模型相比预测结果更加准确。GBDT作为一种Boosting 算法,由多棵决策树组成,最终结果是所有决策树的总和,这使其在区分不同病理特征和关联的病理特征组合方面具有天然优势[21]。本文中,这一优势体现在重新衡量患者的预测因子时,可以处理非线性数据,对异常值具有很强的鲁棒性,这使得它适合ICU 复杂的医疗环境。

对比训练重要预测因子的GBDT 模型与训练所有预测因子的GBDT 模型,结果的平均准确度基本相同,说明在减少了大量预测因子的情况下,模型仍能取得较好的预测效果,这样通过Lasso 回归筛选并减少住院时间的预测因子,将更有助于减少临床数据收集的工作量,并保证临床决策支持系统的快速运行。

2.6 住院时间预测结果分析

本文随机抽取1514 名(总数据的20%)患者作为测试集,其中65%的患者ICU 住院时间不超过3 天。针对训练重要预测因子的GBDT 模型预测值与实际值的差异进行分析,表3 为二者的混淆矩阵,图4 反映了4 种类别上二者的差异。

表3 GBDT 预测值与真实值混淆矩阵

图4 本文GBDT 模型预测值与真实值

结果显示,模型对住院时间小于3 天的患者预测效果最好,真实值中92%(911 名)的患者被正确预测。对于住院时间在3~7 天的患者,仅34%(135 名)被正确分类,大多数患者被归类为住院时间小于3 天,这一定程度上是由于数据分布所导致的。住院时间小于3 天的患者占所有患者的65%(991 名),因此对某一名患者的预测结果会更偏向于住院时间小于3 天。而7~14 天的患者的预测正确率最低,仅为11%(9 名),这主要是因为训练样本过少所导致的。对于最后一类住院时间大于等于14 天的患者,算法取得了较好的预测效果,原因在于ICU 长期住院患者的生理等各类指标与短期住院患者有明显的不同,因此更容易被正确分类。

总体对比可以看出,本文GBDT 算法在预测心外科患者ICU 住院时间时取得了较好的效果,能够准确预测心外科ICU 患者的住院时间,对临床决策有一定的指导作用。

3 结 束 语

本文使用Lasso 回归筛选出重要的预测因子,其中诊断个数、手术个数、乳酸盐浓度和血氧饱和度等因子对住院时间有显著影响,结果符合临床意义和临床研究结果,增加了机器学习模型的可解释性,有利于进一步临床决策支持系统的开发。

本文提出的基于GBDT 算法的心外科手术患者重症监护室住院时间预测模型,取得了较好的预测效果,有利于长时间住院的ICU 患者的早期干预,有利于智能方法合理配置医疗资源,提高治疗效率。

猜你喜欢
决策树住院因子
住院病案首页ICD编码质量在DRG付费中的应用
简述一种基于C4.5的随机决策树集成分类算法设计
山药被称“长寿因子”
直径不超过2的无爪图的2—因子
巧解难题二则
决策树学习的剪枝方法
Alzheimer’s patient’s heart doesn’t forget a mother’s day tradition
扮靓爱车拒绝潜伏危险因子
决策树在施工项目管理中的应用
踏莎行 住院感作