基于可解释贝叶斯加权模型的ICU急性肾损伤患者死亡风险预测

2024-06-17 16:56:20徐乃岳凌晨刘坤

软件工程 2024年6期

徐乃岳凌晨刘坤

摘要：

基于贝叶斯网络构建贝叶斯加权模型，进行重症监护病房（Intensive Care Unit，ICU）急性肾损伤患者死亡风险预测。以MIMIC＼|Ⅲ（Medical Information Mark for Intensive Care Ⅲ）数据库中急性肾损伤患者为研究对象，建立基础贝叶斯分类器，采用AUC（Area Under Curve）和Accuracy进行混合加权计算的集成策略构建贝叶斯加权模型。实验结果表明，贝叶斯加权模型的AUC值为80.8%、Accuracy值为73.2%、F1＼|score值为72.4%，预测效果优于单独的贝叶斯网络模型、逻辑回归、支持向量机和随机森林。贝叶斯加权模型具有可解释的概率推理流程，对ICU急性肾损伤患者的死亡风险预测有一定的参考价值。

关键词：贝叶斯网络；急性肾损伤；死亡风险；模型解释；集成模型

中图分类号：TP391 文献标志码：A

0 引言（Introduction）

急性肾损伤（Acute Kidney Injury， AKI）是一种由多种病因引起的病症，其特征表现为血清肌酐浓度升高或者尿量减少［1＼|3］。近年来，AKI的发病率以惊人的速度增长，因患有AKI而致死的患者人数一直居高不下［4＼|5］。AKI患者的住院死亡率为20%～25%，在ICU中可能高达50%［6＼|9］。世界每年死于AKI的患者多达百万人以上，AKI不仅是一个医疗问题，更成为一个重要的公共卫生问题［10＼|11］。

随着电子健康记录（Electronic Health Records， HER）可用性的完善，开发AKI风险评估预测模型成为一种应对AKI高风险的可行方式［12＼|14］。性能良好且可靠的风险预测模型应能够及早识别高危患者，辅助临床医生进行进一步的诊断并提示预防和治疗措施。

1 相关工作（Related work）

随着机器学习技术的发展，越来越多的研究者将机器学习技术用于患者的风险预测。相较于传统的统计学方法和普遍的逻辑回归算法，使用机器学习方法可以最大限度地利用HER进行预测，能够识别对于预测贡献较为显著的信号提高算法模型性能［15＼|17］。医学人员可以使用机器学习技术快速评估大量复杂的数据，用于预测临床风险。

可靠的AKI患者风险评分系统对于预测AKI患者的预后，以及为临床研究提供患者严重程度分层非常重要。然而，对于危重症患者的一般严重程度评分方法，例如急性生理学和慢性健康评估（APACHE）［18］、简化急性生理学评分（SAPS）［19］、序贯器官衰竭评估（SOFA）［20］等，在预测AKI患者死亡率的准确性方面效果不佳［21＼|23］。随着人工智能（Artificial Intelligence， AI）技术的发展，AKI预测的新时代已经到来［24＼|25］。机器学习技术在处理大数据集时有着显著优势，在医疗领域的应用正在迅速扩大，例如已在临床辅助诊断中成功应用［26＼|27］。医学领域常用的线性回归算法虽然模型本身具备较高的可解释性，但是预测性能往往不够理想［28］。贝叶斯分类器属于可解释模型的一种，在具有一定可解释性的同时，还有着较好的预测性能，已在医学环境中得到使用［29］。

危重患者的护理负担是巨大的，重症监护的基础是使用一种科学的风险分层方法，按照一定标准对患者进行分类，优化个人护理方案。传统方法是医生根据自己的临床经验使用基于规则的一般严重程度评分进行预测，效果较差，相比之下，使用机器学习方法可以帮助医生得到更好的预测效果。LIN等［30］通过19 044例AKI患者的数据构建了一种随机森林预测死亡率模型，可预测AKI患者的死亡率，该模型可避免高危患者AKI治疗的延误。KOYNER等［31］开发了一种梯度增强模型，该模型可以预测急诊科、病房和ICU的AKI，并允许对高风险患者进行早期干预。LIN等［32］使用SVM（Support Vector Machine）算法构建ICU急性肾损伤患者的死亡风险预测模型，该模型的性能比SAPSⅡ（Simplified Acute Physiology ScoreⅡ）方法的性能好，并且当患者的死亡风险不确定时，SVM的性能优势更显著。在当前临床医疗信息化程度很高的背景下，利用机器学习算法能够有效地帮助临床医生提高诊疗质量，具有较高的临床应用价值。然而，目前专注于使用机器学习模型预测ICU中AKI患者死亡风险的研究并不多。

本研究借鉴集成学习方法，基于贝叶斯分类器构建集成模型，建立4个贝叶斯分类模型作为基础模型，以AUC与Accuracy的混合计算作为权重，通过对预测概率进行加权计算建立贝叶斯加权模型。本研究利用MIMIC＼|Ⅲ中AKI患者的医学数据建立死亡风险预测模型，目的是辅助ICU的医生对AKI患者进行早期的风险预测，区分高危患者，以更好地分配医疗资源［33］。

2 数据与方法（Data and methods）

2.1 数据

从国际疾病分类（ICD）中查找AKI的疾病代码，提取MIMIC＼|Ⅲ数据库中AKI患者的生理信息，筛选信息并保留只进入一次ICU的患者数据。基于患者第一次入院的信息进行研究，挑选出进入ICU后24 h内的生理数据并对筛选过程中产生的数据表格进行聚合处理。数据获取及预处理如图1所示。

数据库中筛选的实验数据存在部分缺失值，根据患者信息提供的各项生理数据进行筛选，去除缺失率在30%以上的数据，最后得到15个主要的生物标志物和3 559例急性肾损伤患者，其中生存患者有3 176例、死亡患者有383例，数据类别不平衡现象较为突出。

表1为变量信息及级别，从皮尔逊相关系数中可以看出，大多数变量与患者结局显著相关，但是不具备明显线性关系，普通的线性分析方法难以发挥较好的预测效果。为了解决AKI患者数据不平衡的问题，使用Borderline SMOTE算法进行数据均衡化处理。该算法可以对类别边界上容易分类错误的数据进行重采样，生成对分类预测更有价值的数据，以达到平衡不同类别的数据的目的。

2.2 方法

贝叶斯分类器能够捕捉到变量之间的相互关系，尤其是在面临部分数据缺失情况下，贝叶斯分类器仍然可以根据变量间的交互关系进行后续预测。得益于自身固有的统计学特点，贝叶斯分类器本身就是一种可解释的模型，利用贝叶斯分类器构建模型进行分类预测能提升临床医学环境下医护人员对模型的信赖程度。本研究分别构建了4种不同的贝叶斯分类器模型作为基础模型并进行加权集成，最终得到贝叶斯加权模型，用于预测患者的死亡风险。图2中展示了实验流程，从MIMIC＼|Ⅲ数据库中提取患者的医疗信息，首先需要对其进行数据插补、数据均衡、数据离散处理，其次基于多种贝叶斯网络算法进行建模预测，最后对各模型的预测结果进行概率加权处理，得出AKI患者的死亡风险概率。

在4个贝叶斯模型的基础上，分别使用基于AUC加权、基于Accuracy加权及AUC与Accuracy混合加权的集成策略构建贝叶斯加权模型，分别得到了AUC_BE模型、ACC_BE模型和AA_BE模型。通过AUC、Accuracy和F1＼|score 3个指标进行模型评估，从表2中发现在AA_BE模型的AUC与Accuracy的效果是最优的，从集成策略上兼顾了模型的准确率和对样本类别的区分能力，证明了由混合加权方法构建的贝叶斯加权模型的性能比单一加权方法的性能更好。经综合比较，本研究决定以AUC和Accuracy混合加权计算的集成策略构建贝叶斯加权模型。

不同于普通的集成策略，本文提出的模型不是基于基础模型的预测类别的简单决策，而是基于各个模型的AUC和Accuracy对预测概率进行混合加权计算得出最终概率。加权策略的公式如下：

其中：i表示第i个模型，n表示共有n个模型，Pi表示第i个模型得出的预测概率，WmAA（i）表示基于第i个模型的AUC和Accuracy值进行m次混合加权计算，Pout表示贝叶斯加权模型的最终预测概率，VAUC（i）表示第i个模型的AUC值，VAcc（i）表示第i个模型的ACC值，WAA（i）表示第i个模型的AUC值与ACC值的乘积。基于集成学习的思想，多样的模型在共同决策的情况下可以有效地降低单一模型的错误预测对结果的影响，可以取得比任何一个模型都好的预测结果且鲁棒性更好。

3 结果（Results）

3.1 模型评估

将贝叶斯加权模型与四种基础贝叶斯分类器、逻辑回归、支持向量机、随机森林等模型在实验数据上进行了性能对比，应用Accuracy、AUC和F1＼|score三个指标展开分析，模型性能评估结果如表3所示。

使用AUC、Accuracy和F1＼|score三种评价指标对表3中的八种方法进行性能评价，表3中的结果可以较为清晰地呈现模型效果之间的性能差异。AUC评价指标反映的是模型对任意一例正、负样本的区分能力，实验显示AA_BE模型的AUC远高于逻辑回归、支持向量机和随机森林模型的AUC，证明对于任意一例正、负样本，AA_BE模型能获得更好的区分效果。在数据均衡的情况下，Accuracy评价指标具有较高的参考价值，实验结果显示AA_BE的准确率高于其他分类器算法的准确率，证明AA_BE模型对于整体样本的判定能力更好，能够正确区分出更多的高风险患者。F1＼|score评价指标综合考虑了精确率和召回率的结果，从两个方面对模型的预测性能进行综合分析，实验结果显示AA_BE模型的性能更好。

3.2 模型可解释分析

在目前的医学预测研究中，大多数研究关注于提高模型预测准确率，忽视了模型的可解释性。在具有高风险的医学领域中，模型的可解释性比预测准确性更重要，一般的机器学习模型往往较为复杂、内部结构不够透明、预测结果难以解释，而贝叶斯加权模型的决策原理基于贝叶斯算法，运用概率学方法推理模型预测的全过程，同时能清楚地展现变量之间的依赖关系，具有更好的可解释能力，更适用于医学场景。

模型可以从两个方面进行可解释性分析。

（1）模型的内部结构

贝叶斯加权模型由4个基础的贝叶斯分类器模型构成，每个基础模型内部的网络结构都是可见的，能清楚地展现出模型预测过程中潜在的特征交互关系，确保模型的透明度。

（2）模型做出预测的原因

贝叶斯加权模型的本质是一种概率图模型，支持使用概率推理的方式进行模型预测推理和诊断推理。当模型做出与事实相反的预测时，可以从结果开始进行信息推理，称为模型的诊断推理，能够确保模型的可靠性。

在已知模型预测结果的情况下推理模型决策的依据，通过计算模型的最大后验概率推理出患者特征变量的取值范围。在医学场景中，当医护人员对模型的预测存在怀疑时，可以将推理值与真实情况进行对比，提升医护人员对模型的信赖度。

4 结论（Conclusion）

为了应对AKI患者高死亡风险的严峻形势，本研究借鉴集成方法的软投票方式，利用基础模型的预测概率值进行集成计算，从基础模型预测的概率入手，通过模型的AUC和Accuracy混合权重，对基础模型的预测概率进行加权计算，通过概率预测实现对高危患者的早期筛查。采用AUC、Accuracy和F1＼|score三种指标对不同的模型进行分析，贝叶斯加权模型表现出比逻辑回归、支持向量机和随机森林等模型更为优秀的成绩；在与四个基本分类器的对比中发现，基于AUC和Accuracy混合加权方式集成的贝叶斯加权模型比单独的贝叶斯网络模型更优秀。此外，可以看出基于AUC和Accuracy混合加权方式建立的模型比独立加权方式建立的模型效果更好，随着基础模型个数和网络结构样式的增加，贝叶斯加权模型的预测效果将会更加准确和稳健。模型的准确率比一般机器学习模型的准确率高，具有良好的可解释能力，比神经网络模型和集成复杂的机器学习模型更加透明，在医学临床场景中的使用更值得信赖，可以为ICU中AKI患者的风险预测研究提供一种新的策略。

在未来的研究工作中，将着眼于使用因果学习方法探究影响ICU急性肾损伤患者死亡率的真正风险因素，通过对风险因素进行干预的方式寻找降低患者最终死亡概率的有效方法。因果是万物相互制约的根本原因，接下来我们会通过对因果理论的研究，赋予模型更为精准的推理方法，以更有效地助力医学决策。

参考文献（References）

［1］ THOMAS M E，BLAINE C，DAWNAY A，et al. The definition of acute kidney injury and its use in practice［J］. Kidney international，2015，87（1）：62＼|73.

［2］ KHADZHYNOV D，SCHMIDT D，HARDT J，et al. The incidence of acute kidney injury and associated hospital mortality［J］. Deutsches arzteblatt international，2019，116（22）：397＼|404.

［3］ GAMEIRO J，AGAPITO FONSECA J，JORGE S，et al. Acute kidney injury definition and diagnosis：a narrative review［J］. Journal of clinical medicine，2018，7（10）：307.

［4］ LEVEY A S，JAMES M T. Acute kidney injury［J］. Annals of internal medicine，2017，167（9）：ITC66.

［5］ KASHANI K，CHEUNGPASITPORN W，RONCO C. Biomarkers of acute kidney injury：the pathway from discovery to clinical adoption［J］. Clinical chemistry and laboratory medicine，2017，55（8）：1074＼|1089.

［6］ HUANG H F，LIU Y，WU M，et al. Development and validation of a risk stratification model for predicting the mortality of acute kidney injury in critical care patients［J］. Annals of translational medicine，2021，9（4）：323.

［7］ HANSRIVIJIT P，QIAN C C，BOONPHENG B，et al. Incidence of acute kidney injury and its association with mortality in patients with COVID＼|19：a meta＼|analysis［J］. Journal of investigative medicine：the official publication of the american federation for clinical research，2020，68（7）：1261＼|1270.

［8］ FAUBEL S，EDELSTEIN C L. Mechanisms and mediators of lung injury after acute kidney injury［J］. Nature reviews nephrology，2016，12（1）：48＼|60.

［9］ NETWORK V N A R F T. Intensity of renal support in critically ill patients with acute kidney injury［J］. New England journal of medicine，2008，359（1）：7＼|20.

［10］ HOSTE E A J，KELLUM J A，SELBY N M，et al. Global epidemiology and outcomes of acute kidney injury［J］. Nature reviews nephrology，2018，14：607＼|625.

［11］WANG Y，BELLOMO R. Cardiac surgery＼|associated acute kidney injury：risk factors，pathophysiology and treatment［J］. Nature reviews nephrology，2017，13（11）：697＼|711.

［12］ RANK N，PFAHRINGER B，KEMPFERT J，et al. Deep＼|learning＼|based real＼|time prediction of acute kidney injury outperforms human predictive performance［J］. NPJ digital medicine，2020，3：139.

［13］ CALVERT J，MAO Q Q，HOFFMAN J L，et al. Using electronic health record collected clinical variables to predict medical intensive care unit mortality［J］. Annals of medicine and surgery （2012），2016，11：52＼|57.

［14］ MARAFINO B J，PARK M，DAVIES J M，et al. Validation of prediction models for critical care outcomes using natural language processing of electronic health record data［J］. JAMA network open，2018，1（8）：e185097.

［15］ CHE Z，PURUSHOTHAM S，KHEMANI R，et al. Interpretable deep models for ICU outcome prediction［J］. AMIA symposium，2016，2016：371＼|380.

［16］ POUCKE S V，ZHANG Z H，SCHMITZ M，et al. Scalable predictive analysis in critically ill patients using a visual open data analysis platform［J］. PloS one，2016，11（1）：e0145791.

［17］ GURM H S，KOOIMAN J，LALONDE T，et al. A random forest based risk model for reliable and accurate prediction of receipt of transfusion in patients undergoing percutaneous coronary intervention［J］. PLoS one，2014，9（5）：e96385.

［18］ KNAUS W A，WAGNER D P，DRAPER E A，et al. The APACHE Ⅲ prognostic system. Risk prediction of hospital mortality for critically Ⅲ hospitalized adults［J］. Chest，1991，100（6）：1619＼|1636.

［19］ LE G J R，LOIRAT P，NICOLAS F，et al. Use of a severity index in 8 multidisciplinary resuscitation centers［J］. Presse médicale，1983，12（28）：1757.

［20］ VINCENT J L，MORENO R，TAKALA J，et al. The SOFA （Sepsis＼|related Organ Failure Assessment） score to describe organ dysfunction/failure［J］. Intensive care medicine，1996，22（7）：707＼|710.

［21］ OHNUMA T，UCHINO S. Prediction models and their external validation studies for mortality of patients with acute kidney injury：a systematic review［J］. PLoS one，2017，12（1）：e0169341.

［22］ JOHNSON A E W，MARK R G. Real＼|time mortality prediction in the Intensive Care Unit［J］. AMIA symposium，2017，2017：994＼|1003.

［23］ KONG G L，LIN K，HU Y H. Using machine learning methods to predict in＼|hospital mortality of sepsis patients in the ICU［J］. BMC medical informatics and decision making，2020，20（1）：251.

［24］ YAHYA N，EBERT M A，BULSARA M，et al. Statistical＼|learning strategies generate only modestly performing predictive models for urinary symptoms following external beam radiotherapy of the prostate：a comparison of conventional and machine＼|learning methods［J］. Medical physics，2016，43（5）：2040.

［25］ RAU C S，KUO P J，CHIEN P C，et al. Mortality prediction in patients with isolated moderate and severe traumatic brain injury using machine learning models［J］. PLoS one，2018，13（11）：e0207192.

［26］ GOLDSTEIN B A，NAVAR A M，CARTER R E. Moving beyond regression techniques in cardiovascular risk prediction：applying machine learning to address analytic challenges［J］. European heart journal，2017，38（23）：1805＼|1814.

［27］ NAEMI A，SCHMIDT T，MANSOURVAR M，et al. Machine learning techniques for mortality prediction in emergency departments：a systematic review［J］. BMJ open，2021，11（11）：e052663.

［28］ NEMATI S，HOLDER A，RAZMI F，et al. An interpretable machine learning model for accurate prediction of sepsis in the ICU［J］. Critical care medicine，2018，46（4）：547＼|553.

［29］ ZHANG Z，ZHANG J，WEI Z，et al. Application of tabu search＼|based Bayesian networks in exploring related factors of liver cirrhosis complicated with hepatic encephalopathy and disease identification［J］. Scientific reports，2019，9：6251.

［30］ LIN K，HU Y H，KONG G L. Predicting in＼|hospital mortality of patients with acute kidney injury in the ICU using random forest model［J］. International journal of medical informatics，2019，125：55＼|61.

［31］ KOYNER J L，CAREY K A，EDELSON D P，et al. The development of a machine learning inpatient acute kidney injury prediction model［J］. Critical care medicine，2018，46（7）：1070＼|1077.

［32］ LIN K，XIE J Q，HU Y H，et al. Application of support vector machine in predicting in＼|hospital mortality risk of patients with acute kidney injury in ICU［J］. Health sciences，2018，50（2）：239＼|244.

［33］ POWER G S，HARRISON D A. Why try to predict ICU outcomes？［J］. Current opinion in critical care，2014，20（5）：544＼|549.

作者简介：

徐乃岳（1999＼|），男，硕士生。研究领域：医疗数据分析。

凌晨（1980＼|），男，博士，讲师。研究领域：新媒体大数据，电子商务，智慧医疗。本文通信作者。

刘坤（1998＼|），男，硕士生。研究领域：医疗数据分析。