摘要:目的 使用可解释性机器学习方法预测慢性心力衰竭(CHF)合并肺部感染患者的院内死亡风险。方法 回顾性分析MIMIC-IV数据库中诊断为CHF 合并肺部感染的1415 例患者病历信息。按病原体种类将患者划分为合并细菌性肺炎(841例)、合并非细菌性肺炎(574 例)两个亚组,采用Kaplan-Meier 生存曲线描述不同亚组的死亡风险差异。基于单因素分析和LASSO回归筛选特征。分别构建LR、AdaBoost、XGBoost、LightGBM模型,通过准确性、精确度、F1 值、AUC等指标比较模型性能,使用eICU-CRD数据库进行外部验证。应用SHAP算法对XGBoost模型进行解释性分析。结果 内部测试集中XGBoost模型预测CHF合并肺部感染患者院内死亡风险的准确性高于其他模型。外部测试集显示,合并细菌性肺炎、合并非细菌性肺炎两亚组中XGBoost 模型的AUC 值分别为0.691(95%CI:0.654~0.720)、0.725(95%CI:0.577~0.782)。相较于其他模型,XGBoost模型表现出了更好的预测能力和稳定性。结论 在预测CHF合并肺部感染患者的院内死亡风险方面,XGBoost模型的综合表现优于其他3种模型。SHAP算法为模型提供了明确解释,有助于临床医生进行决策。
关键词:慢性心力衰竭;肺部感染;预测模型;SHAP 算法;机器学习
慢性充血性心力衰竭(CHF)是一种复杂的临床综合征,通常由心脏结构和功能异常所引起[1]。《中国心血管健康与疾病报告2022》显示[2],中国35~74 岁的人群中约有400 万人患CHF,患病率为0.9%,病死率高达2.8%。心力衰竭患者并发肺炎的概率很高,死亡风险比未感染肺炎的患者高4倍[3]。
早期诊断和治疗是降低CHF合并肺部感染患者死亡风险的有效措施。目前虽有一些传统评分模型被用来预测CHF患者的预后,但经过验证且适合CHF合并肺部感染患者死亡风险预测的模型相对较少,且性能不能满足实际应用需求。西雅图心力衰竭模型(SHFM)在临床上被广泛应用于预测CHF患者的预后,然而该模型对于个体化患者的预测能力有限[4]。肺炎严重程度指数(PSI)和 CURB-65评分被用于预测肺炎患者的短期死亡率,但效果并不理想,限制了其在临床实践中的应用[5]。
随着人工智能的发展,机器学习在许多领域取得了巨大的成功,但机器学习的可解释性依旧是个难题[6]。通用数据保护条例(GDPR)法规明确规定,当机器针对个体做出决定时,该决定必须符合一定要求的可解释性[7]。在医疗保健领域,模型的可解释性非常必要[8]。可解释的高性能预测模型不仅可以有效预测患者预后,还可以辅助医生进行临床决策,但目前可解释的临床模型还较少。因此,构建应用于CHF合并肺部感染患者死亡风险预测、且具有较好可解释性能的机器学习模型具有重要应用价值。
本研究从MIMIC-IV数据库提取患者数据,构建LR、AdaBoost、XGBoost、LightGBM 4种模型预测CHF合并肺部感染患者的死亡风险,并使用eICU-CRD数据库进行外部验证。采用SHAP算法对XGBoost模型进行可解释性分析,以探讨患者死亡的危险因素。
1 资料和方法
1.1 资料来源
本研究从MIMIC-IV(v.1.0)和eICU-CRD(v.2.0)两个数据库中提取数据。MIMIC-IV是一个大型、单中心、公开可用、去身份化的数据库,包括人口统计学数据、实验室检查结果、护理人员记录、静脉注射药物、体液平衡和其他临床变量[9]。本研究使用多中心的eICUCRD数据库进行外部验证,该数据库提供了2014~2015年美国208 家医院20 多万例患者的就诊详细数据[10]。两个数据库均已去识别化,实现了患者隐私保护。本研究获得了数据库的访问和使用权限(证书编号:39168475)。
1.2 研究对象
根据国际诊断代码[11]ICD-9和ICD-10确定诊断为CHF合并肺部感染的成年患者,两个数据库分别纳入1415、2826例患者。纳入标准:CHF合并肺部感染的患者;首次入住ICU的患者。排除标准:年龄lt;18岁;ICU停留时间lt; 24 h;严重肝病;恶性肿瘤;临床病历信息不完整者。患者筛选流程如图1。
根据病原体种类[12]将CHF合并肺部感染患者划分为合并细菌性肺炎(841例)、合并非细菌性肺炎(包括病毒性、非典型性肺炎共574 例)两个亚组。以患者第一次住院时间为统计起点,以患者在数据库记录时间段内是否死亡为统计终点。根据患者出院时的状态分为生存组和死亡组,研究结局指标是CHF合并肺部感染患者的30 d院内死亡率。
1.3 数据提取
本研究从MIMIC-IV数据库中共提取52 个变量。提取的变量包括人口统计学特征:年龄、性别、体质量;患者入住ICU第1天的基础生命体征:心率、血压、呼吸频率、体温、血氧饱和度;入住ICU首日的实验室指标:血糖、红细胞、白细胞、血小板、血红蛋白、血清钾、血清钠、血清钙、血清氯、尿素氮等;入院诊断、合并症、治疗、简化急性生理学评分(SAPSII)、序贯器官衰竭评分(SOFA)等。
1.4 统计学分析
采用Python3.7.4软件进行统计处理。将缺失值超过30%的变量删除。对缺失量小于5%的连续性变量用均数填补,缺失量大于5%的连续性变量使用KNN分类算法进行多重补插,分类变量无缺失值。连续性变量以M(Q1,Q3)表示,两组间比较使用Wilcoxon 秩和检验。分类变量用n(%)表示,采用χ2 检验或 Fisher精确检验比较组间差异。绘制合并细菌性肺炎和合并非细菌性肺炎患者的Kaplan-Meier 生存曲线,比较组间差异。以Plt;0.05为差异有统计学意义。使用最小绝对选择算法(LASSO)筛选最佳预测特征变量[13,14]。
1.5 死亡风险预测模型
将数据集随机分为训练集(80%)和内部测试集(20%),构建LR、AdaBoost、XGBoost、LightGBM 4 种模型。LR又称逻辑回归,是一种广义的线性回归分析模型,可以灵活地包含多个预测变量[15]。Adaboost是一种集成学习方法,其突出优势在于其易于实现和高预测的精度[16]。XGBoost是一个优化的分布式梯度提升库,具有复杂度低、运行速度快、准确等优点,适合处理大规模数据[17]。LightGBM是基于树的学习算法,它具有训练速度快和效率高的优点,可用于处理分类、回归任务[18]。
1.6 SHAP模型解释
缺乏可解释性是机器学习在心血管领域运用的主要障碍之一[19]。SHAP是基于博弈论解释机器学习模型输出的可视化方法[20]。部分研究者应用该算法成功地克服了机器学习的“黑盒”特性,为模型提供了一致的可解释性。有研究[21]基于可解释机器学习为解释复杂和异构的生物数据提供了新的依据;有研究[22]基于可解释机器学习模型预测乳腺癌分子的亚型,使放射科医生区分乳腺癌分子亚型的准确性得到了显著提高。本研究使用SHAP算法对XGBoost模型的全局变量和单样本变量进行分析,定量可视化风险因素与结果之间的关系,增加模型可信度。
2 结果
2.1 基线资料比较
MIMIC-IV数据库中CHF合并肺部感染的患者共1415例,幸存患者1144例,死亡患者271例。死亡组的平均年龄大于幸存组,女性占46.3%,男性占53.7%。年龄、体质量、心率、呼吸频率、体温等28个指标的差异具有统计学意义(Plt;0.05,表1)。
2.2 特征选择
结果显示52个特征的LASSO系数轮廓(图2),展示了LASSO 筛选变量的动态过程。使用Python 的sklearn.linear 库,将数据集中的52 个变量纳入LASSO回归,在LASSO模型中使用交叉验证, 根据交叉验证结果选择收缩参数λ为0.00038,初步得出24个潜在预测因子(表2);再结合单因素分析中Plt;0.05 的28 个变量,排除重复项,最终模型纳入36个特征。
2.3 两亚组30 d生存分析
MIMIC-IV数据集中合并细菌性肺炎患者841例,合并非细菌性肺炎患者574 例。Kaplan-Meier 生存曲线及对数秩检验显示,两组患者的生存率无统计学差异(图3)。
2.4 模型性能比较
2.4.1 数据集划分
未分组、合并细菌性肺炎和合并非细菌性肺炎数据集的ROC曲线(图4)。XGBoost模型AUC值分别为0.829、0.810、0.846,其准确性高于其他模型(表3)。XGBoost模型较其他3个模型预测性能更好。合并细菌性肺炎亚组模型AUC值略有下降,合并非细菌性肺炎亚组模型AUC值有所提升提升。
2.4.2 外部测试
合并细菌性肺炎亚组中,4 种模型的AUC值分别为0.674、0.746、0.691、0.737。合并非细菌性肺炎亚组中,4种模型的AUC值分别为0.664、0.675、0.725、0.699。外部测试显示,与另外3 个模型相比,XGBoost 模型的综合性能更好(图5,表4),与MIMIC测试集结果相同。
2.5 基于SHAP算法的可解释性分析
2.5.1 全局样本特征解释分析
使用SHAP 算法对XGBoost模型进行可解释分析,SHAP特征重要性排序显示,GCS评分在所有预测时段中具有最强预测价值,GCS评分越高患者死亡风险也越低;其次白细胞、血尿素氮等特征也具有重要预测价值(图6)。
特征对模型输出影响的分布显示了预测变量与目标结果的正负关系(图7),不同颜色的点体现了所有患者对结果的归因,红色点表示高风险值,蓝色点表示低风险值。白细胞、尿素氮的增加对预测结果有正向影响,使预测结果倾向死亡;尿量、体质量的增加对预测结果有负向影响,使预测结果倾向生存。
2.5.2 单样本预测特征解释分析
CHF合并非细菌性肺炎存活患者的特征贡献图显示,该患者存活的主要原因是患者的GCS评分高、意识清醒、年龄较小、无其他临床并发症(图8)。
3 讨论
研究显示约有59.6% 的CHF 患者合并肺部感染[23]。CHF和肺部感染相互影响,CHF患者心脏收缩力下降,肺静脉回流受阻,导致肺循环淤血和肺水肿,肺泡液积聚影响细菌清除和局部防御机制从而引发肺部感染。肺部感染会导致体内炎症因子释放和呼吸功能障碍,心肌缺血缺氧受损,心脏负荷增大使患者心力衰竭症状加重[24]。本研究中,训练集和外部验证集CHF合并肺部感染患者的死亡率分别为19.2%、19.3%,表明该群体是一个高风险的患者群体。准确的预后评估是降低患者死亡率和临床决策的基础[25]。CHF合并肺部感染患者可解释性死亡风险预测模型的构建,有助于临床医生评估患者的生存情况,为患者制定个性化的治疗和护理计划。
与之前CHF或肺部感染患者的预测模型不同,本研究构建的可解释性预测模型不仅可以确定模型中的变量是危险因素还是保护因素,还可以显示变量对预测结果的影响程度。通过单因素分析和LASSO回归筛选对分类贡献作用最大的关键特征,可以避免模型在实际临床环境中收集大量的混杂变量。本研究外部测试结果显示,XGBoost模型在识别能力和临床获益方面依然表现的更好。此外,外部测试集模型的预测性能较MIMIC测试集低,可能原因有两点:一是两数据库中的特征分布不同;二是MIMIC-IV是单中心数据库,eICUCRD为多中心数据库,两数据库的异构性可能会导致模型性能下降。临床上避免抗菌药物耐药性快速增加是重要且艰巨的挑战[26],划分亚组有利于临床医生鉴别诊断CHF合并肺部感染的类型,合理使用抗生素。
为确定与CHF合并肺部感染患者住院死亡率相关的重要特征,本研究引入SHAP 算法解释XGBoost 模型。SHAP算法用Shapley值分配最优积分的概念估计特征的重要性[27]。模型中对患者死亡率影响较大的前20个特征包括:GCS评分、白细胞、血尿素氮、SAPSII评分、乳酸最小值、血小板、心率、呼吸率、尿量、体质量、二氧化碳、脑血管疾病、氧分压、SOFA评分、体温、收缩压、N末端B型利钠肽原、血清氯、血红蛋白、年龄。
SHAP算法模型显示,白细胞、血尿素氮等实验室指标对CHF合并肺部感染患者死亡率的影响较大。本研究发现,死亡组患者白细胞计数显著升高,提示CHF患者可能发生肺部感染;血尿素氮水平对患者风险预测贡献很大。既往研究[28]同样证明,血尿素氮升高提示患者可能有肾功能损伤,肾功能损伤会导致液体潴留增加心脏的容量负荷,使患者症状加重。
本研究结果显示,体质量是CHF合并肺部感染患者的保护因素。这与Aryee EK等[29]研究中的“肥胖悖论”一致。有研究表明[30],老年心力衰竭患者机体功能退化,抵抗力下降,抗感染能力差,易发生肺部感染。本研究对比两组患者预后情况,结果显示死亡组平均年龄高于生存组,进一步验证了年龄对CHF合并肺部感染患者死亡风险预测的重要性。
本研究有以下局限性:首先,本研究是一项回顾性研究,选择性偏倚可能无法避免,但可以通过严格的纳排标准使纳入的案例信息更真实准确。第二,MIMICIV和eICU-CRD数据库存在数据量相对较小、数据不平衡的问题。第三,尽管模型进行了独立外部验证,但研究的结果是否可以用于其他人群尚不能确定。因此,未来还需要在各种临床环境中进一步研究。
综上所述,本研究构建LR、AdaBoost、XGBoost、LightGBM 4种模型,使用多种评估指标比较模型预测CHF 患者合并肺部感染患者死亡风险的性能。在MIMIC-IV 测试集和eICU-CRD 外部验证集中,XGBoost 较其他模型的预测性能更好,且更具有稳定性。基于SHAP算法对XGBoost模型进行解释,实现了模型的临床可解释性,便于临床医生更好的理解模型预测过程,进行临床决策。
参考文献:
[1] 肖小菊, 黎励文.《 心力衰竭的通用定义和分类》解读[J]. 中国胸心血管外科临床杂志, 2021, 28(10): 1140-4.
[2] 马丽媛, 王增武, 樊 静, 等.《 中国心血管健康与疾病报告2022》要点解读[J]. 中国全科医学, 2023, 26(32): 3975-94.
[3] Shen L, Jhund PS, Anand IS, et al. Incidence and outcomes ofpneumonia in patients with heart failure[J]. J Am Coll Cardiol,2021, 77(16): 1961-73.
[4] Bo XW, Zhang YH, Liu Y, et al. Performance of the heart failure riskscores in predicting 1year mortality and short-term readmission ofpatients[J]. ESC Heart Fail, 2023, 10(1): 502-17.
[5] Wang B, Li YX, Tian Y, et al. Novel pneumonia score based on amachine learning model for predicting mortality in pneumoniapatients on admission to the intensive care unit[J]. Respir Med,2023, 217: 107363.
[6] Theunissen M, Browning J. Putting explainable AI in context:institutional explanations for medical AI[J]. Ethics Inf Technol,2022, 24(2): 23-9.
[7] Saqr M. Is GDPR failing? a tale of the many challenges ininterpretations, applications, and enforcement[J]. Int J Health Sci,2022, 16(5): 1-2.
[8] 陈珂锐, 孟小峰. 机器学习的可解释性[J]. 计算机研究与发展,2020, 57(9): 1971-86.
[9] Rogers P, Wang D, Lu ZY. Medical information mart for intensivecare: a foundation for the fusion of artificial intelligence and realworlddata[J]. Front Artif Intell, 2021, 4: 691626-35.
[10]Pollard TJ, Johnson AEW, Raffa JD, et al. The eICU CollaborativeResearch Database, a freely available multi-center database forcritical care research[J]. Sci Data, 2018, 5: 180178-83.
[11] Chen YN, Chen H, Lu XD, et al. Automatic ICD-10 coding: deepsemantic matching based on analogical reasoning[J]. Heliyon,2023, 9(4): e15570-6.
[12]于翠香, 王西艳.《 中国成人医院获得性肺炎与呼吸机相关性肺炎诊断和治疗指南(2018年版)》解读[J]. 中国医刊, 2021, 56(9): 951-3.
[13]卓于迪, 朱陵群, 张立山, 等. 套索回归模型在中医临床研究数据的统计应用与R语言实践[J]. 世界中医药, 2023, 18(7): 1033-8.
[14]杨 柳, 王 钰. 泛化误差的各种交叉验证估计方法综述[J]. 计算机应用研究, 2015, 32(5): 1287-90, 1297.
[15]Lynam AL, Dennis JM, Owen KR, et al. Logistic regression hassimilar performance to optimised machine learning algorithms in aclinical setting: application to the discrimination between type 1 andtype 2 diabetes in young adults[J]. Diagn Progn Res, 2020, 4: 6-12.
[16]Amendolara A, Pfister D, Settelmayer M, et al. An overview ofmachine learning applications in sports injury prediction[J].Cureus, 2023, 15(9): e46170-8.
[17]Chen RC, Caraka RE, Arnita NE, et al. An end to end of scalable treeboosting system[J]. Sylwan, 2020, 165(1): 1-11.
[18]Li XQ, Xiong XY, Liang ZA, et al. A machine learning diagnosticmodel for Pneumocystis jirovecii pneumonia in patients with severepneumonia[J]. Intern Emerg Med, 2023, 18(6): 1741-9.
[19]Xu CG, Li HX, Yang JP, et al. Interpretable prediction of 3-year allcausemortality in patients with chronic heart failure based onmachine learning[J]. BMC Med Inform Decis Mak, 2023, 23(1):267-79.
[20]Petch J, Di S, Nelson W. Opening the black box: the promise andlimitations of explainable machine learning in cardiology[J]. Can JCardiol, 2022, 38(2): 204-13.
[21]Cho YR, Kang M. Interpretable machine learning in bioinformatics[J]. Methods, 2020, 179: 1-2.
[22]Ma MW, Liu RY, Wen CJ, et al. Predicting the molecular subtype ofbreast cancer and identifying interpretable imaging features usingmachine learning algorithms[J]. Eur Radiol, 2022, 32(3): 1652-62.
[23]鲍利改, 董 谦. 慢性心力衰竭合并肺部感染患者MIP-2、MMP-9、DD、miR-21 表达及与病原菌类型、心肌功能的关联性研究[J]. 临床误诊误治, 2022, 35(3): 78-83.
[24]Mancini D, Gibson GT. Impact of pneumonia in HeartFailurePatients[J]. J Am Coll Cardiol, 2021, 77(16): 1974-6.
[25]Chen ZJ, Li TM, Guo S, et al. Machine learning-based in-hospitalmortality risk prediction tool for intensive care unit patients withheart failure[J]. Front Cardiovasc Med, 2023, 10: 1119699.
[26]Chiotos K, Tamma PD, Gerber JS. Antibiotic stewardship in theintensive care unit: challenges and opportunities[J]. Infect ControlHosp Epidemiol, 2019, 40(6): 693-8.
[27]Bifarin OO. Interpretable machine learning with tree-based shapleyadditive explanations: application to metabolomics datasets forbinary classification[J]. PLoS One, 2023, 18(5): e0284315.
[28]Chen JM, Li Y, Liu P, et al. A nomogram to predict the in-hospitalmortality of patients with congestive heart failure and chronickidney disease[J]. ESC Heart Fail, 2022, 9(5): 3167-76.
[29]Aryee EK, Ozkan B, Ndumele CE. Heart failure and obesity: thelatest pandemic[J]. Prog Cardiovasc Dis, 2023, 78: 43-8.
[30]孟广蕊, 纪志芳, 田 勇. 老年心力衰竭合并肺部感染病原菌分布及血清CRP、PCT 水平变化[J]. 中国病原生物学杂志, 2023, 18(7):821-4, 829.
(编辑:林 萍)
基金项目:国家自然科学基金(81770297);安徽省临床医学研究转化专项(202304295107020079);蚌埠医科大学自然科学重点项目(2020byzd018);蚌埠医科大学研究生科研创新计划项目(Byycx23038)