机器学习DNN和XGBoost算法对危重患者预后预测模型效能评估

2020-04-20 13:07李惠萍胡安民
实用医学杂志 2020年4期
关键词:危重变量预测

李惠萍 胡安民

南方科技大学第一附属医院(深圳市人民医院)1呼吸与危重症医学科,2麻醉科(广东深圳518020)

重症患者病情复杂,变化快,且存在多种因素包括年龄、基础疾病等影响患者预后。研究发现老年患者的1年病死率约为19%[1],而老年痴呆的患者病死率则高达65%[2-3]。准确的评估重症患者预后有利于医护人员制定更合适的治疗方案,因此亟需开发可准确预测患者死亡风险的工具。目前临床上使用的预后评分模型需要预测变量和对应结果间呈线性关系[2],但是很多影响患者预后的因素与死亡风险之间无法建立简单的线性关系。机器学习(machine learning,ML)技术是计算机通过数据构建概率统计模型并运用模型对数据进行预测并分析的学科,目前已广泛用于医学研究领域,如医疗诊断辅助、医学图像分析、计算药物发现和药物效能等[4-6]。通过机器学习算法的非线性关系规则建立预测模型可以改善模型的效能[7-9]。本研究使用公用重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC-Ⅲ)的临床数据,采用机器学习中深度神经网络(deep neural network,DNN)和极限梯度提升(eXtreme gradient boosting,XGBoost)算法构建重症患者1年内全因病死率的预测模型,使用10 折交叉验证法对模型效能进行验证,并与简化急性生理评分-Ⅱ(simplified acute physiology score-Ⅱ,SAPS-Ⅱ)预后模型进行比较,从而寻找更准确预测重症患者预后的模型。

1 材料与方法

1.1 资料来源本研究采用的是重症医学大数据研究常用数据库MIMIC-Ⅲ(V1.4版)的患者数据。该数据库收录美国波士顿贝斯以色列女执事医疗中心的危重患者数据[10],存储了46 520例重症患者的临床信息,3 亿多条结构化数据,包括每例患者人口学信息、诊断编码、实验室检查、医疗干预事件等。经哈佛大学医学院伦理审查委员会与麻省理工学院共同批准后,通过“保护人类受试者培训”的研究人员方可下载数据库中已通过严格去隐私化的患者数据。数据由笔者提取(证书编号:26450451)。

1.2 纳入和排除标准纳入标准:纳入首次进入ICU 治疗的重症患者。排除标准:患者年龄>18岁或<89岁,ICU 住院时间>24 h。

1.3 研究结局与预测变量主要研究结果是危重患者在进入ICU 后1年内的病死率。研究纳入患者进入ICU 首日可能影响预后的103项变量,包括性别、年龄、身体质量指数、种族、入ICU 类型、进入ICU的时间、生命体征最大值和最小值(心率、收缩压、舒张压、脉搏血氧饱和度、体温)、液体出入量、尿量、血气分析最大值和最小值(酸碱度、碳酸氢根浓度、碱剩余、血钾离子浓度、血钙离子浓度、钠离子浓度、氯离子浓度、阴离子间隙、动脉血氧分压、动脉血二氧化碳分压、肺动脉-氧压力梯度、血乳酸)、血常规最大值和最小值(血红蛋白、血细胞比容、白细胞计数、中性粒细胞百分比、血小板)、凝血常规最大值和最小值(国际标准化比值、凝血酶原时间、活化部分凝血活酶时间)、肝肾功能检查最大值和最小值(血清白蛋白、血清总胆红素、丙氨酸氨基转移酶、天冬氨酸氨基转移酶、内生肌酐清除率、血清尿素氮、血清肌酐)、C-反应蛋白最大值、心肌标志物最大值(肌酸激酶同工酶、肌钙蛋白T、肌钙蛋白I)、脑利钠肽最大值、GCS 评分最小值、合并症(高血压、糖尿病、充血性心衰、肺循环疾病、慢性肺部疾病、心律失常、瓣膜疾病、糖尿病并发症、外周血管疾病、肝病、肾病、中风、其他神经系统疾病、消化性溃疡、艾滋病、淋巴瘤、实体肿瘤、转移性癌症、类风湿关节炎、凝血功能障碍、体重下降、电解质紊乱、失血性贫血、缺铁性贫血、酒精滥用、药物滥用、精神病、抑郁)。这些临床变量经过特征变量筛选后用于机器学习算法的预后模型建立。

1.4 模型评价与统计分析数据提取与清洗使用PostgreSQL 数据库。采用R v.3.6.0软件进行数据分析、构建模型并评估。连续性变量的比较采用t检验和单因素方差分析,分类资料的比较采用χ2检验。基于SAPS-Ⅱ评分构建逻辑回归模型。基于Boruta 包进行影响预后的特征变量筛选[11]。存在缺失值的特征变量通过随机森林多重插补算法依次进行建模插补[12]。依次分别构建DNN 模型和XGBoost 模型。模型效能的评估采用十折交叉验证。

在完成模型构建后,采用真阳性率(True Positive Rate,TPR)、阳性预测值(Positive predictive value,PPV)、F 值(F-score)、受试者工作特征(Receiver Operation Characteristic,ROC)曲线下面积(Area Under the ROC Curve,AUC)进行模型的评估。其中,TPR是指所有实际为阳性的样本中,被正确地判断为阳性结果的比率;PPV是指正确预测到的正例数和预测正例总数的比值;F 值是TPR和PPV的加权调平均,用于综合反映模型整体性能的指标。此外,ROC 曲线以灵敏度为纵轴,以假阳性率为横轴。AUC 值是ROC 曲线下的面积,AUC 值越大则说明模型的预测能力越好。

2 结果

2.1 危重患者数据的基本特征筛选出符合条件的危重患者30 833例,平均年龄65岁,女性患者17 873例(占58.0%),平均住院时间约为7.5 d。在ICU 后的1年内发生死亡的患者7 866例(占25.5%)。相对于存活的患者,死亡患者具有年龄大、女性占比多、急诊纳入ICU 比例高、SAPS-Ⅱ评分更大、ICU 治疗时间和住院时间均更长的特点。患者的临床信息可见表1。

2.2 特征变量筛选和多重插补患者信息经过数据清洗后,进行特征筛选,最后得到66个特征变量。依次对含有缺失值的特征变量通过随机森林算法构建多重插补模型,然后插补存在的缺失值。

2.3 模型评估通过10 折验证对SAPS-Ⅱ、DNN、XGBoost 构建的3种模型进行预测性能评估。在SAPS-Ⅱ、DNN、XGBoost 模型中,TPR 分别为(0.65±0.04)、(0.61±0.23)和(0.62±0.04),差异无统计学意义(P>0.05,图1A)。PPV分别为(0.41±0.06)、(0.42 ± 0.41)和(0.67 ± 0.05),差异无统计学意义(P>0.05,图1B)。SAPS-Ⅱ、DNN、XGBoost 模型的F值依次为(0.51 ± 0.05)、(0.37 ± 0.27)和(0.64 ±0.03),见图1C,XGBoost 模型的F 值明显高于DNN模型。AUC 值在三个模型中依次为(0.75±0.04)、(0.64±0.18)和(0.80±0.02),XGBoost模型的AUC值显著高于SAPS-Ⅱ模型和DNN 模型,提示XGBoost模型的预测效能优于其他两种模型(P<0.05,图1D)。

表1 数据集人口学特征和进入ICU1年内存活和死亡的患者特征Tab.1 Data Set Population Characteristics and Characteristics of Patients who survived and died in 1 yearafter admitting to ICU

图1 DNN 模型和XGBoost 模型在测试数据集中的预测性能Fig.1 Predictable performance for DNN model and XGBoost model run on the test

3 讨论

危重患者通常存在危及生命的器官或系统功能障碍,尽早评估并给予合理救治对挽救患者生命,提高生存质量至关重要。危重患者病情复杂,临床医生仅通过主观经验来评估患者的死亡风险精确度有限。因此能够准确预测危重患者预后的预测模型对临床工作至关重要。目前临床上使用的SAPS-Ⅱ评分预后模型的实际预测结果并不理想。这是因为SAPS 模型要求预测变量和相应结果之间呈线性关系[13],对多元共线性数据、缺失数据和非平衡数据敏感难以实现高阶交互作用[14]。SAPS 评分模型未得到充分校准,预测病死率仍需改进[15-18]。

机器学习技术是计算机使用大数据构建概率统计模型,并运用模型对数据进行预测和分析的学科,现已广泛用于医学研究领域[6,18]。机器学习算法的非线性关系规则可弥补SAPS 模型的不足。因此本研究使用机器学习中的DNN和XGBoost算法,分别构建了危重患者1年内病死率的预测模型。DNN是一种模仿动物神经网络行为特征来进行分布式并行信息处理的数学模型[8-9],通过调整内部大量节点之间相互连接的关系达到处理信息的目的。该类模型可以自动识别预测变量与结局之间的非线性关系。DNN的架构主要包括三部分:输入层、多个隐藏层和输出层。输入层接受预测变量,而输出层提供预测结果。隐藏层和输出层中的每个神经元都接收上一层的输出值与相关权重的乘积和。DNN 利用多个隐藏层逼近极端复杂的决策函数。与逻辑回归相比,神经网络模型的显著优点是构建模型不需要过多的前提假设。此外,神经网络可同时纳入大量预测变量,而不用考虑共线性。神经网络特别适合对复杂临床场景进行建模。神经网络算法在对危重患者死亡的预测优于逻辑回归模型[7]。

XGBoost算法通过一堆分类回归树的预测分数相加作为最终的预测值。样本数据分别通过分类树,然后根据不同叶节点进行打分,最后再分别计算出不同样本在一群树中的总分。XGBoost算法具有运算速度快、可调参数多的特点,适用于大样本数据的计算,而本研究发现XGBoost 模型预测性能整体优于传统的SAPS-Ⅱ模型和另一种机器学习算法DNN 模型。DNN 算法构建模型也可以纳入大量数据,但本研究发现DNN 算法构建的危重患者预后模型性能不稳定,容易出现数据的过拟合。这可能和算法本身存在陷入局部极小值的缺点有关。

本研究尚存在不足之处,例如使用的数据是国外单中心的临床数据,可能存在人种、疾病谱、治疗策略等差异,由此建立的预测模型在应用于国内患者预后评估时仍需要调整以提高预测性能。此外,本研究纳入的数据为首日的临床数据,未纳入危重患者的所有临床信息包括连续性变量,因此应用于动态评估危重患者死亡概率时存在一定局限性。

综上,机器学习算法建立的预测模型较传统的SAPS 模型具有更多优势,在基于临床数据对危重患者1年病死率的预测上,XGBoost 模型比DNN 算法、SAPS 模型更准确。XGBoost 模型可用于协助临床医生制定医疗方案,同时也为今后的危重患者预后预测系统部署到重症监护室提供数据支持。

猜你喜欢
危重变量预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
脐静脉置管在危重新生儿救治中的应用
镇静护理在呼吸机治疗危重患儿中的有效应用
选修2—2期中考试预测卷(A卷)
俯卧位通气对36例危重型COVID-19患者的影响
抓住不变量解题
危重型新型冠状病毒肺炎患者1例的护理体会
分离变量法:常见的通性通法