基于随机森林预测国内外ICU患者的死亡风险比较研究

2020-03-28 17:32许芳芳胡江陈维仁周敏

世界最新医学信息文摘 2020年8期

许芳芳，胡江，陈维仁，周敏

（1.杭州脉兴医疗科技有限公司，浙江杭州；2.浙江大学医学院附属第一医院信息中心，浙江杭州）

1 背景介绍

重症患者或重大手术后的患者在重症监护室（ICU）内通过多种生命支持系统以维持生理功能[1]。患者在ICU内会被频繁持续的记录生命体征和实验室测量等多种数据。由于高频次的数据采集，数十年来ICU内已经形成了一个巨大的临床医疗数据信息库，这俨然是一种重要的、可被利用的医疗资源。

近年来，人工智能在医学领域的发展非常快，特别是在精准医学方面，随着人工智能在理论研究和实际应用方面取得重大进展，大数据人工智能将在精准医学领域发挥核心作用。

其实，现今已经有许多标准化数据库被开发出来供公众访问和使用。例如重症监护医疗信息中心（Medical Information Mart for Intensive Care-Ⅲ，MIMIC-Ⅲ），由麻省理工学院计算生理学研究所，Beth Israel Deaconess医学中心（BIDMC）和飞利浦医学建立。MIMIC-Ⅲ数据库包含了与2001年至2012年期间入住重症监护病房的成年（16岁或以上）患者的53，423例住院记录相关的数据[2]。此外，它还包含2001年至2008年间收治的7870名新生儿的数据[2]。具体而言，MIMIC-Ⅲ数据库包括来自38，597名成人和7，870名新生儿的人口统计信息、实验室测试数据和生命体征数据库以及他们的临床诊断和治疗数据等。

在国内，浙江大学第一附属医院（First Affiliated Hospital of Zhejiang University，FAHZU）从本世纪初开始，在总结与分析了众多医院信息化建设的基础上，提炼出医院的管理理论，开发了全新的以患者医疗信息为中心，加强医院管理为核心的新一代的HIS系统，从而优化了医院的信息存储与业务流程[3]。在医院的发展过程中，持续开发了基于HIS的信息系统来存储电子病历，护理信息以及医嘱信息。到目前为止，已经建立了六个诊断和治疗平台，包括分诊平台，药代动力学平台和远程医疗[4]。在FAHZU全面建设医疗信息化的基础上我们类比MIMIC-Ⅲ 建立了FAHZU的ICU专科数据库，称之为FAHZU-ICU。2017年11月29日，FAHZU正式通过了HIMSS EMRAM（住院）六级现场评估。

机器学习已广泛应用于临床研究。Weng等人基于常规临床数据，使用多种机器学习技术，如随机森林、逻辑回归、梯度增强机器以及神经网络预测心血管风险[5]。Celi等人应用机器学习方法来预测ICU中的液体需求[6]。此外，Wen等人使用随机森林建立造影剂诱发肾病的术前预测模型[7]。也有Bera、Vairavan等学者使用逻辑回归评估MIMIC-Ⅲ数据库中ICU患者的死亡风险[8-9]。

本文旨在从MIMIC-Ⅲ和FAHZU-ICU数据库出发，预测ICU患者的死亡风险，比较它们的模型预测效果并评估特征的重要性。

2 资料与方法

2.1 ICU 数据库

基于MIMIC-Ⅲ v1.4和FAHZU-ICU数据库数据建立预测模型。MIMIC-Ⅲ 数据库共包含61，532个具有出院状态标记的样本，其中存活54323例，死亡6，609例。FAHZU-ICU数据库中的原始数据包含5670个具有出院状态标记的样本，包括101个死亡样本和5569个存活样本。

2.2 特征选取

根据临床医生权威性梳理和实际可用性原则来选择两个数据集中的候选变量。其中包括人口统计学变量、生命体征变量、实验室生理检查变量、各类评分信息变量等。如果患者在一天内多次进行测量，则使用平均值、最大值和最小值来产生衍生特征。在删除了数据缺失严重的变量后，MIMIC-Ⅲ 数据集中的166个特征和FAHZU-ICU数据集中的106个特征用于预测。

2.3 模型建立和验证

由于两个数据集中幸存者数量和患者死亡人数之间存在严重的不均衡问题，根据模型效果进行优化调整，最终使用每个数据集中的所有死亡样本，并随机选择两倍于死亡样本的生存样本，采用基于随机森林（Random Forest）的分类预测算法来建立预测模型，并使用5折交叉验证下的受试者工作特征曲线（ROC）内的区域面积（AUC）、特异性（Specificity）、灵敏度（Sensitivity）对模型性能进行评估。

3 结果

模型预测效果如表1所示。在MIMIC-Ⅲ 数据集中，5折交叉验证下的平均灵敏度和特异性分别为0.76和0.88，AUC和准确度分别为0.82和0.83。在FAHZU-ICU数据集中，5折交叉验证下的平均灵敏度和特异性分别为0.631579和0.838027，AUC和准确度分别为0.73和0.79。显然，使用MIMIC-Ⅲ 数据集的预测性能比使用FAHZU-ICU数据的预测性能要好得多。

表1 使用MIMIC-Ⅲ和FAHZU-ICU数据集预测ICU死亡率的表现

接下来，我们研究了各种特征如何影响两个数据集中的死亡率预测结果。表2显示了两个数据集中各自对模型预测效果最重要的15个特征。在FAHZU-ICU数据集中，排名靠前的特征是相关酶，例如羟基丁酸脱氢酶和乳酸脱氢酶。两种酶都与心肌损伤有关，属于两类心肌酶。当心肌细胞发炎和坏死时，心肌细胞中含有的酶可以进入血液，血液中这些酶的活性（含量）会增加。血液中酶的含量将反映患者心脏和肾脏的状态。排名靠前的重要特征还包括蛋白质，钠，心率和其他生理指标，这都是反应患者生存状态的重要标志。

在MIMIC-Ⅲ 数据集中，重要性排名最靠前的为评分特征，但在FAHZU-ICU数据集中没有此类评分指标。而FAHZU-ICU模型中排名靠前的酶在MIMIC-Ⅲ 数据集中特严重缺失，因此并未参与MIMIC-Ⅲ 数据集的模型进行预测。

表2 MIMIC-Ⅲ和FAHZU-ICU数据集中最重要的15个特征

*评分特征：简化的急性生理学评分II (Simplified Acute Physiology Score II，SAPSII)；急性生理学评分III (Acute Physiology Score III，APSIII)；牛津急性疾病严重程度评分(Oxford Acute Severity of Illness Score，OASIS)；简化的急性生理学评分(Simplified Acute Physiology Score ，SAPS)；Logistic器官功能障碍评分(Logistic Organ Dysfunction Score，LODS)；改良Logistic脏器功能障碍系统(Modified Logistic organ dysfunction system ，MOLDS)；格拉斯哥昏迷评分(Glasgow coma scale，GCS）；序贯器官衰竭估计(Sequential Organ Failure Assessment，SOFA)

表2的最后一列给出了去掉评分特征（SAPSII，APSIII，OASIS，SAPS，LODS，MOLDS，GCS，SOFA）后MIMIC-Ⅲ 数据集中的前15个实验室检测指标。这些非评分特征中的某些特征也出现在FAHZU-ICU数据集中的前15个特征。比如凝血酶原时间（PT），国际标准化比率（inr），心率和碳酸氢盐，表明两个不同ICU数据集在模型表现上存在一些共同点。

4 讨论

在本文中，基于FAHZU-ICU数据集和已发布的MIMIC-Ⅲ数据集，采用随机森林的分类算法来预测两个ICU数据集中患者的死亡风险。在MIMIC-Ⅲ 数据集中，我们获得了AUC 0.815，准确度0.825，敏感度0.761和特异性0.876的模型效果。FAHZU-ICU数据集性能相较较差，AUC为0.732，准确度为0.79，灵敏度为0.631，不过0.838的特异性优于MIMIC-Ⅲ 数据集。

这项研究的一大挑战是生存和死亡样本数量严重不均衡。这种不均衡使得随机森林模型在决策过程中偏向生存群。为了解决这个问题，我们对生存样本采用了欠采样方法，以确保生存样本和死亡样本的合理比例。

尽管FAHZU-ICU数据库较小且功能较少，但它包括患者住院期间一些独有的生理监测数据，例如羟基丁酸脱氢酶和乳酸脱氢酶等酶类数据，与MIMIC-Ⅲ数据库相比患者基本检测信息更全面一些。但是SAPSII，APSIII，OASIS，SAPS，LODS，MOLDS和SOFA等在MIMIC-Ⅲ数据集的死亡风险预测模型中表现良好的评分指标尚未包含在FAHZU-ICU数据库中。

FAHZU是中国领先的信息数字化医院，每年大约有一千例ICU诊疗记录，到目前为止已经收集了大量数据。但目前的医院信息系统功能主要是满足医院管理和存贮需求。而且医院的各类型数据分布在多个系统中，采集频次也不一致，数据多源异构的缺陷明显，导致海量的临床数据没有得到充分发掘和有效利用。总而言之，中国的医疗数据库采集和存储系统还不够成熟，有待完善，在这方面，已经比较成熟的MIMIC-Ⅲ 数据库或许能为国内医院建立标准数据库时，在内容和结构上提供一些参考。

此外，目前中国的医疗数据整体呈现分散存储和低开放性的特点。每家医院都是一座“信息孤岛”，医疗数据很难真正实现临床应用和科研转化。这就要求医疗机构必须加强自身的EMR建设，进行数据标准化的宏观管理，规范信息存储，整理数据的内部环节。加强医院信息化建设，建立专业化数据库，是医疗人工智能快速的重要基础。在未来，我们也将纳入不同地域医疗机构的数据，打破“信息孤岛”，开展死亡风险预测的多中心研究，进一步提高预测模型的鲁棒性，增加临床可用性。