武俊伟,刘 超,王 雪,杜甲珺,李 姣,谢 菲
1 中国医学科学院/北京协和医学院 医学信息研究所,北京 100020;2 解放军总医院研究生院图书馆,北京 100853;3 医渡云(北京)技术有限公司,北京 100083;4 首都医科大学宣武医院 图书馆,北京 100053;5 解放军总医院第八医学中心 呼吸与危重症医学部,北京 100853
急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)是一种以急性双肺异常为特征的具有独特类型的低氧血症性呼吸衰竭。ARDS的ICU死亡率和住院死亡率分别为35.3%和40%,且死亡率会随病情严重程度而增加。有研究表明,轻、中、重度ARDS死亡率分别达到34.9%、40.3%、46.1%[1]。因此提前预测重度ARDS的发生变得尤为重要。现有研究报道呼吸频率(respiratory rate,RR)和外周血氧饱和度(SpO2)是预测和识别ARDS的两个重要参数,并通过以下指标进行进一步评估:RR≥30次/min;SpO2≤92%;氧合指数(实际采用动脉血氧分压与吸入氧浓度分数的比值PaO2/FiO2,下文均用P/F表示)P/F≤300 mmHg (1 mmHg=0.133 kPa)[2]。但SpO2和氧合指数都需要相应的医疗仪器及有创的检查来实现,这对于资源紧缺的医疗机构来说是一项难以解决的问题。以往研究报道了不同ARDS预测模型,如Le等[3]选取22种特征,提前12 h、24 h、48 h预测ARDS的发生,其中提前12 h预测ARDS发生的AUC最高(AUC=0.827)。Singhal等[4]选择148个统计特征对COVID-19患者提前6 ~ 36 h进行ARDS发生的预测,最佳预测时间为ARDS发生前12 h,其AUC为0.89。上述不同的预测模型存在样本量小、模型复杂、特征选取较多等问题。因此,有必要选取无创、快速的体征指标对重度ARDS的发生进行提前预测。我们重点关注的是重度ARDS预测模型的方法学,以期找到一种简单、高效、便捷、准确的预测方法。本次研究采用eICU协作研究数据库(eICU Collaborative Research Database)通过RR、心率(heart rate,HR)、体温三项生命体征及其相关统计指标,提前6 h预测患者是否会进展为重度ARDS。
1 数据来源 eICU协作研究数据库是一个由MIT计算生理学实验室与飞利浦eICU研究所合作创建的大型多中心公开数据库,该数据库包含2014 - 2015年美国各地重症监护病房超过20万例患者的ICU数据,且数据内容是经过去隐私化处理,包括生命体征监测、护理计划文档、疾病严重程度监测、诊治信息等[5]。选取eICU数据库中诊断结果为ARDS的1 714例患者的临床资料。研究的纳入标准:1)年龄≥18岁;2)入院期间有至少一次PaO2检测记录用于氧合指数P/F的计算(图1);3)被诊断为“pulmonary| respiratory failure|ARDS”的患者,ICD编码为518.81, J80。排除标准:1)住院记录中没有测量PaO2;2)氧合指数观测时间段内体温、HR、RR存在缺失值。
图1 一个观测时间段(时间窗口)的详细信息eICU中ARDS患者的体温信息缺失较多,因此一个时间段内如果没有同时包含HR、RR、体温三种体征信息,则不会纳入该时间窗口。体征信息较为完整的患者会有多个符合上述条件的观测点及时间窗口Fig.1 Details of an observation period (a time window)There is a mass of missing temperature data for ARDS patients in the eICU, so if a time period that does not contain HR, RR, and Temp, it will not be included in the time window. Patients with complete vital sign will have multiple observation points and time windows that meet the above criteria
独立验证集来源 另外选取2014年解放军总医院医院呼吸重症监护室收治的15例因吸入性肺损伤所致的ARDS患者,均为男性,平均年龄20.7(18 ~ 24)岁,平均住院时间16.6 d。经上述相同的纳入排除标准,最终纳入重度ARDS观测点21个,轻中度ARDS观测点62个。
2 ARDS严重程度界定 根据ARDS的柏林定义[6],轻度ARDS:呼吸机设置为呼气末正压(positive end expiratory pressure,PEEP)或持续气道正压(continuous positive airway pressure,CPAP)≥5 cmH2O (1 cmH2O=0.098 kPa)时,200 mmHg<P/F≤300 mmHg;中度ARDS:呼吸机设置为PEEP≥5 cmH2O时,100 mmHg<P/F≤200 mmHg;重度ARDS:呼吸机设置为PEEP≥5 cmH2O时,P/F≤100 mmHg。
3 预测变量选择及处理 心率、呼吸和体温是机体在应急状态下最早出现变化的生命体征,国际上已有临床评分指标采用了体征及临床检验数据对急诊患者的病情进行评估预测,如改良早期预警评分(MEWS)[7]及全身炎症反应综合征评分等[8]。本次研究将探讨仅采用HR、RR、体温三种体征信息来预测重度ARDS发生的可行性。
eICU的lab表中包含患者在ICU期间全部的实验室检查的结果,其中PaO2和FiO2在同一时刻分别记录了二者实际的数值,可以计算出不同时刻的氧合指数P/F的值,判断ARDS严重程度。模型以ARDS观测点为原点,分析倒推6 ~96 h时间段内的HR、RR、体温体征信息及其在该时间段内的波动值(极值、极差和平均值)患者是否会进展为重度ARDS(P/F≤100 mmHg)。本研究亦对6 ~ 48 h及6 ~ 24 h两个不同观测时间段的数据进行分析处理,用于比较不同时间窗口对模型预测能力的影响。
4 算法选择 研究选择三种不同的算法建立预测模型。1)逻辑回归(logistic regression,LR)是从线性回归模型推广的一种广义的分析模型,具有模型简单、训练快速等特点。2)随机森林(random forest,RF)是利用bootsrap重抽样方法从原始样本中有放回的选择多个样本,对于每个Bootsrap都构建一个决策树模型,多棵决策树通过投票的方式最终给出预测结果,大量的研究证实RF具有很高的预测准确性且不容易出现过拟合[9],且决策树的绘制与临床路径的制定原理相似,具有一定的模型可解释性。3)LightGBM是Mircosoft开发的基于决策树的一种梯度提升框架,具有快速、分布式及高性能等特点。可用于排序、分类、回归及相关机器学习领域。它采用新的一直分裂叶子节点的策略(按最大增益的节点或叶子明智,Leaf-wise)进行展开[10]。
5 数据处理 使用PostgreSQL数据库筛选并提取符合纳入标准的数据信息,应用Python 3.7进行进一步的数据清洗,去除患者体温<30℃、HR、RR为0的测量值,然后对数据进行统计分析并采用Python建立预测模型。
6 模型评价指标 应用Python的sklearn库对三种不同算法的预测模型及三个不同时间窗口的受试者工作特征曲线下面积(area under the receiver operation characteristic curve,AUC)进行评价,AUC用于衡量机器学习的泛化能力(性能),值越大表示模型的性能越好,预测能力越强。采用oob error(袋外错误率,out-of-bag error)来评价随机森林的预测性能误差,oob score(1-oob error)越高则模型预测性能越好。应用sklearn.calibration库中的校准曲线(calibration curve)比较分类器概率预测的校准效果,最理想情况下,校准曲线是一条对角线(以虚线表示),模型越贴近校准曲线,说明预测概率越接近于真实概率。
1 纳入人群的人口学特征 eICU队列 eICU中共有200 859例住院患者,最终纳入232例患者的3 140个氧合指数观测点,全部氧合指数观测点包括1 042次P/F≤100 mmHg(重度ARDS),2 098次P/F>100 mmHg(轻中度ARDS)。232例ARDS患者,男性115例,女性117例。年龄19 ~ 88(56.1 ± 16.1)岁。身高(168.0 ± 14.2) cm;体质量(90.0 ± 31.4) kg。死亡101例(43.5%)。人种分布:非裔美籍25例,亚裔8例,白种人165例,西班牙裔15例,印第安人3例,其他或未知16例。平均住院时间13.4 d。见表1。此队列数据按照3:1的比例分为测试集和验证集。
表1 eICU中232例ARDS患者人口学特征Tab. 1 Demographic characteristics of 232 patients with ARDS in the eICU
2 不同模型预测性能比较 模型以ARDS患者6 ~ 96 h、6 ~ 48 h、6 ~ 24 h三个时间段内的HR、RR、体温体征信息及其在该时间段内的波动值(极值、极差和平均值)为变量,预测6 h后患者是否会进展为重度ARDS (P/F≤100 mmHg)。随机森林模型6 ~ 96 h时间窗口的预测准确率为0.833,AUC为0.885,oob评分0.809(oob error为0.191)。LightGBM 6 ~ 96 h时间窗口的准确率为0.805,AUC为0.868。逻辑回归6 ~ 96 h时间窗口准确率为0.702,AUC为0.634。6 ~ 48 h、6 ~ 24 h时间窗口的详细指标见表2、图2。校准曲线显示,96 h时间窗口中,随机森林和LightGBM的预测能力要远优于逻辑回归的预测能力(图3)。
图3 不同算法的校准曲线Fig.3 Calibration curves for different algorithms
3 模型预测性能的外部验证 为了进一步比较模型在独立数据集中的表现,我们提取了来自解放军总医院医院(图2中以PLAGH表示)15例吸入性肺损伤所致的ARDS患者,其中重度ARDS观测点21个,轻中度ARDS观测点62个,随机森林解放军总医院医院96 h时间窗口的准确率为0.834,AUC为0.843(各模型的ROC曲线及AUC值见表2、图2)。predicted incorrectly, so true positive/TP=0, thenSand Sp=0.
图2 不同模型及时间窗口的ROC曲线Fig.2 ROC curves for different models and time windows
表2 不同模型各个时间窗口的预测性能指标Tab. 2 Prediction performance metrics of different models for each time window
随着ARDS严重程度的增加,相应的临床干预措施也随之增强。以往的研究多为ARDS的风险预测[11]、预后评估[12]、死亡率预测[13]等,应用机器学习对ARDS的发生进行早期预警的模型报道较少,采用体征指标建立早期预警模型尤甚。Taoum等[14]通过MIMIC-Ⅱ中40例ARDS患者持续的HR、RR、SpO2、平均动脉血压(ABPMean)四种动态生理信号监测来建立模型,预测1 ~180 h后ARDS的发生,测试集中的敏感度和特异性分别为62.89%和72.67%。刘京铭等[15]通过MIMIC-Ⅲ中四种连续的基本生理特征SpO2、RR、HR、MAP的时序数据,采用11个包括SpO2的平均值、标准差、倾斜度和样本熵,RR的平均值和标准差,HR的平均值和标准差,MAP的平均值、倾斜度和峰度在内的特征,提前预测ARDS的发生,最佳AUC为0.94。上述两种模型存在着仅使用单中心数据进行预测及验证、模型性能差异较大,预测变量处理十分复杂、对几种生理指标的时序性信息关注度较高等问题。本研究采用多中心的eICU数据集,使用更为简单的心率、呼吸频率及体温三种体征信息,应用解释性强、快速高效的随机森林算法建立预测模型,旨在对模型预测的方法学进行简化和改进,对重度ARDS的发生予以简单高效、快速无创的早期预测。
本次研究选取三种基础的体征信息来自232例患者的88万余次临床监测数值,大量的数据保证了建模后模型的可靠性,同时在进行模型预测时,通过同步计算三种体征数据的最大值、最小值、极差值和平均值,可反映出患者在该时间段内体征数据波动情况。此种方式的优势是不需要对连续大量的体征信息进行存储,对于上述的预测变量进行实时更新替换即可,极大地减少了ARDS患者基数大、采集体征数据信息密集造成存储压力、访问获取压力和分析处理的计算压力等问题。本研究的模型应用到临床后,可以更早对潜在的重症ARDS患者进行干预。纳入本次研究的患者年龄分布广泛,为19 ~ 88(56.1 ± 16.1)岁,身高、体质量等均没有特异性,在构建模型时,排除了入住ICU类型等患者相关的全部静态信息,增加了模型应用的普适性。为进一步验证模型在独立验证集中的表现,研究还选取15例来自真实世界的ARDS患者进行独立验证。独立验证集的患者体征数据采集间隔远高于eICU(1 h/次vs5 min/次),造成独立验证集的准确性降低,但AUC的值没有过多下降(AUC=0.834),说明模型在体征数据测量间隔1 h以上依旧表现良好。
研究的不足之处在于没有应用真实世界中COVID-19所致的ARDS患者的体征数据进行验证,在接下来的研究中,我们将对美国国家卫生研究所组建的国家COVID协作研究组织(N3C)提供的超过300万COVID-19阳性患者的临床数据进行验证[16]。本研究虽然是侧重于预测模型的方法学的可行性研究,但并未对模型的参数进行优化以提高模型的性能。因此我们还将在算法参数优化、模型的可解释性上做进一步的研究,并尝试探讨体征数据的不同测量间隔对预测准确性的影响。