基于电子病历数据的风险预测模型在临床护理中的应用现状

2020-12-19 06:56旷小羿侯惠如
护理学报 2020年16期
关键词:病历预测临床

旷小羿,侯惠如

(1.中国人民解放军医学院,北京100853;2.联参警卫局卫生保健处,北京100017;3.中国人民解放军总医院 第二医学中心 护理部,北京100853)

电子病历(electronic medical record,EMR)是医疗机构医务人员对门诊、住院患者(或保健对象)临床诊疗和指导干预所使用的信息、系统生成的文字、符号、图标、数据以及影像等数字化的医疗服务工作记录[1]。 电子病历包含大量医疗信息数据[2],利于二次分析[3]。基于电子病历数据的风险预测模型(Risk Predict Model,RPM), 能更好地帮助护理人员提前做出决策[4],改善患者的不良转归[5]。 随着数据挖掘技术的不断发展,风险预测模型的构建方法也由传统的统计技术发展到机器学习(machine learning,ML)及深度学习 (deep learning,DL) 等人工智能技术(artificial intelligence technologies,AITs)[3]。 目前风险预测模型主要应用于辅助诊断、并发症预测、临床决策支持系统[6]等医疗问题上,现对基于电子病历数据的风险预测模型在护理领域中的应用进行综述,旨在为未来护理领域风险预测模型的构建提供参考。

1 基于电子病历数据的风险预测模型建模方式

风险预测模型是基于复杂数据特征进行评估和做出预测的算法[7-8]。 从目前护理领域风险预测模型发文来看,建模方式有运用传统的统计技术,例如:Logistic 回归和Cox 回归,到机器学习(machine learning,ML),例如:支持向量机(support vector machine,SVM)、决策树(decision tree,DT)、随机森林(random forest,RF),以及深度学习(deep learning,DL),例如:人工神经网络(artificial neural network,ANN),其中机器学习和深度学习属于AI 技术范畴。传统统计方法构建的模型简单直观,目前使用的研究者最多,而机器学习及深度学习等人工智能技术需要一定的计算机知识基础,运用上比传统方法复杂且具有“轻过程重结果”特性,目前使用的研究者比较少,但运用机器学习及深度学习等人工智能技术构建的风险预测模型性能优于传统统计技术[9]。

2 基于电子病历数据的风险预测模型应用领域

学者Bates 等[2]指出:电子病历富含大量有价值的临床数据,运用技术手段分析这些数据,可以从中获得有别传统科研方法的新观点、新视角,起到优化临床护理结局,提升护理质量的目的。 基于EHR 数据的风险预测模型, 主要运用于护理领域的不良事件风险预测、PICC 相关风险预测、 高危结局风险预测等问题。现结合国内外文献,介绍目前护理领域风险预测模型的研究进展。

2.1 针对不良事件的风险预测模型 学者Rochefort等[10]针对临床护理工作最常见的3 类不良事件:医院获得性肺炎、导管相关性血液感染和院内摔倒,通过Logistic 回归构建风险预测模型来分别进行预测, 并对预测结果进行验证, 均显示良好的预测性能。并指出,在医院中更准确、及时、有效地预测不良事件, 能有效指导风险患者的预防性干预措施以及成为跟踪患者安全进展的关键。 学者陈沅等[11]回顾性调查1 163 例成人心血管手术患者电子病历数据, 通过Logistic 回归建立心血管手术压疮风险预测模型,灵敏度(sensitivity,Se)为65.7%,特异度(specificity,Sp)为79.3%,阳性预测值为36.1%,阴性预测值为92.8%,ROC 曲线下面积 (AUC) 为0.751[95%CI(0.715,0.788)],可较好地预测成人心血管手术患者的手术压疮风险,利于护理措施的提前介入,减少压疮发生。

学者黄华平等[12]通过Logistic 回归构建失禁性皮炎风险预测模型,该模型Se 为71.43%,Sp 为88.57%,AUC 为0.904[95%CI(0.86,0.95)],为临床护理实践提供一定的理论支撑。 学者杨青等[13]通过分析观察611 例肿瘤患者发生难免性压疮的风险,在Braden 评分的基础上, 运用决策树构建肿瘤患者难免性压疮风险预测模型,Se 为84.8%,Sp 为77.4%,AUC 为0.840,可以较好地预测肿瘤患者难免性压疮发生风险,有助于压疮预防措施的介入,减轻患者痛苦。同样针对压疮的风险预测,学者Moon 和Lee[14]通过运用决策树构建护理机构老年人压疮相关的风险预测模型,结果显示:Se 为82.0%、Sp 为78.7%、正确率(accuracy)为0.804。 在相同的压疮问题下, 运用决策树比Logistic 回归的表现性能好, 在技术层面上是肯定的,但由于这些文献研究背景不同,比较结果说服力不够高。

针对同一个问题,学者宋杰[15]运用自然语言处理提取病例组1 673 例皮肤损伤护理不良事件电子病历数据,运用支持向量机、决策树、随机森林、人工神经网络4 种方式构建皮肤损伤护理不良事件预测模型,并对这4 种方式进行比较,结果显示:均有较高的预测能力,除人工神经网络模型外,其他3 种模型的准确率、召回率、精确率、F1 值均高于80%;模型间对比发现,随机森林模型的准确率(99.88%)、召回 率(99.88%)、精 确 率(99.93%)、F1 值(99.63%)、AUC(0.999)均较高,表现最好。 学者Park 等[16]通过分析电子病历中医院获得性管路相关的尿路感染患者数据, 构建风险预测模型, 运用3 种不同的建模方式:Logistic 回归、决策树和支持向量机,对院内尿路感染有风险者做出预测,并比较预测效果,其中:决策树构建的模型具有最高的准确性和敏感度,LR 构建的模型效应居中, 具有最大的受试者工作曲线(ROC),但假阴性率最高。支持向量机构建的模型表现一般。 可见传统统计技术(例如大量运用的Logistic回归)的建模性能表现不如决策树、随机森林等人工智能技术范畴的建模方式。

2.2 针对PICC 相关风险的预测模型 PICC 是护理重要的有创性操作。 学者刘芬[17]运用Cox 回归构建PICC-DVT 风险评估模型,其AUC 为0.73[95%CI(0.69,0.78)],能针对PICC-DVT 风险的发生具有较好的辨别能力,对临床护理工作有一定的指导价值。学者韩莹等[18]运用Logistic 回归,构建早产儿外周导入中心静脉置管(PICC)并发静脉炎症的风险预测模型,Se 为65.7%,Sp 为79.3%,AUC 为0.827[95%CI(0.761,0.893)],具有良好的预测价值,对提高早产儿PICC 安全性有积极作用。 可见,运用风险预测模型可以较好地识别患者PICC 相关风险发生,具有一定的临床指导作用。

2.3 针对护理对象高危结局的风险预测模型 学者邢霞等[19]运用Logistic 回归分析构建了颅内破裂动脉瘤术前再出血的风险预测模型,其AUC 为0.907[95%CI(0.825,0.968)],为护士在护理颅内破裂动脉瘤患者时,预防再出血提供参考。 学者安莹等[20]运用logistic回归构建慢性阻塞性肺疾病急性加重期患者短期预后预测模型, 模型预测预后的AUC 可达到0.903[95%CI(0.845,0.960)],适用于急诊科护理人员对该类患者的分诊判断。 学者王娜等[21]运用Logistic回归, 构建肝硬化患者肝性脑病风险预测模型,其Se 为83.9%,Sp 为77.6%,Ac 为0.855,AUC 为0.840[95%CI(0.757,0.924)],为医护人员提前采取预防性措施提供参考。学者张灵芳[22]运用Logistic 回归构建待产孕妇风险预测模型,Se 为78.06%,Sp 为68.51%,AUC 为0.828,在一定程度上可预测不良结局的发生率,帮助产科医护人员识别高危孕妇。 学者张政等[23]运用Logistic 回归构建肺癌晚期患者死亡风险预测模型,其Se 为89.1%,Sp 为78.3%,AUC 为0.870[95%CI(0.813,0.927)]。学者普鹰等[24]运用Logistic 回归构建腹腔镜手术患者中低体温风险预测模型,Se 为60.0%,Sp 为86.7%,AUC 为0.791,实际应用Ac 为79.54%,此模型具有良好的预测能力, 能够稳健地预测腹腔镜手术中低体温的发生,具有良好的临床应用价值。学者王娜[21]运用Logistic 回归构建肝硬化患者肝性脑病风险预测模型,Se 为90.5%,Sp 为85.0%,Ac 为85.5%,AUC=0.8400[95%CI(0.757,0.924)]。 学者张家妍[25]通过Logistic 回归分析构建了ICU 颅脑损伤术后便秘发生的风险预测模型,Se 为83.7%,Sp 为93.4%,Ac 为91.3%, 为临床护理人员识别高风险便秘患者提供参考,利于尽早采取措施,防止便秘的发生或是缓解便秘的严重程度,减轻患者痛苦。从这些文献中可以看出,风险预测模型的适用范围非常广,且对护理临床工作具有价值,能更加有效、科学的指导护理临床工作。 同样的,在这些研究中可以看出,传统统计方法的运用很多, 更高阶的机器学习或是深度学习运用很少。 学者Ge[26]研究使用AITs 来构建中风后肺炎的预测模型, 并与传统方法构建的风险模型进行比较,结果显示:基于多层感知器神经网络和递归神经网络的方法,构建的中风后肺炎预测模型表现最好,尤其是针对时间序列信息(中风后7 d 和14 d),获得最佳表现性能。 为护理领域中使用AITs预测模型实现对中风患者的管理成为可行,更加科学、有效的指导护理临床实践工作。

3 现阶段基于电子病历数据的风险预测模型存在的不足

3.1 预测模型构建方式较单一 护理领域风险预测模型,Logistic 回归建模方式占比最大, 随着数据挖掘技术的不断发展,人工智能已成为热门,潜力无限,但在国内护理领域,使用的研究者很少,可能与新技术需要研究者具有一定的计算机知识和技能,这为新技术的使用带来困难有关。

3.2 风险预测模型的评价指标不够完善 评价一个预测模型的好坏, 最常用的一对指标是: 区分度(discrimination)和校准度(calibration)。区分度,代表这个模型区分患者风险高低的水平,常用指标代表:AUC。校准度,则代表模型预测值与实际值之间的差异,常用指标代表:拟合优度检验(Hosmer-Lemeshow good of fit test)。 一个预测模型,也许有比较高的区分度,但若校准度较差,这个模型的应用效能也是不好的。就目前所发表的文献来看,大部分文献忽略了校准度的测评[27],这使得预测模型质量参差不齐,是很多预测模型无法在临床上开展使用的原因。 有1项关于心血管系统风险预测模型研究的系统综述发现,只有63%的风险预测模型测评应用了区分度,而应用校准度的更少,只有36%[28]。

其他常用指标还有: 假阳性率 (false positive rate,FPR)、假阴性率(false negative rate,FNR)、敏感度(sensitivity,Se)、特 异 度(specificity,Sp)、准 确 率(precision)、正确率(accuracy)和临床可解释性(Clinical interpretability)等。 临床可解释性这一指标,多运用在机器学习、深度学习等人工智能技术上,由于国内文献采用传统统计方法比较多, 所以这一指标运用极少。临床可解释性在针对随着技术发展,涌现出的越来越多的数据挖掘技术方面,很有意义。比如决策树或随机森林这类算法,过程清晰,其临床可解释性好。 而深度学习类算法, 由于其自身的黑盒技术特性,隐藏层的存在,导致“轻过程重结果”的现象,其临床可解释性较差, 需要研究者运用本专业的知识结合算法给出的结果来推导过程。

3.3 非结构化数据的全面有效提取仍具有一定难度 电子病历数据包含大量的非结构化文本数据,无法充分利用, 海量的电子病历数据结构化处理是临床数据分析的前提[29]。 电子病历中包含的纯文本数据项共307 处, 这些非结构化数据包含了非常丰富的医疗信息,但其中信息的准确、全面提取则较为困难[30]。学者Hong 等[31]基于FHIR 类型系统,实现了电子病历数据框架中非结构化数据的提取及与非结构化数据的集成。学者Malmasi 等[32]通过4 类临床事件(胰岛素下降的频率、他汀类药物用药下降、他汀类药物的不良反应、 减肥手术咨询), 应用开源代码Canary, 探讨电子病历数据中非结构化数据高精度挖掘的可能性。其中胰岛素下降频率的Se 为100%、阳性预测值为93.3%,而减肥手术咨询的Se 为44%、阳性预测值为96%。 可见,当电子病历数据中非结构化信息含量越高时,非结构化数据越不容易全面提取,Ac 越低。 学者宋杰等[33]使用自然语言处理电子病历数据中关于皮肤不良事件的文本信息,Se 达87.19%,而阳性预测值只有62.79%。这些研究说明,电子病历数据中的非结构化数据的全面有效提取, 仍有一定难度, 可能与电子病历数据中文本信息的记录格式不统一、事件表达形式多样有关,这为电子病历数据的充分利用带来障碍。

4 展望

目前, 许多医院都无法有效利用大数据分析电子病历以生成高质量的研究及其临床实践[34]。 利用电子病历数据,挖掘潜力巨大,目前临床上的使用越来越多,风险预测模型能更加科学、有效的指导护理工作,在护理领域方面,风险预测模型的开展运用仍具有很大空间。学者Tubaishat[35]研究发现,护理人员仍需进一步学习和掌握计算机相关知识, 才能充分挖掘电子病历数据, 将电子病历数据转化为有价值的信息,让护理临床工作能从中受益,让精准化护理服务成为现实[36]。

猜你喜欢
病历预测临床
无可预测
X线与CT引导下骨病变穿刺活检的临床应用
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
舒肝宁心汤治疗心悸的临床观察
选修2—2期中考试预测卷(A卷)
复合妊娠32例手术治疗的临床观察
“病例”和“病历”
临床表现为心悸的预激综合征B型心电图1例
数字化病历档案管理构建与实践