基于医院电子病历数据构建风险预测模型的研究进展*

2023-11-24 10:51许来雨彭伶丽周芳意
现代医院管理 2023年5期
关键词:病历预测信息

许来雨,彭伶丽,周芳意

(中南大学湘雅医院临床护理学教研室,长沙市 410008)

电子病历是一种医学专用软件,由一系列个人健康资料组成[1],包括文字、符号、图标、数据以及影像等医疗服务工作记录[2]。随着网络技术和信息技术的发展,电子病历系统顺应医院计算机网络化管理的发展趋势,被广泛应用。2017年12月,国家卫健委指出医疗机构应加强以门诊及住院病历为核心的综合信息系统建设,利用大数据信息技术为医疗质量控制、规范诊疗行为、调配医疗资源等提供支撑[3]。基于电子病历系统的风险预测模型是临床决策支持系统的基础,可以针对给定的一组患者特征快速计算其发生某种结局的风险[4],帮助医护人员及时发现病情变化,采取针对性措施,改善患者结局[5]。笔者从使用电子病历构建风险预测模型的研究设计、优势及不足三个方面进行综述,为未来医疗领域风险预测模型的构建提供参考。

1 研究方法

目前大多数风险预测模型以一个电子病历数据集为基础,回顾性纳入病历资料进行对比分析,前瞻性研究相对较少。

1.1 数据收集及数据预处理

根据研究目标,在数据集中寻找需要的数据,并对原始数据进行严格清洗、结构化、标准化、质量检查。变量的缺失值会增加数据分析的难度,也可能会使最终结果存在偏差[6]。数据缺失的处理有多种方法,包括均值填补法、期望值最大化法、回归填补法、多重填补法等,研究者根据不同的数据缺失特点具体选择[7]。自然语言处理信息抽取技术是处理电子病历的关键技术,有助于充分利用电子病历中的非结构化数据[8]。必要时进行人工分析和质量控制,以保证最终数据质量。

1.2 确立模型指标

建立风险预测模型,需要确立风险因子和结局指标。识别风险因子主要有3种基本方法:(1)查阅相关文献选取重要特征;(2)对数据集中的特征进行初步统计分析,确定与结局具有明显相关性的特征;(3)由专家给出一些高度怀疑的特征。实践过程中以三种方法结合使用多见[9]。近年来,基因信息也被应用到构建风险预测模型中,并且被证明对许多常见疾病具有预测价值[10]。

1.3 构建模型

1.3.1 数据划分。 一般分为训练集、测试集,部分研究增设验证集[11]。训练集主要用于拟合模型;验证集用于对模型的能力进行初步的评估;测试集用于评估模型最终的泛化能力。

1.3.2 选择相对成熟的预测方法。 数据挖掘又称“数据库中的知识发现”[12],指从大量不完全、有噪声的随机数据中提取隐含及事先不知道的潜在有用信息,统计学在其中占有重要地位[13]。应用于风险预测的传统统计学习模型以logistic回归模型和比例风险回归模型为经典。常用的机器学习算法包括贝叶斯、决策树模型、随机森林、人工神经网络和支持向量机等[14],详见表1。通过将机器学习建立模型与独特的诊疗知识相结合,可以更好地确定患者诊治工作的重点,增强医疗活动科学依据性[15]。

表1 基于电子病历数据构建风险预测模型的常用方法及特点

近年来,深度学习方法在处理大量多元数据时取得了良好性能,特别是在计算机视觉、语音识别、自然语言处理等方面[16]。陈雯等[17]对深度学习在癌症预后中的应用综述得出深度学习对癌症患者预后预测有良好的指示能力。

1.4 模型验证及评价

模型验证分为内部验证和外部验证。内部验证是使用与训练集相同的人群对模型进行评估,主要包括随机拆分验证、K折交叉验证、Bootstrap等方法;外部验证是使用其他数据来源的同类数据对模型进行验证。评价模型预测性能最常用的指标有区分度和校准度。区分度是指模型区分研究中阳性个体和阴性个体的能力;校准度是指训练集人群平均预测概率与实际发病概率的一致性。另外,评价预测模型的好坏不仅需要评估其预测性能,还需考虑数据采集成本、开发难易度及应用便利性,研究者应努力实现成本和效能之间的平衡。

2 优势

在医疗信息化建设中,电子病历因其具有快速全面准确地采集、存储、处理和传输医疗信息的能力,成为医疗信息化的核心建设内容。使用电子病历系统建立风险预测模型的具体优势如下。

2.1 样本数据充实

使用电子病历系统建立风险预测模型的首要优势即患者数据量大。基于电子病历系统的风险预测模型与传统风险预测研究不同,传统风险预测研究收集数据前,需要明确参与者纳入排除标准、定期随访等方法。而电子病历对患者的就诊和治疗信息全面记录[18],包括患者所有的健康信息,这一特点从本质上决定了电子病历数据规模更大。

2.2 信息元素丰富

传统风险预测研究开始前需明确要收集的特定指标以及相应的预期判定结果。而电子病历基本覆盖患者就诊的全部过程,支持几乎所有的实验室检验、临床医疗、长期医疗甚至家庭医疗中的信息和流程管理,医疗数据资源更丰富[19]。基于电子病历这一特点,陈漪[20]选取规律腹膜透析治疗同时患有糖尿病的患者建立感染风险预测模型,验证结果显示模型具有较好的预测性能。Wang等[21]和 Xie等[22]基于瑞典一项病例对照研究采集的电子病历数据,分别构建了食管鳞癌和食管腺癌患者5年绝对发病风险预测模型,为人群食管癌防控策略的制定提供依据,使用同一组患者数据预测多种临床结局成为可能。

2.3 采集数据频率高

电子病历系统记录并管理患者片段化或纵向的电子病历信息,时间序列是其重要特征,采集数据的频率通常远高于传统风险预测,因此预测患者特定事件发生的近期风险也更容易。周彤彤[23]调查发现与传统的基于特定时间的截面数据相比,使用电子病历时序数据建立的模型预测精度更高、结果更稳定,有助于实现临床终点预测任务提前预知。

2.4 结果可信度高

来自电子病历系统的患者群体涵盖广泛患者人群,人工选择较少,凡就诊治疗的患者其相关信息均被记录。电子病历数据来源于真实临床,而非设有诸多条件限制的科研场所,样本信息更具代表性。袁术鹏[9]基于临床数据建立老年骨科患者术后泌尿系感染的风险预测模型,经验证有较好的预测能力。

2.5 节省科研资源

电子病历数据是系统储存的资料,研究者通过申请可以直接使用。如刘宇英等[24]使用美国前列腺、肺、结直肠及卵巢癌筛查电子数据库作为数据来源建立结直肠癌发病风险预测模型。相较于传统风险预测队列研究,使用电子病历数据易于进行大样本研究,节省研究成本的同时,有助于提高研究效率。

3 存在不足

现阶段的电子病历系统仍存在种种不足,需在发展过程中不断完善。

3.1 数据质量存在问题

目前电子病历系统仍处于发展初期阶段,与手写病历相比,电子病历内容存在重复记录现象,Benke K等[25]认为是复制粘贴所致;如何处理数据缺失同样是电子病历系统研究公认的一大难点[26];另外,电子病历数据可能存在患者病情严重程度分布不均的问题[27],病历系统账户是否为账户所有者本人操作存疑[28],可能存在数据输入错误,影响预测模型准确性,有学者调查发现电子病历书写缺陷发生率高,需要加强改进病历记录质量管理[29]。只有拥有高质量的数据,风险预测模型才具有真正发挥作用的基础。

3.2 数据获取困难

3.2.1 数据提取技术仍不成熟。 电子病历数据包含的特征信息种类繁多、维度庞大,充斥着大量非结构化文本数据,且具有一定的时序性。人工分析法在大样本研究中效率较低,且受限于研究人员的经验,只能起到辅助作用。诸多学者对数据提取方法进行不断优化,自然语言处理技术不断更新。郑晓燕[30]对人口学数据进行one-hot编码,用二位编码代替原有的一位编码。沈贝敏等[31]采用深度协同过滤方法对现有精神疾病非结构化数据进行处理,最终模型准确性87.49%,精度51.13%。近年来,卷积神经网络和循环神经网络被应用于数据的特征提取,有助于充分利用电子病历中的时序性数据,但受限于只能捕获局部特征信息,对数据时序排列要求严格,缺少语义特性[32]。如何对电子病历系统中的大量数据进行表征学习仍是构建风险预测模型的主要挑战。

3.2.2 数据获取途径受限。 医学信息涉及到隐私保护和伦理问题,大多医疗信息是非公开的,国内各医院间信息无法共享,数据获取途径受限。吉云兰等[33]对严重创伤患者进行谵妄风险预测,但只基于1家医院ICU电子病历数据进行研究,可能存在选择偏移,结论需通过大样本、多中心研究进行验证。

3.3 风险因素考虑不足

国内外学者构建的风险评估模型中的风险因素不尽相同。大部分模型考虑影响疾病风险的因素数量单一,限制了判别性能[34]。变量的个数、种类、是否纳入了真正有预测作用的变量均有可能影响预测模型的效能。关于老年人跌倒风险因素,不同研究者研究结果不一,覆盖年龄、性别、疾病、药物、跌倒史、生活习惯、生理状态、心理状态、生化指标、环境因素和社会因素等各个方面[35]。基于电子病历数据筛选风险因素应综合应用文献报道、统计方法和医学专业知识三种策略,尽可能全面纳入。

3.4 模型验证不足

预测模型应用前,应进行强有力的外部验证。然而,由于具备完整临床信息的特定疾病患者数量往往不足、大量数据获取困难等现实因素制约,大多数研究没有进行模型验证,尤其是外部验证,模型的稳定性和外推性得不到保证,导致许多模型不能用于临床实践[36]。如于建发等[37]构建的患者预后风险模型,由于相关疾病患者数量不足,且部分临床特征无法获取详细信息,未能设立验证集,模型有效性有待进一步验证。

3.5 电子病历系统不统一

现阶段的电子病历系统多是中心特定的,尚未形成医院间整体统一的电子病历系统模式,预测模型针对特定的电子病历开发,能否在区域层面推广有待商榷。大量散在数据资源不能被有效整合利用,现有预测模型效能受到制约。2018年《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》提出医疗机构应逐步解决电子病历信息孤岛、信息烟囱问题,推进系统整合[38]。美国新一代医院信息系统实现了1 000多家医院信息的互联互通,其建设经验值得借鉴研究。

随着信息技术的快速发展,医疗行业全面进入信息化发展时代,电子病历在患者信息全程留痕化、数据标准化等方面优势明显,成为诊疗数据的重要来源。在亚健康人群和患病人群不断增多的全球背景下,预测疾病的发生发展及结局采用客观工具、减少主观经验判断具有重要意义。基于电子病历系统建立的风险预测模型充分利用病历数据,结果可信度高,节省资源,可有效帮助医护人员进行临床决策,然而在高质量数据获取、风险因素考虑、模型验证应用等方面还存在不足,现阶段电子病历仍存在患者数据重复记录、数据缺失等问题,尚未打破不同医院电子病历系统间的信息烟囱,未来构建高性能风险预测模型应注意规避此类问题。

猜你喜欢
病历预测信息
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
强迫症病历簿
“大数的认识”的诊断病历
订阅信息
不必预测未来,只需把握现在
为何要公开全部病历?
村医未写病历,谁之过?
展会信息