基于人工智能的电子病历数据质量控制

2021-03-26 20:39王志勇
解放军医院管理杂志 2021年2期
关键词:病案结构化病历

吴 骋,王志勇,徐 蕾,周 全*

(1.海军军医大学卫生勤务学系,上海 200433;2.海军军医大学第一附属医院,上海 200433;3.海军第905医院财经中心,上海 200052)

随着我国医院信息化建设的不断发展和完善,医疗卫生数据进入大数据时代。电子病历作为医疗信息的主要载体,在医疗数据中占据着重要地位。其记录患者从入院到出院的疾病发生、发展和转归的全过程,为医疗管理及临床研究等提供丰富的信息[1]。2018年,国家卫健委发布《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》[2],指出要充分发挥电子病历信息化作用,促进医疗管理水平提高和智慧医院发展,对电子病历数据质量提出更高的要求。而实际工作中,电子病历数据却因各种原因存在着错误、无效、不完整、不一致、异构等问题[3],相应的质量定量评估及治理措施又相对匮乏,严重影响其在医疗管理和临床科研中的二次利用和有效挖掘。

本研究联合人工智能技术(Artificial Intelligence,AI)和统计学方法(statisticalmethods),针对电子病历中两种主要的数据类型,即结构化数据和非结构化数据,分别探索不同的质控方法和技术,以期为建立符合循证决策或科学研究要求的高质量数据库提供参考。

1 结构化电子病历数据质控方法

结构化数据往往在采集时设置一定的质控条件,如病案首页数据、检查检验数据等,质量相对较好,可以采用评估数据质量、查找定位问题数据来进行数据清洗的思路,从而获得可用数据。

1.1 多维数据质量评估方法针对结构化数据,笔者已在前期研究中从数据的完整性、规范性、逻辑性及准确性等方面,构建多维数据质量评价指标体系[4]。其中,完整性是指关键指标的数据是否填全,评估内容包括个人信息核心字段缺失情况、首次病程记录重要字段采集情况等。如果某项必填指标,如性别,未填写则被认为缺失,数据不完整。规范性是指数据是否按规定的赋值字典填写,如病案首页的赋值字典中规定“入院时情况”为“1.危、2.急、3.一般”,但实际填写中出现除了1~3以外的阿拉伯数字,或者其他文字、字符,则为填写不规范。逻辑性是指关联数据间的逻辑关系是否正确,包括逻辑缺失与逻辑错误等,如主诉与现病史中对同一症状的时间描述不一致。准确性是指数据是否真实可靠,需溯源核查,但可通过指标的极端值辅助判断,例如人口学指标、生活习惯描述等应在合理取值范围,根据不同指标的实际意义进行判断,如身高过高或过低、妊娠年龄过小、日吸烟支数、日饮酒量过高等均被作为疑似值识别出来,进行后续核查、清洗。

1.2 数据清洗根据质量评估结果,定位问题数据后,可针对不同的数据问题制定不同的清洗策略,以控制数据质量。如数据缺失、异常或逻辑矛盾等,可采用自然语言处理(Natural Language Processing,NLP)技术,对电子病历中的医疗文本数据进行语义分析及提取,从中获取缺失数据可能的填补值,核对变量的逻辑性与准确性,并对关键变量进行标准化处理,如入院时情况、输血标志等信息;对无法填补与校正的数据,予以标记。如果是多次记录的检查检验纵向数据中某次记录值缺失,也可以根据缺失机制和比例,采用统计学方法进行填补[5],如多重填补法(Multiple Imputation,MI)。

1.3 应用案例针对结构化数据的多维数据质量评价方法已用于某三甲医院23万余名出院患者的病案首页结构化数据质量评估,发现该院病案首页数据的完整性与逻辑性较好,完整率与逻辑吻合率均在99%以上;规范性有待提高,符合规范率在86%左右。且通过自动化程序,可准确识别与定位问题数据,为数据清洗奠定基础。通过这一前期应用,反映出多维数据质量评估方法可以快速、高效地发现病案首页数据的质量问题,便于数据质量的定量监测[4]。

2 非结构化电子病历数据质控方法

电子病历中超过80%的数据都是非结构化数据,给数据的处理、利用带来一定障碍。因此,针对这部分数据,须先通过自然语言处理技术进行后结构化处理,在此基础上再进行数据清洗,控制数据质量。

2.1 利用多层级自然语言处理技术进行文本数据后结构化自然语言处理是实现电子病历文本数据后结构化的最佳途径。通过将文本信息进行分词、整合、提取、标准化等,将其转化成计算机可理解、分析的信息,实现数据的机器可读性。为得到更加准确、丰富的后结构化数据结果,采用一种多层级自然语言处理技术,即根据不同的文书类型(主诉、现病史等)分别建立符合其内容特点及上下文语义关联的数据抽取模型,避免数据遗漏和信息抽取错误。通过对原始数据的解析,识别出文本中实体、属性和关系等信息,最终转换成极细颗粒度的后结构化数据[6]。

2.2 数据清洗针对医学术语与临床症状表述的多样性,以及不同信息系统中疾病、指标、治疗等术语表达不一致的问题[6],通过分类回归树(Classification Regression Tree,CRT)、支持向量机(Support Vector Machine,SVM)等分类算法,以ICD-10、ICD-9-CM3等行业标准及权威教材用词为基础,通过标准化的数据清洗流程将日常诊疗过程中的医学自然语言进行规范化及标准化,完成多样化数据向标准化、规范化数据的转换,以便对医学用语的规范性进行评价,并对关键信息进行匹配、对比、分析。

2.3 数据质控系统构建上述步骤在流程上都属于对已采集数据的事后处理,为了在采集源头进行质量控制,建立内涵质控体系,通过病历生成过程中对其内容的自动核查与控制,实现在数据采集源头对质量进行把控的目标。主要功能包括医疗文本结构化、病案质量评价、病案质量分析。

2.3.1 医疗文本结构化 对电子病历文本数据进行结构化提取,包括有效信息之间的关联等。首先,根据病历书写基本规范和专业医学知识,对病历各节点内容进行建模,如“入院记录-主诉”,模型框架为症状、体征、疾病、检查、手术等。根据建好的模型,结合自然语言分词和语义分析技术,完成对病历文本的后结构化处理[7]。

2.3.2 病案质量评价 针对每份住院病案进行质量评价,详细报告缺陷内容,帮助医务人员快速定位病案书写错误并修正,从而保证病案质控的可追溯性及精细化管理。系统在对病历文本内容进行后结构化的基础上,根据国家统一标准规范对质控问题进行分类,如病历是否完整、前后数据是否一致、是否依据患者诊治过程书写等,形成智能质控规则库,并通过在医生端、环节质控及终末质控环节,设置对病历文书的自动监控、提醒和实时反馈功能,实现对病历质量的有效监控。

2.3.3 病案质量分析 针对科室及全院的病案质量问题,通过横向、纵向对比分析,以及可视化的统计图加以展现,为病历质量管理部门提供及时正确的决策依据,辅助其准确定位问题、制定改进措施,提高对病历质量管理的水平及效力。

2.4 应用案例非结构化电子病历数据质控方法目前正在某三甲医院进行测试评价,内容包含入院记录、出院记录、病程记录、手术记录、护理记录等。质控前,该院病历能够按照时限、频次、完整度的规范要求书写,但存在病历无内涵、书写自由、病历反映患者病情变化、诊疗过程等核心价值有待提高等问题。而通过前置在病历书写界面的自动化质控程序,能够准确识别雷同病历、内容前后不符、时间不符合逻辑顺序等问题。借助医学知识图谱,根据病历所记录的患者体征、症状、检查、检验等文本信息,还可以进一步发现记录的体征与诊断有冲突,疾病无对应的检查结果,疾病对应的诊疗方案未记录等问题。测试结果显示,质控技术的应用可以有效改进常见的病历质量问题,提升病历内涵质量;后续将通过更为丰富的质控规则设置,扩大病历内涵质量控制的范围。

3 展 望

目前,国家正在大力推进医疗大数据的发展与应用,很多医院已将医疗大数据治理及其效果评价作为医院建设与发展的主要工作之一[8-9]。电子病历数据作为医疗大数据的重要组成部分,其建设质量不仅影响到医疗大数据治理的整体效果,还可能影响到医疗质量管理、开展真实世界医学研究的可行性与科学性。缺乏高质量的医疗数据,再先进的人工智能和数据挖掘算法也会无的放矢。本文提出可用于电子病历质控的人工智能和统计学联合方法与技术,有助于提高电子病历数据质量控制的效率和水平,对于其他医疗信息数据的质控也具有一定参考价值。在“以数为证、循数决策”的数据文明时代,各级医疗机构和医疗管理部门都应建立起有效的数据质控体系,开展医疗数据质量评估与治理,方能促进医疗大数据发挥其应有的价值。

猜你喜欢
病案结构化病历
基于二维码的病案示踪系统开发与应用
强迫症病历簿
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
试析病案管理中预防病案错位发生的方法
“大数的认识”的诊断病历
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
为何要公开全部病历?
试论病案管理在防范医疗纠纷中的作用