赵前前 李嘉琛 梁立荣
(首都医科大学附属北京朝阳医院信息中心 北京100020) (1首都医科大学附属北京朝阳医院临床流行病学研究室(烟草依赖治疗研究室) 北京100020 2北京市呼吸疾病研究所 北京100020)
基于海量电子病历数据开展真实世界研究并为临床实践提供真实世界研究证据,已成为现代临床医学研究趋势。相比于欧美国家,我国开展此类研究具有数据资源丰富的优势。利用专病病历资源建立医疗大数据应用平台有助于发挥医院专科特色,将优势资源转化为学科发展的动力源。数据质量是真实世界研究数据转化为高质量研究证据的关键,也是医疗大数据平台应用所面临的重要技术挑战。目前医疗机构存储的电子病历信息存在以多源异构和非结构化数据为主、医学术语标准不统一等问题,建立行之有效的质量控制标准和体系十分重要。国内多家医院建立专病大数据平台[1-4],但既往文献对数据质控过程报告比较有限,且不同研究之间存在差异,缺少公认、系统化的质控体系。2018年北京市呼吸疾病研究所(以下简称呼吸所)和北京朝阳医院共同搭建呼吸专病医疗大数据综合应用平台。为了充分利用医院优势专科电子病历资源、促进高质量真实世界研究产出,院所联合从技术和管理制度两个层面构建全链条数据质控体系,本研究旨在分析与评价该质控体系的应用效果。
北京朝阳医院通过整合医院信息系统(Hospital Information System,HIS),检验信息系统(Laboratory Information System,LIS),医学影像存储与传输系统(Picture Archiving and Communication System,PACS)等临床业务系统数据,于2014年建立临床数据中心[5]。在此基础上2018年呼吸所与朝阳医院联合搭建呼吸专病医疗大数据综合应用平台。该平台首先从临床数据中心提取呼吸系统疾病患者门诊及住院的全部医疗数据信息,经过自然语言处理、数据转换和数据清洗,形成面向数据使用者的综合应用平台,见图1。
图1 呼吸专病医疗大数据综合应用平台整体架构和数据处理过程
数据的提取和处理包括以下步骤:数据中心对各临床业务系统数据进行整合和初步质控;平台数据对接,采用Web Service接口从数据中心获取数据,进入数据处理平台;自然语言处理,对电子病历中的非结构化文本数据采用条件随机场(Conditional Random Fields, CRF)模型进行实体抽取[6];数据转换,基于源数据和映射关系表将多源异构数据统一成标准的数据结构;数据清洗,包括数据格式化,基于规则表对空值、特殊符号、医疗专用名词进行格式化;数据标准化,根据临床专家建议、参照国内外标准,分别构建症状、诊断、药品、手术、检验和影像检查的医学标准知识库,将非标准的医学实体名称转换为标准的名称,见表1;标签化,由医学专业人员将标准化的医学术语归类打标签,使数据颗粒度更好地满足临床科研应用需求,由多组人员进行交叉核验以确保标签的准确和规范化;形成面向呼吸专科医护人员的结构化科研应用数据库。
表1 医学知识库术语标准词量
2.3.1 质量控制内容 参考既往文献,本研究主要考虑完整性、正确性、一致性、时效性以及合理性5个数据质量维度[7]。在大数据平台建立过程中可能发生提取错误、映射错误以及源数据错误[8],因此在数据处理的各环节采取相应质控措施,形成质控体系,见表2。
表2 呼吸专病医疗大数据综合应用平台全链条质量控制内容
2.3.2 质量控制规则 对于质控环节中的每项内容设定具体质控条目,采用基于规则的质量评价方法[9],每条规则是一个逻辑判断和相应的阈值标准,检查对象为数据库、表或变量。当数据达到标准时判别为通过该项检查,如果未达到标准则记录问题并及时反馈,触发程序或通过人工进行处理。
2.3.3 质量控制流程 参考观察性健康医疗数据科学与信息学(Observational Health Data Sciences and Informatics,OHDSI)的数据质量仪表板(Data Quality Dashboard,DQD),结合前期发现的实际数据问题,构建适合呼吸专病大数据平台的质控体系,包括5个维度、208条质控规则,覆盖数据整合和处理全流程。在数据中心的多系统数据整合环节,主要是保证数据获取完整、多源数据匹配正确。完整性条目是比较原始业务系统和平台获取的数据量;一致性条目是检查同一患者多次住院数据之间的基本信息(姓名、年龄和性别)一致性;此外每日统计药占比、费用和死亡人数数据与统计室比对。在数据处理平台需要保证数据采集的时效性、完整性以及数据处理的正确性。在数据接口监控数据获取时间;在每一个处理步骤设置数据量的完整性检查条目;对于非结构化电子病历的文本提取,计算精确率和召回率评价识别的正确性;对于标准化过程,通过计算处理后的名词与标准词之间的TF-IDF余弦夹角相似度来评价正确性。在综合应用平台进行统计描述,计算最终科研数据库中变量的分布情况、缺失值和异常值比例。此外在实际使用数据前研究者还需基于特定研究目的和标准进行相应数据处理。使用Python和SQL编写质控程序,实现大部分条目的自动化核查,少数条目需要定期进行人工核查,如自然语言处理的识别准确率。
为了确保数据质控的规范化和常态化建立规章制度。每日质控程序自动核查所采集数据,由平台专职人员在各环节对数据质量进行实时监控,第一时间发现并记录问题,根据问题原因向相关人员反馈、及时解决,必要时更新质控程序,纳入新的质控条目;每周定期和数据中心比对数据量,确保一致;每日导出数据质控报告,汇总数据情况以及存在问题;建立数据字典,保留质控过程文档,明确记录数据处理方法。医院病案科会核实病案首页的诊断编码并随时更新电子病历,数据中心每周会重新抽取数据,更新数据库。质控团队人员均严格执行上述各项制度,以保证每个环节的数据质量满足应用需求。
北京朝阳医院的呼吸专病医疗大数据综合应用平台目前已积累2013年8月-2021年4月的临床数据,其中住院146 745人次,门诊109 615人次,共有5 222个病种。数据内容包括患者基本信息、疾病史、检查、检验、用药、手术以及诊断。
数据质控系统在数据处理各环节进行不同维度和层次的检查,检查结果达到预先设定的阈值才被认为合格。数据中心一致性核查结果显示,同一患者多次住院数据的姓名、出生日期、性别、民族等基本信息的一致率高,在现有住院数据中只发现1例姓名不匹配、2例出生日期不匹配。时效性检查通过实时监控接口的数据获取时间,确保数据中心95%以上的数据可以及时对接到平台,见表3。
表3 部分质控条目检查结果示例
在数据处理平台核查变量正确性。为了评价自然语言处理对电子病历文本的识别效果,共抽取3万余份电子病历进行验证,结果总体精确率和召回率分别达到95.45%和95.3%,吸烟饮酒史、症状、药品等信息的精确率和召回率均超过96%,识别比较准确。对提取的实体名称进行标准化处理,通过计算处理后词语与标准术语之间的TF-IDF余弦夹角相似度来评价标准化过程的正确性。结果显示有83.2%的词语经过处理完全转化为标准术语(相似度=1),9.4%的词语与标准术语相似度在0.8~1之间,没有相似度低于0.6的词语。在各类项目中手术、诊断和药品名称的标准化程度相对较高,而影像检查结果的标准化程度略低,见表4。
表4 数据处理过程中的正确性评价
注:*表示对病历进行实体抽取,精确率为正确的实体数量/得到的所有实体数量,召回率为正确的实体数量/标准答案的所有实体数量;**表示处理后词语与标准术语之间的TF-IDF余弦夹角相似度,越接近1代表相似度越高。
对经过质控的科研数据库进行描述性分析,计算主要变量缺失率:年龄、性别、住院费用、住院天数以及出院诊断等信息均无缺失;吸烟和饮酒缺失率较低,分别为0.55%和3.01%;在体格检查指标中,血压(0.08%)和脉搏(0.02%)等生命体征变量缺失率极低,非临床必要变量身高(44.4%)和体重(49.6%)缺失率较高;疾病史信息没有缺失。
近年来电子病历等医学信息系统被广泛使用,医疗大数据已成为重要临床研究资源。但常规诊疗数据不是针对科研问题专门收集的,需要经过严格数据提取、整合以及清理过程才能形成符合科研要求的数据库。美国食品药品监督管理局针对临床研究数据提出了可溯源性、易读性、同时性、原始性、准确性、完整性、一致性、持久性、可用性的要求,即ALCOA+CCEA原则[10]。我国有研究者针对利用健康医疗数据开展真实世界研究制定了通用技术规范,提出应从既有数据本身和研究型数据库构建过程两方面进行质量评价[11]。
随着真实世界研究证据的快速增加,医疗大数据质量愈加受到重视。目前医疗机构通常建有数据中心,即整合各临床业务系统形成的数据库,但由于缺乏实际应用,往往未实施严格的质控措施。本研究在前期科研应用中发现许多数据质量问题,包括源自数据中心的数据缺失、关联错误,以及源自原始数据的术语不标准、信息不完整等。因此医院和呼吸所联合构建质控体系,从数据中心质控开始,重在控制数据缺失和多源数据匹配错误;对呼吸专病大数据综合应用平台的数据对接、数据转换和数据清洗各环节进行长期持续质控;同时建立反馈机制,根据临床医护人员在应用中发现的新问题,不断查找质控漏洞、完善质控环节、细化质控条目和标准,从而构建临床应用驱动的全链条、动态完善的质控体系,并以规章制度确保各项质控措施落实常态化与标准化。
为了使质控体系具有科学性,本研究参考了既往数据质量的理论框架。数据质量涵义复杂,涉及多个不同维度,而且存在不同术语和概念[12]。有研究者归纳出了完整性、正确性、一致性、时效性以及合理性这5个电子病历数据质量维度[7]。不同维度之间可能存在一定重叠,如合理性常作为正确性的代理指标,通过检查不合理数值识别数据错误。基于质量维度的理论框架产生了具体的评价指标和工具。OHDSI设计了通用数据模型(Common Data Model,CDM)[13],以统一标准对临床数据进行抽取、转换、加载(Extract-Transform-Load,ETL),并开发配套质量评价工具ACHILLES和DQD。但这些质控工具对原始数据的标准化程度要求较高,难以直接应用到国内[14]。本研究从实践出发,将理论与现实数据问题相结合,探索性地在国内一家综合医院构建了系统化医疗大数据平台质控体系。但国内不同医院之间的临床信息系统存在差异,原始数据质量参差不齐,未来还需加强国内医院的信息化建设,统一标准,以实现医疗大数据应用的互联互通。
专病数据库可以有力支持医院特长专科临床研究,我国已有多家医院建立了专病大数据平台,并依托平台数据开展研究[1,3,15]。在提取自电子病历的数据库中,临床专业术语往往存在不规范、不统一的问题,因此建立通用数据标准十分重要。本研究发挥北京呼吸疾病研究所的学科优势,参考国内外现有标准建立呼吸专科医学知识库,对电子病历中的专业名词进行了标准化,使研究者可以通过标准术语进行数据查询和筛选,提高科研数据质量。今后可以将呼吸专科数据标准进一步完善、推广,建立区域、国家层级的通用标准,推动不同医院间的数据共享和科研合作。
本研究基于呼吸专病医疗大数据综合应用平台的科研需求,构建了从多源数据整合、平台对接、自然语言处理、数据转换、数据清洗直到最终综合应用平台的全流程质量控制体系。应用后数据库中重要临床相关变量缺失率降低,检验、检查、药品、诊断等医学术语基本实现标准化,可以支持呼吸专科医护人员开展呼吸系统疾病诊治相关临床研究。
与既往质量评价系统相比,本研究构建的大数据平台质控体系的主要特点在于全流程动态监控。针对数据整合、对接、转换和清理各环节存在的主要问题设置相应质控条目,在每日获取数据的同时动态监测数据质量。考虑到数据质量问题往往产生于实践中,本研究以制度确保质控工作常态化,在科研应用中逐渐扩充质控条目体系。但现有质控措施主要解决数据提取和转换过程中发生的各类错误,而不是临床数据质量问题,例如病历书写不规范导致关键信息缺失或不准确等。质控系统有助于识别此类问题,通过反馈促使临床医生提高病历书写质量,增强标准化程度。今后可以通过建立专科电子病历系统,特别是完善研究型病房住院电子病历系统,从根源上加强原始数据填写的规范性,确保后期应用于真实世界研究的数据质量。目前本研究构建的全流程质控体系主要适用于呼吸专科疾病的住院数据资源,未来可以和更多学科专业组对接,将医学标准知识库进一步扩展,建立并实施适合综合医院的多学科住院数据资源质控体系,这对促进综合医院临床数据资源的转化应用及学术影响力的提升具有现实意义。