田 琪 陈雅妮 韩喆僖 吕旭东
(浙江大学生物医学工程与仪器科学学院 杭州 310007)
临床数据是记录临床信息的载体。数据能够准确、完整地反映所记录的临床事实,是保证数据有效利用的重要前提[1]。临床数据的质量问题会严重影响临床工作正常开展,对患者生命安全和社会经济发展造成负担[2]。美国国家卫生信息协调办公室(Office of the National Coordinator for Health Information Technology,ONCHIT)报告中指出可预防医疗错误在美国每年导致超过4万人死亡,患者数据不匹配、诊断数据缺失等数据质量问题是造成医疗错误的重要原因之一。患者数据不匹配也是35%医疗保险拒赔理由,大约每年造成医院120万美元的损失[3-4]。临床数据质量评估是通过科学手段发现临床数据中质量问题的过程,是了解和改善临床数据质量的重要环节[5]。研究者基于质量评估结果判定数据是否可用,或针对暴露的数据质量问题采取相应改善措施,提高数据质量[6]。错误或无效的评估结果可能导致数据应用事故,威胁生命财产安全。数据质量评估流程标准化有利于保证评估结果准确性与有效性,然而实现标准化质量评估面临巨大挑战。一方面,虽然多数学者对“临床数据质量是一个包含完整性、合理性等多维度的复杂概念”这一观点已经达成共识[7],但是每种维度代表哪些临床数据问题仍未达成一致。例如评估人A认为的完整性代表数据项和数据值不能缺失,而评估人B理解的完整性则可能是数据总量不能缺失。由于评估人对于质量维度的理解不一致,两人对数据质量的衡量也就不一致,导致各自评估结果互相毫无意义。另外不同研究者对质量维度的认知不一致会造成评估人没有全面理解维度包含的数据质量问题,导致评估结果无法全面反映数据质量问题。另一方面,对于每种评估问题应当采取哪种评估手段取决于评估人的经验和技术实施水平。大多数研究都根据评估人经验选择评估方法,方法适宜程度和实施效果因人而异[7],难以保证质量评估的标准化。因此为促进临床数据质量评估的标准化,首先需要对临床数据质量有准确、完善的认知,其次减少评估流程对人工的依赖,提升质量评估的自动化程度[8]。
Weiskopf 等人在2011年通过文献综述,依据各维度在文献中的出现频次,得到5种高度关注的质量维度:完整性、合理性、准确性、一致性、时间性[7]。Kahn等人在2016年通过文献综述与专家讨论方式,提出包含完整性、合理性、一致性3种维度的质量评估框架。该研究中Kahn对每种维度都定义了若干评估指标。评估指标是对质量维度相关质量问题的详细描述[9]。Johnson等人也基于文献构建一套临床数据质量的本体。该本体中包含完整性、一致性、时间性、合理性4个质量维度,每个维度同样定义了若干指标[8]。Johnson描述质量评估中质量维度、实施手段等概念之间的关系及相关属性,初步描述评估指标自动化执行的思路[8]。目前研究中存在一些不足:第一,当前研究者在构建指标时考虑并不全面。例如Kahn并未将与需求相关的质量特性纳入指标体系[9],Johnson则没有考虑数据重复问题[8];第二,目前指标并未实现对一类数据质量问题的唯一定义,研究者仍会对相同指标有不同理解。第三,现有研究主要基于文献知识来构建指标。虽然文献是相关知识的可靠来源,但是指标构建缺少临床实际数据作为基础,降低指标可信度。第四,Johnson在本体中虽然描述了指标和评估方法之间的关系,但是缺少每项指标与具体实施方法之间的关联。针对以上问题,本研究通过结合文献知识与实际临床数据问题,构建相对全面的对质量评估问题进行唯一描述的数据质量评估指标,促进领域对临床数据质量理解的一致性。此外本研究依据的指标来源对每项指标所适用的评估方法进行描述,构建评估指标与具体评估方法之间的关系,为评估指标的自动化评估研究提供支持。
3.1.1 文献检索与整理 通过对国内外文献数据库进行检索来收集相关文献。对于英文文献,选择PubMed作为检索数据库以提高临床相关文献的检索相关性。以关键字"data quality","quality of data"对标题和摘要进行检索,时间限定为1998-2019年,共得到802篇文献,通过两轮筛选剔除不相关文献。首先,基于文献标题和摘要,剔除研究对象不是电子病历或医院信息系统相关数据或临床研究所收集数据的文献。对无法确定的文献进行全文阅读。本轮筛选排除267篇非相关文献。剩余535篇文献,基于标题和摘要保留同时满足以下两个条件的文献:研究内容含有数据质量维度或质量评估框架;作者对质量维度、特性提出个人观点。第2轮筛选最终排除509篇文献。对剩余的20篇文献[6-25]基于引文进行关联查询,对得到的文献采用同样流程进行筛选,最终再纳入3篇相关文献[26-28],累计得到23篇相关英文文献。对于中文文献,选择万方、维普和中国知网3个文献库。检索条件为主题中关键字为“数据质量”且摘要中包含“临床数据”,时间限定为1998-2019年。去除重复后共得到103篇相关文献。阅读文献标题、摘要,筛选其中与临床数据质量维度或特性相关的文章。对无法确定的文章进行全文阅读。经过筛选,得到4篇相关中文文献[29-32]。对其进行关联查询和筛选,发现两篇相关中文文献[33,34]以及1篇相关英文文献[35]。综上最终得到24篇英文文献、6篇中文文献。
3.1.2 基于文献的语料集整理 为收集文献中碎片化数据质量知识,对纳入的30篇文献进行全文阅读,摘录其中质量维度的相关描述。摘录遵循以下3条准则以确保内容相关:文献中关于数据质量维度的定义;对维度的解释说明;所列举的实际数据质量问题示例。最终得到包含247个段落或句子的语料集。
3.1.3 问题数据报告收集 在实际临床数据应用中,数据使用者会记录数据中的问题,形成数据问题报告,以便提高数据质量。数据问题报告中包含丰富的数据质量知识,为构建指标提供可用资源。本研究选择区域卫生信息平台构建和临床科研表单数据采集两类临床数据应用场景,收集该场景数据问题报告。构建区域化卫生信息平台是我国基础卫生建设的重要任务,国内各省市均开展相关建设[36];注册研究是针对性地收集特定诊断或病情数据并开展相关研究工作的一种常见临床研究手段[37]。针对以上两类常见的应用场景,分别选择两个典型案例进行数据问题收集。案例1:哈尔滨市2020年4-9月间,13家医疗机构产生25份数据问题报告,总计1 810条数据问题。每份报告涉及1家医疗机构,报告中的每条数据问题代表该医疗机构1张数据库表中所发现的一类数据质量问题。案例2:山西省某三甲医院2020年5-8月间,面向区域卫生健康信息平台构建的19份数据问题报告,总计1 372条数据问题。每份报告涉及该医院一类临床业务数据库表的数据质量问题,其中每条问题代表1张数据库表中的一类数据质量问题。案例3:国内某冠心病患者注册数据集。该研究数据由16家医疗机构共同参与收集,从2016年至今累积收集超过33 000例冠心病患者临床、随访数据。本研究收集该研究2019年6月-2020年1月期间6份数据问题报告,总计207条数据质量问题。案例4:国内某老年糖尿病患者注册研究数据集。该研究数据由全国141家医疗机构共同参与收集,2015-2017年间累积收集2 806例老年糖尿病患者(年龄>65岁)诊疗和随访数据。收集该研究2016年7月-2017年1月期间的8份数据问题报告,总计323条数据质量问题。案例1代表在区域卫生信息平台构建中多家不同医疗机构所发现的数据质量问题;案例2则代表同一家机构在长期多次数据递交中所发现的数据质量问题。两个案例结合能有效代表该场景中遇到的数据质量问题,具有典型性。案例3和案例4则是多中心、跨地区、大规模的患者注册研究,具有典型性。
为使指标清晰、唯一描述数据质量问题,对指标进行结构化描述十分必要。Johnson曾在研究中提出一套临床数据质量本体,对质量评估相关概念进行定义[6]。我国卫健委发布的电子病历数据评估相关标准中也对指标进行一定描述[38-39]。Johnson本体和我国相关标准中出现的11个与质量评估相关的概念,见表1。本研究选择其中9个概念作为指标属性。其中问题描述和评估对象两个属性是区分指标的两个重要属性,分别代表指标所描述的临床问题类型以及指标所适用的数据对象类别。没有选择数据集、评估结果两个概念作为指标属性,因为本研究针对临床数据提出评估指标,不面向其他领域数据集;评估结果也不是描述评估过程的属性。
表1 指标属性以及对应文献依据
续表1
3.3.1 确定热点维度 临床数据质量维度是用来描述临床数据质量特性的专用概念。统计文献中不同维度出现的次数得到当前关注高的质量维度[8]。统计所得文献中各维度的出现频次。由于目前缺乏统一术语标准,相同维度可能会使用同义词来表示,例如consistency和conformance, accuracy 和correctness等;不同含义的术语在不同研究中也可能代表相同维度。因此根据维度定义统计相同维度出现的次数并记录相关同义词,最后得到当前关注最高的5种维度,构建相关指标。
3.3.2 基于语料分析归纳指标 指标归纳流程,见图1。(1)语料分解。从文献中收集的语料可能存在一条语料描述多种质量问题的情况。为实现指标对质量问题的唯一表达,对语料进行分析与拆解。例如从文献[22]中收集到的语料“数据一致是指相同数据在不同应用、系统中的描述应该一致,例如患者的医疗档案编号。此外相关联的数据也应当不冲突”。该语料描述了两种情况,因此将其拆分为“数据一致是指相同数据在不同应用、系统中的描述应该一致,例如患者的医疗档案编号”,“相关联的数据也应当不冲突”两条描述。(2)语料分类。依据内容对语料进行分类。第1类语料是文献作者对相同类型临床数据质量问题的归纳总结,例如 “数据包含任务所需的所有数据项目”;第2类语料通常是文献作者用来举例说明的示例,需经过归纳总结才能表示为相应的评估指标,例如“数据应包含患者的血压、心率值”。(3)指标合并。对于第1类语料,通过分析语料语义对相似观点进行合并,从而形成对应的评估指标。语料语义分析主要从其描述的数据对象(数据值、数据记录等)、数据问题(数据缺数、重复等)或数据约束(不为空、不重复等)描述、对应的质量维度(完整性、合理性)3个方面进行考虑。(4)指标映射。将第2类语料与步骤3中已得到的指标进行映射,剔除能映射到指标的语料,避免指标重复。(5)归纳总结。对于步骤4中尚未对应指标的语料,基于其含义归纳总结相应的临床数据质量评估指标。与步骤3中类似,将语料描述抽象为3个部分:数据对象、数据问题或数据约束以及对应的维度。最终将所有语料转化为相应的评估指标。
图1 指标归纳流程
3.3.3 基于数据问题报告归纳指标 本研究所收集的问题数据报告主要包含数据库表名、问题描述、不符合要求数3部分内容。其中问题描述部分是对质量问题发生的位置、对象以及对质量问题的描述。问题数据分析总结流程,见图2。首先,对于数据问题报告中的每条记录,分析问题描述部分,获取两部分关键信息:问题发生的数据对象和该质量问题的描述。其中根据其数据对象的描述,将其抽象为数据元、数据值或数据记录等。其次,根据所抽象的评估对象以及问题描述,将其与已成立的指标进行映射匹配。若评估的数据对象和质量问题描述都能匹配至对应指标则说明该条问题记录已存在对应指标;若没有对应的指标与问题关联,则针对该问题新建指标。
图2 数据问题归纳为指标的流程
3.3.4 指标信息补充 对于最终得到的指标,按照其指标属性定义,依据指标所来源的文献描述或案例场景的实际情况,对其补充评估方法、适用场景等相关信息。
Kahn在2016年提出一套质量评估框架,在其研究中将个人提出的框架与前人研究框架进行比较,证明个人提出的评估框架具有一定全面性[9]。我国卫健委发布的《电子病历系统应用水平分级评价标准》[38](下文简称国标)是针对电子病历应用评级的质量要求标准,按照维度对不同类别临床数据提出相应的质量评估需求。病房病历是国标中的一个类别,其中包括患者住院病历所涉及的相关数据,这些数据因为含有丰富临床信息,有很高的二次利用价值,其数据质量问题被广泛关注[40]。本研究设计以下对比试验来验证研究所提出指标的全面性和描述唯一性。选择国标中病房病历类别相关的质量评估需求作为金标准,将本研究提出的评估指标和Kahn框架中所提出的评估指标与国标的质量需求进行对应,比较两种指标的完善程度和对应需求的难易程度。
基于对30篇文献的分析,出现次数最高的前5种质量维度和定义,见表2,分别为完整性(28/30)、准确性(24/30)、时间性(21/30)、一致性(18/30)和合理性(18/30)。
表2 质量维度、相关术语和定义
4.2.1 指标及其定义 基于30篇相关文献以及3 712条临床实际问题,本研究从5种质量维度归纳出43项评估指标。各指标代码、名称和指标来源,见表3-7。43项指标在文献中均有提及,29项指标源自数据问题报告。
表3 数据完整性相关指标
表4 数据合理性相关指标
表5 数据一致性相关指标
表6 数据时间性相关指标
表7 数据准确性相关指标
4.2.2 结果验证 本研究选择国标中住院病历相关质量需求作为金标准,比较Kahn指标、本研究所提出的评估指标与国标需求的对应唯一性。结果表明国标中关于住院病历的质量需求能够与本研究所提出的指标实现一对一对应;而在与Kahn的对应过程中,需求(1-4),(6-7)没有找到对应指标;需求(5)、(12-13)能够明确对应到Kahn框架中的某个指标;需求(8-11)能模糊对应到Kahn指标。本研究所提出的质量评估指标能够更全面、更准确地对应到实际评估需求。
4.2.3 结果讨论 标准化的临床数据质量评估对于提高临床数据质量意义重大。构建全面、描述唯一的质量评估指标是实现标准化评估的重要前提。本研究结合文献知识与实际数据问题,提出一套临床数据质量评估指标,详细描述指标所适用的评估方法,为实现标准化、自动化的临床数据质量评估奠定基础。本研究选择两种不同类型临床场景数据问题报告,收集的问题条目数量上有较大差异,原因有以下两点:一是在本研究所选择的注册研究采集场景中研究人员将不同机构数据合并后再进行评估,因此同一份报告中不同机构的相同数据问题被合并在一起;二是注册研究场景中各机构会根据报告迅速地采取相关措施,因此后续报告中数据问题会逐渐减少。然而在本研究的分析过程中,同一类型数据问题只要出现一次就会关联相关指标,同类型问题出现的次数不会影响最终指标结果。因此在本研究中两种场景数据问题在数目上的差异没有影响最终建立指标的结果。高效、自动的数据质量评估技术是研究者一直致力的目标。本研究描述评估指标所适用的评估方法,构建评估需求与评估方法的联系,为研究自动化评估技术提供一定支持。统计指标适用的评估方法,有29项指标(67%)可以通过逻辑规则方法进行评估,其余14项(33%)则适用于统计分析、自然语言处理算法等手段进行评估。这29项指标涉及5个质量维度,其中包括数据值完整、数值合理等被大多数研究或标准所要求的评估指标,因此也说明基于逻辑规则的评估方法是一种相对普适的评估手段。然而逻辑规则的定义与具体的知识相关,目前逻辑规则的创建主要依赖人工完成。基于本研究,研究者能够了解适于采用逻辑规则方式进行评估的指标,这些指标代表了相关临床数据质量问题类型。因此如果能够找到与这些指标相关的评估知识源,则可以在这些知识源的基础上探索自动化评估的可能性。目前逻辑规则评估所涉及的知识包括临床知识、通用常识以及数据知识等。临床指南、临床信息模型中都对这些知识有一定的描述。通过自然语言处理等技术提取其中的相关知识自动化的生成评估规则是具有可行性的自动化评估手段之一。后续本研究基于指标探索以临床信息模型为基础的自动化逻辑规则生成技术。
本研究通过对质量评估相关文献和实际数据问题中相关知识进行收集、分解、合并与归纳,基于当前关注度较高的质量维度,即完整性、合理性、准确性、一致性、时间性,构建包含43项对数据问题进行唯一表述的评估指标,描述各项指标所适用的评估方式。通过与传统指标以及国家标准的比较,本文所提出的质量评估指标更全面地涵盖国标中的评估需求,更清晰、准确地映射到现有国家质量评估标准。对于临床数据质量评估的标准化有促进意义。本研究也存在一些不足:首先,即使结合文献与实际问题报告总结归纳指标,仍然难以保证指标全面性。收集文献时尽量更多地纳入相关文献,在案例选择上充分考虑典型性,从而最大可能地代表当前实际应用中质量评估的需求。其次,本研究提出的指标需组织专家进行评估和验证,在后续工作中将组织经验丰富的专家对指标进行讨论和完善[12]。