——卫 荣
在医疗领域,互联网、物联网等新技术深度融合导致健康医疗大数据呈指数增长。健康医疗大数据被广泛应用于医疗行业的各个领域,包括药品研发、临床辅助决策、定制化医疗、居民健康档案等方面,这对于提高医院管理决策的科学性、控制医院基础运营成本、提升医疗服务满意度、促进医疗事业健康有序发展等具有重要的研究价值。但医疗大数据有其自身的典型特点, 某些非显性价值信息不可以被直接使用,而是需要像“浪沙淘金”一样,通过建立适当的分析模型,并运用相应的技术进行有效的深加工和挖掘分析[1],其中数据质量至关重要。根据“垃圾进,垃圾出(Garbage in, Garbage out)”[2]的原理,如果数据本身质量存在问题,系统运算、分析的结果也极有可能是错误的, 甚至与真实情况南辕北辙。因此,数据质量是发挥医疗大数据价值的必要条件。现阶段,健康医疗大数据存在诸如数据冗余、异构、多源、错误等问题,以及数据获取过程中的度量标准和可信度问题等,导致数据质量无法达到准确分析的要求。本研究对我国健康医疗大数据目前存在的质量问题现状进行深入分析,并针对性提出对策建议。
我国对于健康医疗大数据的统计收集已开展多年,目前其主要来源有:(1)医院临床数据。即患者就诊时产生的各类医疗信息;(2)公共卫生数据。包含患者基本信息、就诊记录等;(3)移动医疗健康数据。物联网数据(患者体征数据、康复医疗数据、实时监测数据等)整合形成移动医疗健康数据;(4)生物样本数据;(5)基因数据。基因检测数据;(6)医学知识库。知识图谱、医疗指南、文献等。
健康医疗大数据除了具有传统大数据数量大、种类多、产生速度快以及医疗行业的特殊属性外,还具有海量性、复杂性、精确性、隐私性、异构性及封闭性[3]。
(1)海量性。医疗机构除了诊疗过程和医学检验中产生的数据之外,还包括近年来快速发展的物联网技术,使得信息获取和分析的速度已经从原来的按“天”计算发展到按“秒”计算,比传统数据量要大得多[4]。(2)复杂性。健康医疗大数据产生于各类医疗服务过程中,不同医疗机构之间的数据存储差异性较大,因此复杂性极高。(3)精确性。健康医疗数据与患者生命息息相关,任何失误都有可能导致错误结论,因此要求绝对精确。(4)隐私性。医疗数据包含大量敏感信息,涉及患者个人隐私,具有较高的隐私性,需要进行严格的数据隐私处理。(5)异构性。医疗数据来源广泛,类型多样,有大量结构化、半结构化和非结构化数据,异构性较高。(6)封闭性。医疗信息系统之间普遍存在“信息孤岛”问题,因此各个医疗机构内部都有一套独立运行的内部数据体系,数据之间无法共享。
“高质量”是医疗大数据有效分析和应用的前提,否则即便建立先进的数据挖掘分析模型,借助强大的数据分析工具,也只能是所谓的“垃圾进、垃圾出”。医疗大数据的质量治理体系是一项复杂的系统工程,包括数据的产生、采集、转换、存储、传递、 使用及销毁全生命周期过程,涉及管理、技术和流程3大因素。现阶段医疗大数据质量问题主要体现在以下几个方面:
由于各个系统信息孤岛问题严重,区域卫生信息平台覆盖不足,而单独的医疗机构又缺乏获取自然环境、社会环境以及经济属性信息的途径,导致数据的完整性不够。
目前医疗信息系统还处于发展阶段,对临床医疗过程中的数据收集不够细致,加上有些医务人员对医疗过程数据的重视度不够,很多医疗数据在医疗过程中并没有及时填写,最终导致医疗数据的精细度严重不足。
现有医疗数据的标准尚未完全统一,且医疗信息领域市场庞大,厂商众多,导致不同异构数据源产出的数据标准不一致。
目前,大部分医疗信息系统的自动化程度较低,医务人员在医疗过程中手动填写,会导致原始数据存在数据错漏、数据不准确等问题。大量医用自动化设备,如便携体征采集设备,缺乏统一度量及验证,导致数据采集偏差。数据采集设备自身的局限性以及现场环境因素的干扰,也会出现数据冗余、数据缺失、数据错误等问题,不利于数据的后续利用。
数据的多源以及数据类型的多样性导致数据分类十分复杂。由于采集系统缺陷、链路问题、硬件故障、模型参数错误、人为因素等原因造成的数据质量问题普遍存在,而低劣的医疗数据会引起大数据分析出现偏差,直接导致生产事故或错误决策,给医疗机构经营发展造成不利影响。拥有高质量的数据是发挥大数据效能的前提,只有从高质量数据中挖掘出隐含的、有用的信息,才能更好地为医疗机构的经营决策服务。
针对造成医疗数据质量不高的原因,从技术手段、管理流程等方面对数据质量进行治理,将信息数据看作产品,提出全面数据质量管理(TDQM,Total Data Quality Management)方法[5]。
图1 健康医疗大数据质量治理体系架构
针对医疗大数据存在的质量问题,医疗机构和卫生行政管理部门需要采取必要措施对数据质量进行控制。
医院通过制定相应管理规范对医疗大数据进行管理,并通过知识图谱、数据融合等关键技术实现医疗大数据的质量控制。健康医疗大数据质量治理体系架构见图1。
数据质量评估标准是提高数据质量的基础和前提[6]。虽然业界已对数据质量评估进行了大量的学术研究和应用探索,但目前还没有完全统一的定义和体系化标准。本研究参考相关文献,分别从数据质量指标、数据处理过程指标和数据效能指标等3个方面,对全生命周期的健康医疗大数据质量进行评估。
(1)数据质量指标。包含完整性、可用性和重复性。完整性定义了数据记录和信息的完整程度以及存在缺失的情况;可用性是有效性、准确性和一致性的总和;重复性说明了数据重复程度,并根据定义好的规则计算出数据的重复率。
(2)数据处理过程指标。通过对数据处理过程中校验、传输、清洗、提取等数据处理技术进行评估,衡量每一个处理过程可能带来的数据质量变化,从而对每一个处理过程进行评价。
(3)数据效能指标。数据效能反映了数据对于用户的需求程度。数据价值在于使用,数据质量再高、处理得再快,如果用户不用或极少使用,或使用效果没有达到用户期望,那么这些数据的价值也不高。
医疗大数据的数据质量问题日益受到学界和业界的重视,相关的研究也越来越多,除了需要构建大数据质量治理体系框架外,还应从以下方面进行质量治理对策研究:
我国医疗大数据的应用尚处在初级阶段,对大数据人才需求巨大。目前各级医疗机构及管理部门都在进行大数据平台技术、数据分析、医疗领域等方面综合技能人才的引进与培养,但很少有医疗机构成立专门的包括临床医疗人员、数据工程师、软件工程师、数据分析师等人员的大数据部门,更缺乏对大数据的质量管理以及对数据质量管理相关技能人才的培养。
根据国家卫生健康委员会实施“1+7+X”健康医疗大数据应用发展的总体规划(即建设1个国家数据中心,7个区域中心,并建设若干个应用发展中心规范),为推进健康医疗大数据发展,国家卫生健康委已指定福建省、江苏省及福州市、厦门市、南京市、常州市为健康医疗大数据中心国家试点工程的第一批试点省市。第二批健康医疗大数据中心国家试
点将在山东、安徽、贵州3个省开展。这些试点机构的成立,能够加快医疗大数据质量管理团队以及人才培养的建设步伐。
提升数据质量,标准化要先行。数据质量标准要求不同信息系统内的医疗数据要填写规范,例如主数据规范、元数据规范和相关数据质量规范。标准的制定有助于实现医疗大数据的规范管理,包括数据定义清晰准确,数据责任方明确,数据存储方式和存储时间合理,数据处理方法明确,数据内容符合质量要求和数据标准。目前,我国针对医疗大数据质量的相关技术标准正在逐步建立,国家卫生健康委员会相继出台了多项管理制度,如《关于印发大数据标准、安全和服务管理办法(试行)的通知》(国卫规划发〔2018〕23号)、《关于印发全国医院信息化建设标准与规范(试行)的通知》(国卫办规划发〔2018〕4号)、《国家卫生健康委办公厅关于印发全国医院数据上报管理方案(试行)的通知》(国卫办规划函〔2019〕380号)等文件,在医疗大数据采集、加工、存储共享等方面进行了规范,加强了医疗大数据的质量管理,也充分发挥了标准化在医疗大数据应用和发展
过程中的引领作用。
数据质量管理需要借助相应平台和工具,如数据清洗过程需要ETL工具(抽取-转换-加载)[7]以及文本结构化工具[8]等。医疗大数据质量管理平台支持不同类型的存储工具,包含元数据处理和生成、数据使用权限制定、数据审批流程管控、数据质量监管等。此外,数据质量管理平台需要围绕各临床医疗应用展开。
在构建医学主数据管理字典时,要首先从业务系统中抽取关键字和关键信息,然后利用医学知识图谱技术[9]对抽取数据的描述信息、编码信息等进行标准化处理。由于各业务系统的数据存储方式不一致,还需通过匹配算法[10]完成数据的整合、消歧、加工、推理验证、更新等,并利用增量学习方法对匹配算法进行优化。对于无法匹配的孤立信息,则要进行监控追踪,并由人工进行处理,最终将整理完毕的数据信息存入到主数据字典中。
各医疗机构也需要对现有数据采集、分析流程进行标准化管理。要详细规定医疗数据使用者的人员配置与管理标准,落实数据标准、数据更新、数据质量追踪的负责部门和负责人。此外,流程管理规范还须明确各类审批流程的流转步骤。医疗大数据的使用流程规范是所有流程管理中必须关注的质量安全问题,通过采用固定的审批流程对数据使用进行管理,由临床科室提出数据的使用要求,数据管理部门及医院相关管理部门进行审批。但是,这种方式还存在一些漏洞,如审批流程不会规定哪些科室和医生可以在何种情况下导出数据,以及数据导出之后如何流转、如何使用、是否可以离院等。因此,权限规范必须对不同人员可以进行何种操作做出具体规定。以科研流程为例,其并不是简单的数据导出和使用,需要对不同信息系统提取的数据字段进行数据清洗、去重、融合和确认,因此需要规定不同级别的权限,使数据管理部门、系统工程师及临床医生实现协同[11]。
随着医疗信息化与生物技术的快速发展,医疗大数据呈现出爆发式增长,其已经成为医疗行业的重要资源。数据质量直接关系到信息的精准度与产出的正确性。在医疗大数据应用尚处于起步阶段的情况下,除了要研究医疗大数据分析平台和掌握医疗大数据分析建模技术,医疗大数据质量治理也是研究的重要一环。医疗大数据分析产生的结果直接影响人们的生命健康,对数据质量的要求尤其高,对覆盖医疗大数据全生命周期过程的数据质量管理有待进行全面、系统、深入的研究。