一体化医疗数据资源体系建设研究

2024-01-02 10:57:45汪榕胡丹丹简义鹏
计算机时代 2023年12期
关键词:数据治理

汪榕 胡丹丹 简义鹏

摘  要: 为了充分发挥医疗数据价值,围绕医疗数据汇集、存储、管理、应用的全生命周期进行梳理,提出构建“一体化医疗数据资源体系”的医疗数据治理思路,探索医疗数据标准化、精细化、数字化管理,从而打造数据驱动型的健康医疗应用平台,提升医疗数据的应用效能。

关键词: 医疗数据; 资源体系; 数据治理; 医疗数据应用

中图分类号:R319          文献标识码:A     文章编号:1006-8228(2023)12-135-05

Research on the construction of integrated medical data resource system

Wang Rong1,2, Hu Dandan1,2, Jian Yipeng1,2

(1. CETC Big Data Research Institute Co.,Ltd., Guizhou, Guiyang 550022, China;

2. National Engineering Research Center of Big Data Application to The Improvement of Governance Capacity)

Abstract: To fully leverage the value of medical data, focusing on the entire lifecycle of medical data collection, storage, management, and application, the idea of medical data governance of constructing an "integrated medical data resource system" is proposed to explore the standardization, refinement, and digital management of medical data, so as to build a data-driven healthcare application platform and improve the application efficiency of medical data.

Key words: medical data; resources system; data governance; medical data applications

0 引言

健康医疗大数据作为具有重大发展前景的数字化生产要素,在提升医疗服务质量、精准防治疾病、辅助管理决策等方面具有较大的应用价值。但由于多模态医疗数据具备高复杂性特点,导致医疗数据标准化治理面临诸多问题,如数据烟囱、数据质量参差不齐[1]、缺乏统一标准[2]、数据利用难度大等。因此,国家陆续发布了健康医疗大数据相关的规划与政策,如《国家健康医疗大数据标准、安全和服务管理办法(试行)》[3]《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》[4]等,进一步规范和推动健康医疗大数据治理、融合、共享与开放应用,有力促进医疗数据治理体系的建设。

健康医疗大数据资源体系是推进健康医疗大数据应用的基础性工程[5]。本文探讨通过多个项目积累,逐步构建出一套标准的医疗数据资源体系,确保医疗数据治理在现状评估、目标制定、流程规范建设、治理监控管理、效果评价等各环节有效落地。

1 我国医疗数据资源体系现状

目前,国内健康领域数据资源目录的研究主要集中在公共卫生、中医药以及国家医药卫生科学数据三个方面。其中,公共卫生领域的主要研究单位是中国疾病预防控制中心,2007年发布了《中国疾病预防控制中心信息资源管理办法》,并组织开展了信息资源目录编制工作。截至2022年,数据更新至2017年,共收集资源1000余项,整理信息指标超过8000个,并从中筛选了近72个有重要国计民生影响的数据库资源,发布到中国公共卫生科学数据中心网站,免费提供数据下载和共享服务。但仍存在数据的滞后性、完整性和准确性;共享程度的不确定性等问题。

孟群[5]等分析了健康醫疗大数据发展现状,结合我国健康医疗大数据资源的整合、共享、应用需求,参考相关行业大数据资源目录的建设成果,研制出国家健康医疗大数据资源目录模型。健康医疗大数据资源涵盖了公共卫生、中医药及国家医药卫生科学数据,以及临床医疗服务数据、个人健康监测等。

2 一体化医疗数据资源体系的基本理解

2.1 基本概念

一体化医疗数据资源体系是围绕医疗数据管理和治理需求,搭建一套集管理、方法、评价、标准、工具等体系核心能力的组合,通过统一的标准规范,将分散在不同机构以及相关部门的数据进行组织和整合,形成一体化医疗数据资源,从而持续服务于数据管治实施,促进医疗数据的开发和利用。

2.2 目标

在国家治理体系现代化的背景下,为推动技术、业务、数据的融合,我们提出基于一体化医疗数据资源体系的标准层、能力层、执行层、管理层、应用层等五大建设目标,促进医疗数据流通,保障医疗数据安全,提升医疗数据价值,助力医疗数据发展与应用的愿景。其体系框架如图1所示。

标准层建设通过创建标准编制工作虚拟小组及构建医疗行业数据标准体系,实现数据的协同应用;能力层主要聚焦底层共性支撑工具、医疗大数据平台、医疗业务应用平台等建设,实现问题工具检查和解决的系统化能力;执行层将数据治理工作落实;应用层建设确保医疗数据落地应用;管理层建设主要聚焦于医疗数据治理委员会和医疗数据治理机制建立,保障数据资源体系工作顺利进行。

3 一体化医疗数据资源体系思路

在一体化医疗数据资源建设过程中将面临一些挑战,例如:医疗数据资源由相关机构分权管理、出现数据烟囱的问题;需要依据信息属性对医疗信息资源进行采集、分类、加工处理和存储,实现信息资源的有序组织等。因此,我们针对医疗信息资源分散且缺乏有效的整合、信息采集重复且交换困难、信息交换的标准和格式混乱等问题,围绕医疗数据共享、应用的实际需求,构建一体化医疗数据资源体系,涉及数据汇集、存储、管理、应用的数据全生命周期,确保医疗数据治理在应用的各环节有效落地。

3.1 医疗数据汇集阶段

由于医院信息系统建设时间、目标和厂商不同,采用的平台、架构、数据库和接口方式等均有可能各不相同,导致医疗数据汇集难度大[6]。我们通过三个步骤形成长效数据汇聚机制。首先对接入医疗数据源的合规性进行核查,包括数据库、文件、接口等类型的数据源,如果核查通过,则配置与部署数据服务,如果核查不通过,则反馈部门修正;其次全面梳理现有的医疗数据资源,具体涉及结构化数据、半结构化数据和非结构化数据;最后根据具体调研的汇集需求,由数据治理实施专项小组使用医疗大数据平台进行数据汇集,按照汇集机制差异化进行任务配置。

3.2 医疗数据解析阶段

电子病历中的影像、“一诉五史”、病程记录、出院小结等非结构化数据转化成为机器可以识别的结构化数据,是发挥医疗大数据分析、决策效能,促进智慧医疗应用和发展的基础。为此,通过医学数据解析处理模块中的内置预训练图形识别模型、自然语言处理(NLP)抽取模型、音频解析模型和接口解析模型,根据医疗数据类型进行结构化抽取,转换成结构化数据。通过医学数据解析模块进行自动后结构化处理后,便于医疗数据存储管理,能节省业务人员大量时间,降低医疗数据治理门槛,从而有效提升医疗数据的应用水平和效率。

3.3 医疗数据规范阶段

医疗数据通过数据汇集、解析后,实现了医疗数据整合汇集和结构化。但仍存在整合后的数据质量参差不齐,表数据缺失、表关键字段缺失等数据缺失率高,数据种类不符、乱码、索引号混乱等现象频发,医学术语不统一等问题[7]。

3.3.1 库名和表名规范

库名规范:按照原始数据库、标准数据库、主题数据库、专题数据库、文件数据库、交换数据库等六大核心医疗数据库来统一。

表名规范:按照库名_来源类别_系统名称_事实表名等來统一。

3.3.2 元数据管理规范

元数据管理须规范,元数据应包括:完整的字段定义、与数据源的对应关系、不同数据来源元数据间的映射关系[8],元数据管理规范设计如表1所示。

3.3.3 雪花型架构设计规范

通过雪花型架构(见图2)将数据的流向进行梳理、分析,字段及为最小分析维度,从而形成业务表单的数据流图。对理解、发现和描述数据之间的脉络、溯源数据错误、预测改动影响起到重要作用。

3.3.4 字段映射设计规范

我们针对医疗原始表对于同一业务属性的描述不统一场景,如中风为脑卒中、上感应为上呼吸道感染等,通过标准规范命名规则去统一映射替换原始表数据值。标准规范命名规则包含世界卫生组织制定的国际疾病分类与代码(ICD10/ICD9)、国际医学术语标准化与研发组织制定的系统化医学术语集临床术语版(SNOMED CT)、国家中医药管理局及国家卫生健康委共同印发的《中医病证分类与代码》和《中医临床诊疗术语》等100余个医学术语表,为医疗数据提供标准化映射的术语支持。

3.3.5 字段规范设计规范

将原始数据进行规范化操作后需明确使用术语服务的对象字段。通常这类字段内容具有表述简单、意义明确、逻辑性强特征,而不是文宇描述性内容。实现相应字段服务步骤如表2所示。

3.3.6 主数据管理规范

主数据管理是对业务信息应用系统间多次重复使用、跨业务的数据进行集中统一管控,经数据治理后,共享给各个业务应用系统。主数据管理规范设计如表3所示。

3.4 医疗数据治理阶段

数据治理是充分挖掘发挥医疗数据价值并服务于公众的关键[9]。医疗数据的时间性较强,信息孤岛、信息烟囱以及疾病的多发性导致存在大量的无效且冗余的数据,针对这些问题开展医疗数据治理至关重要。根据医疗数据的属性,分为缺失数据、错误数据、多源数据、冗余数据等四大类数据,分别进行治理。

第一类:缺失数据可以医疗业务知识或专家经验推测填充缺失值,以医疗同一指标的计算结果(均值、中位数、众数等)填充缺失值;

第二类:针对格式内容(时间、日期、数值、全半角等)错误,采用人工收集/用户填写方式统一其格式;针对数据逻辑错误,采用去重和离群值(异常值)进行自动处理,针对属性错误,通过属性检测进行筛选,筛选出属性错误的数据;

第三类:针对多源数据应进行数据关联性验证。对于数据不满足完整性约束,通过分析一体化医疗数据资源体系中数据字典、元数据和主数据之间的关系,进行修正;

第四类:对于明确为医院运营和医疗科研非需要字段,应从数据集中删除;对于尚不明确是否需要的字段,应保留相应字段。

3.5 医疗数据融合阶段

医疗数据来源分散且广泛,数据量大,成分和类型复杂,包含结构化、半结构化和非结构化数据且质量参差不齐,造成程度不一的的数据孤岛现象[10]。这些问题可造成后期数据存储代价大、数据分析处理成本增高、决策不准等[11-12],给数据融合带来挑战,也使数据预处理成为必然。将数据类型与结构各异的医疗多源数据进行有效融合,为进一步促进医疗数据分析与应用提供基础支撑。

我们主要采用维度建模方法,以表单的方式对指标进行存储,包括主题对象明细表、主题对象汇总表。主题对象明细表主要存储维度属性集合和度量/原子指标;主题对象汇总表按照指标是否去重的条件进行分类存储;数据模型设计主要有原子指标设计,即指标统计口径、具体算法的抽象,可以创建基础原子指标和衍生原子指标,如住院病人医药费用总额和住院病人人均医药费用。派生指标=原子指标+时间周期+(单个/多个)修饰词+统计粒度,如2022年A医院骨科住院病人人均医药费用等,派生指标又分为3种类型:事务型指标、存量型指标和复合型指标。

3.6 医疗数据质量评估阶段

数据质量管理涵盖准确性、完整性、一致性、时效性、可信性和可解释性等关键因素,其影响医疗健康信息技术发展[13]。通过对医疗原始数据库进行事前稽核,对医疗标准数据库、医疗文件数据库、医疗主题数据库进行事中稽核,最后对医疗专题数据库、医疗交换数据库进行事后稽核,保障医疗数据质量全流程管理。

我们通过五个步骤实现医疗数据质量评估,首先构建医疗领域的数据质量评价指标体系框架,确定医疗数据质量评价模型;其次基于医疗领域的数据质量评价指标体系,规划数据质量评估指标体系所对应的规则;然后通过医疗领域的数据质量评估算法模型,对医疗领域的数据质量进行稽核和评估;接着确定医疗领域数据质量评价等级,对结果进行划分;最后在医疗数据质量模块配置稽核规则,进行实时监测分析。

3.7 数据治理机制建立阶段

针对医疗数据安全挑战,以保障医院健康医疗的数据源和业务场景安全为需求导向,结合医院数据安全的组织建设、制度流程、技术防护、运营管控和监管审计等要求,构建医疗数据治理机制,推进建立组织、管理、技术、运营、工具等有机融合。

大数据治理的重要环节是遵循统一标准管理,保证数据的规范性、流通性、安全性以及共享性,数据治理要构建合理、合法的治理机制和体系结构,以此减少数据在采集、共享、管理等过程中可能出现冲突的问题[14]。医疗数据内容管理需要强有力的措施[15],技术差异、监管审计和运营管控机制体系不健全、组织自身管理不到位等问题导致社会中组织的力量难以被充分挖掘,影响数据治理的效能。通过建立医疗数据治理机制,明确数据信息收集处理规范和基本原则,规范其法律边界,以保证医疗数据治理健康发展,为医疗数据治理提供支撑。如图3所示。

4 基于一体化医疗数据资源的应用

目前很多医院在数字化转型过程中都会遇到异构资源管理困难、系统软件选型与维护困难和生产运维困难等常见困难,依托云原生架构(见图4),既可支撑大规模医疗业务系统的运行,也可将内部医疗软硬件体系给集中管理起来,以中台化的运作方式,支撑医院日常业务运营。

构建云原生架构医疗信息化系统能够促使医院的整体解决方案扁平化,各医疗信息化系统之间的数据不再孤立,便于医院内部数据再利用;同时基于混合云的架构模式,医生或患者可以通过此平台异地获取医院服务器数据,便于查看检查报告、进行诊疗活动;降低了搭建成本,提高了开发效率,降低了运维成本。

基于云原生架构数据库替代Hadoop生态,构建区域健康大数据平台(见图5),能够降低运维底层存储、计算资源的复杂度,大幅降低系统搭建和运维成本,将成熟医疗数据产品采用Dass服务支撑形式,可以增强服务拓展能力,提供定制化的服务,更加个性化地贴合业务需求。

5 结束语

健康医疗大数据作为国家重要的基础性战略资源[4],正快速发展为新一代信息技术和新型健康医疗服务业态。通过一体化医疗数据资源体系研究与构建,完善医疗大数据治理制度体系,加强医疗数据治理关键技术能力建设,提高医疗数据的规范与标准化等方面能力,推进医疗数据开放、融合、共享与应用,助力“健康中国2030”战略目标早日实现。

参考文献(References):

[1] 姬卫东,李琳,张振,等.互联互通背景下医疗数据治理面临的

问题与对策[J].中国数字医学,2021,16(11):6-11.

[2] 龙思哲.基于数据中台的醫院信息系统数据治理方案的

探讨[J].当代医学,2021,27(29):193-194.

[3] 国家卫生健康委员会.关于印发国家健康医疗大数据标准、

安全和服务管理办法(试行)的通知(国卫规划发〔2018〕23号)[EB/OL].[2018-07-12].

[4] 国务院办公厅.关于促进和规范健康医疗大数据应用发展的

指导意见(国办发〔2016〕47号)[EB/OL].[2016-06-24].

[5] 孟群,胡建平,董方杰,等.我国健康医疗大数据资源目录体系

建设研究[J].中国卫生信息管理杂志,2017,14(3):387-391.

[6] 张学高,胡建平.医院数据治理框架、技术与实现[M].北京:

人民卫生出版社,2019.

[7] 徐静,高昭昇,黄岳源,等.基于全民健康信息平台的医疗健康

大数据治理方法及技术研究[J].医学信息学杂志,2022,43(7):9-13.

[8] 阮彤,邱加辉,张知行,等.医疗数据治理——构建高质量医疗

大数据智能分析数据基础[J].大数据,2019,5(1):12-24.

[9] 刘璐瑶,曹航.电子健康档案数据治理发展方向分析[J].北京

档案,2021(6):14-19.

[10] 彭向晖,黄文强,卢春,等.多源异构数据融合系统及方法:

中国,CN108021670A[EB/OL].[2020-12-06].

[11] 秦爱民.基于多源异构数据融合、机器学习及客服机器人的

智能运维分析系统:中国,CN109343995A[EB/OL],[2020-10-25].

[12] 黄鑫,张卓,黄伟,等.一种多源异枸数据的融合方法及

装置:中国,CN107545046A[EB/OL].[2020-08-17].

[13] 张振,杨翠湄,徐静,等.健康医疗大数据应用发展现状与

数据治理[J].医学信息学杂志,2022,43(7):2-8.

[14] 李晓辉.突发公共卫生事件中数据治理的现状、问题及

对策[J].石家庄铁道大学学报(社会科学版),2021,15(4):2733.

[15] 费晓璐,李嘉,黄跃,等.医疗大数据应用中的数据治理实践[J].

中国卫生信息管理杂志,2018,15(5):554-558.

[16] 中共中央 国务院.国务院关于印发大数据发展行动纲要的

通知(国发〔2015〕50号)[Z].2015-08-30.

猜你喜欢
数据治理
云端数据治理定义解析
智慧服务型数字化校园建设参考实现框架
营配贯通台区线损异常数据治理分析
基于oracle12c+oda数据治理方案探讨
高校信息化数据治理探讨
智慧城市建设项目风险挑战与解决经验
图书与情报(2016年6期)2017-04-17 23:32:35
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
运用流程化手段提升资产管理水平