江苏省全民健康信息平台数据治理实践研究

2023-12-27 17:47陆家发赵群孙唐凯张国明都艳杨雪蓉
中国卫生质量管理 2023年8期
关键词:数据治理数据质量信息平台

陆家发 赵群孙 唐凯 张国明 都艳 杨雪蓉

[摘要]针对全民健康信息平台存在医疗健康数据“质量不高、应用不足”等问题,通过升级数据处理引擎、制订数据质量评价体系、深入各数据层挖掘等措施,形成了数据标准化治理体系。该体系可提升平台数据的完整性及安全性,有助于发挥医疗数据价值。

[关键词]全民健康;信息平台;数据质量;数据治理;质量与信息化

中图分类号:R197.1 文献标识码:A

2016年10月,中共中央国务院印发《“健康中国2030”规划纲要》,旨在推进“健康中国”建设,提高人民健康水平。2017年,国家全民健康保障信息化工程启动,强调“以人的健康为中心”的建设理念。2022年11月,国家卫生健康委、国家中医药管理局、国家疾控局印发《“十四五”全民健康信息化规划》,提出到2025年,初步建设形成统一权威、互联互通的全民健康信息平台支撑保障体系,基本实现公立医疗卫生机构与全民健康信息平台互联互通。

根据江苏省委、省政府全面部署深化医药卫生体制改革、构建现代医疗卫生体系、打造“健康江苏”的工作要求,以及人民群众对全面建成小康社会的健康需求,江苏省卫生健康委指导省级全民健康信息平台完成了三期建设工作,为全省卫生健康事业发展提供了信息化支撑。随着接人医院以及省级统筹业务数据体量和维度的不断增加,江苏省已基本实现全省医疗健康数据的大集中。但由于接入医疗卫生机构数量增加,数据类型越来越多,导致数据量激增。另外,随着业务需求日趋多元化,对采集交换的数据质量、实时性要求等也在不断提高,全民健康信息平台运行面临“用数”与“找数”、“共享”与“安全”之间的矛盾。本研究立足于江苏省全民健康信息平台的建设实践,以标准为抓手,以工具为支撑,以机制为保障,构建了统一的数据标准、治理等安全管理监控体系,形成了数据质量管理闭环,以期为医疗卫生数据赋能。

1全民健康信息平台建设及问题

江苏省全民健康信息平台是依据国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》《省级卫生信息平台建设指南(试行)》以及健康档案、电子病历基本架构和数据集等一系列标准规范而建设的。经过三期建设,在全省范围内已接入超200家三级医院,加上13个地市累计采集数据500多亿条、6 000多万健康档案、6.9亿人次门诊和5 000多万人次住院数据。根据相关标准规范,平台已经建成数据中心机房,制定了全省卫生医疗数据标准并搭建了数据采集系统,实现了省级健康医疗海量数据汇聚;配置的卫生服务总线系统,实现了通过注册和查询方式对接国家与市、区级数据平台;开发的健康档案浏览器、综合业务管理、人力资源管理、医疗服务监管等业务功能,初步实现了数据应用于多种业务场景。

但是,江苏省全民健康信息平台前期以传统“数据集成数据处理一数据使用”进行运营管理出现了瓶颈,“数据治理欠缺、数据应用低效、数据应用缺失、数据安全风险”等问题越发突出。江苏省全民健康信息平台前期建设存在问题主要表现在:(1)数据处理效率低。采用传统的关系型数据库,每天需要处理约3 000万增量数据,数据处理效率较低。为了提高数据处理效率,除需要高规格的服务器、网络设备等硬件支撑外,尚缺少大数据处理架构及高效的软件处理引擎,大数据计算处理能力与效率瓶颈问题明显。(2)数据质量参差不齐。从数据源开始,数据规则与口径未统一,数据质量评价体系不完善,数据质量问题凸显。(3)数据资源利用较少。未充分利用过往治理加工数据,多系统数据指标混乱,数据加工拆解能力弱,未从业务需求角度对数据进行处理,导致数据的业务场景深度应用不足,数据价值无法体现。(4)数据安全管控亟待提升。数据使用相关政策与法律法规体系尚未完全建立,数据安全共享机制难以保障。

对此,在江苏省全民健康信息平台第三期项目建设中,重点强调以标准管理为导向,加强数据处理算力,搭建数据管理通道,建设数据中台以提升数据分层加工能力,探索制订数据安全共享管理制度等建设工作,以解决数据使用与数据安全共享之间的矛盾。

2全民健康信息平台数据治理实践

依托江苏省全民健康信息平台建设成果,从问题出发,以业务需求为导向,建设数据资产管理系统,升级并完善省级平台数据标准,确保从源头实现数据标准统一,并搭建完善的数据质量评价体系,以保证数据质控质量。

2.1升级数据处理能力

在实际业务场景使用数据时,平台先对数据处理需求进行分类,并综合考虑但不限于单次数据处理的量级、数据的实时性要求、数据查询计算并发等因素。例如,在手术病案统计分析时,对全省5 000多万条病案首页数据与3 000多万条手术内容进行关联查询,构建关系型数据库需耗时超过6h。在数据治理时进行多表关联运行大量质控治理规则,需离线批处理才能实现分钟级出结果。若采用优化联机分析处理(Online Analytical

Processing,OLAP)查询引擎,则秒级可出结果。另外,面向海量医疗数据,全民健康信息平台在数据存储方面采用了分布式文件系统,适宜横向扩容、高吞吐量的数据访问;数据查询方面采用大规模并行处理数据库,适宜快速查询、海量写入;数据计算层面采用流批一体计算模式,适宜不同场景的计算需求。随着信息技术不断更新迭代,在资源有限的情况下,既要考虑数据处理的先进性,还需注重其可维护性以及对现有平台的改造工作量,这个过程有更多的业务与技术细节需要关注,是实现数据充分利用的基础。

2.2构建数据质量评价体系

数据治理工作繁冗复杂,并不能直接体现应用价值。应构建数据质量评价体系,通过全链路管控数据质量,驱动数据质量不断提升。江苏省全民健康信息平台在一、二期的数据采集应用过程中,数据质量及数据上传及时性等方面不太理想,经常出现质量不高或及时性差等问题。

以往数据治理多以自下而上的模式实施操作,数据仓库技术工程师在没有明确数據需求情况下,可能花费较长时间进行数据治理,导致数据质量不符合业务运用需求,且时间成本和人力成本较高。为解决此问题,项目管理组实施了自上而下的管理模式,从业务角度出发详细分析其对数据质量范围与应用运行的具体要求,从而准确梳理出满足业务需求的数据,构建数据质量评价体系,保证数据赋能价值效益有依可循。

其中,业务指标梳理是数据质量评价体系的重中之重。从业务角度看,综合监管、公立医院绩效考核、互联网医院、健康档案、单病种质量管理等均需要医疗卫生数据作为支撑。因此,首先要对业务进行拆解,一般业务已经覆盖了大部分数据集,需要对数据进行逐一拆分;其次,在应用链条相关环节标明质控需求;最后,通过合规评价指标评定数据质量的最终效果。从技术实现角度看,根据业务概念数据模型通过数据血缘提出对采集模型数据质量要求,将这些信息拆解以满足质控规则;根据在业务应用中的关联影响对质控规则赋予权重,每天展示数据质量的可视化模型,清晰了解当前数据质量;落实数据質量整改,将一些评价指标做成预警提示,遇到上传不及时、数据质量得分较差等情况直接将信息推进到管理员,要求其重新启动上传任务。

2.3完成数据分层加工

按照以往建设路径,每当新应用需要在平台上线,应用厂商就需进行新一轮数据治理和加工。以往,如果多个系统数据作为统计指标相互矛盾,不仅厂商搭建要花费时间,而且原本的平台架构也会变成一个“混搭积木”。在这个过程中,业务人员梳理的规则并没有在各个业务系统中得到统一的有效贯彻。只有夯实数据基础设施建设,才能做好支撑,充分发挥数据的应用价值,因此构建一套完整的数据治理体系是现实需求。当前,江苏省全民健康信息平台已初步形成“平台+数据+应用”模式,构建了数据治理评价标准。以数据为支撑,如监管机构需要数据管理分析,互联网健康服务需要用户分类,提升诊疗质量需要质控评价等,对这些原始数据进行挖掘加工,可最终实现数据分层建设,实现相应数据同步处理。

2.4保证数据应用合法合规

全民健康信息平台更要关注数据安全管理。大量敏感数据都存储在平台数据库中,而在这些数据使用过程中将不可避免产生数据的访问、复制和交换等。对整个数据链路进行梳理,在不同数据阶段对操作角色面临的风险以及相应安全风险进行及时处理。

2.4.1数据采集阶段 数据采集需要对前置机数据库账户的用户名和密码进行限制级管理;密码由后台加密存储,由管理员在系统界面维护,账户管理统一更新;对数据流向进行把控,根据数据渊源进行数据治理,预警非标数据源;记录数据访问及结构化语言安全审计日志等。

2.4.2数据治理阶段 数据治理阶段会面临相关治理和运维风险,比如违规操作或越权访问等。因此数据进入平台后,首先要进行分级管理,不同级别数据进行不同层级管控;还要设置数据行列的访问权限,包括数据增删改查及行列权限配置,实现用户访问控制。

2.4.3数据共享阶段 经过治理的数据需要供给业务应用使用,明文传递会带来个人身份信息的泄露风险。在数据共享过程要实现数据的脱敏,如遮蔽、正则表达式、哈希、匿名算法等;要采用加密管理对集中存储的共享敏感信息进行处理,使明文转化成密文进行数据共享,即使敏感信息遭受外部攻击或内部窃取,也能保障数据安全。

2.4.4数据应用阶段 在数据应用阶段,数据服务是实现业务与数据对接的关键。为了确保数据安全,需要采取一系列安全措施,形成“安全门禁”。包括:网关负责与身份认证对接,实现服务鉴权和信任传递;访问日志收集所有接人请求的详细信息,进行应用留痕监控;使用堡垒机和防火墙模块,可建数据应用层的安全保障措施等。通过这些安全措施,用户可以安全高效地访问数据,同时也能够保证数据的完整性。因此,必须在数据应用阶段严格遵守数据安全相关规范和标准,以确保数据安全。

3建设效果

江苏省全民健康信息平台从一期建设开始至今已近10年,基本汇集了医疗健康全种类数据,并已存储较大的医疗健康数据体量。为实现健康数据的有效利用,需要依托云计算、大数据等技术对不同主题数据进行挖掘和利用,以提升数据的潜在价值;需升级数据架构,建立围绕数据全生命周期的全流程管理中心,实现数据的采集、治理、评价、运维、监控、加工应用和安全共享管理的标准化作业。扛苏省全民健康信息平台数据治理结构见图1。

一是数据标准先行。江苏省全民健康信息平台已建立数据采集标准、业务主题标准及元数据,并在此基础上建设操作数据存储与自动化设备规范存储的数仓,配置所需的质控规则,最终实现了质控结果的有效评价,实现了数据标准从制订、审核、发布、修订到应用的全流程的有效管理。

二是搭载数据治理算法。医疗数据治理需经过结构映射、术语标准化、病历结构化、患者主索引等算法或结构化语言在可视化工作流程上灵活加载。同时,平台提供了可视化的配置工具和展示界面,降低了数据治理的复杂程度,缩减了数据治理的工作量。

三是运行质控规则。计算质控结果,对比评价指标,展示监控信息,面向不同场景的质控可视化模型,针对数据工作流,平台升级了更加全面和细致的监控功能。同时,针对未达到评价指标的质控数据,平台可进行问题定位。

四是数据加工挖掘。数据加工挖掘包含运营指标生产、临床专病变量、人群标签挖掘等功能,可为管理应用与运营分析提供更有价值的数据。对平台中各业务需求相同、相近的指标进行梳理,利用指标库进行管理,保证了统计指标的规范性、一致性和唯一性。数据加工挖掘各项功能规范了数据的分析运用,提高了数据的可用价值。

五是针对平台中业务指标采集数据质控要求设计的数据质量评价体系。按照数据治理方法,可规范数据治理加工过程,获得真正流动运转的数据以实现最终价值。为保障这些数据的流动性,平台搭建了一站式数据工作运转模式,将整个数据治理过程流程化、规范化,并将治理结果透明化。

4讨论与建议

4.1优化全民健康信息平台管理流程

随着全民健康信息平台数据体量增加,数据处理难度日益加大,如果平台与系统、系统与系统之间的数据处理标准不统一,就会出现数据整合困难等问题。因此,需要搭建围绕数据价值应用的全流程管理中心,制订全民健康信息平台的信息管理机制,优化数据治理流程,覆盖数据采集、治理、评价、质控、加工应用和安全共享管理,不断健全区域全民健康信息平台管理体系。

4.2落实区域医疗健康信息标准规范

2020年10月,国家卫生健康委规划发展与信息化司发布《关于加强全民健康信息标准化体系建设的意见》(国卫办规划发[2020]14号),提出我国卫生健康信息标准体系已制订5大类共283项信息标准,现行的有效标准共227項,初步形成了全民健康信息化标准体系,并制定印发了省级统筹区域人口健康信息平台和医院信息平台的应用功能指引,完善了卫生健康信息标准体系建设。

江苏省卫生健康委以国内外卫生信息标准体系为依据,制订了统一性、兼容性较高的区域标准体系,进一步细化了数据采集、存储、分析和应用的技术标准与数据标准,自上向下推进标准规范落地,从源头上把控数据标准规范,统一规则与口径,使标准规范真正落实到各市、各区(县)及各医疗机构,触达各级业务部门,实现了标准“最后一公里”的落地实施。

4.3增强信息管理风险防范意识

医疗健康数据无论对于国家还是个人来说都是重要的敏感数据,需要严格保护。数据共享技术在充分发挥数据价值的同时,也会带来一定的安全风险和挑战,尤其是全民健康信息平台涉及医疗健康众多领域,面临多样的数据应用场景。例如,医生在调阅患者医疗数据时如何保障数据安全?患者如何安全可控地查询健康信息?卫生行政管理部门在应用医疗数据时如何操作才能保障数据信息安全?因此,在每个共享数据应用场景下,其所涉及的数据资源不同、数据级别不同、使用人群不同,相应的数据安全措施也有所不同,所以建立应用场景、用户群、数据级别三位一体的数据安全保障模式已成为当下健康医疗数据共享最为关注的问题。

江苏省全民健康信息平台积极采取措施保障数据安全共享与应用,正在制订围绕数据采集、治理、共享和应用全流程的数据安全共享管理规范与数据应用策略,厘清了健康医疗数据现状,搭建了数据资产目录,实行了数据分类分级管理,实现了数据管理使用相关人员能够根据数据资源分级结果与相应安全管理的策略,进而实现了安全有效的医疗健康信息共享。

5小结

以云计算、大数据、AI、物联网和5G等为代表的新一代信息技术正在快速发展,这将进一步解决数据治理技术与数据价值应用的现实问题,为全民健康信息化建设提供重要技术支撑,有效推动健康医疗的深入变革。江苏省全民健康信息平台从IT跨越至DT(Data Technology,数据处理技术)的数据治理一体化能力,更加强调数据资产加工流程的体系化构建。基于区域全民健康信息平台采集公共卫生、医疗服务、政府共享数据等多源异构数据资源,未来将更注重采集数据准则和规范的制订,从源头上保证数据质量。从数据采集、数据流、数据存储、数据加工处理、数据服务、数据分析决策全流程建立运行机制,促进卫生健康数据在业务应用与业务场景上实现价值且标,也是数据治理价值的重要体现。基于江苏省全民健康信息平台构建的区域健康信息共享的标准规范和数据治理体系,可为省级全民健康信息平台建设提供思路。

猜你喜欢
数据治理数据质量信息平台
基于本体的企业运营数据治理
云端数据治理初探
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
高校实验室综合管理信息平台的构建分析
MVC框架技术搭建技能培训信息平台实例
浅谈包头市人影指挥综合信息平台的建设
试论快递行业自律评价信息平台的设计
大数据治理模型与治理成熟度评估研究