医保数据治理实践

2021-03-07 04:23

网络安全技术与应用 2021年4期

（山西云时代技术有限公司山西 030032）

1 导言

以习近平新时代中国特色社会主义思想为指导，全面贯彻党中央、国务院的决策部署指导，面向医疗保障的重点环节，持续推进全国医疗保障标准化、智能化和信息化。全面落实全国医疗保障工作会议座谈会、全国医疗保障工作会精神，严格遵循国家医疗保障局医疗保障信息化工作指导意见及医疗保障信息平台建设指南。重点加强顶层设计、统一业务标准、打造基础平台、做好数据汇集、强化协同共享，在依托国家基础信息资源的情况下，落实国家统一电子政务网络及数据交换平台。不断提高全省医疗保障能力和服务水平，以信息化建设为助力推动全省医保覆盖与医保控费，成为全国医疗保障信息化的一股强劲力量。努力解决省医疗保障领域重点、难点、热点问题，积极推动医保、医疗、医药“三医联动”。助力提高医疗改革整体效果，为全面实施健康中国战略提供医疗保障信息化支撑。

2019 年1 月4 日，国家医保局发布了《关于医疗保障信息化工作的指导意见》，统一规划部署了14 个子系统，在业务管理系统群模块规划了宏观决策大数据应用子系统、信用评价管理子系统等，而这些子系统的搭建需要医疗大数据的数据支持，为数据中台的构建提供业务和理论支撑。医药业收集了大量数据，数据的类型和数量还在增加，但在过去，医疗数据没有被有效处理过。而且我们国家还面临慢性病发病率的增加，临床决策的不精确，医疗资源的分配不当，反复诊断和治疗等等。打通底层数据，构建互联互通的数据平台，数据互通可以优化各应用场景的体验，各应用场景产生的数据又可以进一步丰富数据，由此形成一个价值闭环。从政策角度出发，医疗是关系国计民生的高监管行业，数据中台负责前沿技术研发并承担数据的采集、存储、传输、跟踪的任务，提升市场化竞争力，为挖掘医疗大数据的价值提供支持。

2 方法

2.1 现状分析

目前医保行业已经沉淀海量的存量数据，且每年还将在持续的增长；数据分散在各地市、和人社其他系统数据在一起，没有统一割裂集中；建设厂商多、虽然参考核心平台三版标准、但在实施过程中各厂家差异标准不统一；从政策角度出发，打通各地市数据、建立省级集中、统一标准的数据中台，为挖掘医保数据的价值提供先决条件，为支撑医疗保障信息化建设打下夯实的基础。

某省医保局数据分布在各个地市和省直，医保核心系统由7 个核心供应商建设，涉及17 个库，标准不一，数据量大，数据治理工作任务繁重。现场的数据治理工具，不稳定，性能与易用性欠缺。主要存在以下问题：

体量大。医疗数据体量巨大，一个省的医疗健康数据要以TB、PB 量级存储和管理。

多态性。数据源是各种各样的，并且涵盖了多种类型数据，多种结构的数据对数据治理能力是一项重大考验。

不完整性。就医数据的收集和处理常常被分割，导致医疗资料库难以完整体现出所有相关信息。很多数据都来自手动记录，导致数据记录的偏差和残缺。科室、诊断信息等关键信息缺失量大，空值率高。

冗余性。医保每日会产生大批量数据，同一个人可以在不同的医院药店创建相同的信息；整个医学数据库包含许多重复的和不相关的信息。无效信息缺少标识，造成数据冗余量大。300 万的参保人，库里却有600 多万参保人信息。

时效性。数据生成速度非常快更新速度非常高，许多数据的获取时间每周、每天、每分钟甚至每秒都在不断更新。因此要求更高的响应速度和治理速度。

隐私性。数据隐私是医疗大数据的重要特征。医疗和卫生数据如疾病、诊断和基因数据等泄露将对个体造成负面影响，也会导致公民权利受到侵犯。

2.2 数据治理平台

随着大数据时代的来临，各行各业开始认识到数据的价值。把数据视作宝贵财富，已经成为业界的一种共识，企业也在快速探索应用场景和商业模式，并开始构建数据平台。如果在大数据“拼图”中遗忘了数据治理，那么技术投资就可能毫无意义。因为没有数据治理这一环节，其带来后果往往是：随处可见的数据不统一，难以提升的数据质量，难以完成的模型梳理，难以保障的数据安全等等，源源不断的基础性数据问题会进一步产生，进而导致数据建设难以真正发挥其商业价值。因此，消除数据的不一致性，采用标准化的数据标准，提高数据管理能力，实现数据安全共享，并将数据作为公司在企业、管理和战略决策的宝贵资产使用，发挥数据资产价值变得迫在眉睫，数据治理呼之欲出。企业通过制定战略方向，建立组织架构，明确分工责任，控制数据风险，满足安全标准，提高业绩和增加价值，并提供创新的大数据服务。

数据治理平台是为企业用户打造的一站式数据建仓和治理平台，由数据地图、数据血缘、数据标准、数据模型、数据质量、数据集成、数据安全、元数据管理等功能模块组成。目标是解决数据治理过程中数据不集中、标准不统一、质量不可控、交付周期长等一系列问题，通过标准化工具和智能化方法，将杂乱无章的基础数据治理成有价值的数据资产，实现数据的价值化和业务化。

数据治理平台依托 Postgresql 数据库加 Hadoop 混搭架构的大数据平台，提供海量数据的存储和大规模并行计算能力，支持 PB 级以上的数据存储和海量数据加工处理，实现海量存储和高效的数据处理。采取数据分层架构的方式，治理了28 万个目录，存储了逾几十TB 的数据，实现全面的数据覆盖。提供从数据探查、数据标准建设、业务模型建设到数据共享服务的全流程业务支撑，由元数据管理、数据地图、数据探查、数据标准、数据模型、数据质量管理、数据清洗等功能模块组成。数据治理涉及的各个人员和角色如数据治理管理人员、业务领域数据分析师、数据科学家、数据架构师、部门IT 人员等都可以使用该平台完成各自在数据治理和运营过程中的任务和工作。依据保密安全和信息安全体系框架和管理要求，基于数据分类分级安全管理策略矩阵，通过统一安全认证平台接入、堡垒机、VPN，涉数操作行为审计在技术层面实现了事前、事中、事后安全控制，实现数据安全模块的研发落地，为数据服务体系奠定坚实数据安全基础。

2.3 数据治理方法

（1）标准管理

以支持数据应用为出发点，数据治理标准以国家标准为依据，参考省级在用标准，制订出适合省医保数据应用发展的数据标准。

（2）数据标化治理

由于目前系统中数据范围大，标准不一，差异性较多，所以针对数据中台内数据模型设计必须充分考虑数据源多，数据结构复杂的问题，因此采用分层建设模型，且有一定的建模规范作为支撑。分层的主要目标是不同的分层有不同的职责和作用，可以方便定位和理解数据，更快速响应外部需求。数据中台的模型分层主要包括：数据交换层、数据贴源层、数据治理层、数据整合层、数据集市层、数据服务层。其中：

数据贴源层：表结构与源系统一致。贴源层对来自所有源系统的数据进行统一存储和管理。针对本省数据特点，增加聚合缓冲区，主要针对17 个源数据，按7 个厂商标准进行轻度聚合。

数据治理层：对贴源层数据标准和质量校验规则进行数据转换和清洗工作，标准化、规范化明细数据，发现问题数据的区域。

数据整合层：数据整合层用来存放整合后的历史数据，存放的格式采用逻辑模型进行存储，数据经过加工和转换，与原始贴源层的数据结构完全不同。

数据集市层：主要是为应用提供数据服务，数据集市中的数据结构，要按照数据应用主题的需求进行独立设计，数据库能力要匹配相应的应用场景需求。

（3）数据问题稽核优化

由于各地市政策各异，导致数据完整性、规范性等方面，需要针对具体问题进一步细化及优化。比如：居民的缴费收入，经过核查，各地市的财政补贴数据基本缺失，会影响征缴数据统计；涉及行政区划未按国家标准进行存储、生存状态缺失等部分数据，下发各地市从源头进行整改，进行追踪核查，跟进数据问题修复。

3 取得的成果

目前治理了2017 年以来全省医保业务系统数据。帮助医保局收集与沉淀数据，加速医保数据资产形成，解决数据不一致问题，进而支持业务的决策和优化。

提供大屏快速配置，以供展示组件编排、排列组合的能力，满足医保局数据汇报和展示的需要。通过抽象、梳理、整合可复用能力和场景，提炼为可被业务单元引用的基础能力并下沉，满足医保局快速响应政策需要。通过对数据的颗粒归仓和主题预置，保持对潜在新型数据智能应用的条件就绪状态，支持新应用的插件式载入与上线。

4 数据治理的风险与对策

医保系统的数据治理是一项持久的攻坚战。要结合新医保系统建设，检验并优化数据治理成效，加强技术手段和管理干预措施，持续推进数据质量提升，保持与国家局数据标准团队的紧密沟通，及时更新数据标准。