林志平
摘要:健康医疗大数据历经采集、清洗加工、数据脱敏、数字标签等过程,根据业务应用及决策分析需求划分为不同主题域及数据资产,并且通过数据血缘分析实现数据融合处理的可追溯。健康医疗大数据是惠及千万居民看病就医的重要资源,它的应用发展将带来健康医疗模式的深刻变化,有利于激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量。
关键词:健康医疗大数据;治理平台;设计
一、数据流设计
针对数据流设计,采用Lambda架构的设计方法实现。将实时数据与离线批量数据结合,达到对大数据的处理,具体的设计如下:
健康医疗大数据数据通过事件触发自动同步数据,数据采集通过大数据融合治理平台的数据集成工具完成。采集源包括生产库数据,历史库数据,确保大数据融合治理平台归集全量业务数据,保障各应用场景的应用。
二、数据模型设计
对于大数据融合治理平台的数据模型设计,主要三方面内容:数据模型的分层、数据模型主题域的划分、数据建模规范制定。针对大数据融合治理平台数据模型的分层主要目标是不同的分层有不同的职责和作用,可以更方便的定位和理解数据,更快速的响应外部数据需求;其一,STG。包括原始结构化/半结构,和非结构化数据库,数据来源包括HIS系统、LIS系统、PACS系统、全民健康信息平台等。其二,ODS层。对于需做标准化及内容转换的字段,保持转换前的内容及转换后的内容。其三,DWD层。对数据按设定的数据域进行分类,整合,清洗,形成一套标准化数据模型。其四,DWS层 。按分析对象对实体进行数据整合,轻度汇总,算法标签,面向应用提供智能数据服务。其五,ADM层。存放面向最终业务应用的通用数据,例如描述自然属性的标签、描述通用行为的数据等,包括疾病库、药品库、处方库等知识库。
数据模型主题域划分主要包括四个主题域:当事人、诊疗信息、产品、事件。当事人:包括:参保人、医疗机构等。诊疗信息:包括医疗门诊记录、住院記录、特殊诊疗信息等。产品:包括医保类型、产品险种等实体。事件:包括结算事件、基金结算事件等实体。需要注意的是在此过程中需要建立和维护一套有效的工作流程和规范,保证不同的逻辑数据模型设计人员能够按照统一口径进行操作。
三、大数据融合
健康医疗大数据涉及医疗、医保、医药三个领域的数据,需要对三方面的数据进行有效地融合,借助数据融合引擎,可以有效地从技术层面支撑医疗、医保、医药的数据治理。其一,融合数据规则配置。融合数据规则配置用于实现多种异构数据源的质量校验、通知、管理服务,包括数据探查、数据对比、数据质量监控、SQLScan等服务内容。其二,融合数据全景。数据全景包括全局查找数据、个人账号管理数据和管理员配置,支持关键字匹配精确匹配。其三,融合数据资产管理。数据资源平台里都有大量的数据表、API等各类数据资产,融合数据资产管理通过数据开发加工数据后,提供对整个平台数据进行统一管控服务。根据数据资源平台里任务的运行信息和记录,通过分析,提供数据表、字段级别的血缘关系,包含上下游血缘、影响分析。其四,融合数据服务发布。数据服务发布旨在搭建统一的数据服务总线,帮助统一管理对内对外的API服务。
四、大数据治理
(一)数据采集汇聚
健康医疗大数据采集需求包括医疗环节动态监测、医疗质量检查与评估、质量指标综合分析、传染病、免疫规划、疾控综合管理等数据。
1、数据调研及数据对接
数据调研基于已明确的数据需求确定数据来源系统、数据来源部门、数据存储、数据更新、数据规模等信息的过程;在这个过程中,需要跟具体部门、具体系统、具体负责人员进行反复的对接,已收集获取具体的信息,为后续的数据采集汇聚服务。
2、采集模式设计
采集模式按照对接方式分为:直接对接、数据库抽取对接、第三方接口采集等几种模式。(1)直接对接。由数据采集服务直接访问各个服务接口或文件资源,实现与数据中心的对接或文件抽取。(2)数据库抽取对接。对于各业务系统数据采用前置机数据抽取的方式进行数据的接入。通过可视化界面完成数据库连接所需的参数配置,包括IP、端口、数据库类型。(3)第三方接口对接。通过接口服务与各系统的事件来源的各个系统的对接,实现数据统一渠道接收。
3、数据采集监控与管理
提供整体运行状态监控,最终实现运行状态的查看与控制,包括采集基本信息、采集结果、采集数据质量、采集异常信息。对采集的基本信息进行监控,基本信息项包括由谁什么时候发起的采集。
数据采集管理,旨在确保采集的质量以及采集稳定性,而围绕采集各个环节进行针对性的管控,实现对数据采集过程、采集结果全方位管控,数据可追溯,质量可控制。
(二)数据清洗加工及共享
对数据源中数据重复、不正确、不完整、不标准、不一致的问题,制定数据清洗加工规则,进行数据清洗加工,实现数据质量提升。
数据共享服务的核心是构建跨部门、跨业务板块的数据资源共享和数据交换,主要包括数据资源编目、数据资源目录管理以及数据接口服务。
数据资源编目实现对各部门共享数据的盘查,以支持信息资源的交换与共享,包括医疗、医保、医药数据资源编目等。
数据资源目录体系通过编目、编审、注册、发布、维护、订阅数据资源目录内容,实现数据资源管理、发现与定位。
构建数据接口规范,规定数据访问、接口的定义、数据格式等内容。
(三)数据脱敏及标签
数据脱敏对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。如身份证号、手机号、卡号、姓名等个人信息都需要进行数据脱敏。
数据标签是基于业务场景创建、用于服务内部和外部的数据服务需求,基于标签体系进行多维度分析实现对于目标群体的精准定位,如高龄产妇群体、特定传染病患者群体等。
参考文献
[1]郭建. 健康医疗大数据应用中的伦理问题及其治理思考[J]. 自然辩证法研究,2020,385(03):87-92.
[2]俞成功,丁静. 基于区块链的健康医疗大数据平台构建[J]. 电子技术与软件工程,2020,176(06):182-185.