江苏省健康医疗数据资源目录管理系统的设计

2023-07-10 13:12张国明王俊淑陆家发
医疗卫生装备 2023年5期
关键词:加密界面医疗

张国明,王俊淑,陆家发,唐 凯

(1.江苏省卫生健康信息中心,南京 210008;2.南京大学计算机科学与技术系,南京 210023;3.南京师范大学虚拟地理环境教育部重点实验室,南京 210023)

0 引言

近年来,随着大数据技术在我国各行各业的广泛应用,数据资源日益受到重视[1-2]。江苏省作为医疗服务大省,近10 a 来卫生信息化发展迅猛,同时全省大力推进全民健康信息平台建设,省级平台已建成健康档案、电子病历、全员人口、卫生资源等数据资源库,实现了全省健康医疗数据的汇聚[3-4]。健康医疗数据资源目录建设是数据资源充分共享和有序开放的基础,也是健康医疗大数据应用生态的基础,对促进数据资源互通共享具有重要意义[5]。如何加强数据资源规划和数据资源管理,建立江苏省健康医疗数据资源目录体系,全面实现数据开放共享,促进大数据应用和产业发展,已成为大数据管理和应用中亟待解决的问题[6]。

国内、外对于健康医疗数据资源目录的研究还处于探索阶段,相关研究文献较少[7],目前的研究主要关注于目录的分类和编制[8-10]。本研究在健康医疗数据资源目录分类和编制的基础上,提出基于资源目录的数据治理、数据安全和数据共享开放体系。通过江苏省健康医疗数据资源目录管理系统的建设与应用,优化数据资源服务体系,建立数据资源服务申请便捷、响应快速、使用高效的机制,从管理和技术上实现数据采集者、数据管理者、数据需求者权责分离,使数据提供、管理、审批、使用等环节有序可控。

1 问题分析

江苏省全民健康信息平台已经持续建设多年,虽然完成了各市县平台、医疗机构以及条线业务系统的数据汇聚,但在数据资源有效管理和共享应用方面还存在诸多问题。

1.1 数据来源广泛、数据质量参差不齐

健康医疗数据资源主要包括全员人口、健康档案、电子病历、公共卫生、妇幼保健、综合监管、卫生资源等多个方面,数据采集方式包括自动抓取、例行监测、专项调查等。健康医疗数据来源广泛,种类繁杂,且每种数据信息内容及标准规定并不一致,导致数据质量参差不齐,各系统、各机构之间的数据无法实现有效整合与应用[11]。

1.2 数据共享开放缺乏有效管理机制

省级全民健康信息平台虽然实现了部分数据的汇聚和共享,但仍有很多数据分散在各业务系统中,没有对数据资源进行统一管理和发布,数据对外共享主要通过纸质文件申请、审批,数据资源的管理、提供、审批、使用等环节权责不明,且数据共享开放过程难以追溯。

1.3 数据共享开放为数据安全带来新的挑战

健康医疗数据资源在开放共享的同时,也为数据安全带来了新的挑战。因此亟须通过数据资源目录对数据进行分类、分级管理,同时通过访问控制、加密、脱敏等技术手段加强在共享开放过程中的数据安全管理和个人信息保护。

2 系统设计

2.1 建设目标

针对健康医疗数据资源管理存在的问题,本研究设计江苏省健康医疗数据资源目录管理系统,以实现以下目标:建立江苏省健康医疗数据资源目录体系和基于目录的共享开放体系,对全省健康医疗数据资源进行注册、管理和汇聚,以规范化的方式对各种数据资源进行标准化编目。依托资源目录实现对健康医疗数据的分类分级管理,以及数据和服务的对外发布,促进跨机构、跨地域、跨行业的健康医疗数据资源共享、开放和应用。

2.2 总体架构设计

江苏省健康医疗数据资源目录管理系统采用浏览器/服务器(Browser/Server,B/S)架构设计,总体架构如图1 所示,共包括数据层、功能层、服务层和表现层4 层。数据层包括各类数据资源和编制的目录,以及数据资源对应的元数据信息和相应的规则、分类、标准等。功能层是注册、发布、查询、编目、申请审批、调阅、推送等主要系统功能的基本引擎,用于支撑数据层的数据资源与服务层、表现层之间的互动。服务层以接口方式向第三方系统或用户提供各类数据服务。表现层为数据管理者和数据使用者提供门户型页面,供用户进行数据管理、数据申请、数据审批等操作。

图1 江苏省健康医疗数据资源目录管理系统总体架构图

2.3 健康医疗数据资源分类模型设计

健康医疗数据资源分类模型是编制资源目录的前置条件和重要基础。资源目录编码规则主要依据《政务信息资源目录编制指南》[12]和WS/T 787—2021《国家卫生信息资源分类与编码管理规范》[13],并结合江苏省健康医疗业务的实际情况制订,资源目录的编码规范如图2 所示。编码分为前段码和后段码。前段码前2 位用于标识江苏省,后3 位标识省内的13个地级市。后段码包括类码(1 位)、项码(2 位)、目码(3 位)、细目码(4 位)、资源编号(不等长数字)。

国家卫生信息资源划分为3 个大类,分别是基础资源、业务资源、主题分类。江苏省对其中业务资源大类的健康医疗数据资源编目模型如图3 所示。根据实际业务领域将业务资源大类分为公共卫生、计划生育、医疗服务、医疗保障、药品管理、综合管理、新兴业态7 项,每项按业务域划分目,目下按具体业务划分细目。如医疗服务项下包括门诊信息、住院信息、检验检查、药品耗材、费用信息等,住院信息目下包括患者信息、入院记录、病程记录、病案首页、手术记录、出院小结、医嘱信息细目。

图3 业务资源大类的健康医疗数据资源编目模型

2.4 系统功能设计

通过对健康医疗数据资源目录管理业务进行梳理分析,将本系统划分为资源目录管理、资源服务门户、数据质量管理、安全管理4 个功能模块,系统功能模块结构图如图4 所示。其中,资源目录管理模块的用户为数据管理人员,实现目录编制、注册挂载、服务登记、服务审批和服务实施功能。资源服务门户的用户为数据使用人员,其可通过服务门户进行目录查询与资源申请,主要包括门户首页、资源检索、数据预览、资源申请和个人中心5 个部分。数据质量管理模块是对汇聚数据进行质量控制,主要实现数据标准管理、质控规则管理、数据质控报告和问题数据处置功能。安全管理模块可保障访问和共享过程中的数据安全,主要实现密钥管理、服务安全管理和数据安全管理功能。

图4 江苏省健康医疗数据资源目录管理系统功能模块结构图

3 系统实现

3.1 系统开发环境

本系统基于Linux Centos 7.4 运行,关系型数据库采用MySQL 5.7,缓存数据库采用Redis 5.0.4,负载均衡组件为Nginx 1.14.2。系统采用JDK 1.8 开发,开发框架为SpringBoot。如图5 所示,系统开发视图包括资源目录服务、数据源服务、注册中心、第三方服务接口、数据交换库、客户端等。系统对外提供数据服务的访问方式包括自定义结构化查询语言(structured query language,SQL)、Web Service、Restful 应用程序接口(application programming interface,API)等。

图5 江苏省健康医疗数据资源目录管理系统开发视图

3.2 资源目录管理模块

资源目录管理模块主要用于管理数据资源标识符和编码,对数据资源目录进行注册、发布与维护,并提供数据资源目录查询、共享服务。

3.2.1 目录编制

目录编制实现目录分类、目录登记、目录导入、目录审核等功能。

(1)目录分类。

按照资源分类与编码规范分别对健康医疗基础资源目录、业务资源目录、主题资源目录进行编目维护。本系统支持资源目录多级分类维护,按类、项、目、细目进行规范化管理。目录分类维护界面如图6 所示。

图6 目录分类维护界面

(2)目录登记。

目录登记用于按照资源目录分类登记数据资源,登记内容包括目录分类、资源名称、资源代码、资源提供方、资源格式、共享属性、更新周期等元数据,以及数据资源包含的数据项标识、数据项名称、数据项类型、安全等级等。

(3)目录导入。

除支持手工登记资源目录外,本系统还提供了目录导入功能,按照表格预置的模板填写目录登记信息后,将表格上传,完成资源目录批量登记,提升目录登记效率。

(4)目录审核。

目录登记完成后,数据管理员需要对登记的目录进行审核,确保目录符合质量要求,审核通过后,目录登记员即可将资源目录发布至服务门户。

3.2.2 注册挂载

目录登记完成后,需要注册挂载目录对应的实体数据。注册挂载实现数据源注册、库表资源注册、资源挂载等功能。

(1)数据源注册。

不同资源目录对应的实体数据来自不同的数据源,首先需要对数据源进行注册。数据源注册需要填写数据源名称、数据库类型、IP 地址、端口号、用户名和密码等信息。本系统将对所有信息资源的数据源进行统一管理,支持各种主流数据库类型,包括DB2、SQL Server、MySQL、MongoDB、Oracle、Impala、Phoenix、Kylin、Presto、Redis、ES、神通数据库等,通过灵活界面配置可实现数据按需同步。数据源注册界面如图7 所示。

图7 数据源注册界面

数据源注册的核心代码如下:

(2)库表资源注册。

数据管理人员通过该模块对数据资源的实体数据库表进行注册登记,登记内容包括数据资源名称、数据表、所属应用系统、数据源表等。

(3)资源挂载。

数据管理人员通过该模块将库表数据挂载到对应的资源目录,实现数据资源与真实数据的无缝融合。挂载数据资源时可根据资源名称和所属应用系统查询已注册的数据资源。资源挂载界面如图8所示。

图8 资源挂载界面

3.2.3 服务登记

服务登记是将已注册挂载的数据资源以服务的方式统一发布至资源目录门户供资源需求方申请使用,服务提供方式包括接口服务和库表推送服务。

(1)接口服务登记。

接口服务支持Web Service、Restful 等多种调用方式。新增接口服务时,需填写资源目录、服务名称、调用次数、调用时间间隔、接口文档、技术联系人等信息。接口服务登记界面如图9 所示。

图9 接口服务登记界面

(2)库表推送服务登记。

库表推送服务将库表类资源通过数据库推送的方式发送至数据需求方的数据库中,管理员在库表服务登记页面选择库表类资源、填写服务基本信息、选择可供申请的数据项后,即库表推送服务登记成功,再通过服务发布,将库表服务发布至资源服务门户。

本系统支持基于目录驱动的数据资源自动交换,数据管理员对数据需求方的数据服务申请进行审核,审核通过后,由服务实施方通过接口服务或库表推送服务进行数据共享。

3.2.5 服务实施

服务实施方按照数据管理员审核通过的数据申请内容进行相应的数据服务实施。接口服务申请需要为数据需求方创建接口鉴权的Appid、AppSecret。库表服务申请需要创建数据交换任务,将数据推送到需求方的目标库中。服务实施完成后,实施方需要将实施结果反馈至本系统中。

3.3 资源服务门户

资源服务门户将数据资源统一呈现,主要服务于数据需求方,提供数据资源的检索、定位、查看、申请等功能。

3.3.1 门户首页

门户首页是面向数据需求者开放的“超市型”服务页面,使用者可以浏览、查看所需数据资源以及数据资源详情。资源服务门户首页将数据资源集中展示,包括资源目录分类、资源动态、热门服务排行、资源使用月报等内容,如图10 所示。

图10 门户首页界面

3.3.2 资源检索

资源服务门户提供全文检索、热门关键词检索功能,并支持按共享类型、更新周期查询数据资源与服务资源,可通过统一的入口检索符合业务需求的所有资源。已发布的接口服务、库表推送服务如不能满足需求,数据需求者可根据共享的目录库表数据项编写SQL 语句并发起申请,申请通过后,可获取自定义的数据集。资源检索界面如图11所示。

子贡问曰:“孔文子何以谓之‘文’也?”子曰:“敏而好学,不耻下问,是以谓之‘文’也。”(子贡问道:“孔文子凭什么能得到‘文’的谥号呢?”孔子说:“他这个人头脑敏捷而爱好学习,并且不以向学问和地位不如自己的人求教为耻,所以被封为‘文’。”)

图11 资源检索界面

3.3.3 数据预览

用户检索到所需要的数据资源后,可进行预览,预览内容包括信息资源基本信息、扩展信息以及数据项的标识、名称、描述等详细信息。数据预览界面如图12 所示。

图12 数据预览界面

3.3.4 资源申请

如需使用数据资源,可发起资源申请,申请时填写内容包括申请标题、开始时间、结束时间、推送周期、写入方式、申请原因及依据、申请的数据项等内容。

3.3.5 个人中心

个人中心主要包括我的申请、我的服务、我的收藏等内容。我的申请可以查看已提交的数据服务申请,包括数据推送服务、接口服务、自定义服务;我的服务可以查看已实施和待实施的服务列表;我的收藏可以查看被收藏的数据资源目录和资源服务。个人中心界面如图13 所示。

图13 个人中心界面

3.4 数据质量管理模块

为保障汇聚数据资源的质量,数据质量管理模块通过统一的数据采集软件,实现不同系统、不同机构数据的标准化转换、采集、质控和上传。

3.4.1 数据标准管理

不同单位、不同系统使用的数据标准存在差异,我省根据国家标准建立江苏省卫生信息标准规范并进行管理,实现标准动态维护和更新。数据标准管理功能提供数据元、值域、数据码表、数据集等管理功能,所有归集的数据资源必须根据统一的标准进行转换以符合共享交换要求。数据标准管理的码表界面如图14 所示。

图14 数据标准管理的码表界面

3.4.2 质控规则管理

根据数据标准规范配置数据表每个数据项的质控规则,质控规则包括值域校验、表达式规则、数据量校验、关联校验、时间点校验、非空校验等,同时可为每个质控规则设置评分权重。质控规则管理和编辑界面如图15、16 所示。

图15 质控规则管理界面

图16 质控规则编辑界面

3.4.3 数据质控报告

在数据归集过程中该模块可根据已配置的质控规则对数据项进行逐一校验,并从数据的一致性、完整性、关联性、及时性、准确性等方面进行数据质量评分,形成数据质控报告。数据提供者可通过系统查阅错误数据明细和扣分情况进行整改。质控评分界面如图17 所示。

图17 质控评分界面

3.4.4 问题数据处置

该模块对数据归集过程中出现的数据质量问题自动、定时生成异常问题清单,下发至数据提供方,并通过短信、微信、邮箱等多种方式提醒相关责任人进行处理。数据提供方整改并重新上传数据后,本系统会自动审核问题是否已解决。

3.5 安全管理模块

安全管理模块通过相应的安全机制保障健康医疗数据和服务安全。

3.5.1 密钥管理

密钥是安全管理的基础,其管理界面和工具界面如图18、19 所示。服务提供方通过非对称密钥配置功能生成或变更非对称密钥。服务使用方通过系统提供的加、解密算法工具包生成对称密钥对数据进行加、解密处理,使用签名算法工具包对消息进行签名和验签。

图18 密钥管理界面

图19 密钥工具界面

3.5.2 服务安全管理

该模块通过防篡改、交互加密、数据脱敏、防重放等多重安全措施保障数据服务的安全性。服务安全管理界面如图20 所示。

图20 服务安全管理界面

(1)防篡改。

该模块基于数字签名技术实现服务消息的防篡改功能。请求方发起服务请求时,对消息进行签名拼装,服务提供方收到请求后,对签名信息进行验证,判断交互信息是否被篡改。签名算法支持SM3和SHA256。

(2)交互加密。

该模块使用非对称加密和对称加密相结合的方法对服务交互消息进行加密。请求方发起请求时,采用对称加密算法将请求数据进行加密,同时将对称加密密钥使用服务提供方公钥进行非对称加密处理。服务提供方收到请求后,首先使用私钥将消息第一次解密,得到对称加密密钥,然后使用该密钥将消息二次解密得到请求数据。服务提供方将返回消息对称加密处理后发送至请求方。

(3)数据脱敏。

针对某些敏感信息,包括但不仅限于姓名、出生日期、证件号码、联系方式、居住地址、医疗机构、门诊号、住院号、病案号等结构化信息,采用遮蔽、随机替换、变形、移位、加密等脱敏算法进行脱敏处理。对于非结构化数据,由于敏感信息位置不固定、内容无规律等原因,使用基于深度学习的自然语言处理技术(词性分析、替换)进行脱敏模型训练,建立语义知识库,识别非结构化数据中的敏感数据进行脱敏处理。

(4)防重放。

为防止服务的重放攻击,在请求头中增加防重放信息,根据重放信息判断是否重复请求。在请求方发起请求时,获取当前时间戳信息,并与系统唯一请求标识拼接后进行信息签名摘要处理,提供方接收消息后,验证摘要信息,判断是否是重放攻击。

3.5.3 数据安全管理

该模块通过数据访问管理和控制、数据加密和脱敏、数据安全审计等措施保障数据安全。

(1)数据访问管理和控制。

本系统划分不同用户角色,主要包括数据提供方、数据使用方和数据管理方,根据用户角色进行数据资源访问控制。数据提供方只能查看自己提供的数据,数据使用方可以查看公开发布的数据资源目录并预览样例数据,数据管理方可以查看系统管理的所有数据资源。系统身份认证与授权以密码技术和公开密钥基础设施(public key infrastructure,PKI)技术为核心,以数据加密、数字签名、访问控制等安全技术为基础,充分考虑身份认证机制、信息传输安全、权限控制等安全因素,实现身份认证和访问控制功能。

(2)数据加密和脱敏。

该模块通过数据加密和脱敏保障在共享过程中的数据安全。数据加密主要针对身份证号、联系方式、住址等隐私内容,采用格式保留加密方法进行加密。脱敏采用遮蔽、随机替换、变形、移位等脱敏方式对敏感数据进行脱敏处理。数据安全设置界面如图21所示。

图21 数据安全设置界面

(3)数据安全审计。

该模块通过数据安全审计对数据操作行为溯源,为数据安全事件提供追责依据。审计记录的内容包括数据操作行为的日期、时间、发起者信息、类型、描述和结果等,同时提供审计记录数据统计、查询、分析及审计报表生成等功能。

4 应用效果

本系统从2021 年3 月正式上线以来,已登记注册42 个接口服务、193 个数据推送服务、338 个数据资源目录、9 727 个数据项,有力推进了健康医疗数据资源的统一管理和共享应用。本系统支撑开展了药品评价、脑卒中研究、全科辅助诊断等10 余项科研课题,目前正在对接研究意向50 余项,向国家卫生健康委员会、江苏省大数据中心、各地卫生健康委员会推送健康档案、核酸查询、疫苗接种等数据3 000多批次,其中健康档案、核酸查询、出生证、生育登记、卫生人力资源等接口服务调阅达数10 亿次。

5 结语

通过建立江苏省健康医疗数据资源目录管理系统,实现了健康医疗数据资源的高效管理和便捷服务,提升了全省数据的应用水平。但在实践中发现本系统还存在待完善之处,突出表现在对相同数据资源的分类管理上,如“患者信息”可能存在多个细目(在“住院信息”“妇幼保健”等类目下都包含“患者信息”细目),如何对相同的数据资源进行编目和管理是本系统下一步需要改进的方向。

目前,江苏省健康医疗数据资源体系建设和管理已渡过启动阶段,通过全民健康信息平台基本完成了数据的积累工作,建立了数据管理组织,全面开展了数据治理工作,提升了数据质量。当前需要持续汇聚各类新建业务系统数据,实现系统互联互通,并持续梳理数据资源,厘清数据资产清单,建立数据资源目录和服务资源目录。在未来,数据资源将形成体系管理,应不断优化完善数据管理流程,开展数据洞察、智能分析,推进数据与外部联接交互,促进健康医疗大数据产业化发展。

猜你喜欢
加密界面医疗
国企党委前置研究的“四个界面”
一种基于熵的混沌加密小波变换水印算法
基于FANUC PICTURE的虚拟轴坐标显示界面开发方法研究
人机交互界面发展趋势研究
京张医疗联合的成功之路
我们怎样理解医疗创新
认证加密的研究进展
医疗扶贫至关重要
手机界面中图形符号的发展趋向
基于ECC加密的电子商务系统