周 英 魏玉琼 施 宇 张 曼 帅 文 何 萍
(同济大学附属第一妇婴保健院 上海 201204) (万达信息股份有限公司上海 201112) (同济大学附属第一妇婴保健院 上海 201204) (上海申康医院发展中心 上海 200041)
大数据时代各行各业产生并积累大量数据。医院数据来源多样、标准化程度低、质量不一,且分析挖掘技术水平较低,对医疗大数据利用有较大影响。为解决妇婴各业务系统之间数据交换与分析难题,建立面向患者全程管理的妇婴数据中台,利用统一接口将医院海量数据接入,分类处理后对标准化数据进行存储,形成大数据资产。利用智能算法集中分析数据,将数据模型按照应用要求进行服务封装,最终高效、快捷地输出给医院。本文基于数据中台分析总结上海市第一妇婴保健院分时段预约诊疗服务及应用效果,得出分时段预约诊疗服务改善门诊就诊环境,缩短患者候诊时间,取得显著应用成效。
图1 数据中台架构
2.1.1 基础设施层 数据中台的基础支撑,提供构建平台所需的软硬件设备,包括防火墙、交换机、存储器、服务器等。
2.1.2 数据层 包含医院多种系统数据源,采用数据同步、结构化、清洗等多个步骤对多源数据进行规范化。
2.1.3 数据汇聚层 对指标定义、业务口径、技术口径、指标计算进行严格规范,保证数据指标准确性,对结构化、半结构化和非结构化数据进行清洗和转换,最终使用Hadoop、HDFS、Redis等大数据存储和计算工具对多源数据进行汇聚。
2.1.4 数据服务层 用于不同主题和场景的数据应用服务搭建,为实现数据中台各类应用服务的智能化集成与管理,采用面向服务架构(Service Oriented Architecture,SOA)的企业服务总线(Enterprise Services Bus,ESB)集成架构[5],以接口形式对外服务,将计算好的数据根据需要封装成接口服务于数据产品以及各个产品线使用,其中计算层通过统计分析和算法模型对数据进行深入挖掘分析,为数据服务层产生有价值的中间计算结果。最终在ESB应用集成基础平台上经过数据应用服务包装,实时展现各项大数据分析指标结果,为各部门临床应用、运营管理、辅助决策提供参考意见。
在数据中台建设过程中,按照原国家卫计委《医院信息系统基本功能规范》相关规定,严格遵守国标、行业标准及部标数据标准,补充各项业务数据标准,强化数据标准化管理制度,保证数据交换共享的规范性、完整性和可靠性,通过采用本体映射和自然语言处理(Natural Language Processing,NLP)等方式对疾病诊断、实验室检查、症状体征、病历形态学、手术与操作、体格检查、给药途径与频次、单位、药品名称等实现数据标准化和结构化。词法分析能识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇词性,进一步识别出命名实体;依存句法分析利用句子中词与词之间的依存关系来表示词语句法结构信息,用树状结构来表示整句结构;词向量表示可查询词汇词向量,实现文本的可计算;词义与短文本相似度是判断两个给定词语或文本的语义相似度。
2.3.1 概述 数据资产化的本质是要有足够的颗粒度和维度,直接用于业务场景,如患者、医院、设备画像。通过业务反推和基于患者信息聚合衍生的方式,形成疾病数据模型和运营模型。基于患者信息聚合衍生,包括疾病诊断、实验室检查、症状体征、病历形态学、手术与操作、体格检查、给药途径与频次、药品名称等。
2.3.2 医院业务需求 辅助决策支持,基于疾病数据的诊疗推荐;临床质量管理,通过患者分类和疾病数据的统计分析;病历质控/病案首页,通过患者分类评价疾病数据的全面性和合理性;科研项目,基于疾病数据的展示与搜索;精细化运行,根据疾病数据和医院运营数据进行描述与分析。
2.3.3 关键数据模型 疾病数据模型(专科维度的患者数据及其衍生数据;与疾病关联的组学数据等);疾病推理数据模型(患者分类;重要事件,如不良反应、并发症、结局等;表型等);医院基本信息(地区、等级、床位数、科室、医生数量等);医院运营数据模型(预约、门诊、住院人次及手术、费用数量等)。
2.4.1 知识库 包括3部分。一是通用知识,包括常见的药品知识检验、检查知识;二是模块化疾病知识,包括筛查诊断手术和操作指引知识;三是疾病知识,包括疾病指南和专家共识。以国际SNOMED、LOINC等为典范,以临床需求为基础,以专病为粒度,推进术语库建设与使用。
2.4.2 指标标准管理体系 包括5部分。一是流行病学数据,建立筛查、并发症、不良反应、预后指标;二是临床路径和指南,设定病种诊疗流程指标;三是医院和科室质量标准,医院对不同病种设立临床质量管理要求;四是国家对重大疾病的要求,国家根据国民健康要求,设定重大疾病管理要求;五是绩效管理与按疾病诊断相关分组(Diagnosis Related Group System,DRGs),设定医院运营指标。
2.5.1 基本概念 开放应用程序接口(Application Program Interface,API)是通过对API网关的访问来获取服务响应结果,即通过API网关代理转发请求到后端服务。与传统的服务请求相比,增加新的网关层用于安全校验、流量控制、应用鉴权等公共服务。
2.5.2 优点 一是简化管理,对接、排错更简单、快速,减少数据治理工作量;二是数据安全,只需提供业务所需最小级,减少不必要的数据暴露,进行统一脱敏转化,从而更好地保护患者隐私和医院数据资产。开放API与传统服务请求相比,可以避免对后端服务的恶意攻击。
3.1.1 实验描述 未实行分时段预约时,门诊大厅挤满患者,候诊时间较长[6-7]。上海市第一妇婴保健院于2018年4月实施门诊分时段预约诊疗服务,覆盖专家门诊、普通门诊和部分医技科室,患者根据自身需求选择不同时间段来院错峰就诊。以专家门诊、产前复诊、妇科门诊、B超检查为例,现基于数据中台,利用医院业务数据对比分析其分时段预约实施前后的患者候诊时间。时间取自每日8-17点,分为8个预约区间。分时段预约实施前的时间范围取2017年5月1日-10月31日,样本数量172 858个;实施后的时间范围取2018年5月1日-10月31日,样本数量176 279个。
3.1.2 结果 实施前后患者候诊时间实验对比结果,见表1。可以看出原本候诊时间很长的产前复诊在分时段预约实施后候诊时间大幅减少,改善患者就医体验。其他3个科室类别候诊时间也有较大幅度减少,成效显著。
表1 实施前后患者候诊时间变化(分钟)
实施分时段预约以来,各预约区间患者候诊时间显著减少,患者可根据自身需求有计划地安排就医时间,错峰就诊,极大改善就医体验,同时为医院分流患者,解决门诊拥挤问题,构建有序的就医环境[8-9]。
数据中台基本理念是将所有数据汇聚到数据中台,每个应用(包括指标、分析、画像、大数据类)均从数据中台获取数据。强调数据全面性以及数据中台组织、应用组织之间的协作关系。相较于数据仓库,其具有以下优势:整体规划、统一建设;不做重复性数据工作,所有数据在一个整体模型操作;综合收益最大化,数据应用开发效率更高。在数据中台逐步扩大数据应用过程中还需要完善方法论与工具支撑、业务认同、管理支撑。
大数据生态的核心是大数据,大数据的核心是数据共享。数据共享可以提供各类数据服务,实现数据高效调用。数据中台整合医院系统和业务数据,统一数据质量和口径,开放API服务数据中台,提高数据挖掘、更新、使用效率。
通过松耦合的数据服务使业务复用。数据中台通过重新编排、组合算法可以满足服务接口响应业务的基本需求,可以较低成本投入来构建新的前端业务,支持快速试错。
基于数据存储、数据整合、算法模型、数据应用服务等核心要素构建的数据中台,打破各业务系统之间的数据壁垒,有效整合和利用医院业务数据,实现数据共享。本文对基于数据中台的分时段预约诊疗服务进行分析,结果显示分时段预约诊疗服务有较好的应用成效,改善患者就诊环境。未来将继续利用数据中台优势,创新更多服务于患者的数据应用,使患者获得更好的就医体验。