白国刚,杨宏桥
解放军第309医院 a.医务部;b.信息科,北京 100091
医院数据中心建设研究
白国刚a,杨宏桥b
解放军第309医院 a.医务部;b.信息科,北京 100091
为了充分利用医院数据信息资源,挖掘出对医院管理有用的模型、规律和知识,本文就医院数据中心建设进行研究,运用商业智能技术建设医院数据中心。通过数据仓库(Data Warehouse,DW)、数据萃取、转换、载入(Extraction-Transformation-Loading,ETL)工具、联机分析处理(Online Analytical Process,OLAP)和数据的多维度分析与展现技术,形成统一的数据视图和综合决策分析支持系统,并以此为基础,结合医院的战略管理和业务运营,对医疗数据资源进行充分的应用、分析与挖掘。
医院数据中心建设;数据仓库;联机分析处理;商业智能
医院在信息系统的建置上投入了大量资金,也为医院积累了大量的、有价值的业务信息。但这些信息都储存在各个信息系统里,逐渐形成了所谓“信息孤岛”[1],见图 1。加上传统的信息系统只着重在事务层面的管理与作业数据的记录,无论是查询、统计,还是生成报表,都只能对指定的数据进行简单的数字处理。缺乏数据实时转化为管理决策信息的能力,不能对这些数据所包含的内在信息进行有效的提取、分析、挖掘等再开发利用。因此,往往耗费大量人力在决策分析报表的制作上,不仅时效上不甚经济,且亦不能完全满足管理决策者的需求。
为了充分利用好数据信息资源,挖掘出对医院管理有用的模型、规律和知识,近年来,所有医院越来越重视内部信息的集成、管理、开发及应用,期望能在数据中找出有助于增加营运绩效、降低成本的有用信息与知识,并作为管理者决策支持的依据。医院数据中心的研究与应用应运而生。
图1 医院信息孤岛向数据中心的转变
医院数据中心通过建设全医院数据管理平台,形成统一的数据视图和综合决策分析支持系统,并以此为基础结合医院的战略管理和业务运营,对医疗数据资源进行充分的应用、分析与挖掘。以提供对医院管理和运营的决策支持,为各部门所需的管理决策、临床决策及科研决策等信息挖掘提供基础支持平台。
通过医院数据中心的建设,来自不同系统的数据将进行统一集中,使医院获取一个集成的[3],以数据仓库为核心的医院信息资源管理平台。医院的信息使用者,特别是管理层和决策层用户,将拥有一个一致的信息访问入口[3],在获取所需信息的过程中,无需考虑数据的来源,而能够以数据为基础开展经营分析,为科学化的医院管理提供有效的支持和依据。整合了来自不同系统的数据,从而使全局化的医院运营视图成为可能。
对传统的信息系统,医院需要新的技术来弥补原有数据库系统的不足,需要把已经广泛收集到的数据集成到医院数据中心,从业务数据中提取有用信息,帮助医院在管理决策支持、临床决策支持和绩效评价管理上做出及时、正确的判断。商业智能是建设医院数据中心时所采用的最核心的一种技术。
White[4]认为商业智能是透过信息科技及产品工具来提供使用者解决企业问题的所有信息,以支持战略性或策略性的商业决策。将现金分散于企业内、外部各种信息加以汇整,并依据某些特定的需求进行分析与运算,透过报表、图表及多维分析的方式将这些结果呈现给决策者,以协助其管理组织绩效或作为决策判断时的重要参考。
运用商业智能建设的医院数据中心主要包含3大部分,第一部份是数据的采集、汇总与整理,其中,包含了DW及 ETL 工具 ;第二部分是数据的多维度分析与展现,其中,包含了 OLAP ;第三部分是数据分析的展现与决策支持应用,包含了多维分析报表(Multi-dimensional Analytical Reporting,MDAR)展现工具,及在管理决策支持、临床决策支持与绩效评价管理中的应用。医院数据中心的架构,见图2。
图2 医院数据中心架构
2.1 数据仓库
数据仓库之父 Inmon[5]首先提出了数据仓库之名,并将数据仓库定义为支持管理决策的数据库。数据仓库大师Kimball[6]认为数据仓库是一种静态的数据,从日常事务处理系统中取得而来,并且是可以支持决策的数据库。常用的数据库建模方式有两种:关系数据库和多维数据库。在医院信息系统中采用关系数据库进行建模[7],而数据中心的数据仓库则采用多维数据库进行建模。目前多维度建模有 3 种常见的架构 :① 星型架构[8](star schema),它由一个规模很大的事实表和一组规模较小的维度表所组成;②雪花型架构[9](snowflake schema),它是星型架构的扩展,每个维度都可向外连接到多个详细类别表 ;③ 星系架构(star flake schema),复杂的应用可能需要多个事实数据表共享维度表。针对住院病人费用决策分析所设计的星形架构[4],见图 3。首先对数据进行整理,创建了住院病人费用事实表,并建立了与之相关的病人身份、入院方式、入院病情、出院方式、治疗结果、费用类别、病人性别、住院科室、时间(包括入院时间和出院时间)等维度。
图3 住院病人费用决策分析星形架构
在医院数据中心的建设中,所设计的数据仓库将能实现 :① 为医院提供一个开放式的数据体系结构,它可以接纳全医院的运营数据,也可以接纳外部数据 ;② 对数据仓库中的数据进行归档、备份、以便在数据仓库遭到破坏时进行恢复,并能实现从数据源所抽取的数据进行筛选、数据标准或内容的统一 ;③ 集成的元数据管理层用于元数据的管理、数据析取 /转换、服务器管理和最终用户分析工具;④ 用于日程安排、存储管理、性能检测、报警 /时间和通知的核心管理服务。
数据仓库的开发策略主要有自上而下、自下而上和这两种策略的联合使用。自上而下策略在开发前就可以给出数据仓库的实现范围,能够清楚地向决策者和企业描述系统的收益情况和实现目标,是一种有效的数据仓库开发策略。在自上而下的开发策略中可以采用结构化或面向对象的方法,按照数据仓库的规划、需求确定、系统分析、系统设计、系统集成、系统测试和系统试运行的阶段完成数据仓库的开发。
元数据管理指的是一组管理元数据的流程、程序和工具。元数据管理涉及到数据仓库构建、运行和维护的整个生命周期,是企业级数据仓库构建过程中重要的一环。元数据管理使元数据集中起来,方便用户的访问和沟通,是业务用户、业务分析人员、数据分析人员和开发人员全面了解企业数据资产的信息来源。元数据管理的主要目标是数据的一致性定义、数据间清晰明确的关系和数据信息的共享。
2.2 数据萃取、转换与载入
数据仓库将分散在医院各个单位的各种信息系统中的数据集成在一起,这个工作就是由 ETL 工具来完成的。之所以称为 ETL,就是来自于它的 3 个主要的功能 :萃取(Extraction)、转换(Transformation)及载入(Loading)。
(1) 萃取 :主要将分散在各种不同信息系统中的数据,以最有效率的方式撷取出来,并存放在数据仓库的待处理数据库内。
(2)转换 :这是 ETL 的核心功能,将撷取到的数据以不同的主题方式加以整理,并针对错误数据加以修正及清洗,并可以依据不同的逻辑计算产生新的数据。在跨部门及跨系统的数据处理上,能将不同编码数据整合为一,使得数据仓库上的数据能够具有高度的透通性。
(3)载入 :此功能主要是将已经转换清理好的数据,载入数据仓库中。使用者可以在数据仓库系统中,快速取得跨部门及跨系统的集成型数据。
使用 ETL 可以在作业过程将需要数据库处理的部分,直接处理完毕,并将所有的作业包括汇总、合并、数据比对等都可以整合在同一个服务中,分离新增数据库与 ETL工具的作业范围,强化数据库的高可用度,并可直接进行问题的警示与回报。
ETL 应包含许多非常有效的组件,例如数据和字符相互转化、计算列、用于分区和筛选的条件操作符、查找、排序、聚集以及合并。高级组件简化了其他复杂的操作,例如缓慢变化维度的装载等。对于某些自定义的需求,可以使用灵活和快速的脚本来实现,同时,开发人员可以毫不费力地编写和分发他们自创的可重用组件。
2.3 联机分析处理
数据仓库中所储存的大都是由各种信息系统所采集的事务型数据,根据 Kimball[3]的定义,都是具有原子粒度的明细数据。以医院患者住院信息为例,数据仓库中存放的是每个住院患者的明细记录,包含患者的住院号、住院科室、出院时间、身份、费别、住院天数、治疗效果、医疗费用等字段[10]。 在 这些明细记录上, 我 们 需 要 再 进 行多种的汇总、统计、分析等处理,最后才能将结果应用在医院决策与绩效管理的各个领域上。而联机分析处理就是为了配合数据仓库所发展出来的汇总技术。联机分析处理能够藉由完成各种复杂的多维度汇总、交叉分析、同期对比等常用的统计方法,从现有的数据中产生新的业务信息(或智能)[11]。
多维数据集[12](或称为数据立方体 cube)是指数据的集合。这些数据组织并汇总到一个由一组维度(Dimension)和度量值(Measure)所定义的多维结构中,见图 4。它使得分析者可以从不同角度(维度)、通过不同的度量值来观察分析所关心的事实数据。联机分析处理可以构造用于分析的数据多维数据集,并提供对多维数据集信息的快速客户端访问。它将数据仓库中的数据组织成包含预先计算聚合数据的多维数据集,以便为复杂的分析查询提供快速解答。其用户可从多维数据集和关系数据源中创建数据挖掘模型,还可对这两类数据应用数据挖掘模型[13]。
图4 多维数据集
度量值是在多维数据集内,基于该多维数据集的事实数据表中的某列的一组值,是进行聚合和分析的主要数值。它通过一个聚合函数对多维数据集的所有可能组合求值,根据所用的聚合函数,度量值可分为分布的、代数的、整体的3类,由此生成一个多维的业务数据集。
由于医院数据中心涉及许多重要的医院信息,因此,安全性的控管就变得非常重要,在医院数据中心建设中,将针对数据仓库及多维度分析两个层面提出安全控管机制要求。
2.4 多维分析报表展现与应用
医院数据中心建设的最后一步就是多维分析报表的展 现 与 应 用[14-15], 见 图 5。 多 维 分 析 报 表 工 具 能 够 让 分析者透过透视表、仪表板、统计分析图、KPI计分卡、智能地图等先进报表展现技术,全方位、周密地掌握医院的整体绩效,以多指标、交互式、可视化的方式呈现关键的医院管理及决策辅助信息,其一目了然的动态图像化报表,能让分析者快速掌握管理的重点,而其交互式的数据筛选、逐层分析等信息探索能力,则能帮助分析者立刻掌握复杂数据中的关键信息,藉以制定应对策略以作为行动的准则,使医院保有快速应对内外部各种突发状况的高度敏捷性。
透视表能够让分析者从不同的分析维度、阶层及数据源,汇整与分析不同的衡量标准与量值,然后以统计分析图来呈现该量值所代表的意义。透视表提供了钻研(Drilldown)、展延(Expand)、切片(Slice)或筛选过滤(Filter)等分析动作,让使用者对数据进行深入的探询或相互的比较。
图5 多维分析报表的展现与应用
透视表的可视化的操作界面更能够让使用者准确地管理各个关键的阶段或里程碑。例如计量性指标(如经济收入达标率)的表现,可以红、黄、绿等3种颜色灯号,来显示数值的意义或是与目标值的差距;而趋势性指标(如经济收入成长率)则以直线上升、斜线上升、平行、斜线下降与直线下降等5种箭头形式来表示,让使用者可以准确地掌握关键绩效指标的走势及变化。
运用 KPI计分卡,分析者能够轻松定义与修正组织的管理目标,是能够最清楚呈现医院绩效与目标之间关联性的绩效管理工具。利用极易上手且直观的操作介面,分析者可以实时追踪并分析医院活动的绩效,可以选择相关的KPI,并从不同的角度、情境或分类去依据其重要性、趋势、状态、目标值、变异数等赋予适当的权重,更客观且全面地评量绩效相对于目标的达成度,不仅有助于营运警讯的及时发现,也能显著地提升绩效管理的效率。
多维分析报表工具不仅能够提供分析者诸如透视表、仪表板、统计分析图、KPI计分卡、智能地图等先进报表展现工具,还集成了常用的经济统计分析模型,让分析者可以快速、有效地透过各种分析模型得到所需的结果。
医院数据中心的建设除了弥补原有信息系统的不足,把已经广泛收集到的数据透过 ETL 集成到数据仓库,并从业务数据中利用 OLAP 提取有用的信息外,最重要的就是要应用在各个不同的管理领域,帮助各级管理者在管理决策支持、临床诊断和绩效评价管理上做出及时、准确、有效的判断与决策。
相较于一般的企业,医院的业务流程显得更为复杂与多变,除了在企业中常见的部门(或科室)组织外,医院中还有门诊、住院、检验、收费等流程贯穿所有的科室部门。因此,在多维度分析报表的建置上,部门科室和流程的相关指标形成一个矩阵型的关系。我们可单独从部门科室指标或门诊、住院等流程指标上或两者的交叉组合上进行决策分析。决策分析矩阵,见图6。
图6 决策分析矩阵
鄂琼和陈英耀[16]指出由于评价主体不同,不同的指标体系会有不同的侧重。对于医院管理者和所有者而言,主要是考虑医院的效益和效率、发展方向能否维持医院收支平衡、国有资产的保值增值、患者的满意度;对于科室主任而言,所关注的主要是能否达到一定的临床效果、经济收入与医疗质量等,不同的考核指标体系侧重有所不同。为满足医院各级人员在分析上的不同需求,医院数据中心将使用“三层矩阵型”的架构来组织相关的多维度报表。医院数据中心三层矩阵型,见图7。
图7 医院数据中心三层矩阵型
绩效指标的管理是现代医院管理的一个新视角,近年来,越来越受到重视,逐渐成为医院数字化管理的有效工具,鄂琼和陈英耀在《我国公立医院绩效评价的现状与问题》一文中对我国公立医院绩效评价的代表性研究成果、和常用的绩效评价指标体系进行详尽的叙述[7]。读者可以参考文中所介绍的指标体系进行构建。
通过医院数据中心的建设,医院将能够以现有的业务系统为主要数据源,逐步建立起跨应用、跨平台的统一的医院数据仓库,在此之上开发更丰富的应用,包含管理决策支持、临床诊断、与绩效评价管理等。同时,应用商业智能先进的信息技术,提供强大的数据查询、统计、汇总及分析等功能,并建立各种分析和决策数学模型,开展跟踪预测,为医院管理和决策提供可信度高的数据和数据分析结果。
医院数据中心的建设在短期效益方面将为医院决策经营管理提供全面、可靠、及时的数据支持,缩短分析模型及多维报表的定制时间,提高 IT 部门对业务部门的响应速度,降低报表定制成本,整合多种信息系统与数据源,提供统一视图报表,实时洞察业务状况,方便最终用户访问与管理报表,提升报表处理效率。
在长期效益方面通过对医院科室的绩效、人员的绩效、以及部门及全院的任务完成情况,逐步建立一套完整的医院绩效评价体系,提升医院管理水平,增强医院的竞争力。通过对医疗卫生市场的结构、趋势、变化等分析,以及财务分析(如:成本分析、现金流分析)建立一套完整的监控预警以及决策支持体系,及时调整医院经营策略,增强医院抗风险能力。
[1] 闫莅荣,戴健.医疗信息孤岛与信息标准[J].中国数字医学, 2010,5(9):101-102.
[2] Integrating the Healthcare Enterprise,IHE Technical Framework Volume I Integration Profiles(Revision 8.0)[EB/OL]. (2010-07-23)[2012-02-20].http://www.ihe.net/Technical_ Framework.
[3] 杨宏桥,吴飞,刘玉树,等.基于SOA的医院信息系统集成研究[J].医疗卫生装备,2008,29(1):32-34.
[4] Colin J White.The IBM Business Intelligence Software Solution[R]. Morgan Hill:Database Associates International Inc, 1999.
[5] W H Inmon.Building the Data Warehouse[M].India:John Wiley,2002.
[6] Ralph Kimball,Margy Ross.Data Warehouse Toolkit[M].Second Edition.New York:Wiley Computer Publishing,2002.
[7] Luan Hua,Du Xiaoyong,Feng Yu,et al.A comprehensive performance evaluation of buffer replacement strategies in RDBMS[J].Journal of Frontiers of Computer Science and Technology,2008,2(2):139-165.
[8] 刘佳,兰顺碧,张晓祥,等.基于数据仓库的分析决策系统住院病人费用[J].计算机工程,2007,33(19):267-269.
[9] 刘晓茜,杨寿保,郭良敏,等.雪花结构:一种新型数据中心网络结构[J].计算机学报,2011,34(1):77-86.
[10] 毛琦敏.数据仓库在医院应用的研究[J].医院研究生学报, 2005,18(4):358-360.
[11] Umeshwar Dayal.An Overview of Data Warehousing and OLAP Technology[C].Palo Alto:ACM Sigmod Record, 1997,26(1):65-74.
[12] 严丽平.数据仓库的构建及其多维数据集分析[J].科技广场, 2007,(6):22-27.
[13] Albert Greenber,Parantap Lahiri,David A Malhz,et al.Towards a next generation data architecture:Scalability and commoditization[C].Remond WA: Association for Computing Machinery,Inc.2008:57-62.
[14] 何莎莎,冯占春.公立医院组织绩效的内涵探析[J].医学与社会,2010,23(1):30-32.
[15] 黄伟城,衡反修.商务智能多维分析平台在医院的应用[J].中国数字医学,2011,6(9):86-89.
[16] 鄂琼,陈英耀.我国公立医院绩效评价的现状与问题[J].中国卫生事业管理,2007,(5),292-294.
Research for Hospital Data Center Construction
BAI Guo-ganga, YANG Hong-qiaob
a.Medical Service Department; b.Information Center, the 309thHospital of PLA, Beijing 100091, China
In order to make full use of hospital information resources, explore a useful model, rule and knowledge for hospital management, this paper researched the construction of hospital data center, and built hospital data center with business intelligence. By using technology of data warehouse, Extraction-Transformation-Loading, Online Analytical Process, Data Multi-dimensional Analysis and display technology, we have realized uniform data views and decision support system, then together with strategy management and business operations, make full application, analysis and mining of the medical data resources.
hospital data center construction; data warehouse; online analytical process; business intelligence
TN911
A
10.3969/j.issn.1674-1633.2012.07.021
1674-1633(2012)07-0072-05
2012-03-31
2012-6-28
全军医学科研计划课题(10MA018)。
本文作者:白国刚,硕士,高级工程师,医务部副主任,主要从事医学工程、管理科学、信息系统等方面研究。
作者邮箱:lxsamao@163.com。