病案统计分析数据仓库的建立

2012-04-29 15:28魏忠琴
中国管理信息化 2012年6期
关键词:数据仓库数据挖掘

魏忠琴

[摘要] 本文以医院病案统计分析中疾病的统计分析为例介绍了用MS Server 2003软件,建立医院病案统计分析数据仓库的方法、步骤及其意义。

[关键词] 数据仓库; 病案统计分析; 数据挖掘; 联机分析处理; 多维数据集

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 06. 026

[中图分类号]F272.7[文献标识码]A[文章编号]1673 - 0194(2012)06- 0054- 03

随着社会的发展和市场激烈竞争的需要,医院管理已经逐步从传统经验型向科学量化管理的方向发展,而科学量化管理的信息资源,主要从病案的统计分析中获得,特别是重大决策需要科学的数据分析作为依据,这就对医院信息化提出更高的要求。传统的数据库系统只能完成数据统计分析中最简单的动态原始数据以及日常数据报表,而在数据分析和辅助决策方面就显得无能为力了,而数据分析和数据挖掘技术正是数据仓库所具有的强大功能。

1明确数据仓库的主题

需求分析之中心工作是提出主题,并明确主题。每个主题有一个主题域,对每个主题域确定其数据模型,并确定每个主题域的公共主码。然后建立主题域之间的关联,确定主题域数据模式与数据源之间的关系。

在我院病案统计分析的数据仓库的实施过程中,确定的主要主题范围如下:

(1) 病人费用构成分析:分析整个医院、各个科室乃至某个医生的病人费用构成,如发现药品比例过高,可以层层分析是哪个环节导致比例过高,从而采取措施来控制;

(2) 同期费用对比分析:找出医院收入增加或减少的原因;

(3) 单病种分析:对单病种的费用、住院天数、治疗方案进行分析以便医生能及时总结经验,找出最佳的质量手段和方法,缩短就诊时间,减轻病人负担,增加医院经济效益;

(4) 成本效益分析:把各个不同系统如信息系统、财务系统等的数据汇总的数据仓库,对成本效益进行全面分析,以便能真正把握医院经营状况,提高医院经济效益;

(5) 疾病的统计分析:分析不同疾病发病的病人结构(如年龄、职业、性别、地区等)以及辅助诊疗分类的分析。

2数据仓库的源数据调查——数据采集

为了从病案首页信息中分析以上主题,建立主题数据仓库,源数据主要来自本院HIS系统中2002-2010年的住院病人数据资料,其中主要的数据关系表有(以下是以疾病的统计分析和病人费用构成分析为例):现行及历史的病人住院主记录表、诊断记录表、疾病字典表、病人付费方式表治疗结果表等,具体表结构略。

3数据仓库的核心数据库设计

在数据仓库中,事实表数据模式是一个比较简单易懂的数据模式。在本设计中就是采用事实表数据模式,主要有疾病的统计分析数据表、时间表、病人付费方式表、治疗结果表、疾病分类表及年龄段表等。表1是疾病的统计分析数据表结构说明。

软件实现环境:

操作系统:Windows 2003 Server

数据仓库的产品:MS Server 2003企业版

多维数据库的展现工具:Excel

4数据的抽取

本例的抽取程序是利用Sql Server 2003中的数据转换服务DTS(Datastore Transmission Service)从数据源Oracle 7中抽取数据, 在数据的提取过程中,首先建立数据源与目标数据源,然后在目标数据源服务器中完成维表、事实表的创建;根据模型的建立,再生成SQL数据查询语句的程序包,然后执行SQL程序包,将源数据库的数据提取到目的数据库中的维表和事实表中,数据的提取时间取决于源表的大小。

5多维数据集的建立

5.1维度的确定

在数据仓库中,维度(Dimension)是指观察数据的特定角度,作为识别数据的索引,不同的维度组合构成了访问数据仓库中数据的约束条件。在本例疾病的统计分析中我们采用了五维,即:时间维(年月);付费方式维(公费、自费、医保等)、年龄段维(5岁以下、5~14岁、15~44岁、45~59岁、60岁以上)、治疗结果维(治愈、好转、未愈、死亡等)。

5.2数据集的建立

在本例疾病的统计分析中我们采用SQL Service 2003 Analysis Services中的多维数据集向导或多维数据集编辑器来生成多维数据集,其架构如图1所示。

6OLAP数据多维分析

6.1OLAP模型结构

在本例疾病的统计分析的OLAP模型结构如图2所示。

多维分析是指在OLAP多维结构上对以多维形式组织起来的数据采取多种操作,以便分析人员作实验以验证其主观分析意图,主要有钻取、切片、切快、旋转4种分析方法。

6.2客户端数据分析

在基于微软的数据仓库框架中,客户端应用可以通过MS Office、MS Query、MS Visual Studio等任何支持OLE DB的软件开发工具开发。在本系统中。作者使用MS Office中的Microsoft Excel查询数据仓库中的多维数据集,因为对于客户端用户来说,Microsoft Excel是比较常用且简单易懂的。

7创建OLAP数据挖掘模型及浏览决策树

7.1创建OLAP数据挖掘模型

本文利用Microsoft 决策树算法创建OLAP数据挖掘模型,以挖掘出不同疾病在不同年龄段的平均住院费用以及治愈时间等情况。

7.2浏览决策树

在 OLAP 挖掘模型编辑器中,可以使用编辑器编辑模型属性或者浏览其结果。在 Analysis Manager 树视图中,展开“挖掘模型集”文件夹,右击“疾病分析模式”模型,选择子菜单“浏览”命令,出现如图3所示的决策树。

7.3分析

(1) 在“内容详情”窗格的决策树区域中,颜色代表“事例”的密度(在本事例中为:病人年龄段的密度)。颜色越深则节点中包含的事例就越多。 单击“全部”节点。该节点为黑色,因为它代表 (7733) 事例的 100%。7733 代表出院的病人数目(即 “疾病分析” 多维数据集中有事务记录的病人)。

(2) 特性窗格显示“全部”节点中,所有事例的 21.80%(或者说 1 686 个示例)的平均住院费用可能是1 610元;31.64%的平均住院费用可能是3 885元;21.74%的平均住院费用可能是4 664元;24.82%的平均住院费用可能是2 576元。如果没有显示百分比,则可以调整“特性”窗格中“合计”面板的“可能性”列的大小。

(3) 如果选择了树的不同节点,此百分比将会更改。让我们调查一下哪些年龄段的病人平均住院费用在4 664元。若要执行此操作,则需要重新画出树以便勾画出平均住院费用在4 664元的高密度区。在右下角的“树颜色基于”字段中选择“4664”。该树显示另一种颜色模式。可以看出年龄段在60岁以上,平均住院费用3 096元与5 980元之间的节点的密度高于其他任何节点。

(4) 可以查看树的其他分支并调查对于某一种病,病人在不同年龄段平均住院费用的不同可能值。医院可以使用此信息来确定针对该种病在不同年龄段的平均住院费用的高低,采取相应的措施来调整最佳治疗方案,进而控制平均住院费用。

8总结

通过创建数据仓库,数据不仅仅用于检索,还可用来分析未来的发展趋势,并为管理和决策提供支持,如:病人构成分析(分析医院门诊、住院病人的各种构成、如病人的来源、职业、身份、年龄等分布以便有针对性地采取一些措施来提高服务质量,从而增加门诊量和住院收容量)、病人就诊时间分析(从门诊病人挂号到出院各环节就医时间,分析病人的就医瓶颈以减少排队,提高就医质量)、病人费用构成分析(分析整个医院、各个科室乃至某个医生的病人费用构成,如发现药品比列过高,可以层层分析是哪个环节导致比列过高,从而采取措施来控制)、同期费用对比分析(找出医院收入增加或减少的原因)、单病种分析(对单病种的费用、住院天数、治疗方案进行分析以便医生能及时总结经验、找出最佳的质量手段和方法,缩短就诊时间、减轻病人负担、增加医院经济效益)、成本效益分析(把各个不同系统如信息系统、财务系统等的数据汇总的数据仓库,对成本效益进行全面分析,以便能真正把握医院经营状况,提高医院经济效益)。

当然,数据仓库是一个庞大的知识系统,其功能远远不止这些,像各类医保病人分析、免费及各种优惠病人分析、医院各种科学预测等分析功能。随着医院的发展,数据仓库的这种决策支持功能将在医院的管理和决策中起着越来越重要的作用,尤其医院病案统计的分析对医疗研究着非常重要的作用。

主要参考文献

[1] Jiawei Han,Micheline Kamber. 数据挖掘——概念与技术[M]. 范明,孟小峰,等,译. 北京: 机械工业出版社,2001.

[2] 飞思科技产品研发中心. Oracle 9i 数据仓库构建技术[M]. 北京:电子工业出版社,2003.

[3] 罗运模. SQL Server 2000数据仓库应用与开发[M]. 北京:人民邮电出版社,2001.

[4] 徐洁磐. 数据仓库与决策支持系统[M]. 北京:科学出版社,2005.

[5] 王珊,陈红. 数据仓库技术与联机分析处理[M]. 北京:科学出版社,1998.

[6] 夏火松. 数据仓库与数据挖掘技术[M]. 北京:科学出版社,2004.

猜你喜欢
数据仓库数据挖掘
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
数据挖掘技术在中医诊疗数据分析中的应用
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践