数据挖掘技术在医院管理中的应用

2011-12-19 08:40:32首都医科大学卫生管理学院
医院管理论坛 2011年10期
关键词:时序数据挖掘关联

张 柠 程 杨 首都医科大学卫生管理学院

张春燕2 海军总医院

数据挖掘技术在医院管理中的应用

张 柠1程 杨3首都医科大学卫生管理学院

张春燕2海军总医院

传统统计分析技术难以对海量数据进行有效分析,数据挖掘技术可为医院管理决策提供更有力的技术支持。作者介绍了类描述、关联分析、聚类分析、分类和预测、时序模式技术在医院管理中的应用,指出随着数据挖掘技术的日益普及,其必将在医院管理领域得到更加广泛的应用。

目前,数据挖掘(Data Mining,DM)已在国内金融、电信及公共管理等领域得到了推广和应用,在临床医学领域的应用也逐渐增多[1-2],但在医院管理领域应用研究相对较少。我们认为在信息化的背景下,医院信息系统(hospital information system,HIS)积累了大量的数据资料。对于这些数量大、涉及面广的电子化数据,常用的数据库管理系统的查询检索机制和统计学分析方法难以满足人们的现实需要。人们无法有效利用这些数据,导致“海量数据”和“知识匮乏”矛盾的出现。数据挖掘技术使得计算机能辅助医院管理人员从海量数据中发现有价值的信息和数据,辅助管理人员做决策。

数据挖掘技术概述

数据挖掘起源于20世纪80年代初,机器学习和数理统计理论是数据挖掘研究的基础,数据挖掘又称为数据库中的知识发现(knowledge discovery in database,KDD),是从大量数据中提取可信、新颖、有效并能被人理解的模式的高级处理过程,这些模式隐藏或记录在大型数据库、web、其他大量信息库或数据流中[3]。

数据挖掘技术分析方法很多,在此仅例举目前可能用于医院管理工作中的五种常用方法。

类描述 数据库中通常存放着大量的细节数据,通过类描述可将大量与研究类别相关的数据集进行汇总,汇总的方法有两种:数据特征化和数据区分。数据特征化是一般地汇总所研究目标类别的数据,数据区分是将目标类别数据对象的一般特性与对比类别对象的一般特性进行比较。

关联分析 关联分析通过利用关联规则从操作数据库的所有细节中抽取频繁出现的模式,目的是发现数据中有趣的关联和相关,通过量化的数字描述对象A和对象B同时出现的可能性有多大。

聚类分析 聚类分析是将对象根据最大化类内部的相似性、最小化类之间的相似性的原则进行分组。即同一类别的对象之间距离尽可能小或相似性尽可能大,不同类别的对象间的距离尽可能大或相似性尽可能小。

分类和预测 分类分析是基于训练数据集先找出分类的模型,然后根据模型预测未分类对象所属的类别,分类分析和聚类分析的区别在于是否已知训练数据集。预测是根据已知数据建立连续值函数模型,预测空缺的或不知道的数据值,回归分析是一种最常使用的数值预测方法。

时序模式 时序模式是通过时间序列搜索出重复发生概率较高的模式,利用已知数据预测未来的值。时序模式分析内容包括趋势分析、在时序分析中的相似度搜索等。

数据挖掘技术在医院管理中应用的必要性

在信息化背景下,各医院所使用的信息系统汇聚了丰富的管理与临床数据,如医院设备、财务、人事、患者社会特征及患者的治疗信息。这些数据记录了医院的日常管理和业务行为,是对医院历史状态的描述。目前医院信息处理主要是利用信息系统的查询功能等操作性事务处理工作来简化工作流程、提高工作效率,但操作性事务处理工作仍然难以实现预测等深层次的数据分析,医院信息处理系统中的信息未被充分有效利用。

数据挖掘与传统分析工具的不同点主要在于基于数据发现的方法不同,数据挖掘更侧重于运用模式匹配和一些算法来描述数据之间的某种联系。医院管理人员利用从海量数据中获取知识的数据挖掘手段,能够在专门技术人员的指导下对信息系统中的海量数据进行分析,获得可用于实际管理的有价值的信息。运用数据挖掘技术,利用描述、分类、聚类、关联、时序模式等方法,医院管理人员可以对医院信息管理系统中工作量数据及患者就医相关数据资料进行深层次分析和研究,揭示数据内在的联系,将其转化为医院管理和发展需要的直接、有用的信息。

数据挖掘技术使用数据来构建模型,再用数据去验证模型,模型的构建是从特殊到一般的归纳过程,根据模型得到的分析结果客观性更强。对于信息系统中数据客观存在的质量缺陷,传统的统计分析方法往往不能很好解决,而数据挖掘技术通过对数据的预处理,能够有效将有缺陷的数据补全、消除噪声和清洗,从而提高数据的可靠性。数据挖掘技术能够将数据从执行系统中筛选出来,减少冗余,完成一系列的转换、结构改变及聚集处理,从庞杂的信息流中分辨、析取、整理、挖掘出对医院管理有用的信息。

数据挖掘技术在医院管理中的应用研究

面对医院信息系统中的海量电子数据,可通过应用数据挖掘技术对数据进行综合分析处理,从而提高医院管理和医院服务工作的质量和效率。

类描述技术的应用 医院门诊患者所患疾病种类繁多,以患者电子病历信息为数据源,利用类描述技术,我们可以描述出患者来医院就诊疾病的构成种类、不同类型疾病复诊及治愈状况,不同时间特征下患者疾病种类分布,得到医院疾病诊断的专科特色,分析不同科室医学人才的供需状况,寻求医院发展的特色之路。

关联分析技术的应用 数据挖掘中的关联分析技术旨在发现数据中存在的隐含知识,有时我们并不知道关联函数的具体形式,或者关联函数是不确定的,寻找多维数据中隐藏的关联规则是关联分析的主要目的。利用关联分析的技术,对患者的病种、住院天数、住院费用、入院病情、入住科室、入院方式、手术与否、有无并发症、病人年龄、医保类型等变量进行关联分析[4],建立住院费用与疾病种类的关联规则,可以为按诊断相关分组付费研究提供相关参考。

聚类分析技术的应用 住院病人病历记录通常包括病人的基本社会学特征如性别、年龄、职业,病人在医院就诊过程中的治疗手段、用药记录、复诊状况等信息,对患某种疾病的出院病人,采用聚类分析技术,分析病人的预后情况与病人的社会学特征、治疗手段、用药情况的关系,得到不同特征人群适宜的治疗方案的知识。为有效治疗、提高医院服务质量提供证据。运用聚类分析技术还可以进行“孤立点”的挖掘分析,对聚类结果中的孤立点,采用孤立点检测算法,发现病人预后特殊状况的存在及发生频率,从而发现有效治疗方案或者纠正治疗失误。

图1 数据挖掘技术路线图

分类技术的应用 由于医学知识的缺乏,初诊患者往往不能对自己的疾病做出正确判断,可能存在二次挂号行为,这既导致患者病情的延误,也无效占用了原本紧缺的医务资源。运用数据挖掘的分类技术,根据每一病种以往就诊患者的症状、年龄、生活习惯等信息,建立训练集,对相关症状可能对应的诊断进行预测,并形成患者特征、相关症状与可能诊断、具有不同诊断特长的医生间的对应知识,这样在患者初次就诊挂号时,挂号员可以根据数据挖掘知识结果引导患者有效挂号,减少医务资源的无效占用。

时序模式技术的应用 医院门急诊人次、住院病人数反映了医院工作量的大小,工作量是医院人力资源配置的重要参考标准。还有一些疾病的流行具有季节性特征,利用数据挖掘中的时序模式分析技术,发现不同科室就诊人次、病床周转率、相关药品和材料在不同时期的变化趋势特征,并以此趋势对未来医院医务资源需求量进行预测。对就诊人次和住院人数时序模式的分析,有助于提高医院人力资源配置的科学性,提高病床使用效率,最大限度发挥医务资源的使用价值。了解相关药品和材料的需求模式,可以有效提高相关药品和材料库存的科学性和合理性,降低由于储存条件、有效期等因素影响引起的库存损耗。

数据挖掘技术在医院管理中的实施过程

数据挖掘技术在医院管理中的实施过程可以通过以下程序简单描述。

确定需求 根据医院管理的目标和内容要求,描述管理需求问题,并将其转化为数据挖掘问题。

数据理解和准备 根据数据挖掘问题,确定要收集的数据,从医院管理信息系统中选择适用于数据挖掘的数据,识别数据质量问题,对有关数据进行转换和清理。

建模和数据挖掘 针对研究任务的所属类别,确定将要进行的挖掘技术类型,如描述、聚类、关联规则等,选择有效的数据挖掘算法,模拟数学分析模型并应用数据加以构建。

模型评价 进行模型评价,解释并评价挖掘结果,测试与评价所发现的知识的有效性和可行性。评价使用的分析方法一般视数据挖掘技术而定,通常会用到可视化技术。模型的建立是一个反复验证过程,一个良好的模型并不是一次完成的,模型构建完成后,将其它数据代入模型得到分析结果并对模型进行评价,如果模型的效果不令人满意,可利用反馈机制重新运用挖掘工具进行建模、分析,直到根据模型得到的分析结果能够被清晰、准确、客观地表述。

结果发布 根据管理人员的要求,对数据挖掘所获得的知识进行组织,并以简单、通用的方式呈现给管理人员,从而使管理人员能在管理工作中运用所发现的相关知识。

上述步骤是数据挖掘技术应用于医院管理时的一般程序,有些程序不是一次性完成的,某些或者全部程序可能需要反复进行,这取决于阶段分析结果对需求者的满足程度。

图1简明地描绘了数据挖掘技术在医院管理中的应用路线。

结语

数据挖掘技术结合机器学习、统计分析和数据库原理,试图通过对静态数据的分析获得蕴含在数据内部的模式,进而帮助管理人员对医院信息系统的海量电子数据进行分析,以提高数据资源的利用效率,为增进医院服务质量、科学决策提供参考依据。随着数据挖掘技术的发展,该技术在医院管理领域必将得到更多的应用和发展。

1 王新军,胡曼.数据挖掘技术在寿险业交叉销售中的应用[J].保险研究,2009,(6):90-99

2 于长春,贺佳,范思昌,等.数据挖掘技术在医院管理中的应用[J].第二军医大学学报,2003,24(11):1250-1252

3 谢邦昌.数据挖掘clementine应用实务[M].机械工业出版社,2008年4月版

4 朱世俊,鲍玉荣,刘爱民,等.北京地区医院DRGs付费和临床路径应用研究[J].中华医院管理杂志,2008,24(3):145-147

作者邮箱:cufestat@163.com

猜你喜欢
时序数据挖掘关联
基于时序Sentinel-2数据的马铃薯遥感识别研究
基于Sentinel-2时序NDVI的麦冬识别研究
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
智趣
读者(2017年5期)2017-02-15 18:04:18
一种毫米波放大器时序直流电源的设计
电子制作(2016年15期)2017-01-15 13:39:08
一种基于Hadoop的大数据挖掘云服务及应用
DPBUS时序及其设定方法
河南科技(2014年15期)2014-02-27 14:12:36