数据挖掘技术在HIS审计中的应用

2018-02-24 13:55董银霜李宗林周彬
电脑知识与技术 2018年34期
关键词:聚类分析数据挖掘

董银霜 李宗林 周彬

摘要:数据的增长趋势随着互联网的发展达到TB级,传统的审计方式不再适用,应用数据挖掘技术不可避免。针对医院审计,根据当前HIS系统的特点,使用数据挖掘技术和审计实践结合来分析实际数据。聚类分析中可伸缩期待最大化(SEM)算法用于分析数据特征,查找潜在的规律,并为审计人员的决策提供数据支持。

关键词:HIS系统;数据挖掘;审计实践;聚类分析;SEM算法

中图分类号:TP309        文献标识码:A        文章编号:1009-3044(2018)34-0001-03

1引言

随着互联网的快速发展,数据增长呈指数趋势,传统的审计方式,很难从TB级数据中获取隐藏的重要信息。因此,审计人员使用流行的数据挖掘技术来自动分析数据,从而提高效率和准确率。

在审计工作中应用数据挖掘技术,不仅能对被审核数据的历史信息进行查询,还能分析其潜在的联系和规律,找出具有价值的信息。具体来说有两个层面:(1)从技术角度上说,就是利用机器智性从有噪声的大量数据中找寻潜在规律的过程。(2)在实践中,它是指对被审计单位的业务数据进行智能处理,从中找出所需信息,便于审计的实际工作。

医院信息系统(HIS)是一种使用现有网络信息技术来存档和处理医院的医疗和管理数据的信息系统。近年来,HIS系统已在医院得到了深入的应用,并积累了大量的原始数据。结合审计人员多年来工作中积累的业务经验,进一步对数据分析研究。把数据挖掘技术引入HIS系统中用以分析存档数据,从审计角度找出医院经营管理上需要进一步完善和规范的各方面,找出问题,促进整改。同时为同类型疾病的治疗和防范提供一定的数据支撑,挖掘出关系模型,然后进一步对事件进行合理的分析预测,为医院的决策提供重要的依据。可以为保障人民群众的身体健康、为公共医疗卫生事业发展提供数据依据、为社会和谐发展做出贡献。

2相关工作

数据挖掘技术在将数据仓库中已经聚合的数据转换为有用的结果,通过对象选择、数据准备、挖掘数据、结果分析四个步骤。

2.1业务对象

数据挖掘面对的对象,从数据存储的格式,包括关系数据库、面向对象的数据库、文本数据源、多媒体数据库、异质数据库和Internet资源。

本文针对的是HIS系统,对象具体包括挂号、诊疗、处方、记账收费、票据管理、药品进销存等子系统与医护工作站、手术室及医保或新农合结算等子系统。涉及的数据类型众多、业务流程复杂,具体从以下两个方面分析:

(1)医院业务功能模块:医院信息系统功能模块包括标准数据维护、收费(门诊/住院)系统、药物管理系统、门诊医生工作站系统、医院护理工作站系统等。

(2)HIS系统后台数据:HIS系统采用客户端/服务器(C/S)结构。服务器使用Windows操作系统、SQL Server数据库和相关子系统来存储共享。本次获取5个数据库文件备份,ClinicPathWay,JQ_HISInteFace,JQ_Inh,sHIS,shis_em。

2.2数据准备

(1)确定及选择数据:为了精准分析数据,审计工作选定了HIS系统的业务数据原始备份(包含多个子系统)和财务数据,关注HIS业务数据分析,并根据需要与其财务A/C集数据进行比较。

(2)数据清理和转换:以住院数据为例,整理出几个关键的规范数据表,门诊数据与此类似。

(3)关键数据分析:通过对前述数据整理,在单病种统计中,主要用到以下几个表:病人基本信息表、费用明细表、出入库明细表,此外,还有一些公共的字典表,如费别表、科室名称表等。为便于操作,尽可能在一张数据表里展现。以表1为例。

2.3挖掘数据

选择Microsoft SQL Server 2008 R2中的Analysis Services进行挖掘,基于OLAP多维数据集信息来创建数据挖掘模型,并使用成员属性在新维度中查看结果。Analysis services提供了两种算法:聚类(Clustering)和决策树(Decision tree)。下述描述与操作均在SQL Server 2008 R2環境下进行。

(1)建立HIS系统数据仓库:建立数据仓库是开发有效的决策支持系统的基础,也是数据分析处理的环境。

(2)确定数据仓库的主题和形式:基于关系表的存储方式有两种模型,医院通常采用星型模型,相对于雪花模型,这种模型节点交叉点少,查询速度会更快。以门诊挂号为例(星型模型),如图1所示。

(3)建立维度:一个对象的维度包含大量属性,新建维度,把成员添加到数据集中(如病种、总费用、项目费、药费等)。

(4)建立多维数据集:维度建立后,可以基于数据仓库中的事实表构建多维数据集。多维数据集是在线分析处理(OLAP)中的主要对象,是提供对数据仓库中数据的快速访问的技术。

(5)使用聚类分析进行挖掘:聚类是将一组对象划分为若干类,且每个类中对象的相似度相对更高。与分类不同的是聚类不依靠给定的类别对对象进行划分。在对HIS系统数据分析时使用“Microsoft聚类分析”。Microsoft Analysis Services提供的聚类算法是可伸缩期待最大化(SEM)算法,这是一种基于EM算法的缺失数据的贝叶斯网络结构学习算法。该算法使用期望充分的统计因子使得打分函数具有可分解的形式,然后执行局部搜索以试图找到具有更高分数的网络结构;然后查找所选网络结构上获得最多分数的参数。其基本思想是根据群体密度来创建集群。它的特点是只需扫描一次源数据,并在计算过程中的任何一点提供合理的结果。

3 实验结果与分析

结合对某妇幼保健院进行实际审计项目,对其HIS系统相关内容进行了研究,重點关注了该医院妇女、儿童的诊疗以及新生儿的出生情况,进行了深层次的分析。通过对医院业务收支、药品进销存和门诊及出入院人员等数据信息进行分析,了解在收费、诊疗等方面是否存在任何违规要求,并提出合理建议。尽可能合理地使用资源为大多数人提供医疗保健。

在对该医院HIS系统进行的实际操作中,建立聚类分析模型时,选择门诊结算单数据表的单据号为主键,该结构包括疾病名称,性别,操作员,访问日期,项目费,药费和总费用。在“挖掘模型查看器”中,分类关系图中可以查看各分类的密度特征。如图2:

通过上图,可以非常直观地根据剖面图的色彩和大小比例关注某个分类内容的具体情况,如按病种名称来看,妇科检查占全部样本数据的比重为50.6%。关注数据,进一步筛查可能的违规行为,重点关注患者诊断和药物信息,医院药物消费信息和医院治疗药物监测数据,注意每个时间段的工作强度,以与季节或疾病流行程度的影响而相同的情况核查问题。

结合该医院业务特点,进一步对住院数据进行分析,查询得出某一时间段内,正常分娩方式新生儿9276例。剖宫产的新生儿人数为5956人。上述数据反映这一段时间内剖宫产比例为5956/(5956+9276)=39.10%,接近40%。

对分类特征表,根据变量所占概率的大小来看,可以发现性别缺失的概率为56.92%,说明该HIS系统录入原始数据时未录入相应基本数据,审计人员可进一步从信息系统审计的角度进行深入分析HIS内的数据及HIS系统本身;从病种名称来看,妇科检查占50.61%,比例占第一,基本符合该医院的主要业务内容,其次为未见异常占11.14%;总费用,药费和项目费数据表明,项目费占门诊费用的大部分,基本符合情况。

对医院信息系统数据进行描述和可视化,是一种对医院信息系统数据挖掘的表示。对就诊数量通过聚类分析的结果、对项目检查费用值进行细化,从而在监督各个部门实施的检查、治疗、用药的合理性时提供参考依据,并能针对不合理的部分进行详细的分析,进而提高了对医疗过程的管理监控能力。

就诊业务中,HIS系统中部分数据缺失的情况可能会影响某些类型内容的准确性和完整性,但仍然可以对现有情况进行总体把握。

4结果与展望

HIS系统数据记录着各项内容的具体度量值,HIS系统根据数据所做的分析功能也只是由普通的数据统计、常规的报表、不同权限的查询等功能构成。主要是为了满足日常信息提取之需,从本质上来讲这些查询操作是直接的,查询结果是单一确定的,HIS系统的大量数据不能直接提供有利于管理者决策的重要信息,也不能建立有效的指标体系和分析决策方法,因此,对医院的管理和操作进行了有效的评估。数据挖掘意味着使用算法从数据中提取模式。

通过对历史数据的分析可以找出某些规律,对病人就诊科室、入院时间、病床周转情况、费用发生等情况进行挖掘后,可以发现某些就诊情况受国家政策的调整、季节的变化、年龄分布、职业状况等情况的多种影响。在充分了解医院实际业务开展情况,审计工作可以结合数据挖掘结果,提升单一的SQL查询的固有模式,通过分析和处理源数据库中的数据,提取了构建数据仓库的主题,并提出了基于HIS的数据仓库模型,利用工具进行分析,重点关注数据占比较大的发生情况,对可能存在违反规定的情况进行进一步筛查,注意患者诊断和用药信息,医院用药信息,医院治疗药物监测数据,注意每一个时间段的工作强度与季节或疾病流行的情况不同。

数据挖掘技术结合审计工作的具体开展,无论在实际操作还是理论研究上都有大量工作要做,为审计工作技术手段的提升奠定了基础,但仍存在许多问题需要加以改进:

一是改进数据挖掘算法以提高准确率和效率。

二是要更好地利用数据库中各类原始数据,与HIS系统本身充分结合进行研究,扩展到对医疗专业数据、疾病科研方在进行探索。

三是要进一步将数据挖掘与审计工作进行结合,使挖掘结果为审计关注点指明方向,促进审计工作水平的提升,也为医院更好地进行决策支持服务,给相关医务人员分析提供有价值的参考。

随着科学技术地发展,审计信息化技术的发展也在不断与时俱进,而且审计信息化技术可以应用到各行各业,审计理论要与数据挖掘技术的充分结合。从审计需求,到理解和分析具体的审计目标,然后建立模型确定算法对数据仓库进行数据挖掘,是审计信息化技术对大数据分析的必经方式,适当的挖掘算法运用后可以合理地利用人力物力,它可以大大提高审计的质量和效率,也为信息系统审计提供了新的思路和方法。

参考文献:

[1]李建鹏.基于医院信息系统的数据挖掘应用[D].华南理工大学,2010.

[2]陈文伟,黄金才,等. 数据仓库与数据挖掘[M]. 北京:人民邮电出版社,2004.1.

[3]徐洁磐.数据仓库与决策支持系统[M].北京:科学出版社,2005.

[4]康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004.1.

[5]熊才权,程学先,胡恬.基于Analysis Services的OLAP视图的设计与实现[J].计算机与数字工程,2004(6).

【通联编辑:王力】

猜你喜欢
聚类分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究