基于K-means聚类算法的住院费用数据挖掘

2017-10-18 03:44:31谢筱筱
现代计算机 2017年26期
关键词:平均年龄欺诈住院费用

谢筱筱

(广西大学计算机与电子信息学院,南宁 530004)

基于K-means聚类算法的住院费用数据挖掘

谢筱筱

(广西大学计算机与电子信息学院,南宁 530004)

目前,我国医疗费用快速增长,人均门诊和住院费用的增长幅度远远大于人均收入增长幅度,医疗保险费用支出也大幅度提升。如何实现医疗保险费用控制是我国社会保险行业研究的一大热点问题。运用K-means聚类算法,对医保信息系统中记录的住院病人等信息进行挖掘,研究分析之间存在的内在联系,为合理控制医疗费用的过快增长提供参考。

数据挖掘;医疗保险;聚类算法;费用控制

0 引言

社会医疗保险是我国社会保障体系的重要组成部分。在我国通过国家立法形式确立了社会医疗保险制度,并建立起相应的保险基金,用以补偿参保人因治疗疾病所发生的费用。近年来,我国医疗费用快速增长,人均门诊和住院费用的增长幅度远远大于人均收入增长幅度,人均医保基金支出费用更呈现出了逐年上升的趋势。如何将医保基金支出费用控制在一个较低水平而又合理的范围内,实现医保医疗服务监督管理精细化,是当前社保事业工作中的一个关键。本文运用K-means聚类算法,对医保信息系统中记录的住院病人年龄、住院时间、住院总费用等关键信息进行挖掘,研究分析三者之间存在的内在联系,寻找规律,为合理控制医疗费用的过快增长提供参考。

1 数据预处理

数据预处理作为数据挖掘算法实现和可视化展示的基础,其处理结果直接影响算法的运行效果,是数据挖掘中非常重要的一个环节。预处理能剔除大量“脏数据”,提供更为干净、准确、具有针对性的数据。本次实例研究以某医院2016年住院数据为例,在医保信息系统中导出包括病人信息表、住院信息表、住院费用明细等大量表格,从中选取对医院住院费用影响较大的年龄、住院时间和总费用三个内容整合成病人住院信息表,并通过K-means算法进行聚类分析。为了保证结果的普适性,本次实例剔除了某些费用过高的异常数据。最终选取数据库中年龄在80岁以下、总费用在10000元以下的样本数据进行聚类分析。

2 基于K-means聚类算法的住院费用数据分析

本次实例研究在SPSS Modeler平台上通过K-means聚类算法来完成。SPSS Modeler是一个业界领先的数据挖掘平台,以图形化的界面、简单的拖曳方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学、机器学习、人工智能等方面的分析算法和数据模型,包括如关联、分类、预测等完整的全面挖掘分析功能。K-means聚类算法是一种应用广泛的聚类算法,它是以k作为输入参数,把n个对象的集合划分为k个聚类,相同聚类的对象相似度高,而不同聚类的相似度低。算法的优点为:(1)对属性值有很好的统计和几何意义;(2)对顺序不太敏感。缺点为:(1)聚类结果依赖于初始聚类中心,对初始聚类中心敏感。(2)容易陷入局部最优。本次实例研究将通过K-means聚类算法完成。首先将经过预处理的病人住院信息表导入SPSS Mod⁃eler中,以便于对这些住院病人数据进行K-means聚类分析,找出不同年龄的发生住院行为的病人的行为特征,从而为以后识别出在住院中存在医疗保险欺诈的行为提供依据。

由于运用K-means聚类方法时,首先需要确定聚类数k值,但是k值平时主要还是主要依靠医院专家的经验,通常在聚类分析前难以确定,因此选择自动聚类方法(如图1所示)进行处理。

图1 聚类过程示意图

SPSS Modeler平台中K-means聚类默认k为5,将聚类结果导出Excel表格,整理后如表1:

表1 K-means聚类结果(k=5)

从表1可初步得出:

(1)对于聚类-1,这类人员平均年龄为7.88岁,属于青少年时期,所占比例20%,平均住院时间为7天,平均费用为363.30元。青少年时期身体素质好,恢复较快,符合表格中体现的人数较少、住院时间偏短、费用中等偏上等特征,但费用较高并不符合医保基金费用控制中的要求,这就需要医院医生配合在开药中进行适当控制,起到在保证身体恢复健康的基础上节约国家医保资源的目的。

(2)对于聚类-2,这类人员平均年龄为62岁,属于中老年时期,所占比例为21%,平均住院时间为19天,平均费用为139.69元。老年时期身体较为虚弱,需要经常住院检查,身体恢复健康需要时间较长,符合表格中体现的住院时间较长、费用中等等特征。

(3)对于聚类-3,这类人员平均年龄为23.18岁,属于青年时期,所占比例为36%,平均住院时间为5天,平均费用为117.13元。青年时期正是身体最为健壮的时期,经过治疗恢复健康的时间需要较短,相对来说需要住院费用较低也是显而易见的。但这类人员住院人次较多,推测可以通过加大日常生活健康知识宣传、树立运动员典型和号召全民运动等措施来缓解,此外,造成这情况的另一种可能性为存在通过住院以达到刷医保卡来频繁买药等医保欺诈行为。

(4)对于聚类-4,这类人员平均年龄为63.11岁,属于中老年时期,所占比例为10%,平均住院时间为11天,平均费用为575.71元。该类人员年纪较大,住院时间较长,平均费用超过500元,可能病人病种复杂、病情重、生命危险,故而必须采用费用高昂但是疗效较好的药物来缓解病情。

(5)对于聚类-5,这类人员平均年龄为27.10岁,属于中青年时期,所占比例为13%,平均住院时间为24天,平均费用为353.65元。该类人员人数较少,费用偏高但住院时间较长,推测极为可能为患有慢性病人群,住院主要为起到疗养作用,为能让身体各项指标恢复到正常水平,从而选择更为高效但价格偏高的药物。另有一种可能性为存在过量开药、代他人刷医保卡买药等医保欺诈行为,这类人群值得重点关注。

以上分析显示,需特别关注处于青壮年时期的病人,谨防出现医保欺诈行为。

3 结语

社会医疗保险基金的费用控制问题一直是一道世界性难题,同时也是我国医疗保险研究领域的一大热点。而运用数据挖掘等网络信息智能化手段从长期以来积累的大量医保数据信息中挖掘出门诊、住院各个部分中的内在联系,寻求费用控制方法,遏制医保欺诈等不法行为的发生为解决这一老大难问题提供了一个新思路。

[1]高宇彤.基于离群点检测的新农合医保欺诈识别的研究[D].哈尔滨:哈尔滨商业大学,2015.

[2]楼磊磊.医疗保险数据异常行为检测算法和系统[D].浙江:浙江大学,2015.

[3]戴子卿,陈俐.基于聚类方法的医疗费用数据挖掘研究[J].中国病案,2014,15(10):66-68.

[4]李如平.数据挖掘中决策树分类算法和研究[J].东华理工大学学报(自然科学版),2010,33(2):192-194.

[5]冯丽芸.数据挖掘在我国医保方面应用综述[J].电脑知识与技术,2014,10(5):880-901.

Abstract:At present,the hospitalization expenses in China is increasing rapidly,and the increasing range of per capita outpatient and hospitalization expenses is far greater than the increasing range of per capita income,thus medical insurance expenses is increasing significantly as well.How to realize the medical insurance expense control is a hotspot in the research of social insurance industry in our country.Adopts K-means clustering algorithm to mine information of hospitalized patients recorded in medical insurance system,so as to study and analyze the inner relations and provide reference for rational control of the excessive rapid growth of hospitalization expenses.

Keywords:Data Mining;Medical Insurance;Clustering Algorithm;Expense Control

Data Mining of Hospitalization Expenses Based on K-means Clustering Algorithm

XIE Xiao-xiao

(College of Computer and Electronic Information,Guangxi University,Nanning 530004)

1007-1423(2017)26-0054-03

10.3969/j.issn.1007-1423.2017.26.014

谢筱筱(1988-),女,广西南宁人,本科,研究方向为数据挖掘

2017-07-06

2017-09-10

猜你喜欢
平均年龄欺诈住院费用
关于假冒网站及欺诈行为的识别
眼科新进展(2023年9期)2023-08-31 07:18:36
关于假冒网站及欺诈行为的识别
International Responsibility and Chinese Diplomacy
我国脑卒中患者住院费用及影响因素研究
警惕国际贸易欺诈
中国外汇(2019年10期)2019-08-27 01:58:04
韩国人平均年龄41岁
环球时报(2017-04-21)2017-04-21 07:28:14
桑植 卫生院住院费用全报销
中国卫生(2016年9期)2016-11-12 13:28:08
网友真实状况鉴别手册
国家卫计委:2017年实现住院费用异地结算
人民周刊(2016年10期)2016-06-02 15:19:45
网购遭欺诈 维权有种法