基于加权K—均值和PSO算法的医保欺诈检测研究

2018-01-04 10:59刘伟彭涛黄阳

电脑知识与技术 2018年28期

刘伟彭涛黄阳

摘要：随着经济的发展，越来越多的人参与医疗保险，享受到医保福利，但医保欺诈却给医疗保险基金带来了巨大的损失。针对传统的医保欺诈检测耗时长、效率低的问题，提出一种结合粒子群算法的加权K-均值的算法，从近30万条医疗记录中检测出疑似欺诈的记录。加权的K-均值算法将不同的属性赋予不同的权重值，为了得到一组根据数据的特性所得的权重值，引进权重指标评价函数CFuzziness（w）。当权重指标评价函数取极小值时，得到最优的权重值。采用粒子群优化算法来求解最优的权重值。聚类问题中簇类数目通常由用户确定，文中则用一种评估聚类的标准来确定最优的聚类数目。实验证明，算法不仅检测效率较高，还避免了主观评价对于检测的影响。

关键词：K-均值；粒子群优化；权重指标评价函数；聚类；医保欺诈

中图分类号：TP3 文献标识码：A 文章编号：1009-3044（2018）28-0197-03

1 引言

医疗保险是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。通过用人单位与个人缴费，建立医疗保险基金，参保人员患病就诊发生医疗费用后，由医疗保险机构对其给予一定的经济补偿。医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

医疗保险欺诈正在给世界各地的公共卫生保健基金造成巨大的损失。据美国Federal Bureau of Investigation（FBI）评估，医保欺诈每年花费美国纳税人超过80亿美元[1]。随着我国医保制度推广范围不断扩大，医保欺诈情况也出现越演越烈的趋势。据资料显示，2015年杭州涉骗保案件金额达1300余万元。许多违法犯罪分子将黑手伸向了医保基金，违法犯罪的手段日趋隐蔽，方式不断翻新，甚至出现了参保人与定点医药机构勾结共同骗保的情况，严重威胁医保基金的安全。欺诈不仅造成经济损失，也严重阻碍医疗系统提供更为优质和安全的医疗服务给患者。

检测医保欺诈是一项重要而又困难的挑战。传统的欺诈检测靠人工稽核和规则库检查为主，技术手段相对落后。医保局审核人员每天进行审核时，要翻阅药品费、检查费、治疗费、手术费、其他费用、术中用药、术中材料等，有的医院药品费用、检查费长达数十条、百余条。审核数量巨大、审核条目多，显然，这样的方式耗时长，效率低，单靠现有医保编制人员是无法完成的。另一方面，医疗保险数据增长迅速，已积累海量历史数据。这些数据有对医保行业最关键的资金数据，还有尚未被利用的病人信息、医院信息、治疗项目和药方信息等。数据挖掘技术可以帮助医疗保险组织等第三方支付者从成千上万的索赔中提取有用的知识，识别一个小子集进一步评估和审查是否有欺诈。

本文将结合已有的真實医保系统中的数据，采用数据挖掘的方法，对医保数据进行降维处理与属性选择，针对两种医保欺诈手段，分析它们的表现形式，利用改进的K-均值聚类方法构建相应的检测模型，并在原始数据集上开展实验，实验证明了该模型的有效性以及准确性。

2 相关工作

国外学者对医保欺诈检测早有研究。Shin H [2]针对保险索赔单提出一种评分模型，来检测门诊中电子保险索赔的欺诈。论文中提到模型分为二个阶段，一是评分量化滥用的程度，二是分割类似的问题模式，二项指标综合得分高的索赔单就说明很有可能存在欺诈。Tiago P[3]对异常的个人医疗服务提供者的医疗访问索赔单进行分析，利用CRIS-DM的研究方法得到可疑的索赔数据。文献详细讲述了不同特征值的选择，并进行了实验和分析。MingJian T[4]提出一种非监督和数据驱动的欺诈检测系统UNISIM，对prescription shoppers（处方购物者）这种类型的欺诈进行自动检测。该系统整合了特征选择、聚类、模式识别和异常检测的技术，对澳大利亚Pharmaceutical Benefits Scheme（PBS）交易型数据库系统中药物处方数据进行处理和检测。

国内医保起步晚，对医保欺诈检测研究也较晚。杨超等[5]使用BP神经网络对服务提供方进行欺诈检测。文献[6]提出一种综合的欺诈检测方法，一是分析用户的行为模式得到欺诈概率，二是用改进的LOF算法（SimLOF算法）得到欺诈概率，将两种方法得到的欺诈可能性概率，使用Dempster-Shafer Evidence 理论进行结合最终得到欺诈检测的结果。文献的实验数据是从山东省淄博市的医疗保险系统中抽取，实验表明该方法的效率比其他基准方法高出30%。文献[7]将离群值异常检测算法在医保欺诈检测中的应用表明离群值检测算法至少可比甚至明显优于其他基准检测方法。文献[8]针对医疗保险中屡屡出现的违规和欺诈行为提出了一种基于多Agent的医疗保险欺诈系统。在系统中，通过利用Agent的智能性和多Agent的协同性对欺诈行为的检测做出决策。文献[9]提出将加权的FCM算法应用在医保欺诈行为主动发现中，文中从待审核的账单入手，经聚类处理后初步得到疑似欺诈的账单记录，综合考虑医生和科室的因素，对账单进行进一步的人工筛选，最终得到疑似欺诈的账单。但文中考虑到数据量较大，对数据进行分组，分别得到每组数据的不同的簇类数目，这样的拆分方法往往忽略数据的内部分布特性，对象所包含的重要信息在拆分过程中缩小化，最终导致算法精度的下降，聚类结果不佳等结果。史径宇[10]等提出用基于指标权重的聚类分析算法来处理医保欺诈行为主动发现的问题。文中改进层次聚类算法中的欧式距离，使得不需要提供欺诈样本点，也能通过模型得到疑似欺诈的记录，提升了聚类的精度，但文中对于簇类数目的选择过于主观，对模型的准确度有影响。

本文针对文献[9-10]的问题，提出一种改进的K-均值算法，改进聚类算法中将所有因素视为同等重要的弊端，引进权重参数，有效提高聚类效果。对于聚类数目的选择，本文直接将全部的数据参与聚类，并根据文献[11]得到合理的聚类数目，避免了簇类数目选择的主观性。

3 算法设计

本文中提出的医保欺诈检测算法设计，首先是数据收集，通过深入分析数据，结合医保欺诈特定类型对数据进行预处理，计算加权K-均值中所需的最优权重，再进行聚类，并对聚类结果进行分析。

3.1 数据预处理

医保数据本身的结构和内容都较为复杂，存在大量的冗余信息和噪声，严重影响数据分析的效率，如何对医保数据进行降维处理和特征选择也是医保数据分析中面临的一个重要问题。由于数据的敏感性，我们只被允许得到深圳某医院一个月的报销数据。本文只考虑患者购买中、西药等药品费用，其他治疗的费用在本论文中不做研究。

首先用SQL Server 将患者信息表进行存储和处理，然后将其与费用明细进行连接，得到入保的患者的费用信息。对于一个月这样的短期时间，欺诈的表现形式有单张账单消费金额高、一张卡在一定时间内反复多次拿药。因此最终确定数据预处理的流程如图1所示。

3.2 加权K-均值算法

预处理过后的数据集设为X={X1，X2，....Xn}，其中Xi（1≦i≦n）由m个指标构成，即Xi=（xi1，xi2，...xim），xij是Xi的第j维属性。传统的聚类算法描述样本点数据Xp和Xq在数据集X上的相似程度，通常使用的欧式距离定义为：

（1）

从这定义可以清楚地看到，传统的K-均值算法将所有的指标赋予了相同的权重，没有考虑实际应用中不同的指标对于具体问题的影响程度，因此改进该欧式距离，称之为加权欧式距离，定义为：

3.3 属性评价函数

为了得到wk的值，文献[12]定义了属性评价函数[CFuzziness（w）]（简写为cf（w）），文中提到求得该函数在一定条件下的最优解，就能得到一组不依赖已有经验，只依赖所给数据的权重值。由文献[11]可知，在普通的欧式距离下，定义样本点数据Xp和Xq的相似度函数[ρpq]，定义为：

在相似性关系不变（如果[ρpq]>0.5，则[ρpq（w）]>0.5；如果[ρpq]<0.5，则[ρpq（w）]<0.5）的前提下，采用加权的欧式距离后，相似性度量相应进行变化，定义为（4）：

其中β的取值为[0，1]的常数，通过调整β的值，使得[ρpq（w）]能近似正态分布散落在[0，1]内，文献中给出了β的近似值为：

由文献[12]中可知，为了使聚类模糊性较小，引进了属性权重评价函数，其定义为（6）：

文献[13]给出了该评价函数的一些性质，当该函数取极小值时，满足相似（[ρpq（w）]>0.5）的對象更相似（[ρpq（w）]→1），不相似（[ρpq（w）]<0.5）的对象更不相似（[ρpq（w）]→0）。为了最小化（6），选用粒子群优化算法来求解。

3.4 粒子群优化算法

粒子群优化算法（Particle Swarm optimization，PSO）是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。文献[14]详细讲述了粒子群优化算法的相关原理。

假设一个D维的目标搜索空间中，有N个粒子组成一个群落，其中第i个粒子用一个D维的向量表示xi={xi1，xi2，..xiD}，i=1，2..N来表示，其”飞行”速度也是一个D维的向量，记为vi={vi1，vi2，...viD}，i=1，2，..N；第i 个粒子迄今为止搜索到的最优位置称为个体极值，记为pbest={pi1，pi2，..piD}，i=1，...N；迄今为止整个粒子群搜索到的最优位置称为全局极值，记为gbest={pg1，pg2，..pgD}，g=1，...N，；粒子在飞行中不断追踪pbest和gbest，并根据公式（7）和（8）来更新自己的速度和位置：

（8）

公式（7）中的w表示前一时刻速度的权重，r1，r2是一个0到1之间的随机数，c1， c2 是学习因子。

3.5 求解w

利用粒子群优化算法和[CFuzziness（w）]得到w的算法流程如下：

第1步.初始化种群规模N，各粒子速度vi，粒子位置xi；

第2步.所有粒子计算[CFuzziness（w）]的值作为自己的适应度值fit[i]；

第3步.比较各粒子的适应度值fit[i]与个体极值pbest（i）的大小，如果fit[i]

第4步.比较各粒子的适应度值fit[i]与全局极值gbest的大小，如果fit[i]

第5步.各粒子根据公式（7）（8）更新自己的vi和xi；

第6步.满足最小误差退出循环，否则返回第2步。

4 实验结果及分析

4.1 实验环境

本文实验所用软件工具有Eclipse和MS SQL Server2008R。

4.2 数据

原始数据有6个表格，其中包括病人资料表，费用明细表，医嘱表，医嘱子类表，核算分类表，患者费别表，共30万条数据。论文对费用明细表、病人资料表进行处理。删除病人信息表中无关字段、有明显错误以及有缺失项的记录，保留病人ID，病人性别，病人医保卡号字段；删除费用明细表中无关字段，保留病人科室，病人ID，药品单价，药品数量，药品总价，账单号字段；病人信息表与费用表明细表进行连接，通过计算单张账单费用，拿药次数，得到字段有：账单号，病人ID，拿药次数，科室，总价。考虑到每个科室的消费情况不同，所以将科室引入。

预处理后用于聚类分析的数据有5万条，其中有经人工核定为欺诈的记录有89条。采用z-score方法将数据标准化到[-1，1]区间；利用PSO求得权重值分别为，科室权重：2.9682，拿药次数权重：2.6145，总价权重：2.9151。

4.3 分析

图3中Y轴值通过计算聚类内紧密度除以聚类间分离度得到[11]。从图中可以看到曲线是呈下降趋势。当k取50左右时y值变化很小了；根据实际聚类情况，本文取K=48为最佳聚类数目，并对聚类结果进行分析。

K取48时，得到类中数目最少的一个簇中所包含的数据有84条记录。部分记录如表1所示。从部分实验结果表中可以看到，序号1，2，3，9的病人拿药次数较少，但是单张账单的总费用都是很高的；序号4，5，6，7，8的病人，拿药次数多，单张账单的费用也高。这些实验结果数据符合欺诈检测的目标。

这84条记录中有60条记录是之前被人工审核为欺诈的记录，因此该算法的真阳性概率接近72%。从实验结果可以得知，该算法对待审核的账单数据进行检测，检测效率较高，能大大缩短检测的时间，提高工作人员的效率。

5 结束语

本文对原始的医疗数据进行数据预处理，根据特定欺诈的表现形式，提取特征属性值，提出一种加权K-均值算法，引入属性评价函数CFuzziness（w），利用PSO算法来求解最优的w。对于聚类数目地选择，本文利用聚类内紧密度除以聚类间分离度作为评估聚类质量的标准，得到最优的聚类数目。实验表明本文提出的方法能很高效的将疑似欺诈的记录检测出来，过滤掉不符合单笔账单数目过高，拿药次数多的特征的记录，大大提高了工作人员地审核效率，节省了工作人员的时间，减少了医保基金的损失。

参考文献：

[1] Office U S G A. Medicare Fraud， Waste， and Abuse： Challenges and Strategies for Preventing Improper Payments[J]. Government Accountability Office Reports， 2010.

[2] Shin H， Park H， Lee J， et al. A scoring model to detect abusive billing patterns in health insurance claims[J]. Expert Systems with Applications， 2012， 39（8）： 7441-7450.

[3] TP Hillerman，RN Carvalho，ACB Reis.Analyzing Suspicious Medical Visit Claims from Individual Healthcare Service Provider Using K-means Clustering[M].Switzerland：Springer International Publishing，2015：191-205.

[4] MingJian Tang，B.Sunude.U.Mendis，D.Wayne Murray，et al.Unsupervised fraud detection in MedicareAustralia[C].Proceedings of the Ninth Australasian Data Mining Conference-Volume 121， 2011： 103-110.

[5] 楊超.基于BP神经网络的健康保险欺诈识别研究[D]. 青岛：青岛大学， 2014.

[6] Chengfei Sun，Qingzhong Li， Lizhen Cui.An Effective Hybrid Fraud Detection Method[C].International Conference on Knowledge Science， Engineering and Management，2015： 563-574.

[7] 楼磊磊.医疗保险数据异常行为检测算法和系统[D].杭州：浙江大学，2015.

[8] 刘舒舒，杨鹤标.基于多Agent的医保欺诈检测系统的研究[J].计算机技术与发展.2013，23（12）：171-174.

[9] 李华，陈宁江.基于PSO的WFCM算法及其在医保欺诈行为主动发现中的应用[J].广西科学院学报.2017， 33（1）：32-39.

[10] 史径宇，冉松灵，李晨萍.医保欺诈行为的主动发现[J].数学建模及其应用，2016，5（1）：54-59.

[11] 贾双成，王奇.数据挖掘核心技术揭秘[M].北京：机械工业出版社，2015.

[12] 王熙照，王丽娟，王利伟.传递闭包聚类中的模糊性分析[J].计算机工程与应用，2003，39（18）：92-94.|

[13] 王丽娟，关守义，王晓龙，等.基于属性权重的Fuzzy C Mean算法[J].计算机学报，2006，29（10）：1797-1803.

[14] 张丽平.粒子群优化算法的理论及实践[D].杭州：浙江大学， 2005.

【通联编辑：代影】