李茜
【摘 要】随着数据挖掘技术的不断发展与成熟,对数据挖掘的研究和应用逐渐深入到各个行业。在医疗保险领域,医保诈骗的现象时有发生,造成医药基金的损失,损害广大参保人的利益。运用数据挖掘技术,构建较为完整的医保数据仓库,实现医保信息化的构建,进而更为高效的使用和管理医保基金。本文通过对比研究病人的所购药品金额和药品数量,结合医嘱时间,病人科室等项目,利用EXCEL,SPSS进行数据的筛选整理及描述性统计分析,建立检测模型,筛选出异常值。异常值的检测即为主动发现医疗欺诈检测。
【关键词】数据挖掘技术;医保欺诈
一、问题背景
(一)关于医保欺诈的手段分析
医保欺诈及违规行为主要分为医疗保险参保患者(需方)的欺诈、违规行为,医疗保险服务供方(医疗机构和药店)和参保患者合谋的欺诈、违规行为,医疗保险服务供方的欺诈、违规行为。
根据表格数据项目和特点,主要能够发现以下医保欺诈行为:
1.冒名顶替。是指非参保患者以其他参保人身份在定点医疗机构就医,包括门急诊、住院、加床等。具体在数据中的体现为:同一个人持多张医保卡就医。
2.贩卖药品。指医保患者通过医保卡多看病,多取药的方法,然后将药品贩卖,达到骗取医保基金的目的。
(二)医保数据挖掘
我们通常将数据挖掘的任务主要分为描述和预测两大类。预测任务是通过一些自变量属性为目标建立模型,用自变量的取值来预测目标变量的取值。描述任务则是对数据潜在联系或模式的概括,包括关联分析,聚类,异常检测等。
本题主要是针对医保欺诈的检测。欺诈检测是医保基金风险防控中重要的一项任务,通常根据专家知识分析可能的欺诈行为,并利用数据挖掘算法进行检测和验证。
二、识别医保欺诈行为
(一)识别单次购药金额高且购药数量多和单次购药金额过高但购药数量少的行为
在医疗保险的诈骗过程中,骗保人会反复使用医保卡购买药品,再将购买的药品以高价出售,以此牟利。因此,当某位患者单次购药金额高且多次购药或者虽然购药数量少但单次金额过高,则意味着该患者有恶意骗保的可能。
1.识别单次购药金额高且购药数量多的行为
·数据预处理
1)数据筛选。在费用明细中,只保留病人ID、药品数量和总价格。
2)数据排序,数据分组。将病人ID及按升序排列,对每一个病人购买药品数量和总价进行单独分析。
3)通过数据透视表将属于同一病人ID的药物费用加总。用=COUNTIF()函数计数,用=SUMIF()函数进行加和。
·模型的建立及求解
1)将同一病人ID下各药品价格加总,即可求出单次购买药品的金额。将同一病人ID所对应的各药品数量加总,即可求出单次购买药品的数量。
对“费用明细”中药品价格,购药种类,每种药品的数量等数据带入上述公式进行计算,得出每位患者单次购药的总价格和药品总数量。
2)运用SPSS对单次购买的药品金额进行描述性统计,取显著性水平α= 1%,按照“经验法则”约有99%的样本值的平均数落在±3个标准差的置信区间内,置信区间的上限为175.6480。超出该范围的部分认为有诈骗的嫌疑。
3)对于单次购药金额超出175元的部分,我们对剩余数据进行再次筛选处理。此次是筛选出一次购药中购买药物数量较大的数据,取显著性水平α= 1%,按照“经验法则”约有99%的样本值的平均值落在±3个标准差的置信区间内,置信区间的上限为428.94。高于置信区间上限值的部分,符合满足单笔金额大且所购药品数量多的条件。
结论:经过上述筛选过程后,可以识别出具有诈骗嫌疑的病人ID。经过筛选,大约有28.62%的病人有该种诈骗嫌疑。
2.识别单次购药金额过高且购药数量少的行为
在医疗诈骗中,单次购药金额过高同时购药数量少的诈骗手段也常见。类似解决上一问的做法,本文从药品总价和药品数量入手,筛选出异常值。以此确定存在医疗诈骗行为的病人ID。
·模型的建立及求解
1)首先,对药品购买金额按照降序排列,利用SPSS制作药品购买金额的散点图,如图表组合二,观察其特点。发现异常值大概在前1%左右,这些异常值可能是由医疗诈骗行为导致的。
2)再从药品购买数量中筛选出低于428的数据,与1%的异常值取交集,即可得到采取单次购药金额过高且购药数量少手段的病人ID。分析结果如下表所示。
结论:使用上述方法,可以找到在医疗过程中,单笔金额过高且数量少的数据所对应的病人ID,通过核实病例信息,医嘱子类,可以最终确定医疗诈骗行为,结果显示,该部分的嫌疑人数量占到0.999%。
(二)识别同一人持有不同医保卡购药的行为
在医疗诈骗的过程中,通过借取,租用多张医保卡,反复购买药品再出售牟利,也是一种常见的手段。这种方法由于病人ID不同,较难辨别而更加隐蔽。本文假设,由于个人身体条件差异导致对药物数量的需求差异较大,且不同种类药物单价也不相同。因此,每次就医所购买的药品总金额应当具有一定差异。当出现药品总金额相同的情况时,则视为具有医疗欺诈的嫌疑。
这里使用雷同价格筛选法。
·数据预处理
统计相同金额出现的频数,并按其大小进行降序排列。
·模型的建立及求解
1)将相同的药品总金额及其对应的频数列成表格
2)将频数按降序排列
3)运用SPSS对单次购买的药品金额进行描述性统计,统计每个价格出现的次数,在筛选价格频数时,首先考虑了中位数。但在操作中发现中位数为1,而最大值为483,说明该组数据偏态较高为28.872 ,使用中位数作为划分依据不合理。因此使用新的筛选方法。
4)通过对药品金额进行描述性统计,从频数发现相同金额出现次数在七次以内的占总体的95.3%。可知,由于病人的医疗行为具有独立性,且不同种类药物之间单价差距大,在不同患者的医疗过程中,药品总金额大量相同的频率比较低。如果将金额频数按降序排列选取前5%,已经足以涵盖大部分的总金额重复情况。因此,在此范围内的可以视为有医疗诈骗的嫌疑。
成长·读写月刊2015年4期