数据挖掘在公积金异常提取中的应用研究

2014-04-09 14:03张松赵泊徐佳
市场研究 2014年6期
关键词:公积金违规数据挖掘

张松 赵泊 徐佳

数据挖掘在公积金异常提取中的应用研究

张松1赵泊1徐佳2

大数据时代,数据挖掘方法已经被很多人熟悉和应用,此类模型算法也越来越多地应用在系统中。本文简述了三种异常数据挖掘方法,探索在公积金提取业务中建立异常数据挖掘模型,寻找公积金异常提取业务,进一步探索公积金提取中的骗提、套取行为,以保护广大缴存人的利益,保卫住房资金安全,维护住房公积金正常的管理秩序。

异常数据挖掘;提取;住房公积金;大数据

数据挖掘应用于异常提取

在大数据时代,数据挖掘“啤酒和尿布”的故事几乎已经家喻户晓,但数据挖掘还有一个专门方向——异常数据挖掘,又称离群点分析或偏差检测。人们在数据分析中,经常碰到少量数据,它与一般行为或模式不同,我们称之为“异常数据”,异常数据不完全意味着错误或欺诈,但很可能预示着问题。异常的出现可能是体系本身背后隐藏的某种较强的未知力量作用的结果。通过识别、分析,往往能发现许多意想不到的新问题,新知识,从而帮助我们更深入地了解研究对象,发现问题,进而解决问题。

此外,关注异常数据本身往往非常有意义。异常数据挖掘可以发现信用卡的欺诈交易、股市的操控行为、会计信息的造假、洗钱、保险欺诈、违规交易等。此外,审计也需要经常对异常数据进行审查。

异常数据挖掘对公积金违规提取的研究意义

住房公积金是国家规定的住房社会保障制度,它由单位和职工共同缴存的长期住房储金组成,是住房分配货币化的主要形式。其业务主要有归集、提取、贷款发放和回收等。其中,提取业务涉及面广,业务量大,自由度高,违规风险大。因而,在实际中有一些公积金套取、骗提情况发生,这不仅侵害了广大公积金缴存人的利益,而且威胁住房资金的安全,也扰乱公积金的正常管理秩序。

本文探索使用异常数据挖掘方法,分析公积金的异常提取,找出提取业务中不易被监管者发现的违规提取。如:职业代办人恶意套取、少量职工违规提取、个别政策漏洞、程序测试漏洞、经办人操作失误等。而监管者有必要对此类异常数据进行进一步调查,以发现造成异常的原因,从而堵住提取漏洞,防控风险。

异常数据挖掘模型1:Benford定律检测异常提取

Benford定律又称首位数现象。它通过分析业务金额中首位、第二位数字出现概率的分布,来判断提取业务中有无欺诈。我们将每一个管理部,每种提取原因的提取业务数据集作为研究对象。计算出每个研究对象第一、第二位数字出现概率与所有提取业务第一、第二位数字出现概率平均值的差异度,发现离群研究对象,找出差异值最大的前几名作为异常提取风险的指引,有针对性的指导审查异常提取。

异常数据挖掘模型2:关联规则检测异常提取

简单地说,关联规则就是找出两个事物隐藏关系的数学方法。它通过定量化的数学模型,计算出X和Y共同发生的概率,以及X的出现对Y的出现有多大的影响。

在公积金提取业务中,为了方便广大职工,规定可由他人代理职工提取公积金。可以说,该政策方便了广大群众,降低了群众的提取成本。但是,也出现个别“职业代办人”,即个别中介,代理不符合条件的职工违规提取公积金,并从中赚取手续费。

针对此类问题,可以使用关联规则绘制出关联关系图,它可以找出提取业务数据中隐藏的关联和关系网,挖掘出隐藏在数据间的异常关系。按照数据的关联关系找到违规提取。具体的,我们可以通过绘制关联关系图找出哪些经办人嫌疑最大,哪类提取业务异常提取的风险最大。

异常数据挖掘模型3:业务突增(业务数量、金额突增)预警模型

一般的,在法规政策、管理制度,大病患病率等条件稳定的前提下,每个季度,各类提取业务的提取数量和金额应该保持相对稳定,不应大起大落。如果某类“提取业务数量”、“提取业务总金额”某季度出现突然大幅度增加,那么,我们认为出现了异常。通过找出业务突增(业务数量、金额剧烈变化)的情况,预判提取业务的异常。基于这个思路,一个时间段内各类提取、每季度提取总金额环比突增的前几名可作为我们审计、风险和合规检查的工作切入点。

异常数据挖掘模型的汇总应用

应当注意,异常数据的深层原因是体系背后隐藏的某种较强的未知力量的作用,异常数据并不能百分之百的证明该笔提取业务或经办人有违规或舞弊。只能说异常数据预示着该笔业务有较大异常的风险,因而可以作为监管、审计、风险工作的切入点和线索,辅助异常审查工作,进而提供一种有科学依据、可模型化、量化的方法辅助纠正工作偏差。

[1]安利平,张松,仝凌云.基于决策树的OLAM及其应用研究[J].计算机工程与设计,2008(05).

[2]何京玉.新一轮竞争赢在模型[J].金融电子化,2010(09).

[3]王林,兰红等.招行的对手和未来[J].第一财经周刊,2011(43).

〔作者单位:1.天津市住房公积金管理中心,2.诺和诺德(天津)科技有限公司〕

猜你喜欢
公积金违规数据挖掘
违规借调的多重“算计”
“啄木鸟”专吃“违规虫”
探讨人工智能与数据挖掘发展趋势
违规试放存放 爆炸5死1伤
大学生缴存公积金,这个可以有
基于并行计算的大数据挖掘在电网中的应用
违规逆行之后
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究