基于拉依达准则的ATM机异常检测

2020-07-10 10:38华顺航江孟源张蓉王伟杰
科学导报·学术 2020年24期

华顺航 江孟源 张蓉 王伟杰

摘  要:为了有效检测ATM机数据出现的问题,本文通过对ATM机交易量、交易成功率和交易响应时间进行分析处理,提取特征参数,建立成功率和响应时间基于欧式距离的异常检测模型。采用k-means聚类分析,确定异常的具体情况,建立多级化报警系统。此外,运用拉依达准则,针对聚类分析后判定的正常数据再划分,使异常检测模型更加精确。

关键词:k-means聚类分析;拉依达准则;异常检测;单样本k-s检验

引言

随着近几年来ATM机的迅速发展,带来了经济前所未有的腾飞。ATM机人力资源投入少,使用频率高以及24小时全天营业的优点。随之而来的,是ATM机数据大,分析困难的问题。当ATM机出现故障或者卡顿时,用户们往往抱怨,甚至波及到后面排队等候的人群。所以帮助银行及时发现出现异常的营业点,提高运行效率是很有必要的。

为了检测ATM机运行异常情况,我们针对成功率和响应时间建立一套异常检测方案,在基于现实生活中ATM机异常点稀疏,正常点集中的假设下,对成功率和响应时间采用K-means聚类分析,根据数据点的分布范围来均匀生成K个质心。一轮循环后,监测点被划分为正常点、疑似异常点以及异常点。对于正常点,我们使用拉依达准则,剔除正常点包含的少量异常点,将得到的异常点汇总,分为三个等级报警。

1.数据分析处理

(1)数据的预处理

为了使模型更加具有说服力,我们采用了2017年深圳杯B题1-4月的数据用作数据的分析,當然,由于数据存在少量的不完整,我们对缺失的时间段的数据补 0 处理。

(2)数据分析

每日成功率随时间变化分布图---以一月为例

基于以上的图形,可得结论有:①每日成功率在凌晨六点之前波动最大,之后的时间比较平稳。②每日里响应时间的波动非常大,但由响应时间的频数分布图可知:正常的响应时间应该约在55-130 范围内。

此外,我们对数据还进行了相关分析。发现一天之中的交易时刻与交易量存在正相关性、响应时间和成功率呈负相关性

2.异常检测模型的建立

(1)成功率-响应时间异常模型建立

根据上文所描述的数据特征,我们截取两个具有明显差别的时间段分别对数据进行探索。这两个时间段分别是晚上十点到第二天清晨六点,及中午十点到下午三点。以下分析以第二段时间为例。

我们先对数据进行K-means聚类分析,将数据划分为三类。我们假定周围数据点最多的聚类质心为正常点聚类质心,数据量最少的为异常点聚类质心,介于其中的为疑似异常点聚类质心。聚类分析结果如下:

由上图,我们发现,① 聚类质心2附近包含26841条案例,且成功率最高、相应时间最低,我们称其为正常点。② 对于聚类质心1,其成功率低,响应时间高,可以确认是故障点情况。③ 聚类质心3在这两者之间,我们判断为疑似异常点。因此,我们得到了粗略分类的三种情况,接下来我们运用拉依达准则确定正常点的界限。

由于对聚类质心2附近点的分布(即成功率和响应时间)分别用单样本k-s检验的p值为0,因此,我们对数据正态化转换,采用Blom比例估算公式计算正态得分,公式如下:

(r-3/8)/(w+1/4)                          (1)

其中w 是个案权重的总和,r 是等级。

运用个案排秩后得到的数据进行单样本k-s检验,发现处理得到的数据是服从正态分布的,且保留五位小数后平均值为0,标准差为1。因此,我们对处理后的数据当作标准正态分布处理。

得到正态化转换数据后,我们用拉依达准则对数据划分,拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理。

(2)实验验证

为检验本研究的提出的方法的准确性和实践性,选取聚类处理后质心2附近的点作为拉依达准则检测有效数据。对于成功率,我们取置信区间为  ,对于实际生活中,我们希望成功率越大越好,因此只选取下限,不考虑上限。对于响应时间,同上选取置信区间为 ,不考虑其下限,只考虑上限。

运用SPSS软件对数据筛选个案之后,我们得到了72个异常值。其中成功率异常有36个,响应时间异常共有36个。由于篇幅的限制,以下部分检测数据为例

我们发现,交易成功率异常检测值基本在93%以下,响应时间在350ms以上判定为异常。而对于聚类质心1和聚类质心3类附近的点,这些点的响应时间异常程度比通过拉依达准则筛选出来的更大,但是成功率高于93%。

另外,为了更精确的发现异常值,定义由拉依达准则判定的成功率异常为蓝色预警。我们对拉依达准则分析出来的响应时间异常点和聚类质心1和3处的点合并分析,并区分红色预警和橙色预警。观察该时间段(上午十点至下午三点)异常出现的次数,判定在五个小时内出现同种类型的异常来决断。由以上分析,我们有信心确定,该方法具有较好的筛选能力:

设定1类的权值为 ,二类(拉依达准则判定后)的权值为 ,三类的权值为 ,阈值为 。 小时内,发生一类的次数为 ,发生二类异常的次数为  ,发生三类异常的次数为 ,则满足下述条件的被判定为红色预警点:

这里的参数我们无法得知,需要下一步专家确定,这里我们给出一种我们假定的参数来测试效果。设 ;间隔 分别为五个小时内发生1类、2类、3类异常的次数。即当满足以下条件时,五个小时内的异常点被判定为红色预警点。

在我们的参数设定情况下,374处交易量异常点中有153处为红色预警,221处为橙色预警。

3.结论

本文对大量数据进行聚类分析和拉依达准则判定提取了特征参数,深入探讨了ATM 指标中响应时间和成功率之间的关联性。本文模型对大数据分析有着独特的优点,并且对初步分析的数据设定权重比,提升模型的全面性和可信度,将模型出现误差的可能性降到最低。本文所提方法对于庞大的数据,不能进行实时分析,只是按类进行分类的分析,从而得到分析结果的过程中存在一定缺陷,但这并不影响对异常数据的判断结果和实际的运用。

参考文献

[1]  董天文,叶勇超,俞周瑜,等.ATM交易状态特征分析与异常检测[J].数学建模及其应用,2017,6(3):42- 54.

[2]  张敏,袁辉;拉依达(PauTa)准则与异常值剔除[J];郑州工业大学学报;1997年01期:85-89

[3]  柴洪峰等.基于数据挖掘的异常交易检测方法[M]计算机应用及软件.2013.1

[4]  Chan P K,Fan W,Prodromidis A L,et al. Distributed Data Mining in Credit Card Fraud Detection[J]. IEEE Intelligent Systems & Their Applications,1999,14(6):67-74..

[5]  Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research,2008,11(11):849-872.