应昊键 韦棋钧 重庆邮电大学软件工程学院 重庆市 400065
ATM即自动柜员机,是银行在不同地点设置的一种小型机器,让客户可以透过机器进行提款、存款、转账等银行柜台服务。这不但提升了银行的工作效率而且给群众带来很大的便利。与此同时,ATM的维护管理和数据安全就显得十分重要,发现故障与异常数据监测就是我们需要研究的首要问题。近几年来ATM机的使用越来越普及。由于其运行时无人监管,一旦出现故障将造成一定的损失,因此对ATM机交易状态特征分析与异常检验显得十分重要。
为了选取合适的特征参数,本文首先做出了交易量、交易成功率、交易响应时间分别与月份和一天的分析,得出波动趋势的变化,再判断波动较大的地方引起的原因,选取部分指标,然后再计算这些指标均值与方差,最后进行假设检验判断指标是否合适。
(1)特征参数的选择
通过对月份和交易量分析:1月份的交易量波动较大,2、3、4月份的交易量波动范围较小、较稳定,我们猜测是过春节这一因素的影响,如果排除春节期间的交易量,每个月份的曲线形状相似度很高;
通过对一天的分钟数和交易量分析:日交易量存在高峰差异;在早上七点左右交易量大幅度上升,晚上八点左右交易量大幅度下降,交易高峰期在上午十点到晚上八点之间。
通过对每天的分钟数和交易成功率分析:较为集中在早上八点到晚上十一点之间,且基本不随着时间变化而变化,这说明成功率与时间不存在线性关系;在晚上十一点到早上八点之间,成功率分布波动范围较广,离散程度较大,猜测是交易量太少的原因造成的;晚上十一点到早上八点这段时间,严重偏离样本值的点多,有可能是异常情况。
通过对每天的分钟数和交易响应时间分析:在白天的时候,交易响应时间较短,而夜晚的时候,ATM机的响应时间较长。猜测是由于白天交易量大,银行开设的服务器及处理器较多,响应时间得到降低;在白天的时候,响应时间数据分布集中;夜晚的时候,响应时间的数据点离散程度大。
(2)特征参数的特征范围
本文针对题目提出的高峰期、节假日、工作日的情况,随机选取符合情况的某日交易量、成功率、响应时间的数据计算平均数和标准差进行提取参数特征,得到除一月外的交易量受是否为工作日、节假日影响较大,日交易量平均值在一天内波动较大。响应时间与成功率受否为工作日、节假日影响很小,响应时间平均值波动幅度较大,成功率趋于稳定。
对交易量、成功率、响应时间进行月定量分析,我们随机取了某个时刻的参数计算平均值和方差,得到某时刻的交易量受节假日的影响,且波动较大。成功率较为稳定。响应时间受到的影响较小。
本文首先对一天的交易量、交易成功率、交易响应时间进行三维的K-means聚类分析;我们发现存在高峰期交易量波动很大,对一天进行时段划分,再对三个指标基于不同时段进行三维的K-means聚类分析;为了得到更好的数据异常检测方案,我们对其进行降维处理,由于交易量与成功率存在一定的线性关系,所以对一天不同时段的交易量与交易响应时间进行K-means聚类分析,进行异常检测。
(1)三指标的K-means聚类检测模型
通过K-means聚类分析,得到聚类分析散点进行对比,得到了异常值与正常值得误警率为0.0028。
(2)不同时段三指标的K-means聚类检测模型
在选取特征参数时中我们发现每天不同时段的交易量波动很大:在白天的时段,交易量大、交易成功率高且稳定、交易响应时间短暂且稳定;而在晚上的时段,交易量小、交易成功率与交易响应时间的波动性大,离散程度大。为了使模型更具时效性与准确性,于是我们对一天不同时段的交易量、交易成功率、交易响应时间进行K-means聚类分析,从而得到异常检测结果。通过计算我们得到该模型的误警率为0.0125.
(3)不同时段交易量与交易响应时间的K-means聚类检测模型
指标的选取:为了使模型更为简便、准确,于是我们暂且不考虑交易成功率这一指标,只针对交易量与交易响应时间两个指标进行K-means聚类分析,来判断异常结果。
(4)不同时段交易量与交易响应时间的K-means聚类分析结果
通过聚类分析处理后,我们得到不同时段交易量与交易响应时间的K-means聚类分析结果,通过计算我们得到该模型的误警率为0.00486.
为减少在对该交易状态的应用性异常虚警误报的情况,提升异常检测方案的性能。所以我们添加内存占用率和响应率对异常数据检测方案进行改进。
(1)内存占用率
ATM机数据中心后端处理的物理内存总量是一定的,然而每个进程运行都会占用一定的物理内存总量。物理内存占用越多,进程运行就越缓慢或者卡顿,大大的影响了响应时间。我们定义:
如果内存占用率为0,就意味着网络属于空闲状态,当内存占用率为100%时,网络已经满负荷运行,即传输网络出现故障。
(2)响应率
当出现分行侧传输节点故障,前端交易无法上传请求时,就会导致交易量下降,我们增加响应率来进行监测:
响应率越高说明,系统越正常。反之,当响应率越低,说明出现故障的几率越大。
我们不难发现这是一类异常检测问题,我们建立高维K-means聚类分析算法模型。仔细分析我们建立的模型不难发现,次模型不单适应于ATM异常数据检测,在其他多个领域如:人脸识别、图像识别用于异常或偏差检验均可得到很好的效果。同时本文中采用的定量分析与定性分析具有独到之处,相关时间序列相似的问题均可参考。
[1]K-means算法描述.https://wenku.baidu.com/view/71b2b632a98271fe900ef917.html
[2]何明亮,陈泽茂,黄相静.基于改进K均值聚类的入侵检测算法研究[J]-计算机与数字工程2017(6)
[3]赵曼.基于数据相关性的异常检测算法研究[J]-北京交通大学2017(3)