毛铭泽
摘要:信用卡欺诈检测是一个重要的问题,为了提升对于真实世界的信用卡欺诈数据的识别率,提出了一种混合的信用卡欺诈检测模型AWFD(Anomaly weight of credit card fraud detection),首先通过异常检测的方法将数据划分为可信和异常数据,然后利用半监督的方法训练一个集成模型,最终再利用异常检测进一步剔除检测结果中的异常结果。AWFD在保障对于可信数据的学习效果上,通过半监督集成学习的方法,利用异常数据进一步扩充集成模型的多样性,并将异常检测和集成模型融合。实验结果表明,比起一些传统的机器学习方法,AWFD可以提高整体的信用卡欺诈检测的识别率。
关键词:信用卡欺诈检测;异常检测;半监督;集成学习;多样性
中图分类号: TP311 文献标识码:A
文章编号:1009-3044(2021)02-0194-03
Abstract:Credit card fraud detection is a serious problem. In order to improve the recognition rate of real-world credit card fraud data, a hybrid credit card fraud detection model AWFD (Anomaly weight of credit card fraud detection) is proposed. Firstly, the data is divided into trusted and abnormal data by anomaly detection method, and then an ensemble model is trained by semi- supervised method. Finally, anomaly detection is used to further eliminate the abnormal results in the detection results. On the basis of guaranteeing the learning effect of trusted data, AWFD uses the abnormal data to further expand the diversity of the ensemble model by semi-supervised ensemble learning method, and integrates the anomaly detection and the ensemble model. The experimental results show that AWFD can improve the overall recognition rate of credit card fraud detection compared with some traditional machine learning methods.
Key words:credit card fraud detection; anomaly detection; semi-supervised; ensemble learning; diversity
由于社会的不断发展,人的消费需求也在不断上升,随之而来的支付手段的改变,导致信用卡欺诈问题日趋严重,每年会导致数十亿美元的损失[1],因此对于信用卡欺诈检测问题的研究也受到了广泛的关注[5-6],有许多学者从不同的角度研究这一问题,例如:有从数据不均衡角度研究采样问题的[2],有从模型融合角度研究的[1],也有从特征工程角度研究该问题的[3-10]。使用的算法也是多种多样,例如:随机森林Random Forest(RF)[4],Adaboost(ADB)[1]等。
除了以上这些常见问题之外,实际取得的标注训练数据中,可能会存在异常噪音数据,也就是指,在标注为欺诈样本的数据中,会存在一些实际不是欺诈的样本或是不处于数据空间分布密度较高区域的一些噪音样本,首先通过异常检测的方法,将这些异常噪音样本从训练集中筛选出来,同时为了避免丢失数据样本信息以及利用这部分数据扩大训练的数据空间,将其标签信息去除,划分为无标签样本以供后续模型学习使用。为了保障模型在标注数据学习效果的基础上,进一步提升泛化效果,对使用的半监督学习算法进行改进,引入了异常检测对无标签数据的异常值打分,将其视为数据点的权重,以此体现不同权重的数据点,对于学习器多样性影响大小的不同。
本文主要工作如下:
① 利用一种异常检测算法来筛选异常训练样本,将其视为无标签数据,扩充样本空间;
② 改进了一种半监督集成算法以适应混合检测模型;
③ 结合以上两点,提出了一种混合的信用卡欺诈检测模型AWFD(Anomaly weight of credit card fraud detection)。
本文第1節介绍详细的算法模型及所做的改进,第2节介绍实验设置及结果分析,第3节为结论部分。
1 算法模型
1.1 iForest(isolation forest)
iForest(isolation forest)孤立森林[7-8]是一个基于树集成的异常检测模型,该算法认为异常是容易被孤立的点,也就是在数据空间下,分布稀疏的且密度低的区域里的数据点。iForest是一种基于特征划分且训练过程无须标注的异常检测模型,通过特征划分来构建多棵二叉树iTree,并集成来起到数据空间划分的效果,每棵iTree的划分构建步骤大致为:
① 对训练样本进行随机子采样;
② 随机选择一个特征,在该特征的最大值和最小值之间,随机选择一个值,小于该值的样本划分到左子树,剩下的样本划分到右子树;
③ 继续递归执行 ② ,直到节点只有一个数据样本,或者树高达到限制高度。
iForest在对数据点进行异常检测时,会按照iTree的特征划分标准将数据点划分到某个节点中,并记下该节点高度,然后将所有的iTree的划分结果平均,作为iForest模型对该数据点的预测值。由于在数据空间下,处于分布密度高区域的样本点,不容易被划分开,因此在iTree中的高度也相对处于分布稀疏区域的样本点要高,所以iForest预测值越低,就越可能是异常点。同时iForest在解决高维空间问题中也有很好的效果。
1.2 UDEED(Unlabeled Data to Enhance Ensemble Diversity)
UDEED是一种半监督集成学习分类方法[9],该算法的目的是先利用标签数据构建多个基学习器,然后通过无标签数据来提高基学习器的多样性,以此提升模型的泛化性能,取得更好的分类效果。基学习器采用LOR(Logistic Regression)逻辑回归的UDEED的实现步骤为:
1.3 AWFD(Anomaly weight of credit card fraud detection)
在AWFD中,首先依据标注将训练数据划分为欺诈样本和非欺诈样本,考虑到在标注为欺诈的样本可能会出现非欺诈样本或是在非欺诈样本中可能会出现欺诈样本这一现象,为了将这些异常样本挑选出来,分别构建两个iForest模型对训练数据进行划分,将其划分为标签数据集[L]和异常数据样本并输出异常数据样本的异常值[α],其中异常数据样本被视为无标签数据样本[U]。
由于筛选的无标签数据样本的异常值都不一样,考虑到每个数据样本被置信为异常样本的概率不同,因此通过修改原始的UDEED算法的多样性损失一项,来体现这一点,[Vdivf,U,α=2mm-1?p=1m-1 q=p+1m dfp,fq,U,α,dfp,fq,U,α=1|U|i=1|L| αifp(xi)fq(xi)],也就是将UDEED的损失函数修改为[V(f,L,U)=Vemp(f,L)+γ?Vdiv(f,U,α)],通过对[V(f,L,U)]做梯度下降,来优化基学习器的参数,通过这一修改,在参数的更新过程中,体现iForest对异常样本的异常值的判断。完整的算法训练和预测流程见图1。
从AWFD预测的流程图中,可以看到,通过改进后的UDEED对新样本进行预测之后,又通过iForest对该样本进行了兜底预测,这里的iForest是根据仅含欺诈样本的训练集训练得到的,也就是最初进行异常样本筛选时,训练生成的其中一个iForest模型,因此这一步没有额外的训练开销,直接复用已经训练好的模型,同时这一步的意义在于,对被UDEED預测为欺诈样本的数据样本进一步判断,是否为会在欺诈样本中被视为异常,剔除一些误报的样本,提升模型的精确度。
2 实验
2.1 数据集
本实验采用的数据集大小为512w,其中欺诈样本为14w,非欺诈样本为498w,数据维度为9维,按照相同比例划分100w训练样本,其中欺诈样本为3w,非欺诈样本为97w,剩余的412w作为测试集,其中欺诈样本为11w,非欺诈样本为401w。
2.2 实验指标
本实验采用多个指标比较结果,分别为精确率precision,召回率recall,f1-score,准确率acc,以及auc。对于二分类问题,将欺诈看作正例,非欺诈看作负例,从正例角度而言,各个指标的含义如下:
精确率表示在预测为本类中,实际为本类的数据样本的占比,召回率表示在实际为本类,预测为本类的数据样本的占比,f1-score则为两者的调和平均,在本实验中,分别用各类别的平均值,来比较最终效果,公式如下:
auc指标则表示对于一个正例的数据样本和一个负例的数据样本,模型对正例样本的预测值大于为模型对负例样本的预测值的概率,而acc指标就是预测正确的比例。
2.3 实验结果
实验结果对比,从表1中可以看到,对比于几个传统的机器学习算法,本文提出的融合检测模型AWFD,在auc指标和最好的结果差距在千分位以内的情况下,其余指标均大幅度提高,特别是在召回率指标上,提升幅度较为明显,可以体现AWFD对于欺诈样本的召回效果比较好,同时AWFD对比UDEED而言,在保证了精确率的情况下,大幅度提高了召回率,相比之下,较好地识别出了欺诈数据样本。
3 结论
本文提出的混合检测模型AWFD,在区分训练集的可信和异常样本后,利用可信样本初始化模型,并利用异常样本以及异常值,提高了模型的多样性,进一步增强了模型的泛化能力,最后复用异常检测模型,在保障准确率的基础之上,取得了相对较好的信用卡欺诈检测召回效果。
参考文献:
[1] K. Randhawa, C. K. Loo, M. Seera, C. P. Lim and A. K. Nandi, "Credit Card Fraud Detection Using AdaBoost and Majority Voting," in IEEE Access, vol. 6, pp. 14277-14284, 2018.
[2] S. Akila, and R. Srinivasulu, "Parallel and incremental credit card fraud detection model to handle concept drift and data imbalance," Neural Computing and Applications 31, 2018, pp. 1-12.
[3] X. Zhang, Y. Han, W. Xu, et al, "HOBA: A Novel Feature Engineering Methodology for Credit Card Fraud Detection with a Deep Learning Architecture," Information Sciences, 2019.
[4] S. Xuan, G. Liu, Z. Li, L. Zheng, S. Wang and C. Jiang, "Random forest for credit card fraud detection," 2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), Zhuhai, pp. 1-6, 2018.
[5] Z. K. Alkhateeb and A. T. Maolood, "Machine Learning-Based Detection of Credit Card Fraud: A Comparative Study," American journal of engineering and applied ences, vol. 12, no. 4, 535-542, 2019.
[6] G. C. Alex, A. C. M. Pereira and G. L. Pappa, "A customized classification algorithm for credit card fraud detection," Engineering Applications of Artificial Intelligence 72, 2018, pp. 21-29.
[7] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation Forest," 2008 Eighth IEEE International Conference on Data Mining, Pisa, pp. 413-422, 2008.
[8] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation-Based Anomaly Detection," Acm Transactions on Knowledge Discovery from Data, vol. 6, no. 1, pp. 1-39, 2012.
[9] M. L. Zhang and Z. H. Zhou, "Exploiting Unlabeled Data to Enhance Ensemble Diversity," Data Mining & Knowledge Discovery, vol 26, no. 3, pp. 98-129, 2013.
[10] C. B. Alejandro, A. Djamila, S. Aleksandar and O. Bjorn, "Feature engineering strategies for credit card fraud detection, " Expert Systems with Applications, 2016,51(1):134–142,.
【通聯编辑:唐一东】