黄镜霖
摘要:近年来,网上银行在金融交易中变得越来越流行。但是欺诈行为也随之急剧增加,给银行造成了很大的损失。针对这种情况,提出了一种新的基于集成学习的数据挖掘技术。集成模型包括一组单独的分类器,它们的预测被组合以预测新的传入实例。我们主要考虑了三个最新的单个组件分类器:随机森林,XGBoost和CNN卷积神经网络。提出了一种创新的集成学习方法,通过多个模型的集成,并考虑了数据本身的特征,来提升模型的性能。实证结果表明,与单个组件分类器相比,这种集成学习的方法在真实的金融欺诈数据上具有优越的性能。
关键词:金融反欺诈;集成学习;机器学习
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)01-0216-04
1概述
随着经济的高速发展,金融在线交易也持续增加,随之带来了金融欺诈行为。相对于合法交易,欺诈交易的数量很少,但是我们每天数百万计的巨大交易量中包含的欺诈交易会给银行造成巨大的经济损失。欺诈检测涉及监视用户群体的行为,以便估计、检测或避免不合法行为。不合法行为是一个广义术语,包括违法,欺诈,入侵和账户拖欠。机器学习技术用于数据分析和模式识别,因此可以在数据挖掘应用程序的开发中发挥关键作用。越来越多的研究人员也在使用机器学习来检测欺诈行为。
在机器学习的有监督学习算法中,我们的目标是学习一个在各个方面都表现良好的稳定模型,但是实际情况通常并不理想,有时我们只能获得具有偏好的单个弱模型。集成学习是在这里结合多个弱监督模型,以获得更好,更全面的强监督模型。集成学习的潜在思想是,即使一个弱分类器得到错误的预测,其他弱分类器也可以纠正此错误。
Stacking是用于构造集成模型的常见集成学习方法。分类器集合是指一组分类器,其各个决策以某种方式组合在一起以对新实例进行分类。Stacking将多个分类器组合在一起,得到新的集成学习模型。基分类器通常会产生不同的分类错误。因此,集成模型成功学会了何时信任单个基分类器的结果来提高整体的性能。
在本文中,我们主要考虑了三个基分类器:随机森林,XGBoost和卷积神经网络(cNN)。然后我们提出了一种创新的集成学习方法,即基于逻辑组合的集成方法。为了展示该方法的性能,我们与传统的机器学习方法做对比,我们的集成模型在检测欺诈行为的F1-score和G-means两项指标都优于传统的机器学习分类器。
2研究现状
目前,已经有学者提出了相关机器学习方法来克服这些挑战。Kokkinakit61提出了决策树和布尔逻辑函数来表征正常交易模式,以检测欺诈性交易。但是,无法识别某些类似于合法交易模式的欺诈交易。因此,神经网络和贝叶斯网络”被提出。Ghosh使用神经网络来检测信用卡欺诈。贝叶斯信任网络和人工神经网络也已被引入以解决该问题。但是这些模型用于检测欺诈行为过于复杂,并且极有可能过度拟合。为了揭示欺诈交易的潜在模式并避免模型过度拟合,Kang Fu使用卷积神经网络有效地减少了特征冗余。
2.1CNN卷积神经网络
因为CNN模型适合训练大量数据,并且具有避免模型过度拟合的机制。卷积神经网络已成功应用于某些领域,例如图像分类和语音信号处理。但是,并非所有类型的数据都适用于CNN模型。针对这点,提出了特征变换的方法来适应CNN模型。信用卡交易的功能可以分为几个组。每个组在不同的时间窗口具有不同的特征。不同时间窗口的相同特征类型的两个特征具有很强的关联性。因此,在特征矩阵中,这两个特征设置在靠近的位置。原始特征是一维的,我们需要将它们重塑为特征矩阵,其中行代表不同的特征类型,列代表不同的时间窗口,如图1。
2.2集成学习
Stacking是一种集成学习技术,其中将子模型集合的预测作为第二级学习算法的输入。该第二级算法经过训练,可以最佳地组合子模型来预测最终的预测集。许多机器学习从业者已经成功使用Stacking和相关集成学习技术来将预测准确性提高到任何单个模型都到达不了的水平。建模人员也已经成功地将Stacking其应用于各种问题,包括化学计量学,垃圾邮件过滤和从UCI机器学习存储库提取的大量数据集。Neff-lix Prize竞赛是模型集成功能的最新杰出代表。约瑟夫·西尔(Joseph Sill)提出了特征加權线性Stacking(FWLS),与标准线性Stacking相比,其准确性显著提高。
3组合式集成学习模型
3.1问题分析
集成学习方法(stacking)旨在通过混合来自多个机器学习模型的预测结果来提高模型的性能。来自每个单个模型的预测结果是元特征,这些元特征作为第二层分类器的输入。但是仅考虑元特征是不够的。数据本身的特征也很重要。在这里,我们提出一种组合方法,使用多个模型的组合来重建训练数据。同时考虑了元特征和数据本身的特征。组合方式代表了不同模型之间的互补性。
3.2方法
表1显示了我们所使用特征的详细信息。所有这些特征都是从原始交易数据中提取的。我们使用3个最先进的分类器作为基本分类器:随机森林,XGBoost和CNN卷积神经网络。CNN卷积神经网络使用图1中特征矩阵作为模型的输入,特征可以分为几组。每个小组在不同的时间范围内具有不同的功能:30分钟,1小时,2小时,1天,3天,1周,2周和1个月。在训练卷积神经网络的过程中,所有原始交易特征都将转换为9x9特征矩阵。
3.3集成模型
3.3.1离线训练
3.3.2在线测试
如图3所示,说明了我们系统的测试部分。我们使用预先训练的分类器来生成交易类标签。此标签的值是1到18,表示组合的类型。然后,选择器将通过这种组合类型选择基本分类器。例如,一个交易的多类结果为10,如表2所示,我们将此交易放入c1,c2和C3(Ci代表第i个基分类器预测结果1,逻辑组合结果c1或c2或c3的值是最终的预测结果。
3.3.3重构训练数据
在训练的第二部分中,我们将交易数据重构为多个交易数据。对于每个重构的交易数据,我们保留其特征,但更改其标签。交易数据的新标签为ny(I<=ny<=18),表示三个基本分类器的第ny组合可以正确识别此交易数据。一个示例如图4所示。
3.3.4调度优化
对于一个实时在线交易欺诈检测系统,时延是一个非常重要的指标,为了降低系统运行时间,我们提出了一种调度优化方法。如图5所示。选择器同时维护三个进程队列,队列中的每一列代表同一条交易,数字1,2,3,...代表唯一的一条交易id,x代表當前基分类器没有被选择。一条新到来的交易数据无须等待上一条交易数据预测完成,因此,所有的交易都会被很快的发送给选择器。不仅如此,基学习器c1,c2,c3也不需要等待别的基学习器完成预测。它们持续执行分类操作直到在它们的队列中不再有新的交易数据传入。
4实验结果
我们的实验基于真实的交易数据。我们在基分类器和集成分类器之间进行了对比实验。
4.1数据集
为了评估所提出的方法,我们使用了来自某银行的真实在线交易数据。所有交易于2017年4月至6月进行。如表3所示。
4.2评价指标
我们主要采用打扰率、召回率、F1-Score和G-mean作为欺诈检测效果的评价指标。表4为混淆矩阵,代表分类正确和分类错误的交易,通过混淆矩阵,我们给出了打扰率、召回率、F1-Score以及G-mean的计算公式。
我们使用训练集训练基分类器(随机森林,XGBoost,CNN),然后将测试集分为两部分,即测试集的前四分之三和后四分之一,并将基分类器测试结果作为集成模型训练的基分类器。测试集的最后四分之一作为集成模型分类器的测试集。结果如表5所示,从结果来看,我们的集成学习模型优于所有当前的单独分类器。在真实金融数据集上十分有效。
5结束语
本文介绍了一种新的基于集成学习的金融反欺诈模型,我们使用集成学习的方法,挖掘用户行为关联特征,设计和选择子机器学习模型,使用更具有现实意义的线上方法构建欺诈检测系统。我们主要创新在于利用多个模型融合的方法,并且综合利用了原始数据的多元特征,实现面向数据各个特性的维度的融合。这种新颖的线上欺诈检测方法具有很好应用价值与潜在经济效益。