卢 睿,李林瑛, 孙永义
(1. 辽宁警察学院 信息系,辽宁 大连 116036;2. 大连外国语大学 软件学院,辽宁 大连 116044)
目前,金融欺诈犯罪案件高发,但损失的追回率低,全球每年仅因信用卡诈骗遭受的损失就达数亿美元.对可疑的交易进行识别并报告,不仅是金融机构减少损失的关键活动,也是公安机关打击新型诈骗、进行案件调查的一项重要手段.可疑交易的检测是一项非典型的分类和预测任务.许多研究已经表明,将为某个特定行业、市场或国家而准备的模型应用于其他环境并不可行[1],因此在现实工作中可疑交易的检测任务需要采用特定的方法.
目前,实践中采用的一些监测指标和模型设计存在针对性不足、未能充分结合用户地区、职业、年龄与账户交易等进行综合评价等情况.可疑交易检测的研究也面临很多限制,其中一项重要限制是缺乏真实数据集.原因是出于隐私保护,金额机构不会将客户交易数据轻易公布出来.另外,合法交易和非法交易的统计属性随时间变化,新特征不断出现,分类器需要具有更高适用性.另一方面可疑交易数据库是典型高度不平衡的数据集合,即合法交易的数据量远远超过非法或欺诈交易的数据量.通常在真实交易数据中,98%的交易是合法的,只有2%的交易为欺诈交易[2].对可疑交易检测任务而言,一项核心挑战是合理处理非典型特征,即众多合法交易中只有少量非法交易样本可以用于学习.这一特点使传统的学习方法习得的分类器表现不佳,检测需要在不平衡样本环境下研究分类方法.
本文针对可疑信用卡诈骗犯罪侦查中的可疑交易检测分类问题,通过考察不同参数环境下属性重要性的敏感性,结合随机森林方法进行特征选择,构建了可疑交易的检测模型和方法,在不平衡数据集下进行了分类预测,并通过实验对方法进行验证.
可疑交易检测需要围绕特定业务,检测方法是机器学习和计算智能领域广泛关注的问题.但是目前公开可用的方法数量相当少见,大多数算法都在内部隐藏模型的细节.在可见文献中,贝叶斯算法、K-Nearest Neighbor、支持向量机等方法被应用于检测过程,均尝试在提高诈骗检测率的同时降低误报率.目前的研究主要分为监督学习方法和无监督学习方法.
无监督学习方法中没有有关欺诈和合法的预先定义好的分类标签,分类器通过检测异常模式与正常交易模式之间的显著偏差来判断新样本的类别.将异常或反常交易视为潜在的诈骗交易实例,如果某个客户的新交易未分配给普通客户组,则会针对该交易发出警报[3].无监督技术包括Peer Group Analysis[4]和自组织映射[5].
监督学习在有分类标签的情况下学习,基于已经标记为诈骗和正常交易的样本训练分类模型,然后使用分类器模型对新交易的可疑性进行判断.最普遍的监督学习技术是人工神经网络(ANN)[6-7],优点是性能高,缺点是黑盒模型缺乏解释性.
近年来集成方法在欺诈方面表现良好[8-10],其核心是利用学习方法训练出多个分类器并以相应的方法进行组合.当需要学习的特征较多时,集成学习中的随机森林(Random Forest)方法的效果显著[11-12].其他用于欺诈监督学习的技术是元学习[13]、基于案例推理方法[14]、贝叶斯信念网络[15]、决策树[6,16-17]、逻辑回归[6,8]、隐马尔可夫模型[18]、关联规则[19]、支持向量机[8]、贝叶斯最小风险[5,21]和遗传算法[22].
虽然监督学习方法是被使用最多的信用卡欺诈检测方法,但存在较大风险.因为根据历史数据得到的模型只能检测出曾经出现过的诈骗方式或手段,但无法发现未出现过的诈骗或手段和方式发生变化的诈骗交易.与大多数集合创建技术仅借助一种类型的分类器进行不同,另一思路是将几种不同类型的分类器系统加以组合.这些分类器系统可以在相同或不同的模型和数据集上构建,使用不同规则和信息抽取方法的组合来做出分类决策,其性能可优于只采用一种分类器的传统方法.基于不同分类器创建集合的方法称为多分类器系统,目前也得到了积极的研究[23].
特征选择的目的之一是为提高分类预测的准确性,二是需要从候选属性集中识别出与分类结果最为相关的属性或最具信息性的属性,去除对分类结果影响不大或没有影响的属性.通常有以下变量选择方法:特征过滤、包装筛选和嵌入式方法.
本文针对两个目标进行特征选择,一是找出与反应变量高度相关的重要变量进行解释,目的是放大所有重要变量;二是找出少量能获得较好分类性能的变量,目的是获得足够精简的重要变量集合.采用随机森林方法进行特征评价和选择,正确选择随机森林参数有助于更好地区分重要变量和无用变量,还可以提高属性重要性评分的稳定性.
采用2013 年9 月的一组信用卡交易数据集进行属性重要度的计算和特征选择.该数据集具有典型的不平衡特征,在共284 807 笔交易中只有492笔欺诈交易,占所有交易的0.172%.为降低复杂性,在特征选择阶段采用下采样的方式平衡交易样本的数量关系.
在很多应用问题中,属性重要度是解释数据和理解基本现象的重要依据,计算属性重要度是可疑交易检测任务中的关键环节之一[24].本文借助随机森林方法衡量属性重要度,在逐步形成预测模型之前对变量进行排序.根据两个方面来研究随机森林变量重要性:第一个是属性重要度对获得样本数量n和入选属性数量p的敏感性;第二个是属性重要度对随机森林中树的数量ntree和每个分支上随机选择的输入属性数量nsplt的敏感性.
(1)对训练样本数量与属性数量的敏感性
考虑样本数量与样本属性个数的关系,特别是高维属性条件下样本数量较低时对属性重要度值的影响.
通过随机复制样本中的某些属性而获得更多的样本属性,Xi−j代表通过复制属性Xj而得到的新属性.图1 说明在不同样本数量n和属性数量p情况下,以ntree= 10和为参数迭代运行20 次随机森林方法所得到的属性重要性 VI(Variance Importance).为方便展示,只绘制重要变量并按重要性排序.如果属性Xj的重要度较高,则Xi−j成为重要属性的机率也会增大,本节更倾向于考虑重要属性Xj(原始或复制于属性jX)在不同参数下的属性重要度稳定性.
图1(a)~图1(c)中样本数量n均为688,属性数量p分别取原始样本的28 和复制属性后的50 和100.图1(a)由原始样本数据(p=28)求得,视为参照图.观察当维度上升(p=50 和p=100)时属性重要度及排序,并由此判断训练样本与属性数量对属性重要度的影响.从图1(b)、图1(c)可见,随着维度升高,原始属性入选的几率显著降低,更多的复制属性入选,而且属性被选择的几率越小,成为重要属性的可能性越小.重要度相对较高的属性的重要性值降低,且部分属性的相对排序发生变化,如属性12 在两组高维样本中的排序均较之属性11 有所提升.但值得注意的是,通过原始样本求得的低重要度属性在高维复制样本中也表现出相对较低的重要度,而高重要度的属性仍然保留在入选属性集合中.
图1(d)~图1(f)中样本的数量降低,因此求解难度较图1(a)~图1(c)数据有所提高,同样观察属性维度p=50 和p=100 较之p=28 时属性重要性变化,图1(d)视为参照图.当属性增加时部分属性发生变化,如属性12 的重要性值和排序均下降,而属性7、9、16 和27 均在p=100 时从重要属性集合中消失.但在参照图中出现的较重要属性也出现在了高维度情况下,只是排序稍有变化.另外,当p=28 时,在样本数量提高的情况下两个参照图中均得到了一致的重要属性集合.
图1 属性重要性对n 和p 的敏感性Fig.1 variable importance sensitivity to n and p
(2)对随机森林参数的敏感性
随机森林中nsplt和ntree参数的选择关系到算法的求解质量.本节中将样本属性固定为n=488 和p=50,考察ntree=50,100 和nsplt=7,20,50 时的属性重要度的表现,见图2.
图2 属性重要性对Random Forest 参数敏感性Fig.2 variable importance sensitivity to RF parameters
从图2 中可见,随着nsplt取值增大,最重要属性的重要度显著提升,但其他属性重要度值急速降低,属性重要度更加不稳定.当ntree增大时,除图2(d)较图2(a)出现了属性重要度和重要属性排序上的较大变化外,在相同nsplt值的情况下,属性重要度较为稳定.
特征选择需从特征候选集合中识别出最相关或最具信息性的属性.属性的重要性不仅仅源于属性本身,还源于对所研究的问题具有强信息性.即在实际数据中,有的属性本身并不重要,但却与其他具有信息性的属性有关联且可以影响问题的结果.
本文以两个阶段来实现属性选择:第一阶段得到与反应变量高度相关的重要属性集合,第二阶段从重要属性集合中抽取出尽可能少量的可以达到较好分类结果的变量用于分类.通过扰动属性值的方式来测试该属性与其他属性的关联程度.如果同时扰动多个属性值,反应变量作为几个属性同时扰动时得到的特例,无法如实地反应出某一个属性的重要性.只对单独的某属性Xj进行扰动,随机森林仍可以选择其他具有信息性赋以较高的重要性,并可能赋予属性Xj较低的重要性.因此仿真运行之后,Xj的重要性分布会与以原始数据得到重要性有所不同,因此可用于测试某属性的相关性.另外,在可疑交易的检测中需要考虑变量之间的关系,因为即使自身不具信息性的属性也可能对预测结果具有影响.
通过以下步骤实现特征选择:
步骤1获得属性重要性的排序,初步消除非重要属性
通过原始数据确定属性重要性(采用随机森林方法),并将属性按重要性降序排序;
去除重要性较低的属性(如属性重要性低于0.03),保留下来的m0个属性进入步骤 2;
步骤2属性选择
结合在初始步骤中评估的原始重要性度量VI(j)和扰动后属性重要性的分布评估每个变量的α值,令若属性Xj的α<0.05,则该属性被去除,本步骤保留下来1m个属性.
建包含k个变量的嵌套随机森林模型,对于,选择模型中所涉及的能够获得最小OOB error 的变量;
保留的有序变量开始,通过逐步调用和测试变量来构建随机森林模型的递增序列,最后一个模型的变量被选中.
经过属性选择,保留下来的属性为(X14,X10,X4,X12,X11,X20,X7,X17,X21,X3,X13,X8,X19,X22,X25,X16,X15).
模型的构建和训练中,仍采用2 节中数据集.该数据集包含了两天内发生的在线交易的一个子集,具有典型的样本不平衡特征.
处理样本不平衡问题是模型训练阶段需要解决的首要问题,常用方法可以为采样方法和基于代价的方法(Cost-based Methods).基于采样的方法在采用传统分类方法之前将训练集中的数据进行平衡化处理;而基于代价的方法则通过对占少数的分类设置更大的错误分类代价来修改学习算法.
本文在特征选择阶段使用了下采样方法,但在模型训练阶段需要大样本,因此以过采样方法对样本进行平衡化处理.统计数据集中正负样本数量,对少数类样本进行随机复制使其数量达到与多数类的平衡.随机方式虽然简单高效,但上采样后的数据集中可能过多地出现重复样本,从而产生一定程度的过拟合.为避免这一问题,在生成新数据时加入轻微随机扰动,此外还考虑了改变分类器的评价指标,即加入ROC(AUC),Kappa 等评价.
可疑交易检测过程是面向具体业务的,其特征选择过程更依赖于领域知识和专家经验.数据挖掘分类器通常可以在初始阶段有效地将明显的欺诈交易案例过滤掉,将更细微的可疑交易案例交由人工审查.本节构建基于随机森林的分类预测流程,见图3.
图3 基于随机森林的分类预测流程Fig.3 procedure of random forest based on classification
流程将人工审核过的记录与待分类的原始数据一起进行预处理.处理后的数据根据业务规则和专家经验,采用前文所提到的特征抽取方法进行特征选择,但在实际业务中还需根据业务特点进行特征的衍生,形成特征集合.
除了对特征进行归一化等常规处理之外,在抽取特征时也要考虑交易的时间顺序对行为建模的影响.在实际建模过程中,根据各字段的属性,按是否考虑与时间顺序的关系,特征抽取的方式分为两种:不考虑本条数据记录与历史数据的关系,如交易金额直接作为特征;另一种需要考虑与历史数据的关系,如对本次记录的IP 或终端进行特征的衍化,若在以往交易中未出现,则将此特征值记为0;若出现过,则将出现的频度作为该特征的值.
新的特征集合与经验特征集合一起进行训练,形成随机森林模型,并进行分类预测;将分类结果反馈到源数据库和下一轮的分类过程中,并成为下一轮训练的标记数据.在检测模型中应考虑变化/演变因素[12,25],即持卡人通常会随时间推移而改变消费行为和消费时间,如节日期间交易增多.新的欺诈行为也会随时间推移而改变,欺诈方法也随时间而更加复杂,因此不可能存在长期稳定的模型.流程中增强模型的反馈能力,一旦模型效用降低,则需要重新学习.
本文采用信用卡交易数据对所提出的方法进行测试和讨论.实验将数据集分为训练集和测试集,对支持向量机和逻辑回归方法,以及所提出的随机森林方法进行比较验证.
可疑交易检测是典型的样本失衡情况下的二分类问题,准确率(Accuracy)指标不再适用.机器学习在此类问题中,对模型进行评估的指标一般包含精确率(Precision)、召回率(Recall)、F1 指标和ROC 指标.其中,Precision 表示模型预测为正样本的样本中真正为正样本的比例;Recall 表示模型准确预测为正样本的数量占所有正样本数量的比例.F1 指标是Precision 和Recall 的调和平均数,用于综合度量算法性能,F1 越大,分类器的效果越佳.
ROC 提供了一种可视化不同结果的方法,通过绘制真阳性率与假阳性率来检查分类器质量的指标,理想的ROC 曲线具有100%的敏感性和100%的特异性.由于ROC 曲线具有不随样本比例而改变的良好性质,因此适用于在样本比例不平衡的情况下评价分类器.
首先对训练集进行进一步的分割,部分用于实际训练,其余部分用于寻找逻辑回归、支持向量机和随机森林三个模型的最佳参数.从逻辑回归、支持向量机和随机森林三类模型中,首先确定每个模型的最佳参数,通过10 次10 折交叉验证进行测试.
支持向量机利用核技巧将数据映射到高维特征空间.测试在正则化项C、内核系数和Kernel 上发生变化.实验表明在采用径向基核函数时效果最差;当采用线性核函数且正则化C= 1,Gamma=1 时,得到了最好的结果,见表1.
表1 SVM 的交叉验证结果
逻辑回归是一种广泛使用的分类和回归方法,为简化计算,本实验仅改变正则化项,如表2 所示.
表2 Logistic Regression 的交叉验证结果Tab.2 cross validation result of Logistic Regression
随机森林模型中变化的参数包括树的数目、树中每个节点的最小特征数、节点分割质量标准(Gini 杂质或熵).通常,树的数量更多会得到更高的分类性能,但也会导致更多的计算时间.经过测试,在本数据集上多于100 棵树并未得到更好的性能,因此将树的数量固定在100 棵.经过实验的综合考量,认为使用信息熵可以获得更好的效果,最小特征数量为6,见表3.
表3 随机森林的交叉验证结果Tab.3 cross validation result of Random Forest
将随机森林方法与支持向量机和逻辑回归方法进行比较,除了Precision、Recall 和F1 指标,还引入了适用于样本不平衡条件下评判分类精度的指标Cohen’s kappa 估计,score>0.8 意味着好的分类.从实验结果可见,参数设置对支持向量机的结果较为重要,其在不同指标上的表现均不理想.在众多研究中,相对简单和易于理解的逻辑回归已经成为许多实际数据挖掘应用中的标准技术.本文的实验中,逻辑回归也表现出了良好的性能,超过支持向量机模型.由图4可以看到,在Precision 指标上逻辑回归的表现最好,随机森林次之;在Recall、F1 和Kappa 指标上,随机森林的性能均优于其他两种方法.
采用AUC 衡量结果指标,ROC 曲线见图5,随机森林算法同样优于其他两种算法.综合几种指标下的表现,可以认为随机森林方法考虑了属性重要性对不同参数的敏感性并有效进行了特征选择,因此捕获了更多的欺诈案例,而假阳性更少.这是欺诈检测模型在实际应用中的一个重要考虑因素,说明该模型具有较好的应用效果.
图4 随机森林、逻辑回归和支持向量机的比较Fig.4 Performance Comparison of RF, LG and SV M
图5 ROC 曲线Fig.5 ROC Curve
(1)与经济卡有关的诈骗通常是精心策划和隐藏并且耗费时间的犯罪,常表现为很多类型和形式.数据挖掘常用于解决涉及风险数据问题的方法,如研究信用卡风险模型、客户流失预警和生存分析等.
(2)因随机森林技术的易用性和高效性,本文将其应用于可疑交易检测中,在样本不平衡数据环境中,对属性重要度的敏感性进行了分析,设计了特征选择的算法,提高了重要属性和具有强信息性属性的入选率.利用一个真实数据集进行属性选择和分类预测,同时在同一数据集上运用随机森林、支持向量机和逻辑回归方法并进行比较,结果表明随机森林的综合评价要高于其他两种方法.
(3)本文的研究限于某月中两天的实际交易记录所表现出来的特征,且以二分类的形式给出预测结果.未来在获取更多数据样本的情况下,可以进一步研究概念漂移下的预测模型,识别新的监督信息;并在模型中允许以概率的形式给出预测结果,结合人工审查对结果进行核实.