杨颖+赵守香
摘要:互联网环境下,信用卡应用场景由线下转向线上,面对日新月异的信用卡欺诈行为,传统单一的反欺诈系统显得力不从心。针对这种现象,通过分析了近几年信用卡反欺诈的现状和问题,结合现在信用卡欺诈特点,提出将规则引擎、数据挖掘模型、人工校验有机结合起来,形成一套互助互补、更加高效的信用卡反欺诈模式。
关键词:互联网;信用卡;反欺诈;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)01-0050-03
Abstract: Under the background of the Internet, the credit card application scenarios turn the off-line to the on-line, faced with the rapid changes of the credit card fraud, the traditional single anti-fraud system seems powerless. In view of this phenomenon, through the analysis of the current situation and problems of credit card fraud in recent years, put forward a model combining rule engine, data mining model and manual check to form a set of Cooperative, complementary and more efficient anti-fraud mode of credit card.
Key words: Internet; credit card; anti-fraud; data mining
1 概述
近年来,我国经济迅速崛起,信用卡消费变得越来越普及,规模日益壮大。据《中国银行卡产业发展蓝皮书(2016)》显示,截至2016年年底,银行卡累计发卡量63.7亿张,当年新增发卡量7.6亿张,同比增长13.5%,并且近几年一直保持着稳定的增速。与此同时,2016年信用卡欺诈案件上万起,诈骗金额持续攀升,由此带来带来的财产损失不计其数,信用卡欺诈俨然成为影响信用卡环境健康发展的重要因素。
在互联网时代,大数据无疑是把双刃剑,在成为信用卡发展助力军的同时也给银行提出了前所未有的挑战。随着信用卡业务日益壮大,人力成本的不断上升,以及诈骗手段的不断更新,传统的反欺诈方案已经难以适应信用卡精细化管理的需求,构筑一道高效率的反欺诈安全盾牌势在必行。
2 互联网环境下信用卡欺诈的特点
快速兴起的互联网技术和广泛使用的智能终端带给人们便捷的生活的同时,也使得信用卡相关数据变得复杂和庞大。多样化的支付方式和服务模式也同样衍生出更新式的欺诈手法,[2]具体来说,近几年信用卡欺诈有以下几个特点:
①隐蔽性
近些年,互联网支付的迅速盛行使得信用卡的支付从现场转向背后,由线下转向了线上,与原来传统的实体介质支付不同,互联网支付具有迅速交易、场景虚拟、方式多样等特点。于是,这几年很多的欺诈分子转移到了互联网渠道上作案,他们藏在互联网的后面,利用短信、电话、邮件、钓鱼网站等等方式窃取他人隐私,实施盗刷、套现,使得信用卡反欺诈变得比以前更加棘手。
②专业性
近现代的专业技能也是这些诈骗分子的欺诈“利器”。他们具备一定的专业知识和技能,懂得利用一些网络技术设计陷阱,研究信用卡申请、交易流程,寻找规则漏洞。比如,通过包装个人信息、伪造互联网行为等方式提高个人资质,骗领信用卡;入侵免费WIFI、变身银行官方号码伪基站、制造山寨二维码、发送病毒短信、邮件等方式窃取客户信用卡信息并实施盗取。
③规模化
互联网时代,信用卡欺诈不仅“革新”了技术手段,也从“小团队作战”发展到有组织、有预谋的产业化作案,他们通过互联网渠道进行勾结,跨境跨界,分工明确,涉及领域也十分广泛,银行、第三方支付、网络运营商、电子商务等多个环节。这些不法分子从对银行业务和规则的研究,到技术攻击,再到客户信息的骗取,流程清晰,计划缜密,俨然已经形成了一条黑色产业链。
结合现在信用卡欺诈手段的特点,反欺诈也要从多方位入手进行实施,比如硬件的革新,技术模型的完善,跨境跨界信息的共享等等,只有这样,才能使信用卡欺诈无所遁形。
3 信用卡反欺诈的现状与问题
银行业具有天然的数据属性。[1]随着互联网的普及、大数据技术的快速更新,商业银行在信用卡反欺诈方面取得了不错的成绩。深耕现有的数据,将客户网上行为记录、社交活动记录等互联网中的数据纳入到信用卡反欺诈系统中,实现精准实时的反欺诈模式,提高了对欺诈行为的侦查、监控能力。
虽然各大银行积极进行反欺诈研究,但面对自身系统与反欺诈系统的衔接问题,规则模型的滞后性,反欺诈的实施效率问题,以及日新月异的欺诈手段,银行也会陷入应接不暇的状态,其中反欺诈系统的研究是信用卡反欺诈的核心,也是信用卡中心亟待解决的问题。
一般来说反欺诈模型有两种,一种是基于大量欺诈样本、利用应用规则引擎和统计分析技术进行多维度多规则的组合,提炼出来的每条规则被赋予相应的权重,并以累计得分来判断客户行为是否存在欺诈,或者命中某一规则时直接进行警报,直接驳回客户交易、申请。这种规则模型是现在银行用得比较多的,简单、易实施、准確性高,但规则引擎多依赖于专家、知识库,无法适应快速变换的欺诈手段,容易出现误判,而且人工运营成本比较高。另一种反欺诈模型是反欺诈数据挖掘模型,它采用数据挖掘方法,依赖于大量的数据,这种模型对比规则模型优势体现在它可以囊括更多维的数据、预测能力强、学习能力好,准确度也会更高,但它需要不断的样本数据进入,才能更好进行分析预测。这几年,不少银行两种模型都在研究实施,但模型孤立、单一,虽然有效果,但并没有有效地发挥模型的所有价值,只有将两种模型有机地结合起来,形成一种互助互补机制,才能实现反欺诈“1+1>2”的效果。endprint
4 互联网环境下信用卡反欺诈系统
置身于复杂的互联网的环境中,大数据技术在反欺诈系统中越来越受到重视。仅仅依靠传统的统计方法和专家规则库已经无法满足处理海量结构、非结构化数据的需求以及日新月异的欺诈手段,当然仅仅依靠数据挖掘模型也没有办法完全地实施反欺诈,只有规则、模型、人工有机结合在一起才能不断完善反欺诈系统。[3]下面结合现有的研究理论和我国国内信用卡反欺诈的背景,从规则识别、模型识别、人工校验三个方面来构建互联网环境下信用卡反欺诈系统(如图1)。
4.1 规则引擎
规则引擎模块是从海量的银行数据以及互联网数据中提取有效、有价值的部分,进行统计分析,选择变量,进行数据预处理,提取规则,并赋予权重、阈值,作为规则引擎识别信用卡欺诈的核心。
4.1.1 选择变量
变量的选择主要是从用户行为数据中提取能够反映个人信用的变量。反映用户信用的变量非常丰富,除了银行中即有的一些变量,互联网中也有很多,选取什么变量就有赖于各个银行的诉求以及其所拥有的互联网数据。不过这些变量大致可以分为以下几个方面:
用户数据:用户的性别、年龄、婚否、受教育程度、收入、户口地……
征信数据:用户在银行中的征信记录,在各个征信系统的中记录……
交易数据:用户储蓄额度、交易频次、交易地点、交易账户
非储蓄数据:理财、保险、基金等交易情况……
消费数据:用户消费时间、消费地点、消费金额、消费喜好……
社交数据:用户好友数量,身份,信用级别……
由于反欺诈模型的复杂性,候选变量可能上百上千,后续可以计算每个变量的IV值,IV值越高,说明这个变量越重要,可以进行保留;同时,比较每个变量的建模样本和校验样本的WOE分布[5],选取具有稳定性的变量;最后,在同类变量中利用聚类选取IV值最高的变量进入模型。[4]
4.1.2 数据的预处理
原始数量集通常不能直接进行计算和统计,我们需要对其进行预处理操作,以满足统计、模型的要求。数据预处理主要分为一下几部分:
①标准化:对于数据的量纲、数据量和计数方式进行统一
②补充缺失值:真实的数据集往往存在部分数据缺失的情况,针对缺失值占样本极小数的情况下,可以直接删除或者均值填补。但如果缺失值占比比较大,我们可以采取EM算法、最近邻算法等。
③异常值:我们可以通过数据分布图找到异常值,如箱图,如果异常值对总体影响不大,一般将其舍弃。
④变量量化:多数情况下,原始数据中会出现非量化数据,这种情况下,需要对变量进行量化,比如“男,女”量化为“1,2”。
⑤降维:由于高维数据很容易造成模型过拟合以及大大增加计算的复杂度,所以需要对变量进行降维处理,常用的方法有主成分分析、LASSO、LDA、PCA等。
4.1.3 设置规则
以专家为主,结合银行业务逻辑和过往的经验设置规则,并对规则赋予权重或阈值,生成用户欺诈分数。这种规则引擎能在一定程度上能有效地预防一些诈骗行为,但是由于我国目前征信体系并不完善,数据的滞后性和数据的不全面,使其不能跟上日益隐蔽和变化的欺诈手段,起不到真正的全面风险控制。
4.2 数据挖掘模型
通过有效的规则引擎,已经可以拦截、警告一部分欺诈交易,接下来就需要通过数据挖掘模型对用户行为进一步探索和根据客户信息对交易、申请量化欺诈概率进行量化,预测其欺诈风险的程度。近几年,反欺诈数据挖掘模型已经在一些银行中崭露头角,为反欺诈增加了一道更加堅固的安全保障。
4.2.1 神经网络模型
应用在反欺诈数据挖掘模型中的算法很多,如逻辑回归、神经网络、决策树、线性回归等等,其中神经网络是经过实践后反响比较好的一种算法。神经网络是一种通过模拟动物神经细胞工作特点,将若干个具有处理功能的神经元连接到一起的数学模型。而BP算法是至今应用最为广泛、成熟的神经网络,它具有良好自适应性和泛化能力。[5]对于一个三层的BP网络,主要是友输入层、隐含层、输出层组成,其中输入向量为,输出层向量为O=,隐层输入向量为Y=。[6]
公式(1)-(5)共同组成了三层BP神经网络。
将之前处理好的样本数据放入模型中,反复对模型进行训练、学习,使模型的误差最小化,最后可使用ROC曲线和F-Score指标对模型进行评估,修正,使之可以达到对欺诈行为的预判,并且生成欺诈等级。
4.3 人工校验
尽管规则引擎和数据挖掘模型还可以大大降低人力成本,但却不能100%完全确定最终的结果,因为模型不可避免地会出现误判的情况,如果武断地阻止客户交易、申请行为,或则轻易地放过可能存在欺诈的行为,那么可能会给银行和客户带来难以挽回的损失或则失去良好的用户体验,所以为了最大化反欺诈的效果,人工校验是必不可少的一个环节。
人工校验主要通过信息调查、电话回访、实地调研等方式进行信息反馈,校验后的结果会再次反馈给模型[7],以便数据挖掘模型进行再训练。在模型积累一定的高欺诈等级数据样本后,再对样本进行欺诈规则的提取,可以选择关联规则等方法,最后将提取好的规则载入规则引擎,这样规则引擎的判断结果可以更为准确有效,以此适应不断变化的欺诈手段。
5 结束语
互联网环境下的信用卡反欺诈管理是一项需要结合金融、法律、科技学科、互联网技术的高复杂度综合管理工程,除了加强信用卡的立法,促进其法制化,还需要更加完善的征信机制,建立合理有效的风险管理机制,和不断革新反欺诈技术,只有这样才能真实有效地实现反欺诈。
参考文献:
[1] 彭惠新.大数据应用和全流程防控为信用卡风险管理护航[J].中国信用卡,2016,6:45-47.
[2] 吴载斌. 互联网时代的信用卡欺诈风险管理浅析[J].中国信用卡,2017.04:15-17.
[3] 万浩文. 基于数据挖掘的互联网金酷反欺诈系统研究[D].广州:暨南大学,2016:13-14.
[4] 岳曼娣,陈芝凯.基于评分模型的信用卡交易欺诈风险防范研究[J].中国信用卡,2014,6:53-56.
[5] 章毅,郭泉王,建勇.大数据分析的神经网络方法[J].工程科学与技术,2017,1:9-18.
[6] 韩力群. 人工神经网络理论、设计及应用[M].北京:化学工业出版社,2007:47-50.
[7] 丁慎勇. 反欺诈模型在电子银行的应用研究[D].山东:山东大学,2014:27-31.endprint