李强 中国建设银行股份有限公司重庆总审计室
特约商户作为银行卡业务运行的一个组成部分,既是信用卡使用和持卡人实现信用卡消费功能的重要场所,又是增加银行信用卡业务的收入的重要支撑点。然而,随着信用卡业务的快速发展,特约商户数量的激增给商业银行的特约商户监管带来了很大的挑战。商业银行一般设置了特约商户管理员,然而由于网点工作压力大、人手紧张等原因,按月对特约商户进行实地检查的工作往往流于形式①,存在着较多的管理风险。为此,本文尝试采用决策树的组合算法—随机森林算法,通过对交易数据的分析和动态跟踪,从商业银行管理的需要出发对特约商户进行细分,对特约商户区分对待,对风险低、信誉高的特约商户可以采取抽检或不定期检查,从而将监管重点放在存在较大风险的特约商户身上,将会更好地提高管理效率、减少管理风险。
为了从管理角度构建特约商户细分决策支持模型,区分出存在风险的特约商户,需要对特约商户进行特征选择,即从交易数据中提取能反映特约商户风险的特征,然后根据这些特征建模,通过小样本数据的学习,构建决策模型,通过决策模型判定其它客户的风险特质,并把具有风险特征的客户名单作为分类管理的基础。基于长期对信用卡风险特征跟踪总结出风险特约商户的主要特征如下:
(1)所有交易中信用卡交易占比较高;
(2)同一张信用卡多次在同一商户大额交易;
(3)单张信用卡多笔分单交易避开发卡行控制;
(4)商户员工在本单位机具上大额透支交易;
(5)巡检异常。
而以上特征中前 4 项都与交易数据有关,最后一项是管理员例行巡检时发现的特约商户违规问题。为了能够从交易数据中提取特约商户风险的特征,最终选择了 10 个指标作为识别特约商户风险和细分特约商户的主要特征变量,这些特征及说明见表1。
表1 特约商户风险识别的主要特征
基于特约商户的风险特征,本文构建了基于随机森林学习算法的特约商户的细分流程模型,详见图1。
图1 特约商户细分模型
在这个模型中,之所以选择随机森林学习算法,不仅因为该算法具有良好的分类特性,而且因为该算法在分类后能给出每一个特征的重要性,这可以为特约商户管理提供重要的参考。该模型的工作过程如下:首先利用特约商户的交易数据,经过汇总统计处理后,生成每个特约商户的特征指标,然后利用处理过的小样本数据②,采用随机森林算法学习,构建随机森林决策树,形成分类器,然后利用构建的随机森林决策树对需要区分的特约商户进行细分。
1.数据介绍
从某银行特约商户中随机选择了 900 户,然后对这些商户的交易数据进行了采集,剔除24个异常数据后③,剩余 876 户数据,其中,正常商户780户,风险商户96 户④。同时,为了对模型进行训练和测试,本研究将以上数据划分为训练集和测试集。其中训练集包含735 户商户,测试集包含141户商户。
2.实验结果
为了了解随机森林算法中树的数量对分类正确率的影响,分别选择树的数量为10、30、50、100、150、200、250、300、350、400、450 和500,执行随机森林分类算法构建分类器并验证其在测试集上的正确率,结果见图2。
图2 树数量对随机森林算法正确率的影响
实验结果显示,随着树数量的增加,随机森林算法分类的正确率最终将稳定在一定水平上。实验数据的对比显示,较少的训练数据在树数量较少时,分类正确率表现出了不稳定性,而较多的训练数据得到的分类器相对稳定,基本上随着树数量的增加,分类的正确率在增加,最终会稳定在0.9014上。
3.特约商户的特征重要性
随机森林算法的一个优点是,它在训练完后能够给出哪些特征比较重要。表2是特约商户消费数据训练后的10个特征重要性评价。
表2 特征重要性评价
对于特约商户来说,最重要的3个特征则是“回头客单客交易金额”、“单笔交易金额”和“单卡交易金额”,与实际情况相符。值得一提的是,在实际工作中,信用卡客户比例大的特约商户其风险较高,也就是说这一特征对判断特约商户的风险性有较大的作用。然而在实验中,该特征在10个特征的重要性排名是第5名,也只是居于中间水平。原因可能在于获得的交易数据中,有一些卡种类无法判断是否信用卡,尤其是“他行卡”,这可能对模型结果产生了重要的影响。
商业银行受制于财务成本、管理成本等的限制,靠增加特约商户管理员的数量的方式来实现监管显然是不可能的、也是不可取的。因此,本文尝试采用数据挖掘等先进的技术手段,构建特约商户细分决策模型。该细分模型以10 个特征为基础,利用特约商户的消费交易数据,采用随机森林算法实现特约商户的分类。实验结果证明,在随机森林算法的树数量与分类预测正确率的关系实验中,发现随着决策树数量的逐渐增大时,模型的预测准确率在增加,在树数量超过一定规模后,准确率趋于一个稳定的值。
基于以上,可实现对特约商户进行有效的区分,对存在较大风险的商户进行重点监控和巡检,而对于其它低风险的特约商户则采用定期或不定期抽查的方式,将会大大降低商业银行的管理成本和难度。
需要说明的是,不同类别商户的风险特征可能存在较大的差异,本研究只是针对套现交易严重的一般类商户,提出了 10 类风险特征,这些特征可能并不适合于其它类别的特约商户。
注释:
①有的管理员让商户到网点在检查表上盖章应付差事,甚至有的一盖就是多个月,另外有的管理员(营销员)和商户之间存在着利益关系使得管理员不能真正履行起监管的职责。
②包含了没有风险的和发现风险的特约商户。
③经处理后发现有 24 个商户的数据存在问题(不存在交易数据或交易数据存在异常)。
④风险商户是指巡检发现异常、银联通报、存在套现交易等情况、确定存在风险的商户,本文基于重庆建行信用卡中心提供比对名单。