基于LightGBM的银行信用卡违约研究

2019-07-08 02:54张国庆昌宁
科技资讯 2019年12期

张国庆 昌宁

摘  要:随着全球经济的变化和我国金融制度的改革,信用卡借贷业务在金融行业中发展的十分迅猛,为银行带来了巨大的收益。但是,高收益往往伴随着高风险,信用卡借贷隐藏着巨大的风险。如何在已有的信用卡数据基础上,利用科学的方法来鉴别风险,是各个银行急需解决的问题。该文主要研究LightGBM在银行信用卡违约问题中的作用,通过实验,与LR、SVM、随机森林等几个常用模型的对比,发现LightGBM模型的准确率最高,说明LightGBM模型效果较好,有一定的实用价值。

关键词:信用卡违约  金融欺诈  LightGBM

中图分类号:F832                                   文献标识码:A                          文章编号:1672-3791(2019)04(c)-0008-02

1  信用卡违约研究的背景

随着经济全球化和我国金融体制的改革,国内外各大银行都不断的扩展自己的业务规模,出现了许多新型的线上交易。以金融机构来讲,支付宝、微信支付等侵占了大量的市场;以个体来讲,不论是稳定的余额宝、理财通,或者是风险较大的股票等,各种理财方式逐渐被大家所接受。所以说,我国银行业面临巨大的困难。

依靠传统的方式难以改变银行业目前的状况,管理者们需要改变银行的经营策略。银行卡业务是金融市场中最有前景的产品之一,数据显示,工商银行的信用卡到2018年6月末为止,共发卡1.56亿张,授信总额为13.98万亿元,环比增长9.09%[1]。信用卡业务给银行带来了巨大的利润。

同时,信用卡也给银行带来了巨大的风险。随着信用卡数量的增加,银行在获利的同时,也会存在一些“赖账”用户,这些不遵守规定的用户给管理者带来了很大的困难。如何利用已存在的借贷数据来辨别用户是否违约便成了一个关键问题,既要获得最大的利润,同时又要减小违约所带来的损失。因此,关于信用卡违约的研究是一个值得研究的问题。

2  国内外研究现状

人们现在普遍认为,信用卡最早在19世纪末出现,但是当时仅仅是一种短期的借贷行为,没有形成正规化的授信额度。1952年,Franklin National Bank第一次公开发行信用卡,于是关于信用卡欺诈的研究便有了开端。

在国外,BrauseR等在1999年通过关联规则和神经网络来研究信用卡欺诈问题,得到的结果有较高的辨识度,且误报率较低[2]。QuahJTS和SriganeshM在2007年通过自组织映射网络的方法,来研究用戶的行为,并进行了实时欺诈检测的研究[3]。2016年,FlorentinButaru等比较了逻辑回归、决策树和随机森林三种方法,结果表明,不同的银行适用于不同的模型,没有一种模型适合所有的银行[4]。

在国内,2008年,杨玺等使用支持向量机来研究银行的欺诈问题,可以有效的检测高风险的交易行为[5]。2013年,杨屹等使用Adaboost来研究银行的欺诈问题[6]。2016年,王纯杰等使用Kmeans将客户分为不同的类别,通过多值有序的Logistic回归模型来研究银行的欺诈问题[7]。

3  LightGBM介绍

Microsoft在2016年末提出了轻量级梯度提升机,它是基于决策树算法的梯度提升框架,可用作分类、排序等许多机器学习的任务中[8]。

GBDT[9]梯度提升决策树,和随机森林类似,都是多棵决策树的一种集成。所不同的是,GBDT所生成的树是有序的,下一棵树的输入是上一棵树所预测的结果,由此不断迭代。以下举例说明GBDT的基本思想,假设小明的真实年龄为18岁,第一棵树得到的结果是10岁,与真实的年龄相差8岁,那么第二棵树就会在残差8岁的基础上去学习,以此类推。每一轮迭代,拟合的误差都会减小。

LightGBM是更为优化的GBDT算法框架,它采用按叶子生长的策略来构建决策树,并且会限制其最大深度,不仅能过保证效率,还能预防过拟合。

LightGBM具备一下优点:(1)训练效率高,低内存使用;(2)支持并行学习,可处理大规模数据;(3)优化了对类别特征的支持。

4  实验

该文所使用的数据是来自UCI上的German credit dataset,一共包含1000条数据,其中违约样本300条,正常样本700条。样本特征包含借贷金额、年龄、个人资产、婚姻状况等信息。该数据集已经做了很好的预处理,包括特征选择、异常值的筛选和缺失值的填充等。为了防止量纲的不同导致的差异,该文采用min-max方法对数据进行标准化处理。

该文选取LR、SVM、随机森林三种模型与LightGBM进行对比,四种模型均使用Python实现。该文将数据集随机划分为两部分,其中训练集占70%,测试集占30%。

LR模型对测试集预测结果的混淆矩阵如表1所示,此时模型的准确率为76.67%。

SVM模型对测试集预测结果的混淆矩阵如表2所示,此时模型的准确率为77.33%。

SVM和LR所预测的结果在各部分的数值大致相同,准确率也相近。随机森林模型对测试集预测结果的混淆矩阵如表3所示,此时模型的准确率为77.33%,值得一提的是,使用随机森林在训练集上的准确率高达99%,这里可能是由于训练数据不足,导致了过拟合。

在LightGBM中,学习率设置为0.01,决策树棵树设置为20棵,树的最大深度设置为6,样本采样比例为0.75。LightGBM模型对测试集预测结果的混淆矩阵如表4所示,此时模型准确率为82%。

5  结语

从实验中可以得出,LightGBM模型较优于其他三个常用的模型,采用LightGBM可以帮助银行更好的鉴别违约客户,从而使银行获得更多利润。

参考文献

[1] http://www.sohu.com/a/253249429_100216228.

[2] Brause R,Langsdorf T,Hepp M.Neural Data Mining for Credit Card Fraud Detection[C]//IEEE International Conference on TOOLS with Artificial Intelligence, 1999:103-106.

[3] Quah J T S, Sriganesh M. Real Time Credit Card Fraud Detection using Computational Intelligence[C]// International Joint Conference on Neural Networks. IEEE,2007:863-868.

[4] Butaru F, Chen Q, Clark B, et al. Risk and Risk Management in the Credit Card Industry[J]. Journal of Banking & Finance,2016(72):218-239.

[5] 楊玺.基于支持向量机的信用卡欺诈检测研究[D].四川师范大学,2008.

[6] 杨屹.基于稀有类分类的信用卡欺诈识别研究[D].北京工商大学,2013.

[7] 王纯杰,李群,董小刚,等.基于K-均值聚类的多值有序Logistic回归模型在信用卡信用评级中的应用研究[J].吉林师范大学学报:自然科学版,2016,37(3):72-81.

[8] https://github.com/Microsoft/LightGBM.

[9] Ye J, Chow J H, Chen J, et al. Stochastic gradient boosted distributed decision trees[J].2009:2061-2064.