程玉胜,邹海欢
(安庆师范大学计算机与信息学院,安徽安庆246133)
从近几年国家统计局发布的数据来看,商业银行总资产与同期相比持续增长,贷款业务作为银行资产主要组成部分也在增多,同时贷款行为要承担的风险也在增加。因此,怎样消除和降低信用风险,就成为银行管理的重中之重。本文提出在RFM(Recency,Frequency,Monetary)模型的基础上,将其与随机森林算法相结合,用于信用风险评估并与其他算法进行比较,实验结果显示这一模型在银行信用风险评估中是有效的。
传统RFM模型主要是通过“近期购买行为(Recency)”、“购买的总体频率(Frequency)”和“购买金额(Monetary)”将客户划分成一定的等分,计算出客户的RFM得分,得分越高的顾客其价值就越大,然后利用客户得分构建金字塔,划分客户等级,把这种分级策略理解为市场营销中客户划群的思想。
在这一模型的基础上重新定义RFM,即根据银行数据特点,将RFM分别赋予新的含义,R指最近还款金额,还款金额越多的客户其信用状况越好;F指一段时间内违约的次数,利用某时间段内客户的还款行为对其信用做一个大概的检测;M指在某一时间段客户的账户余额情况,余额越多,表示客户还款的能力和可能性越高。通过新型RFM重构,将RFM模型筛选出的特征再次运用于银行贷款客户分析当中。
首先,采用常用的数据分析方法,如贝叶斯分类方法、决策树算法、随机森林算法等,找出原始数据集相关的重要属性;然后,借助于客户划群的思想,对银行数据集进行数据重构;最后,利用对应的算法对重构后的RFM模型数据进行风险评估。重建策略主要包括:
第一步:确定各个指标的权重,将最重要的3个变量按其重要性排序分别记为M,F,R;
第二步:设定某一标准,将数据划分:
(1)R≥A2为R1,A1<R≤A2为R2,R<A1为R3;
(2)F<X1为F1,X1≤F<X2为F2,F≥X2为F3;
(3)M≥B2为M1,B1≤M<B2为M2,M<B1为M3。
其中,Ai、Bi、Xi表示数据的范围,可以由专家指定,也可以通过聚类算法进行相应设定。
通过上述重建,接下来采用相应的数据分析方法进行模型挖掘,本文采用随机森林对重建后的数据进行分析。
随机森林是一种降维的方法,多应用于数据值缺失、异常情况或探索其他数据时,尤其是在预防或降低信用风险中具有很好的适用性及优越性。萧超武等创造性地将随机森林组合分类算法用于个人信用评估模型,实验证明,这种分类器模型在预测个人信用评估时具有更高的精确性和稳定性[1]。李进构建了基于随机森林算法的绿色信贷信用风险评估模型,结果表明,该评估模型实现速度更快、评估准确率更高,较为有效地提升了评估效率[2]。李泉通过引入ROC曲线对基于随机森林的个人信用评估模型进行评估,发现随机森林的准确率和稳定性都要优于logistic回归和支持向量机[3]。因此本文选择随机森林的方法作为风险评估的分析工具。随机森林能够处理大量的输入变量,并根据它自带的feature importance对特征进行筛选,进行特征的重要性度量,选择重要性较高的特征。
所用数据源于Z银行数据库,因存在缺失值以及不真实数据的情况,所以将数据中的异常值全部删除。数据集包含23个变量,包括信用额度,客户基本信息(性别、学历、婚姻、年龄等),过去6个月的还款金额,还款是否逾期情况以及客户账户金额。对各个特征进行标记,具体见表1。
表1 银行数据相应字段说明
首先将数据进行预处理,通过对客户资料进行筛选发现,年龄在60岁以上以及信用额度在50万以上的客户所占的百分比非常低,可忽略不计,因此不做统计。年龄方面,21岁~30岁用1表示,31岁~40岁用2表示,41岁~50岁用3表示,51岁~60岁用4表示。信用额度方面1万~10万的用1表示,11万~20万的用2表示,21万~30万的用3表示,31万~40万的用4表示,41万~50万的用5表示。
为了解各类人群在信贷方面的分布情况,将以往学者比较感兴趣的几个因素做了简单分析,这些变量主要包括信用额度、性别、学历、婚姻情况等。
由分析结果可以知道,银行的贷款业务中中小额贷款居多,超过40万的很少。按照常理,会觉得银行更需要重视大客户,因为他们会给银行带来更高的利润,但事实往往不是这样,大客户毕竟是少数,中小型客户才是银行贷款的主要人群。其次,贷款的人群主要为女性。国内外很多研究显示女性相较于男性来说,有更高的风险规避意识,对不确定性反应也更加强烈。但并不意味着男性在信贷方面的比例就高于女性,现在的中国大陆包括台湾地区,男女比例都严重失调,女性客户占比高于男性也是一种趋势。另外,贷款的主体基本上是受过高等教育的群体,且几乎是青年人,多在20岁~40岁之间。因为青年人接受新事物的能力较强,观念也更为开放一些,所以更喜欢超前消费。而婚姻状况则对客户的信贷状况影响不大。对于这些小额贷款客户、女性客户、高学历客户以及青年人客户人群,银行应作出更有针对性的业务管理。
数据的特征描述及其分析给出了银行客户的大致分布,属于属性数据的定性分析,但是银行数据属性很多,仅仅进行定性分析,很难找到重要属性。本实验选取80%的样本作为训练集,其余的20%作为测试集,采用随机森林属性检测方法对数据进行分析,实验得出随机森林划分客户信用等级的错误率为24.40%。其重要性检测的可视化结果如图1所示。
图1 重要属性排序后可视化结果
平均降低精度和基尼指数是随机森林中衡量变量重要性的指标,其值越大,变量越重要。对图1中23个特征进行重要性评估,发现账户余额M、逾期频率F及最近还款金额R在变量中最为重要,所以下面将进一步分析这3个变量对信用的影响。
分别计算平均逾期时间FA(单位:月),平均还款金额RA(单位:元),每月账户平均余额MA(单位:元),并将数据划分如下:
(1)F<1为F1级客户,1≤F<3为F2级客户,F≥3为F3级客户。
(2)R>10 000为R1级客户,3 000<R≤10 000为R2级客户,R≤3 000为R3级客户。
(3)M≥10 000为M1级客户,1 000≤ M<10 000为M2级客户,M<1 000为M3级客户。
将原始银行数据转化为基于新型RFM模型的银行数据,结果保存到相应数据集中,记为“mydata”。实验得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表2所示。
表2 基于新型RFM模型随机森林重要性检测结果
由表2可以看出,客户的信用历史是申请贷款中最重要的变量,其次是账户余额和平均每月还款金额。
除了随机森林,不少学者也尝试将其他方法用于信用风险的管理。陈云等针对SVM集成学习在信用风险评估中的应用,提出了一种混合集成方法,使得组合成员分类器的多样性有效提升,并最终提高模型的预测准确率[4]。李战江等针对实际能够获取到的银行样本量少而无法准确划分信用级别的问题,建立了可分为9个信用级别的小样本评级模型[5]。周寿彬将扩散控制与违约强度两个函数应用到扩散理论中,提出给予反常扩散模型的信用风险评估方法,尽可能地降低银行和个人的经济损失,从而优化信贷资源的配置[6]。为了证明本文算法的有效性,将随机森林算法(RF)和人工神经网络(ANN)、K最近邻(KNN)以及C4.5算法的错误分类率、耗时以及精确度进行比较,同时使用80%的数据集作为训练集,结果如表3所示。
表3 实验对比
由表3可以明显看出,人工神经网络和随机森林算法在处理本文数据时的正确率要高于其他两种算法,随机森林所用时间比人工神经网络的短。将RFM模型与随机森林结合之后,虽然正确率没有得到提升,但耗时明显缩短,精确度也有所提升。
针对银行业的不良资产问题以及信贷风险管理难题,运用随机森林算法进行分析,与其他算法对比发现,随机森林的正确率、精确度和耗时方面都具有优势。同时根据随机森林自带的feature importance得出客户的信用历史是最重要的特征,这也说明了银行在处理客户的贷款申请时首先看该客户信用历史的必要性。而对于首次贷款无历史信用记录的客户,则可以根据其账户余额来评估其是否具有按时还款的能力。同时,根据之前的特征分析,可以看出贷款客户中,女性、高学历及青年人是银行贷款的主体,银行对这些人可以开展更有针对性的业务。