李佳欣
基于逐步Logistic回归下分类算法的个人信用评估分析
李佳欣
(西南大学 数学与统计学院, 重庆, 400700)
为了给消费者信贷决策提供合理依据, 基于真实的客户信贷数据, 运用逐步Logistic回归方法依据AIC准则进行变量选择建立经典决策树、条件推断树、随机森林、支持向量机等分类模型, 并对4个分类模型的预测结果进行比较。结果表明: 基于逐步Logistic回归建立的随机森林分类模型准确率达97%,预测效果最优; 随机森林算法具有较高的分类精度,可以很好地应用在个人信用评估问题研究中。
逐步Logistic回归; AIC准则; 个人信用评估; 变量选择
随着消费信贷和互联网金融的快速发展, 我国的消费信贷市场迅速扩大。由于消费信贷的增加, 商业银行将消费信贷的发展视为未来发展战略的重要组成部分。但是, 日益扩大的信贷规模给商业银行带来了很高的信贷风险, 导致大量信贷资产流失。信贷风险是指客户未按照合同履行义务所造成的经济损失风险, 是主要的金融风险类型。信贷业务运营的核心内容是信用评估, 银行将客户的历史信用数据应用于信贷风险模型, 预测客户是否属于能够及时偿还债务的可以相信的“好”客户, 为消费者信贷决策提供合理依据。基于上述背景, 建立有效、合理的个人信用评估模型对继续发展消费信贷具有重要的理论和实践意义。
分类模型预测方法是一种有效的信用评估手段, 该模型可以对贷方进行科学有效的信用预测。目前, 最被广泛使用的模型预测方法是统计分析和机器学习2类[1–3], 每种模型在预测准确性、稳健性、可解释性方面都有其自身的优点和缺点。个人信用评估分析一直以来是许多学者密切关注的问题, 李太勇等[4]提出使用稀疏贝叶斯学习方法模型来进行个人信用评估研究, 是一种有效的个人信用评估方法。方匡南等[5]提出运用Lasso-logistic模型处理个人信用评估问题, 预测准确率更高。于晓虹等[6]成功将随机森林和回归算法运用到个人信用评估中, 结果表明模型具备较高的预测能力。李毅等[7]结合互联网个人信用数据, 运用决策树、随机森林、支持向量机等模型分析个人信用评估问题, 成功反驳“变量越多预测结果越准确”的观点。
考虑到虚拟变量的创建涉及很多变量, 将所有解释变量直接应用于分类模型存在问题: 选入一些无关变量会干扰对变量之间关系的理解, 从而增加模型的复杂性[8–10]。因此, 在个人信用评估分析的研究中需要变量选择。本文将逐步Logistic回归依据AIC准则的变量选择方法思想与个人信用评估模型的实际情况结合起来建立经典决策树、条件推断树、随机森林、支持向量机分类预测模型, 对个人信用评估的影响因素进行选择和分析。
考虑信用卡客户资料数据集, 响应变量只取两个值0(“瑕疵户”)或1(“非瑕疵户”)。Logistic回归模拟属于一个类的概率, 而不是直接对响应变量建模。基于信用卡客户历史数据, Logistic回归建立“瑕疵户”概率模型。给定时, 可以记为() =(= 0|)(()取值范围在0到1之间)。
用一条直线拟合一个编码为0, 1的二元响应变量, 原则上总可以找到的一些值, 使预测的() < 0, 而对的另一些值() > 1(除非的范围是限定的), 为避免这类问题, 需要找到一个函数建立针对() 的模型, 使对任意值该函数的输出结果都在0和1之间。在Logistic回归中, 使用Logistic函数
由此Logistic函数产生一个S形曲线, 并且无论取何值, 总能得到一个合理的函数输出值。
通过整理式(1), 可得
()/[1-()]的值称为发生比, 取值范围为0到∞, 其值接近0表示是“瑕疵户”的概率非常低, 接近于∞则表示是“瑕疵户”的概率非常高。
对式(2)两边同时取对数, 得到
式(3)的左边称为对数发生比或分对数, 由此Logistic回归模型可以看作是分对数变换下关于的一个线性模型。
在Logistic模型中, 从预测的角度来说, 不会将系数未通过显著性检验(即值大于0.1)的变量纳入最终模型。基于此, 逐步Logistic回归用于生成具有较少解释变量的模型, 其目的是通过添加或移除变量来获得较小的AIC值, 从而生成简化的模型, 简化后的模型在验证集上的误差小于全变量模型[11]。
本文采用的数据是某银行的客户信贷数据。数据集有4 626条记录, 包含9个属性, 前8个属性是贷款申请人的个人特征信息, 最后一个属性是银行对客户信用评级的定义: 0表示“瑕疵户”, 1表示“非瑕疵户”。
基于本文使用的数据涉及较多的定性变量, 需要为定性变量设置虚拟变量。利用R软件的nnet程序包的class.ind()函数为定性变量设置虚拟变量, 编码后的变量说明(解释变量8组共41个, 因变量1个)见表1。
表1 变量说明
注: 表1中未列出的属性包括: 实际年龄(8)是连续型数据; 信用记录(, 1表示“非瑕疵户”, 0表示“瑕疵户”)
原始数据中, 实际年龄(8)为连续型数据, 为克服量纲的影响, 将其标准化处理后再进行分析。
本文所用的数据集中, 包括3 700条信用“非瑕疵户”和926条信用“瑕疵户”, 分别从中利用R软件的sample()函数随机抽取80%作为训练集, 剩余20%作为测试集。训练集中客户信用被评级为“瑕疵户”和“非瑕疵户”的数量比为1︰15, 存在严重的数据不平衡问题, 为减少数据不平衡对个人信用评估分析造成的影响, 利用R软件的ROSE程序包, 同时采取Oversampling和Undersampling这2类方法[12], 对小类样本采取有放回的过采样而对大类样本采取无放回的欠采样。最终使得训练集中客户信用被评级为“瑕疵户”和“非瑕疵户”的数量比接近为1︰1, 利用此训练集参与建立模型。
本文采用逐步Logistic回归进行变量选择的方法通过R软件的glm()和step()函数完成, 根据AIC准则, 生成具有较少解释变量的简化模型, 得到包含27个解释变量的新模型。剔除15个回归系数的值对方程的贡献不显著变量, 重新拟合模型, 新模型的每个回归系数均十分显著(< 0.05), 见表2。
表2 Logistic 模型系数P值表
基于两模型嵌套(新模型是全模型的一个子集), 利用R软件的anova()函数对它们进行比较, 卡方值不显著(= 0.917 8), 表明包含27个预测变量的新模型即简化后的模型与包含42个完整预测变量的模型拟合程度相当, 因此可以依据更简单的模型进行分析。
由基于逐步Logistic回归依据AIC准则变量选择后建立的新Logistic模型可知: 学历(2)越高的客户, 违约概率越小; 职业(3)为农林渔牧自营的客户, 违约概率最小; 个人平均每月收入(4)随着收入增加的客户, 违约概率有增大的趋势; 个人平均每月开销(5)越低的客户, 违约概率越小(5.1>5.2>5.3); 住房情况(6)为本人所有的客户, 违约概率最小; 平均每月信用卡刷卡金额(7)随着刷卡金额增加的客户, 违约概率呈增大的趋势, 且平均每月信用卡刷卡金额为[18 401, 23 000]元之间的客户, 违约概率最大; 实际年龄(8)的系数为正, 表明年龄越大的客户, 违约概率越大。因逐步Logistic回归依据AIC准则剔除掉的婚姻状况(1), 表明这个解释变量对是否违约的影响不显著。
本文在应用逐步Logistic回归依据AIC准则方法进行变量选择后, 其训练集用于建立如下分类模型: 经典决策树、条件推断树、随机森林和支持向量机; 测试集用于评估每个模型的有效性。
通过几种有监督机器学习方法对个人信用级别进行分类, 准确率(即分类器是否始终能够正确地划分样本单元)是从中选出最准确的方法常用到的统计量之一。尽管准确率承载的信息量很大, 这一指标仍不足以选出最准确的方法, 还需要分类器的敏感度和特异性, 即成功预测正类样本单元的概率和成功预测负类样本单元的概率, 以评估各种分类模型的有效性。其模型预测准确性度量结果见表3。
由表3可知, 随机森林成功鉴别了97%的非瑕疵户样本和95%的瑕疵户样本, 总体来说预测准确率高达97%, 在4个分类模型中预测准确率上是最优的。97%被判为非瑕疵户的样本单元确实是非瑕疵户(即3%正例错误率), 95%被判为瑕疵户的样本单元确实是瑕疵户(即5%负例错误率)。从个人信用评估的角度来说, 特异性(即成功鉴别瑕疵户样本的概率)这一指标格外重要。
表3 分类模型预测准确性度量 /%
将逐步Logistic回归依据AIC准则的变量选择方法思想与个人信用评估模型的实际情况结合起来,通过对个人信用评估模型的研究, 得出如下结论:
(1) 研究个人信用评估问题时, 定性变量作为其主要的解释变量, 要构建数学模型, 需要设置较多的虚拟变量, 在这种情况下, 需要变量选择。本文采用逐步Logistic回归依据AIC准则进行变量选择, 生成一个包含更少解释变量的模型, 在验证集上的误差相对全变量模型更小;
(2) 本文利用某银行的客户信贷数据, 建立基于逐步Logistic回归依据AIC准则变量选择方法的经典决策树、条件推断树、随机森林、支持向量机等分类模型, 并对比分析了这4个分类模型的预测准确率, 发现逐步Logistic回归依据AIC准则变量选择方法建立的随机森林分类模型, 在预测准确率上是最优的;
(3) 随机森林算法的分类精度通常高于其他分类方法。随机森林算法可以处理多样本单元、多变量问题, 可以处理包含大量缺失值的数据, 并且可以处理样本单元远远小于变量数量的数据。袋外预测误差的计算和变量重要性的度量是随机森林算法的2个优点。因此, 基于逐步Logistic回归依据AIC准则变量选择方法建立的随机森林模型, 可以很好地应用在个人信用评估问题研究中。银行可以基于客户实际的信贷数据, 利用逐步Logistic回归建立基于AIC准则变量选择方法的随机森林分类模型, 选择对信用评估有显著影响的变量, 根据信贷申请人信用评级后的结果, 决定是否给予贷款, 可以很大程度上降低个人信贷风险。
[1] 郭仌, 梁世栋, 方兆本. 消费者信用评估分析综述[J]. 系统工程, 2001(6): 9–15.
[2] 石庆焱, 靳云汇. 多种个人信用评分模型在中国应用的比较研究[J]. 统计研究, 2004, 21(6): 43–47.
[3] 朱晓明, 刘治国. 信用评分模型综述[J]. 统计与决策, 2007(1): 103–105.
[4] 李太勇, 王会军, 吴江, 等. 基于稀疏贝叶斯学习的个人信用评估[J]. 计算机应用, 2013, 33(11): 3 094–3 096, 3 148.
[5] 方匡南, 章贵军, 张惠颖. 基于Lasso-logistic模型的个人信用风险预警方法[J]. 数量经济技术经济研究, 2014, 31(2): 125–136.
[6] 于晓虹, 楼文高. 基于随机森林的P2P网贷信用风险评价、预警与实证研究[J]. 金融理论与实践, 2016(2): 53–58.
[7] 李毅, 姜天英, 刘亚茹. 基于不平衡样本的互联网个人信用评估研究[J]. 统计与信息论坛, 2017, 32(2): 84–90.
[8] 胡小宁, 何晓群. 基于Group Lasso的个人信用评价分析[J]. 数学的实践与认识, 2015, 45(6): 89–90.
[9] 胡小宁, 何晓群, 马学俊. 基于Group MCP Logistic的个人信用评价分析[J]. 现代管理科学, 2015, 8: 18–19.
[10] 何晓群, 刘文卿. 应用回归分析(第三版)[M]. 北京: 中国人民大学出版社, 2011.
[11] Robert I. Kabacoff. R语言实战(第二版)[M]. 北京: 人民邮电出版社, 2016.
[12] http://link.zhihu.com/?target=http%3A//www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
Personal credit evaluation analysis based on gradual logistic regression classification algorithm
Li Jiaxin
(School of Mathematics and Statistics, Southwest University, Chongqing 400700, China)
In order to provide a reasonable basis for consumer credit decision-making, based on real customer credit data, the stepwise logistic regression method is used to select variables according to akaike information criterion to establish classification models such as classic decision trees, conditional inference trees, random forests, and support vector machines. The prediction results of four classification models are compared. The research shows that the accuracy rate of the random forest classification model based on stepwise logistic regression is 97%, and the prediction effect is the best; the random forest algorithm has high classification accuracy and can be well applied in the research of personal credit evaluation.
stepwise logistic regression; Akaike Information Criterion; personal credit rating; variable selection
10.3969/j.issn.1672–6146.2021.01.002
TP 181; F 832.4
A
1672–6146(2021)01–0005–04
李佳欣, 18392414816@163.com。
2020–06–25
(责任编校: 张红)