基于机器学习算法的信用风险评估

2022-02-06 13:01:57王春茹南开大学金融学院
品牌研究 2022年7期
关键词:超平面投影信用

文/王春茹(南开大学金融学院)

一、研究背景

经济内循环带动了国内消费行业的蓬勃发展,滋生了一系列以小微贷款为主的消费信贷公司,同时商业银行也积极在个人信贷方面持续进取。个人信贷数目持续上升的同时,如何客观准确且高效地评价客户信贷风险成为当前亟待解决的问题。在消费信贷热度不断提高的情况下,商业银行将个人信贷看作是一项具有长远发展的业务,由此带来的信用风险问题也成为银行在风险应对中的主要着力点。要降低贷款方违约发生的可能性,一味地提高借贷门槛也是不可取的,因为有可能会使信用状况良好并且将来有能力偿还借款的客户需求得不到满足。因此采用合理的方式评估客户的信用状况就变得很重要。在目前的环境下,机器学习、人工智能等基础上建立的风险评估模型在最近几年被业界内持续讨论,但不同机器学习内核的准确性、不同内核对不同维度数据的敏感性、不同评测模型的高效性使得不同风险评测模型的表现大不相同,因此不同机器学习内核在不同数据中的表现效率仍需进一步研究。

二、国内外研究现状

(一)国外研究现状

客户的信用风险与FICO评分系统得出的信用分数呈负相关趋势,但是客户的信用风险情况并不能仅仅通过评分系统体现,评分分数更多地被用来作为贷款决策中的参考。680分以上的信用评分代表借款人的信用风险水平较低,可以同意发放贷款。低于620分的信用评分代表借款人需要增加担保,否则有极大可能被拒绝贷款。620-680分之间的信用评分代表贷款方需要进一步对贷款人的个人信用情况调查核实。FICO评分模型主要因素关注客户的信用偿还历史、信用账户数、使用信用的年限、正在使用的信用类型、新开立的信用账户五项因素。

Wang et al.(2005)提出了一种新的“模糊支持向量机”。该算法在保持模糊支持向量机对异常值不敏感的同时,通过更一般化的方法来区分好债权人和坏债权人。他们提出了一种双边加权模糊支持向量机,结果显示在信用分析方面有良好的应用前景。Raei et al.(2016)研究了一种新的估计商业银行企业客户违约概率的混合模型。他们将混合模式描述为一种可以解决“黑箱”的模式,研究结合了两阶段的研究方法,将logit模型的可理解性与神经网络等非线性技术的预测能力相结合。结果表明该混合模型的总体精度优于两种基本模型。

(二)国内研究现状

庞素琳和巩吉璋(2009)通过对德国银行个人信贷数据的分析,以C5.0为信用评估模型核心,同时利用Boosting算法极大地提升了模型与数据的拟合程度,最后通过参数调节进一步提高分类精确。方匡南等(2010)运用RF算法识别信用卡违约风险,因为这种方法无需对数据样本标准化预处理,并且结果相较支持向量机、单一决策树以及Logistic 回归更为准确。李淑锦等(2020)通过分析个人借款者的信用风险影响因素建立起包括性别、年龄等的指标体系,通过Lasso-Logistic模型对违约概率进行预测,得出Lasso-Logistic模型比Logistic回归的预测准确性高的结论,且羊群效应作为一个重要因素能在很大程度上提高对违约概率预测的准确性。王妍等(2020)对SVM算法的超参数进行混合蛙跳优化,并与经网格法和遗传算法优化的SVM超参数结果进行比较,得出进行过混合蛙跳优化的SVM模型对信用风险的评估效果更好。

三、数据来源与处理

本文所用数据分别来自一个名叫Credit Scoring的数据集和一个名为German的数据集,内容是在评估客户信用情况时会用到的一些基本信息。其中Credit Scoring数据集中包括1225条样本信息,每条样本共有15个相关信息。选取指标有个人、信用和经济三大类。包括出生年月、子女数目、需要抚养或赡养的人数、是否有家庭电话、配偶收入、职业、收入、住宅状态、房屋价值、未偿还抵押贷款余额、即将支付的房屋抵押贷款或租金、即将支付的贷款、即将支付的分期付款、即将需要偿还的信用卡支付、是否违约等15个指标。在German数据集中,共有1000条样本信息,20个属性变量和一个类变量,在20个属性当中,有7个数值型属性变量,13个定性变量,类变量则分为两种不同的状态{good ,bad}。选取指标同样可分为个人、信用和经济三大类。包括支票账户状态、持续时间、信用记录、信贷目的、信贷金额、储蓄账户、工作年限、分期付款率占可支配收入的百分比、个人身份和性别、是否有其他债务人/担保人、现在居住年限、财产属性、年龄、其他分期计划、房屋、该银行中现有的信贷数量、工作、需要为其提供赡养或抚养的人数、是否有电话、是否是外籍工人、是否违约等21个指标。本次实验按照6:4的比例,分别从两个数据集中选取训练集与测试集。由于两个数据集都没有足够的信用差的数据,这种训练数据集中的偏差会影响学习算法,导致少数类被完全忽略。因此,本文对不平衡数据集采用随机过采样的方法来重新平衡类的分布,取得更好的学习效果。

四、理论分析

Bellotti-Crook的一篇论文将支持向量机应用于预测贷款的违约风险,这是金融机构普遍面临的一项重要而又具有挑战性的任务。

信用评分是指通过评估暴露的风险来给予消费者信用,因为坏账不仅会给机构带来负面影响,还会成为一个严重的社会问题。支持向量机、逻辑回归、线性判别分析和k近邻法,是基于消费者应用和提供的数据来确定违约发生的概率。在本文的研究中,将致力于检查信用评分设置中应用的每个学习算法的准确性水平,并与Bellotti-Crook的结果进行比较。本文依次采用logistic回归(LR)、支持向量机(SVM)、k近邻法(KNN)和线性判别分析(LDA)方法对消费者信用数据进行实证研究,比较各种方法的准确率。

(一)logistic回归(LR)

逻辑回归的决策边界由于其定义域是连续的,因此不能拟合离散变量,因此更多地用于拟合概率P(Y = 1| x),因为概率取值连续。logistic回归则通过函数L将决策边界对应一个隐状态p,然后根据p与1-p的大小决定因变量的值。在logistic函数的分布函数中,μ为位置参数,γ>0为形状参数,当μ=0,γ=1时也被称为sigmoid函数,是一条s形曲线,它可以取任何实值数并将其映射为0到1之间的值。在决策边界等于0时,函数y(wtx+b)=0.5。鉴于决策边界是连续的,可以得出如下的函数:为了拟合该函数的值,我们使用决策边界作为截断点来建立预测准则,当logistic函数输出大于或等于0.5时,算法预测为1,反之则预测为0。为了检索最优的参数来拟合这个函数,我们使用最大似然估计来优化对数似然函数最大的w和b。

(二)支持向量机(SVM)

正确划分训练数据集、获得几何间隔最大的分离超平面是SVM算法的核心。与Logistic算法类似,将wx+b=0定义为分离超平面,对于线性可分的样本,可以获得无穷多个超平面使得不同种类的数据分离,但只能找到唯一的几何间隔最大的分离超平面。给定某特征空间上的样本集T,其中,xi为第i个特征向量,yi为分类特征,可分为+1类与-1类。假设训练数据集是线性可分的。在样本集T和超平面w*x+b=0上定义出超平面与样本点(xi,yi)的几何间隔,则该超平面与所有样本点之间最小的几何间隔为,这个距离即为支持向量与超平面间的几何距离。可以将以约束最优化问题表示SVM模型的求解最大分割超平面。约束条件两边同时除以γ。由于都是标量,为了表达式简洁,令得到同时求γ得最大值,等价于求解的最大值,即求解的最小值(是为了后续求导后形式简洁,不影响结果)。因此可以用约束最优化问题表示SVM模型的求解最大分割超平面。用拉格朗日乘子法找到含有不等式约束的凸二次规划的对偶问题。用无约束的新构造的拉格朗日目标函数表示出有约束的拉格朗日目标函数。

综合以上讨论,得到如下线性支持向量机算法:(1)定义惩罚参数则有凸二次规划问题,得到最优解。(2)求出分离超平面后可以得出分类决策函数。直观地讲,每个SVM分类器都有一个核函数,其目的是获取输入数据并将数据转化为所需的形式,以便算法进一步对数据进行类的微分(也可以理解为相似度函数)。

(三)k近邻(KNN)

KNN的原理为在一个特征空间中预测某个新的样本,根据它距离最近的K个点大多数属于某类别,则该样本也属于该类别。当K为某个级数时,与它距离最近的n个点中,哪种类别多,则预测样本也为该类别,因此KNN算法结果是由K值的选取和点距离的计算决定的。本文KNN算法中使用欧式距离,在二维平面中,两个点的欧式距离为:扩展到多维空间则为:。最直接的KNN算法是计算预测样本点与给定半径内所有已知样本点的距离,并将结果保存、排序,在所得序列中,判断前n个K值下对样本的判断以确定样本的真实水平。

(四)线性判别分析(LDA)

LDA的核心思想是在坐标系内寻找一条直线,使训练样本集在这条线上的投影达到同类样本的投影点接近,不同类样本的投影点远离的目标。假设某样本。定义Nj(j=0,1)为第j类样本的个数,Xj(j=0,1)为第j类样本的集合,μj(j=0,1)向量为第j类样本的均值,Σj(j=0,1)为第j类样本的协方差矩阵。μj的表达式为:。如上文所述,需要找到一条直线使得两类数据的投影达到同类样本的投影点接近,不同类样本的投影点远离的目标。假设该支线上有向量ω,则任意样本xi在直线ω的投影为ωTxi,上述两类数据的中心μ0,μ1,在直线ω的投影为ωTμ0和ωTμ1。根据我们的目标,不同类数据中心之间的“距离”尽可能大,即最大化,且同类数据的投影点尽可能地接近,所以投影点协方差需要尽可能小,即最小化。多类别LDA的原理同二类别LDA,由于多维向低维投影,此时投影到的低维空间就是一个超平面。与其他算法相比,LDA算法的主要优点有:在降维过程中可以将类别的先验经验纳入考虑范围,且在样本分类依据为均值而非方差。但LDA算法也有一些主要缺点:对非高斯分布的样本降维的情况并不适用,且LDA降维最多降低k-1个维度,若降维的维度大于k-1,则LDA不适用。当样本分类信息依赖方差而非均值时,降维效果不佳。也可能出现过度拟合数据的情况。

五、实证分析

(1)LR:通过分析德国的信贷数据,本文发现好的数据占70%,坏的数据占30%。对数据进行训练后,检验结果表明Logistic回归的准确率为0.79,AUC值达到了0.86。用同样的方法分析美国信用评分数据,好的数据占26.37%,坏的数据占73.63%。检验结果表明,Logistic回归的精度为0.6,AUC值达到了0.59。因此LR回归在这些测试中表现很好。

(2)SVM:SVM有三种不同的核,分别是线性核、多项式核和RBF核,除了线性核的运行时间比预期的长之外,SVM总体上的效果最好,尽管它的预测级别几乎和其他核一样高。考虑到精度和运行时间之间的权衡,线性核支持向量机在实践中并不是最优选择。多项式内核模式结果表现出了相当高的精度,ROC得分在0.8以上,径向基函数(RBF)给人的最优的分类结果也达到0.8以上的 ROC得分。

(3)KNN :K的范围通过交叉验证确定(将样本数据按6:4拆分为训练数据和验证数据),从某个较小的K值开始,随着K值的增加,得到验证集合并计算方差,最终找到一个比较的K值。与其他学习算法相比,k近邻算法不需要对数据分布进行任何假设,在实际应用中更有价值。当优化参数以配置最优的k值时,对计算能力的要求非常高,因为算法存储所有训练数据,并在交叉验证步骤中验证k值的每个选项已进行调优。同时,为了存储所有的训练数据,它占用了很高的内存。本文的结果显示,kNN分类器的实现并没有花费太多的运行时间。总体而言,该算法能够对AUC曲线进行准确的预测,AUC达到0.83。

(4)LDA:Bellotti-Crook的论文结果表明,LDA的AUC是第二高的。然而,性能上的差异很小,也不显著。与BC的论文一样,在使用德国信贷数据集时和使用美国信用评分数据集时LDA都得到了较高的AUC值。

六、结果分析

如Bellotti-Crook论文中所述,每个学习算法都用AUC-ROC曲线来计算预测精度。ROC曲线是通过绘制不同阈值设置下的真正率和假正性率来创建的。AUC是ROC曲线下的面积,表示可分离程度,说明模型区分类的能力有多大。出于本文的目的,它计算了多少样本可以被区分并且准确地预测。将误分类率设定在20% - 30%,本文的模型可以最优地达到设定的误分类率,有些算法甚至可以将误分类低于20%。大多数算法的运行时间都比本文所述的要快得多,很可能是由于算法实现了改进。然而,由于适当的数据集的可用性有限,重建结果是困难的。尽管有一些数据集需要测试,但这些数据集远远小于Bellotti-Crook使用的数据集,本文只有1000个样本,而他们的超过30000个样本。总体而言,SVM的RBF核所表现出的结果相较其他方法来说更好,AUC值更高,因此运用RBF核的SVM法进行个人信用风险预测能达到更高的准确性。

七、总结与展望

在基于德国信用数据样本集的研究中发现,“担保人”一项也会对个人信用产生较大影响,但在我国当前的个人信用评分机制中,对贷款人的“担保人”等指标缺乏重视,因此相关企业在充分考虑保护用户个人隐私的前提下可以完善“担保”“人脉”等相关指标的信息采集。在个人信用风险评估中,大数据画像等技术可以更完整地描述用户信用情况,但利用已知所有样本数据进行评估的效率低、成本高,因此亟须寻找更有效的个人信用指标的筛选方法。本文主要探究分类算法的改进,而算法的更新迭代时间成本高,因此寻找更有效的数据样本分类手段进行用户风险评估成为解决该问题的重要手段之一。

猜你喜欢
超平面投影信用
全纯曲线的例外超平面
涉及分担超平面的正规定则
解变分不等式的一种二次投影算法
为食品安全加把“信用锁”
基于最大相关熵的簇稀疏仿射投影算法
信用收缩是否结束
中国外汇(2019年9期)2019-07-13 05:46:30
找投影
找投影
学生天地(2019年15期)2019-05-05 06:28:28
以较低截断重数分担超平面的亚纯映射的唯一性问题
信用中国网