李常胜
摘要:过去个人信贷风险评估应用的主体是商业银行,2014年以来随着国家允许个人或团体从事放贷业务以来,非银行借款机构如雨后春笋般的出现在人们的生活中,同时伴随着互联网的发展,互联网金融公司如虎添翼不断发展壮大,非银行金融公司也越来越多,这些机构如润滑剂一样加速了我国的资金融通,一定程度上促进了我国经济的发展。与此同时个人信用风险评估就成为这些机构必须解决的问题。传统的信用评估方法如专家评分卡的评估方法主要依靠业内专家的经验数据制定出评分规则,但这些方法不能相对精确量化风险水平,效果有限。而数学模型是根据客户的历史数据建模,可以用相对精确的度量客户的风险水平,在数据质量较好的情况下数学模型对客户的区分度下相对较高,可以更好得降低信贷机构的信贷风险。本文主要研究数学模型在信用风险中的应用及其优势。
关键词:信用评分;数学模型;组合模型
一、信用评分的背景
近年来随着网络小贷的发展,信用评估越来越受到重视,信用评估的质量的对这些公司不仅重要,是这些公司赖能否降低风险损失的关键,对申请贷款的客户也很重要,以避免不该申请成功的客户申请到了贷款后来无法还贷而陷入债务的泥潭无法脱身。对银行而言他们可以要求客户提资产证明同时要求客户提供贷款抵押进再根据客户在银行留存的数据可以很好得控制信贷的风险,而对互联网小贷公司而言他们往往提供的是小额现金贷,他们无法像银行一样要求客户提供资产证明和更多的信息。因此相对银行而言他们做信用评估较为困难。但近年来随着计算机信息技术的发展以及越来越多的算法工具被开发及应用,数学模型在信用评估领域的应用越来越成熟,与此同时用于信用评估的数据公司在市場上的发展也为小额贷款线上评估提供了数据支持。这些条件的成熟都为数学模型在小额现金贷信用评分中的应用提供了条件。
二、信用评分的发展
(1)信用评分在国外的发展。1940年代末至1950年代初。美国有些银行为了处理大量的信贷申请提高审批效率降低成本开始进行了一些有关信用评分方法的试验。此后还出现了专业提供信用评分服务的公司Fair Isaac&Company,60年代,相继出现了专门提供客户信用分数和信用报告的信用管理局,比如美国著名的三大信用管理局(Experian,Equifaxand TransUnion)。过去10年中,全球信用评分市场蓬勃发展,出现了许多信用评分公司和信用管理局,极大地提高了银行对用户进性信用评估的准确性、有效性和一致性。
(2)信用评分在国内的发展。个人资信评估在国内发展较晚,上世纪80年代中后期,信用卡这一金融工具开始在我国沿海城市兴起,使我国的个人信用评估工作逐步向规范化发展。而个人信用评分则出现在90年代末20世纪初的银行,首先在个人住房信贷业务内实行,后逐步推广到个人消费贷款中。2014以来国家允许个人或机构以合法的方式向社会提供贷款,小贷公司的业务对个人评分的需求,使得个人信用评分工作得以进一步发展。
三、传统专家判别评分卡模型
商业银行最初采用专家判别法评估贷款客户的信用风险,常见的有3C分析法、5C分法、6C分析法[品德(Character)、能力(Capacity)、抵押担保(Collateral)、个人条件(Condition)、资本(Capital)、经营连续性(Continuity)]。目前,我国商业银行对借款客户进行信用风险评估时,主要用到以下3种方法:
(1)主观判断法。例如传统的5C分析法;
(2)简单的量化评估法。既通过对客户历史资料的统计分析,对个人信用风险进行简单量化实现对个人信贷风险的评估;
(3)担保转移。既由贷款申请人找人担保或缴纳保证金,缓释个人信贷风险。
传统的方法对近年来兴起的小贷贷款而言不太适合,主要是这些用于个人信贷风险评估的客户资料小贷公司很难获取而且会加重小贷公司的经营成本。而今年来发展起来的统计及学方法和人工智能方法为互联网小贷公司对客户的信贷风险评估提供了便利。
四、统计学方法在信用评分中的应用
David D最早将统计思想引入信用评估领域,将贷款客户总体按照特征不同分成若干组,根据特征的不同对贷款客户的信用风险进行评估,以此判断客户的好坏。
(1)判别分析法
个人信贷风险的分析方法包括定性评估和定量分析,定性评估主要依靠信贷经理的知识、经验和直觉对个人信贷业务进行评估,是一种非量化方法。个人信用评分法是典型的定量分析方法,目的是预测谁会违约,但不能解释违约的原因。线性判别分析(Linear Discriminat Analysis,LDA)是的模式识别算法。该方法通过确定‘信用正常和‘信用异常两类个人信贷客户的几何中心构建相应的线性判别函数,最小化错分的可能性,实现对个人信贷客户的分类。
(2)线性回归法
一般线性回归模型在做个人信用风险评估时可描述如下:假设个人信贷者的违约概率P与申请者的特征变量X1,X2,…,Xm之间存在以下的关系:
P=a0+a1X1+a2X2+一+amXm+b
其中b是扰动项,利用样本数据对ai进行估计,进而估计出违约概率P。(3)Logistic回归模型
Logistic回归模型用于处理二分类问题,适用于解释变量为定性指标的问题。一般情况下,Logistic回归表现较好,稳定性高,并且解释能力强,是信用评分领域普遍采用的算法。该方法主要是对客户的历史信息建模,通过对客户的特征比变量和违约状态建立Logistic回归模型:
log(p/(1-P))=b0+b1X1+b2X2+…+bkXk
最后应用该模型对样本发生违约的概率P进行预测,其中Xk是描述样本特征的指标变量,p/(1-P)称为违约“发生比”,最后经过log()函数转换建立样本的信用风险评估值与违约概率之间的对应关系。
(4)分类树方法
该方法是基于统计理论的非参数识别技术的方法,其基本思想是将所有申请贷款的个人按树型生成不同组别,由此判断贷款申请个人是‘好还是‘坏客户。
五、人工智能方法
20世纪90年代后,随着计算机技术、网络技术和数学统计理论的发展,神经网络、SVM、Xgboost等现代算法得以有效的应用于智能评估领域并成为一种趋势。
(1)神经网络
神经网络具有自适应性、自组织性以及较强的稳健性同时具有非线性映射能力,被证明是一种适用于个人信用风险评估的算法。由于个人信用风险因素之间相互影响、关联。具有强非线性关系,而神经网络具有较好的自组织、自适应性和鲁棒性,因此神经网络模型也被认为是一种精确度较高的算法模型。但同时神经网路存在稳定性较差、结构难确定、容易陷入局部极小、过度适应于数据、收敛速度慢、结果难解释等缺点也限制了神经网络在信用风险评估中的应用。
(2)SVM方法
支持向量机(SVM)是由Corinna Cortes和Vapnik等于1995年提出基于统训理论发展而来。与神经网络、LDA、k——近邻判别法、回归分析及决策树等相比,SVM具有性能稳定、建模容易、运行时间短、不易过拟合等优点。由于SVM对样本数据没有严格的要求,SVM在信用评估领域得到了很好的应用,其基本思路如下:
寻找位于两个支持向量面(对应‘好和‘坏样本)之间的分界面,最大化两个支持向量两面之间的距离m=2/‖w‖或最小化权重w。进一步转化为最小化h(w)=‖w‖2/2=(wTw)/2。最后通过构建拉格朗日方程求出分界面函数。
(3)XGBoost方法
XGBoost由陈天琪博士提出的boosting树型算法,其特点就是能进行多线程并行计算,提高计算效率,并通过一次次迭代生成一代代新的树,把分类性能较低的弱学习器组合成一个准确率高的强学习器,为了避免过拟合现象,XGBoost加入了正则项到目标函数寻求最优解,使目标函数的下降和模型的复杂度得到平衡。XGBoost应用于信用评估领域具有分类效果好、运行速度快、支持自定义损失函数等优点。通常情况下调优后的XGBoost模型的ROC、AUC值、F1值、KS值、Accuracy要比决策树、SVM、GBDT等算法的高。
六、不同数学模型的在信用评分中的应用
在信贷行业里由于业务需求不同,不同的模型有不同的应用场景,也不完全看模型的分类效果。比如在银行业或有些小贷公司在做信用风险训牙占时要求解释性,那么可用的模型的范围就比较小,比如决策树、逻辑回归、线性回归等。而在这些模型里逻辑回归分类效果较好,理论基础较好,能把客户的违约概率与评估得分结果对应起来,有利于调控信贷政策,且在信用评分领域应用由来已久已经相当成熟。这里重点介绍下Logistic回归中的分段转换问题,银行或其他金融机构要求具有强解释性时往往会选择Logistic回归为基础算法开发评分卡,Logistic回归在构建评分卡模型时会把数据做离散化处理(对于连续性数值变量来说就是分段),是为了评分卜的简洁性和可解释性考虑,那么分段的不同会影响模型的分类效果,所以我们在把数值型变量做离散化处理的过程中对数据的合理的离散化是模型效果好坏的关键。
在不要求可解释性的信用风险评估时,其他机器学习模型都可以作为备选对象,但在大学生申请助学贷款的场景中,由于学生不像已有工作的人群那样有收入、住房、或其他资产。群体比较特殊,而传统的神经网络算法不支持小样本。而SVM由于对样本数据没有严格的要求,因此,在大学生助学贷款申请的信用风险评估中取得了良好的效果。其他模型如XGBoost算法都可以作为参考算法,我们在选用模型时可以根据具体的数据和模型的特点选择模型。再经过参数优化把不同的模型进过对比选择分类效果比较好的模型。
有时金融机构要求在保持评分卡的可解释性的同时要求把模型的性能提高,这时我们可以把机器学习模型跟传统的Logistic回归结合起来使用,如在变量挑选过程中我们可以用GBDT或XGBoost按变量的重要性挑选变量,用机器学习算法挑选的变量放到Logistic回归中构建信用评分卡。而在构建模型中我们也可以通过串行或并行等不同的方式把机器学习算法跟Logistic回归融合起来。在串行的评分卡构建时,其主要处理方法是把一个模型的处理结果传给下一个模型,把不同的模型串行处理,如果其中一个模型出现问题,就会导致后面的模型出现问题,其稳定性比较差。因此在实际建模工作中也很少采用串行的方式。对于并行结构个模型也有不同的并行方式,比如在变量很多的情况下,可以把Logistic回归没挑选到的变量作为机器学习的变量做机器学习模型,然后把模型的结果作为一个新的变量放到Logistic回归的变量中,重新训练Logistic回归模型,这样模型可以保留大部分的变量解释性和提高模型的分类效果。其他并行模式比如异态并行结构的组合模型。由于不同的算法的原理不同,通过选择不同的算法进行并行组合是构建组合模型的另外一种思路。这种方法通过采用不同的算法构建多个单一模型,组成不同的及分类器,在接受分类时,先由不同的分类器得到各自的分类结果,再通过融合的方式將各分类器的结果进行处理,最后得到组合的分类结果,这样做出的模型既可综合及分类器的分类信息,又能考虑到不同基分类器在分类模式上的差异性。
参考文献
[1]向晖.个人信用评分组合模型研究与应用[J].经济科学出版社2012.12
[2]周宗放,帅理,周一懋.个人信用风险评估理论和方法[J].中国金融出版社,2015.12