基于评分卡模型下中小微企业的信贷决策

2021-09-14 08:52卢悦冉芮英健袁芳徐晨恒何永海
中国市场 2021年27期
关键词:随机森林熵权法

卢悦冉 芮英健 袁芳 徐晨恒 何永海

[摘 要]中小企业为我国经济发展做出了巨大贡献,但在资金筹集方面,商业银行对其存在“惜贷”“拒贷”的现象。目前,银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,根据中小微企业的实力、信誉对其信贷风险做出评估,向实力强、供求关系稳定的企业提供贷款。然后依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。

[关键词]Logistic;信用评分卡;双目标规划;随机森林;熵权法

[DOI]10.13939/j.cnki.zgsc.2021.27.053

1 引言

中小企业为我国经济发展做出了巨大贡献,但在资金筹集方面,商业银行对其存在“惜贷”“拒贷”的现象。主要原因是无法对中小微企业做出精准的风险评估。因此,银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,根据中小微企业的实力、信誉对其信贷风险做出评估,向实力强、供求关系稳定的企业提供贷款,其中信誉度高、信贷风险小的企业提供利率优惠。依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。

2 背景分析

分析:该问题是典型的通过数据对每个企业制定一套相同的评分模型,先采用等频分箱把卡方值比较接近的企业都分在一个箱子里,通过对数据间的相关性进行分析发现各个变量间相关性比较小,初步判断符合 Logistic 回归的要求,因此通过建立 Logistic的评分卡模型来对每个企业进行打分和计算违约率,以此来划分每个企业的好坏。通过对好坏企业划分后,对好企业应用信贷策略模型对每个企业贷款额度和贷款年利率进行制定。具体思路:通过等频分箱将相同的客户分为一类,对变量进行spearman相关性分析,建立Logistic的评分卡模型来甄别好企业和坏企业,利用贷款策略和利率策略对信贷策略进行制定。

3  评分卡模型的建立與求解

3.1 评分卡模型

3.1.1 变量相关性检验

通过对变量之间的相关性检验来判断在评分卡模型中使用逻辑回归模型作为子模型是否合适。通过对 5个变量之间进行相关性分析,结果如表1所示。

发现各个变量间相关性比较小,初步判断符合 Logistic 回归的要求。

3.1.2 基于惩罚逻辑回归模型

(1)原理。逻辑回归监督学习,可很好的解决二分类问题。其本质是通过Sigmoid函数映射到(0,1) 之间,然后根据预测的结果确定其属于“好”还是“坏”。

(2) Sigmoid 函数是 Logistic 函数(logistic function),也称为 Sigmoid 函数。

(z)=11+e-z

Sigmoid 函数的图像如图1所示。

(3)评分卡模型。指定评分卡刻度,这里采用金融行业最常用的评分卡刻度。评分卡的主要工作就是给当前客户进行打分,以此判断该客户违约的可能性,并以此为依据来决定是否为该客户办理业务。两个重要假定:①指定某个特定比率的预期分值。②指定翻倍比率的分值(PDO)。

假定会违约的客户的概率为p,不会违约的客户的概率为1-p,可以得到对数概率为Odds,会违约的客户的概率就为:

P=OddsOdds+1

评分卡刻度就用比率对数的线性表达式来定义:

Score=A-B×log(Odds)

(4)评分卡模型结果分析:主要关注的是找到客户中会违约的客户,因为违约的客户毕竟是少数的,因此通过召回率和 ROC 曲线来判断模型的好坏。

从图2中得到,判断对一个坏客户的情况下只会判错 0.08 个好客户,说明评分卡模型有着很好的召回率(从所有客户中预测出本来是坏客户的概率),能够让银行更好地在一开始就找到可能会违约的客户。

s.t.ω=∑rji+pi1-pi  j∈(1,2,3)

rAi=7.5341xAi-0.0979

rBi=7.3511xBi-0.1178

rCi=7.4684xCi-0.1379

L=∑xAi+∑xBi+∑xCi

rAi,rBi,rCi∈(0.04,0.15)

xAi,xBi,xCi∈(0,1)

3.2 分类结果分析

首先利用随机森林分类模型来找到查找的数据中每个企业所对应的信誉等级和是否违约的值,然后利用第一问的评分卡模型对每个企业打分,并且计算它们所对应的违约率,最后第一问所建立的信贷策略模型来找到查找的数据 2 中的信贷策略。

3.2.1 随机森林分类模型

随机森林是在一片森林中建立很多棵决策树(弱评估器),然后集成得到一个强评估器。

首先利用随机森林分类模型对查找的数据中的企业进行一个分类训练,做法是采用随机抽样的策略把其中的数据分为训练集和测试集,然后让信誉等级和是否违约分别作为这些企业的标签,对其进行分类训练后找到一个比较好的分类模型,然后得到的最佳分类准确度是 91.8%,这时候将查找的数据中的数据代入其中就可以得到对应的信誉评级和是否违约的数据。

3.2.2 计算企业得分和违约率

这里借用第一问的评分卡模型计算企业的得分和违约率,可以得到每个企业所对应的得分和违约率,展示前 15 个企业的得分和违约率,如表2所示。

3.2.3 策略的修正

首先进行额度策略的修正,根据年贷款总额度为一亿元,因此每个企业的贷款之和,即贷款总额度C为:

C≤c1+c2+c3+…+c302

同时结合建立的额度策略得到各企业对应信贷额度表达式,其中K0=0.5,A1=10,A2=332,最后修正额度表达式为:

A=322x+10

4 结论

因为该模型为双目标规划模型,所以没有办法直接用软件进行求解,这里采用贪心策略来对其进行求解,贪心策略就是保证当前最优解成立。首先利用网上的数据给出的贷款年利率表可以找到银行在贷款10万~100万元的最小收益和最大收益,并且获得在该利率下客户流失率的最小值,先固定一个收益然后让所有的流失率最小值带入双目标规划模型中进行计算,得到最大的贷款年利率,找到最大的贷款年利率下最小的客户流失率,将最小的客户流失率带入模型。

参考文献:

[1]陈超,王楠,于海洋,等.基于卡方分箱法和逻辑回归算法的转炉操作工艺评价模型[J].材料与冶金学报,2019,18(2):87-91.

[2]朱丽云 . 基于Logistic模型的商业银行信用风险分析[J].品牌研究,2019(19):17-18.

[3]刘倩.基于数据挖掘技术的信用评分卡模型研究[D].武汉:华中科技大学,2019.

[4]夏晨琦 . 局部最优分箱及其在评分卡模型中的应用[J].统计与决策,2019,33(7):63-67.

[作者简介]卢悦冉,女,汉族,安徽财经大学,本科,研究方向:数字金融。

猜你喜欢
随机森林熵权法
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
高职机电专业学生数学能力的调查及对策
拱坝变形监测预报的随机森林模型及应用
基于熵权法的京津冀区域信息化协调发展规律模型及其应用
基于熵权法的“互联网+”农业发展影响因素权重确定
基于熵权法的西安市外向型经济发展综合评价研究
基于随机森林算法的飞机发动机故障诊断方法的研究
城市与区域经济可持续发展
基于随机森林算法的B2B客户分级系统的设计