基于机器学习的信贷风险量化与决策分析

2021-12-08 19:54王沼翔葛琳
软件工程 2021年12期
关键词:熵权法BP神经网络机器学习

王沼翔 葛琳

摘  要:中小微企业在发展过程中需要信贷融资,然而部分企业的不良贷款会对金融稳定构成威胁。针对此问题,可以通过对企业相关财务数据进行分析,从源头上防范和降低信贷风险。本文采用熵权法、数据统计分析法、K均值聚类和BP神经网络等机器学习算法来给出相应的信贷策略,规避信贷风险。实验基于2020 年全国大学生数学建模竞赛赛题发布的公开数据集,利用MATLAB R2018a和Python 3.9等工具进行代码编写。测试结果表明,本文方法可以有效地对中小微企业的信贷风险进行评估并制定相应的信贷策略。

关键词:风险评级模型;机器学习;熵权法;BP神经网络;K均值聚类

中图分类号:TP391     文献标识码:A

Abstract: Medium, small and micro enterprises need credit financing in the development process, but non-performing loans of some enterprises pose a threat to financial stability. Aiming at this problem, an analysis of relevant financial data of the enterprise prevents and reduces credit risks from the source. This paper proposes corresponding credit strategies to avoid credit risks by using machine learning algorithms such as entropy weight method, data statistical analysis method, K-means clustering and BP neural network. The experiment is based on the public data set released by the 2020 National College Students Mathematical Modeling Contest, using MATLAB R2018a, Python 3.9 and other tools for code writing. Test results show that the proposed strategies can effectively evaluate the credit risk of medium, small and micro enterprises and formulate corresponding credit strategies.

Keywords: risk rating model; machine learning; entropy weight method; BP neural network; K-means clustering

1   引言(Introduction)

在市场经济运行中,中小微企业的经营特点决定了其在融资过程中存在一定的风险,银行在向中小微企业提供贷款时,要充分考虑多方面因素并制定合适的信贷策略。面对海量的信贷数据,如何提高模型与算法对信贷企业风险评估的精确性,已经逐渐成为银行业亟待解决的关键问题。传统信贷风险管理模式主要依赖人工运用统计方法对企业借贷违约可能性的预测,以被评估者相关指标的历史数据为依据,对被评估者的还贷能力和违约行为进行预测和分析。随着互联网金融的兴起,传统的评估模型与预测算法已不能满足评估信贷风险的实际需要[1-4]。在大数据技术的作用下,银行可以运用综合分析有效防控信贷风险和信息不对称问题。借助机器学习和深度学习,银行可以分析大量的企业数据,预测信贷风险,提高风险识别能力[5]。

本文采用熵权法、数据统计分析法和BP神经网络,利用MATLAB R2018a和Python 3.9等工具对有信贷和无信贷记录企业的相关数据集进行分析,给出相应的信贷策略,规避信贷风险[6-8]。对于有信贷记录企业,本文运用数据统计法分析中小微企业的信贷影响因素,采用熵权法计算每个影响因素的权值,并得出各企业综合信贷风险值,最后通过聚类分析,将各企业划分类别,通过与信誉评级的组合来确定合适的信贷策略方案;对于无信贷记录企业,本文使用有监督学习的神经网络对信贷策略进行预测和分析,得到各个信誉等级数据。实验结果表明,本文所建立的模型可以有效地对中小微企业的信贷风险进行评估并制定有效的信贷策略。

2   数据预处理(Data preprocessing)

本文以2020 年全国大学生数学建模竞赛赛题发布的公开数据集为例进行分析,该数据集包含123 家有信贷记录企业的21万条进项发票信息、16万条销项发票信息,302 家无信贷记录企业的39万条进项发票信息、33万条销项发票信息以及银行贷款年利率与客户流失率关系统计数据。基于Python编程完成对数据集中数据的预处理,分别实现有信贷记录企业和无信贷记录企业的销项、进项发票中的数据计算,通过对每个企业有效发票的金额、税额、价税的累加,得到各企业全部有效发票的总金额、总税额和总价税合计等数据信息。

3  有信贷记录企业信贷分析与决策(Credit analysis and decision-making for companies with credit records)

对于有信贷记录企业,根据企业交易票据中的数据,通过建立数学模型給出合适的信贷策略。首先,构建人脉占有率、市场流通率、市场稳定率、企业盈利率四个影响信贷风险因素的评估因子;其次,基于K均值聚类算法、熵权法建立风险评级模型,以风险级别确定贷款额度;第三,分析客户流失率、贷款利率以及企业评级的关系,以信誉评级确定贷款利率[2];最后,按照三类风险评级、三类信誉评级组合成的九种企业定位确定不同额度、不同利率的信贷策略。整体流程图如图1所示,模型分析中所用的数学符号如表1所示。

3.1   影响因子

对有信贷记录企业的数据根据进项、销项、有效发票和发票总数进行分析,综合考虑企业和银行各方面的因素,在企业实力、供求稳定性等方面设置下列影响因子:

将企业聚合为三个类别,对三个类别进行综合评分(LFD),其评分计算如公式(12)所示。将该三类企业重新进行分类并编号,类别由强到弱编为S1、S2、S3,根据聚类分析得出三个类别分别对应的部分企业如表3所示。

利率和企业的信誉之间存在潜在关系,在A、B、C三种信誉等级的企业流失率与贷款利率呈正相关且在同等贷款利率水平下,A、B、C三种信誉评级的企业流失率依次降低。本文将年利率和贷款额度分别分为三组,如表4所示。

银行根据企业的信贷风险类别和其对应的信誉评级将企业分为九级定位,对于不同信贷风险级别的企业,确定不同贷款额度;对于不同信誉级别的企业,确定不同贷款利率[4]。信贷策略各级对应表如表5所示。

本文所分析的数据集涉及302 家企业信息中无信誉评级等数据,然而信誉评级在银行信贷策略中具有重要的意义。首先,采用有监督学习的神经网络,对所分析的数据集中123 家有信誉评级的企业信息提取的影响因子进行训练;其次,利用训练得到的BP神经网络对无信誉评级的企业进行信誉评级和分析;最后,验证模型是否合理[6]。

4.1   BP神经网络模型

无信贷记录企业的数据集中无信誉等级数据,故而使用有监督学习的神经网络对信贷策略进行预测和分析,并得到各个信誉等级数据。BP神经网络模型中各符号的含义如下:

网络输入向量;网络目标向量;中间层单元输入向量、输出向量;输出层单元输入向量、

输出向量;输出层到中间层的链接权值;中间层到输出层的链接权值;中间层每一个神经单元的输出阈值(即偏置向量);输出层每一个神经单元的输出阈值(即偏置向量);参数。

BP神经网络模型计算输入输出信息结果是否产生相互影响的权重,并进行综合分析。构建过程如下:

(1)初始化。对每一个神经元的权值和、阈值和设置区间在(-1,1)内的随机数。

(2)在有信贷记录企业数据集的123 家企业中选取一组学习样本和目标样本。

(3)计算中间层单元的输出。

(9)随机选取下个样本代入神经网络进行训练,执行步骤(3),直到网络的训练全局误差达到网络收敛值,学习结束[7]。本文获得的影响企业实力的因子为四个,输入层神经节点数目为4,而本文神经网络最终输出的只有一个企业实力数据,则输出层节点个数为1。隐含层节点数目的取值如公式(22)所示。式中,为输入层节点的数目,l为输出层节点的数目,为隐含层节点的数目。由公式(22)可得隐含层节点数目为2。

4.2   模型训练

采用独立测试方法,将实验数据分成两部分,其一是训练数据。本文将有信贷记录企业数据集中的123 家企业的样本数据按照信誉评价分类,随机抽取100 组数据作为实验培训数据,剩下的23 组样本数据作为测试数据,用于检测BP神经网络。利用MATLAB将训练样本数据代入程序,并对该神经网络进行训练,得到的训练结果如图2和图3所示。

通过上述训练,可以得到初步的训练结果,为了验证BP神经网络,将测试数据代入已经训练好的网络模型当中进行测试。为得出模型测试准确度,我们构建以下度量模型,测试结果好坏的误差计算如公式(23)所示。式中,为模型误差,为真实值,为评价值,为测试数据集个数。通过上述误差公式计算得出BP神经网络的测试误差为0.112。通过构建并优化BP神经网络模型,计算出无信贷记录企业的四个指标因素值。

图4中值为3对应信誉等级为A,数量为76 个;值为2对应信誉等级为B,数量为92 个;值为1对应信誉等级为C,数量为86 个;值为0对应信誉等级为D,数量为48 个。因为银行对信誉评级为D的企业原则上不予放贷,故将BP神经网络的信誉等级匹配到无信贷记录企业数据集的各个企业中,将信誉评价为D级的企业剔除。对无信贷记录企业数据集处理后的各项数据利用公式(1)—(4)进行量化分析,计算出各个指标的值,并且利用熵权法求出四个影响因子的权重,则企业风险评级模型如公式(24)所示:

4.3   实验与测试

根据无信贷记录企业的数据计算出各个影响因子的权重,分析四个影响因子的数据,进行聚类分析,将企业聚合为三个类别,则得出分级评分如表6所示。

由分级数据以及客户流失率可得,当年利率大于0.0745时,各个信誉等级企业的客户流失率为0.5,潜在客户大量流失,其收益也将大幅度下降,所以将客户流失率控制在0.5之内,有利于银行收益的可持续发展[8]。本文将客户流失率小于0.5的年利率分为三组,S4、S5、S6部分对应的企业信贷额度也分为三组。

根据前文数据分析,按照企业的风险评级和实力类别制定九种信贷策略,从而确定不同企业的贷款额度、利率,如表7所示。

按照信贷策略分配金额,得出全体企业的贷款金额总额区间(万元),银行的收益总额区间(万元)。

由于假设中规定是1 亿元定额分配贷款金额,9,050 万元按照表7的信贷策略对企业进行放贷。剩下950 万元有两种选择策略:一是银行利益最大化,将剩余额度优先分配给贷款利率较高的信誉C级企业;二是银行发展持久化,将剩余额度优先分配给信誉A级企业,来降低此类高信誉级别企业的客户流失率,为银行积累固定客户。

5   结论(Conclusion)

大数据时代给各行各业提供了更多利用数据的机会,在信貸业务中存在诸多不确定因素,银行应及时综合多方面因素,根据形势调整信贷策略。本文针对银行向中小微企业发放贷款问题,依据熵权法、K均值聚类和BP神经网络对信贷策略问题进行模型求解,以123 家有信贷记录企业和302 家无信贷记录企业的财务数据为样本进行实证检验,从人脉占有率、市场流通率、市场稳定率、企业盈利率四个影响因素对有信贷记录企业和无信贷记录企业的相关数据集进行分析,最终给出合适的信贷策略选择方案。

信贷数据是信贷业务中的重要部分,为了实现精准分析数据的目标,在分析信贷风险时,银行需要对数据进行深入统计和挖掘,可通过对多种算法模型进行组合,综合分析企业实力、供求关系等方面信息,建立信贷授權额度模型,优化信贷资源整体配置效率,加强信贷风控系统的控制和管理。模型中分析问题、解决问题的一些综合性的方法,以及信贷风险量化分析的一些思想,对于其他的数学问题仍可以使用,可推广到各行业的实力评价与决策等应用中。

参考文献(References)

[1] 李美玲.H商业银行信贷业务全面风险管理体系研究[D].长春:吉林大学,2019.

[2] 唐恬.商业银行中小企业信贷风险策略研究[J].经营与管理,2021(04):154-158.

[3] 李越洋.基于熵权-TOPSIS的PPP项目融资风险评价[J].价值工程,2019,38(05):69-72.

[4] 朱文雅.熵权法在银行经营绩效评价中的应用[J].中国乡镇企业会计,2019(02):150-151.

[5] OOSTERLEE C W, GRZELAK L A. Mathematical modeling and computation in finance with exercises and Python and MATLAB computer codes[M]. Singapore: World Scientific Publishing Company, 2019:3-15.

[6] 李钰博,裴宇恒,高晓亮.中小微企业的信贷决策问题研究[J].营销界,2020(29):163-165.

[7] 杨君岐,任瑞,阚立娜,等.基于BP神经网络模型的商业银行风险评估研究[J].会计之友,2021(05):113-119.

[8] XU M L, XIONG D P, YANG M Y. Risk recognition and risk classification diagnosis of bank outlets based on information entropy and BP neural network[J]. Journal of Intelligent and Fuzzy Systems, 2020, 38(2):1531-1538.

作者简介:

王沼翔(1999-),男,本科生.研究领域:大数据分析.

葛  琳(1978-),女,博士,讲师.研究领域:网络信息安全,大数据分析,区块链.

猜你喜欢
熵权法BP神经网络机器学习
大学周边健身房满意度调查报告
基于熵权法的京津冀区域信息化协调发展规律模型及其应用
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于熵权法的西安市外向型经济发展综合评价研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
城市与区域经济可持续发展
基于支持向量机的金融数据分析研究
BP神经网络算法在数值预报产品释用中的应用