曹欣妍 周杰
随着经济的快速发展,信用贷款在企业资金周转中的作用越来越重要.信用评级是信用贷款发放的基本依据之一.本文针对实际信用评级中有标签样本数量不足的问题,提出一种基于Tri-training算法的多分类信用评级方法,该方法选择支持向量机、决策树和最大熵模型作为基分类器组合.最后,本文使用真实的信用数据集验证了该方法的实际效果.
多分类信用评级; 半监督学习; Tri-training
O175.5A2023.021001
收稿日期: 2022-04-18
基金项目: 国家自然科学基金 (11871357)
作者简介: 曹欣妍(1997-), 女, 四川成都人, 硕士研究生, 主要研究方向为大数据分析. E-mail: 1216510013@qq.com
通讯作者: 周杰. E-mail: jzhou@scu.edu.cn
Multi-class credit rating method based on Tri-training algorithm
CAO Xin-Yan, ZHOU Jie
(School of Mathematics, Sichuan University, Chengdu 610064, China)
Credit loans become more and more important in the capital turnover of corporations with the rapid development of economy. Credit rating is the base of credit loan. In this paper we focus on the problem of insuicient number of label samples in actual credit rating and propose a multi-class credit rating method based on the Tri-training algorithm, which selects the support vector machine, the decision tree and the maximum entropy model as the base classifiers combination. Finally, the performance of the method is verified by using some real credit datasets.
Multi-class credit rating; Semi-supervised learning; Tri-training algorithm
1 引 言
随着国民经济的快速发展,信用贷款在企业资金周转中的作用越来越大.信用评级是金融机构发放信用贷款的一个基本依据.传统的信用评级方法是专家通过对贷款申请者的各方面要素进行分析评定,例如借款用途、经济能力、偿债记录等.这种方法依靠人工经验,具有效率低、结果不稳定等缺点.随着信贷行业的飞速发展,贷款业务种类越来越多、贷款申请者数量越来越大、信用评级的准确率要求越来越高,传统的专家要素分析法已经不再适用.
另一方面,随着数据科学的发展和大数据时代的到来,数据分析与数据挖掘方法被广泛应用于信用评级问题中.此类信用评级方法需要大量有标签的样本数据,以便对分类器进行训练,保证其准确率和泛化性.但是,在实际应用场景中,多数贷款申请者没有信用标签,如果仅使用少量有标签申请者信息作为样本数据,就可能因样本量不足导致分类器性能不佳,导致分类效果变差. 因此,如何利用大量无信用标签申请者的信息来提高分类器的性能是一个值得研究的问题.
信用评级方法的研究经历了从基于传统统计学习方法到基于机器学习方法的转变.1941年,Durand[1]提出了基于使用数理统计的模型,将线性判别分析法(Linear Discriminant Analysis, LDA)应用于个人信用风险评估中.这是最早将信用评估问题从定性分析转变为定量分析的方法.1970 年,Orgler[2] 首先将回归分析应用于消费者贷款的信用评级问题,通过建立多元线性回归模型 (Multiple Linear Regression, MLR),对尚未偿还的贷款进行分数评级,以预测风险.同一时期,运筹学的相关方法也被广泛用于信用评估领域.例如,1965年,Mangasarian[3]第一个提出线性规划(Linear Programming,LP)方法可用于信用评估领域.1984年,Breiman[4]提出了分类树(Classification Tree)与回归树 (Regression Tree)算法.此后,决策树(Decision Tree)被广泛用于信用评估领域.1987 年,Carter 和 Catlett[5] 最早将决策树方法应用于信用卡申请者的信用风险评估,得到了决策树方法的分类效果优于简单线性回归模型的结论.1992 年,Salchenberger等[6]用神经网络预测了储贷危机.1994 年,Rosenberg和Gleit[7]分析探讨了神经网络在信用决策中的实际应用和效果.1995 年,Vapnik[8]提出支持向量机(Support Vector Machine, SVM)算法,该算法具有适用于小样本、存在理论全局最优点、泛化能力强等优点,成为个人信用风险评估中研究最多的模型[9] .
近年来,更多的半监督学习模型和集成学习模型被应用到信用评估领域.例如,2017年,Xia等[10]使用极限梯度提升(Extreme Gradient Boosting,XGBoost)算法完整展示了一套个人风险评估模型建立的流程.2018 年,Tounsi等[11]比较了7种监督分类方法和5种集成学习方法,结果表明集成学习方法普遍优于监督学习方法. 2019年,Wei等[12]通过半监督文本挖掘方法从银行财务报表中提取信息,对银行进行了风险信用评级.2020年,Li等[13]使用极限梯度提升法解决信用评估问题,通过实证研究得到极限梯度提升法与逻辑回归等传统模型相比分类效果更好的结论.2020年,Xiao等[14]将半监督学习、成本敏感学习、数据分组处理方法和集成学习相结合,提出了基于数据分组处理的成本敏感半监督的选择集合模型.
值得注意的是,多数文献仅研究了二分类信用评级问题.本文则基于分歧的思想,结合信用评级问题数据的特征,选择支持向量机、决策树和最大熵模型作为基分类器,提出一种基于多分类的Tri-training 算法的多分类信用评级方法,然后使用真实信用数据集验证了该方法的效果.
4 结果与分析
4.1 实验数据集
本文使用数据集来源于 2020 年全国大学生数学建模竞赛 (http://www.mcm.edu.cn/). 数据集为某银行的贷款申请企业的进项发票信息和销项发票信息,每条发票数据有发票号码、开票日期、销方单位代号、金额、税额、价税合计及发票状态七项信息. 数据集共有 425 家企业的发票信息,其中包括 123 家已经评定信用等级的企业和 302 家无信用等级企业,分别为有标签数据集和无标签数据集,信用等级分为 A, B, C, D 四个类别.
记第i个企业的进项发票总个数为αi,其中作废发票个数为ai;销项发票总个数为βi,其中作废发票个数为bi. 第i个企业进项有效发票总金额为φi,第k个月进项有效发票金额为φi(k); 销项有效发票总金额为ψi,第k个月销项有效发票金额为ψi(k),正销项有效发票金额为γi,负销项有效发票金额为ρi. 第i个企业有发票记录的月份总数为λi.
根据以上数据信息计算得到六个信用评级特征,记第i个企业的特征向量为xi=(xi1,xi2,xi3,xi4,xi5,xi6), 其中xij表示第i个企业的第j个特征. 各特征xij的含义及计算方法分别如下.
(1) 第i个企业进项发票作废率
xi1=aiαi(18)
(2) 第i个企业销项发票作废率
xi2=biβi(19)
(3) 第i个企业的月平均营业额
xi3=ψiλi(20)
(4) 第i个企业的月平均利润
xi4=ψi-φiλi(21)
(5) 第i个企业的月平均净利润率
xi5=1λi∑λik=1ψi(k)-φikφi(k)(22)
(6) 第i个企业的销售退回率
xi6=ρiγi(23)
计算得到各特征量后,对数据进行归一化,记归一化后第i个企业的第j个特征为x′ij,采用最大最小归一化公式
x′ij=2xij-xminjxmaxj-xminj-1(24)
其中,x′ij∈[-1,1],xminj和xmaxj分别表示所有企业第j个特征中的最小值和最大值.
4.2 评价指标
本文对实验结果的评估采用最直观的评价指标:分类准确率(Accuracy),计算公式如下.
Accuracy=TaT(25)
其中,Ta为测试集中分类正确的样本数量;T为测试集样本总数.
4.3 实验结果分析
在数据集中取 73 个样本为有标签训练集,50 个样本为测试集,实验结果如表 1 所示. 由实验结果对比可知,半监督算法在数据集上的分类正确率较监督算法均有提高,且本文提出的使用决策树、支持向量机和最大熵分类器作为基分类器组合的 Tri-training 信用评级算法与使用单一种类基分类器的 Tri-training 算法相比,准确率都有较明显的提升.
在该多分类数据集上,本文提出的基于Tri-training 算法在的信用评级方法相比于监督算法分类准确率平均提升了 18.74%,且可达到近 90% 的分类正确率,表明所选的分类器组合在信用评级问题上有较好的效果.
5 结 论
本文在仅有少量有信用标签样本的应用背景下,提出了 基于 Tri-training 算法的多分类信用评级方法,采用三种不同类别分类器的组合作为基分类器,分别为决策树、支持向量机、最大熵模型. 实验结果表明,本文提出的信用评级方法可有效提高分类性能.
多分类的信用评级可用于更多的实际应用中,例如贷款方可根据信用等级决定发放贷款的额度、最大放贷金额及贷款利率等.
参考文献:
[1] Durand D. Risk elements in consumer installment financing [M]. Cambridge: National Bureau of Economic Research, 1941.
[2] Eisenbeis R A. Problems in applying discriminant analysis in credit scoring models [J]. J Bank Finan, 1978, 2: 206.
[3] Mangasarian O L. Linear, nonlinear separation of patterns by linear programming [J]. Oper Res, 1965, 13: 444.
[4] Breiman L. Classification and regression trees [M]. Boca Raton: CRC Press, 1984.
[5] Carter C, Catlett J. Assessing credit card applications using machine learning [J]. IEEE Intell Syst, 1987, 2: 71.
[6] Salchenberger L M, Cinar E M, Lash N A. Neural networks: a new tool for predicting thrift failures [J]. Decis Sci, 1992, 23: 899.
[7] Rosenberg E, Gleit A. Quantitative methods in credit management: a survey [J]. Oper Res, 1994, 42: 589.
[8] Vapnik V. The nature of statistical learning theory [M]. Berlin: Springer, 1999.
[9] Louzada F, Ara A, Fernandes G B. Classification methods applied to credit scoring: systematic review and overall comparison [J]. Surv Oper Res Manag Sci, 2016, 21: 117.
[10] Xia Y, Liu C, Li Y. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring [J]. Expert Syst Appl, 2017, 78: 225.
[11] Tounsi Y, Hassouni L, Anoun H. An enhanced comparative assessment of ensemble learning for credit scoring [J]. Int J Mach Learn Comput, 2018, 8: 409.
[12] Wei L, Li G, Zhu X, et al. Discovering bank risk factors from financial statements based on a new semi-supervised text mining algorithm [J]. Account Finan, 2019, 59: 1519.
[13] Li H, Cao Y, Li S.XGBoost model and its application to personal credit evaluation [J]. IEEE Intell Syst, 2020, 35: 52.
[14] Xiao J, Zhou X, Zhong Y, et al. Cost-sensitivesemisupervised selective ensemble model for customer credit scoring [J]. Knowl Based Syst, 2020, 189: 105118.