基于随机子空间集成学习的中小企业信用评估方法研究

2018-06-11 05:47
上海管理科学 2018年3期
关键词:特征选择个体分类

王 庆 姚 康

(苏州企业征信服务有限公司,江苏 苏州 215003)

0 引言

中小企业在我国经济社会发展中发挥着日益重要的作用。截至2016年第三季度末,我国注册的中小企业已达到2000多万户,占全国企业总数的99%以上,工业产值占我国GDP的58.5%。然而,融资难一直是制约中小企业发展的瓶颈。中小企业融资难,从根本上来说是由中小企业与金融机构之间的信息不对称引起的,如何合理有效地评估中小企业的信用风险状况对于解决中小企业融资难问题起着决定性的作用。

评估中小企业信用风险传统上主要用专家法和评分法。专家评分法主观性过强,在评估过程中评估专家可能会因其自身的知识结构偏差而导致选择偏差;传统的线性信用评分模型由于对于数据要求苛刻,而中小企业数据缺失,财务状况不透明,故不具有广泛的适用性;以Merton为基础的KMV等模型需要建立在大量的有效市场信息之上,而中小企业上市时间过短,违约距离难以测算,中小企业关联方过多的现象也使credit risk+表现不佳。而新兴的机器学习类方法由于其对样本数据的要求不高,自学习能力强,能够有效地适用于中小企业的信用评估。

近年来人工智能、机器学习算法发展和兴起,相关数据分析算法也逐渐被应用到信用风险评估当中,主要包括人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)及集成学习算法等。这些算法对较少的企业数据样本具有良好的预测性能,并且比传统统计方法更能区分企业信用状况的好坏。此外,基于数据预处理的集成学习算法也已被越来越多的研究人员应用到信用评估中,研究成果表明集成学习算法比单纯的分类算法模型拥有更好的性能。

因此,本文采用基于随机子空间的特征选择算法和SVM 集成学习算法来评估中小企业的信用。本算法首先利用随机子空间对数据集进行特征选择,然后采用集成学习框架,提出了基于SVM模型的集成算法,该算法有效提升了信用评估分类的学习能力,在预测中小企业信用方面具有良好的性能。

1 基于随机子空间的集成学习方法

1.1 集成学习

集成学习问题可描述如下:

假设从训练样本集S构造N个学习机器,记为:

∏={C1,C2,…,CN}

集成学习就是综合来自集合∏的N个个体学习机器的预测得到最终决策结果。

按对训练数据进行处理得到个体学习器方式的不同,可将集成学习大致分为AdaBoost和Bagging两类。AdaBoost用上一级个体学习设置样本权值,为下一级个体学习器提供分类信息并指导下一级个体学习器的训练;Bagging独立设计各个体学习机器,其主要思路是寻找一种合适的组合准则来将各个体学习的输出综合起来并形成最终的结果。

在集成学习算法构造过程的各个阶段,可以通过加入不同的扰动得到具有多样性的个体学习机器。可归结为两种方式:一是通过输入扰动,另一种则是通过学习算法扰动。对于前者,可使用不同的特征子集作为个体分类器的输入,实现策略如特征选择、随机子空间法等。对于后者,集成不同的学习算法及相同算法的不同学习参数或初始化都有利于个体多样性的产生。集成学习算法的主要步骤包括子空间的选择(包括样本子空间和特征子空间)、特征降维(子空间降维)、个体学习集成,具体步骤如下:

(1)从原始的特征空间中,通过子空间的选择得到m个不同的子空间;(2)若得到的子空间的维数较大,则可通过特征降维策略生成m个维数更低的子空间,以此来节省存储和时间开销;(3)通过选择不同的机器学习算法,分别对m个子空间训练得到m个不同的个体学习机器;4)用这m个个体学习机器对测试样本进行分类,可得m个不同的分类结果,选择某种集成方法(如简单投票法),将这m个结果进行整合得到最后的分类结果。

1.2 随机子空间

随机子空间方法(Random Subspace Method,RSM)是一种集成学习技术,随机子空间通过使用随机的部分特征而不是所有的特征来训练每个分类器,以降低每个分类器之间的相关性。类似bagging集成学习,bagging随机使用部分训练数据,而随机子空间是随机使用部分特征,算法如图1所示。

图1 随机子空间算法

1.3 基于随机子空间的集成学习方法

基于随机子空间的集成学习方法,本文采取了融合特征选择和集成算法的RSM-SVM 集成学习算法来评估中小企业的信用。本算法首先利用RSM对数据集进行特征选择,然后采用集成学习框架,提出基于SVM 分类器的集成算法,算法如图2所示。该算法有效提升了分类模型的学习能力,在预测中小企业信用状况方面具有良好的性能。

图2 基于随机子空间的集成学习算法

2 实证分析

2.1 数据样本

数据来源于银行贷款数据,选取120家中小企业作为建模对象,其中60家出现违约,60家正常,这些企业规模相当,行业覆盖面较全,具有一定的代表性。本文筛选整理出了包含120 个中小企业客户的数据,按照贷款风险分类标准进行好客户和坏客户的划分,将“关注”和“正常”两类客户作为未违约样本,标注为“0”,将“次级”“可疑”和“损失”三类客户作为违约样本,标注为“1”。

表1 中小企业信用评估指标

2.2 指标体系的选取

指标的合理选取对于模型的有效性有着重要的的影响,为了指标的全面性及准确性,根据样本数据信息,分别从公司的盈利能力、资产管理能力、负债比率、偿债能力及发展能力五个方面计算15个财务指标作为预测系统的解释变量。在构建企业信用风险评价指标体系的过程中,所选择的评估指标主要基于国际上通用的财务报表分析指标,而且充分借鉴参考了国内外这一领域的前期研究成果。其具体指标如表1所示。

2.3 实验设计

在传统的分类方法中,常用准确度(Accuracy)作为评价指标。然而,很多情况下,仅仅依靠准确度不足以区分分类模型的优劣。所以,为了让所提出的模型的预测结论可靠,本文在模型准确度的基础上,新增两类错误率作为评估分类模型性能的指标。假阳性错误,即第一类错误( Type I errors) 和假阴性错误, 即第二类错误(Type II errors)。假阳性错误是指将好客户误分类为了坏客户,而假阴性错误是指将坏客户错误地分类为了好客户。这两类错误率是基于混淆矩阵得来的,表2就是一个分类问题的混淆矩阵。

表2 混淆矩阵

根据以上混淆矩阵,分别定义准确度、第一类错误和第二类错误的概念:

为了同时验证本文提出的随机子空间集成算法在信用评估上的性能和有效性,实验分别测试了逻辑回归Logistic算法、决策树DT算法、人工神经网络ANN算法、支持向量机SVM算法、随机森林RS算法,以及在预测性能好的SVM算法上用集成学习的算法所得出的Accuracy。在实验中,我们采用十字交叉验证了(10-fold crossvalidation)的测试方法。这种方法的基本思想是把原始数据分成10份,轮流将其中9份作为训练集,1份作为测试集。首先,用训练集对分类器进行训练,然后利用测试集来测试训练得到的模型,最后评价模型的分类性能。在使用十字交叉验证方法时,会得到10次模型评价结果,将这10次结果的平均值作为模型最终的评价指标。另外,试验中集成学习算法的迭代次数取值100。表3为以上实验算法的对比结果情况。

表3 模型比较结果 %

从上述实证结果分析,在现有的模型算法上,SVM能够普遍获得较好的预测性能。为了进一步提高预测性能,在集成学习的基础上创新地使用随机子空间、AVM组合集成学习方法,使得预测准确率达到82.71%。

从综合实证结果中可以发现,基于集成学习的SVM 模型能够较理想地对中小企业客户的违约与未违约情况进行分类,结果稳定。从RSM-SVM 模型的预测结果看,集成学习方法在从中小企业违约预测上确实具有一定优势。

从表3可以看出,使用SVM集成学习方法,比如bagging或者boosting算法,在Accuracy上比单纯使用逻辑回归、人工神经网络、决策树、SVM等分类模型要低,这说明单纯的集成学习算法的预测精度和稳定性都有很大的改善空间。在使用集成学习方法的前提下,加入随机子空间算法使得模型的分类精度和稳定性有了显著的提升,也就是对数据集进行特征选择后,SVM集成算法预测的精度也有了极大的提升,同时也更加稳定。这说明数据集的质量对分类模型的影响十分大,从某种程度上决定了分类模型的性能。而且,可以很容易地看出,RSM-SVM算法较前三种算法的性能更加优越,这种模型的预测精度和稳定性都表现得很出色。因此,基于数据处理的集成学习算法较单纯的分类算法具有更好的性能。

3 结论

本文提出了基于随机子空间的集成学习算法,该算法首先利用随机子空间方法对数据进行特征选择,选取最优特征子集后采用SVM 分类算法进行分类。在使用相同数据集的前提下,使用逻辑回归、决策树、人工神经网络、支持向量机和基于随机子空间的集成算法分别对中小企业进行信用评估,实验结果证实基于随机子空间的集成算法较其他算法的性能更优越。

我们可以完善扩展评估指标体系,获取中小企业水电煤、税务缴纳、进出口、负面评价及企业主信息等研究建立更完备、预测性能更好的企业信用评估模型。

猜你喜欢
特征选择个体分类
分类算一算
关注个体防护装备
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
个体反思机制的缺失与救赎
How Cats See the World