孙治河 张雷
摘 要:采用大数据方法预测企业违约风险具有重大的现实意义。传统的信用评估模型主要是统计分析模型、判别分析模型等,预测能力有限。因此,文章建立了基于随机森林和支持向量机两种机器学习算法的信用预测模型,并引入ACC、AUC以及FNR评价指标来衡量模型预测的效果。对比实验表明,基于随机森林的信用预测模型较支持向量机模型具有更好的预测效果,证实了模型的优越性。
关键词:随机森林;支持向量机(SVM);信用评估模型;中小企业
0 引言
中小微企业在吸收社会就业和促进经济发展方面逐渐发挥着越来越重要的作用[1],而中小企业本身内外部的局限性也使其始终面临着严重的融资缺口。在此背景下,各金融企业放宽了对其贷款力度,但信贷危机问题也随之而来,需要建立全面客观的信用评价模型实现对中小企业违约判别预测,最大化规避不良信贷风险,实现中小企业与贷款行业博弈双方的平稳运行和合作共赢。评估体系建立的关键在于科学指标体系的选取和学习算法的选择。
通过大数据和机器学习建模的思路针对中小企业融资问题分别建立了随机森林和支持向量机信用评估模型,克服了传统方法信息挖掘不足等局限性,健全了融资风险评估体系,进一步提高金融机构降低风险的能力[2]。
1 数据处理及评价指标建立
采用中小企业贷款及各项企业特征数据集,包括企业规模在内的170个特征值。建立原始指标体系之前,应用多重插补法和六西格玛原则对缺失和异常值进行了预处理操作。根据企业是否违约划分数据集,由于统计分析可知样本集存在“统计性歧视”的不平衡分类情况,会对模型产生负面影响,故通过重采样法加以纠正。
考虑到评价指标体系的全面性、系统科学性等原则,将信用评估指标从财务因素指标和非财务因素指标角度划分为企业规模、偿债能力、盈利能力、发展能力4方面共10个指标。
2 两种机器学习模型对比实验研究
2.1 基于随机森林的信用评估模型
为评价相同数据样本下不同模型的准确程度,本文引入林成德等人提出的精度评估方法来评价模型评估精度[3]。经过数据处理的指标数据打包为训练数据,以企业是否存在失信行为作为标签向量建立随机森林回归模型。基本步骤如下:
使用Bagging方法形成个体训练集,从原始训练集中随机选择一定比例的样本组成新的训练集进一步生成分类树;
从M个指标作选出最具分类能力的指标作为节点的拆分属性并遴选最佳分割方法的分割节点;
每棵分类树可在不修剪情况下生长演化;
按照前3个步骤建立大量的决策树形成随机森林,选取决策树投票最多的一株为最终分类结果。
2.2 应用网格搜索法选取最佳参数
2.2.1 决策树编号的参数确定
将n作为决策树的数量的估计值,以10~100为搜索空间,以10为步长进行搜索和调整。当子模型增加时,模型的标准差减小,模型泛化能力增强。进一步观察其精度变化可知:当子模型数量增加到70个左右时,模型精度不再有显著的提高。因此将70作为决策树的数量参数。
2.2.2 结点和叶的参数确定
本文定义了将内部节点重分配所需要的最小样本数min_s和叶节点的最小样本量定义min_l。当节点的样本数小于min_s,则停止分割。通过调参观察可知min_s和min_l分别为40和100时,模型取到最高精度83.7%。通过比较基尼系数和熵指数可观察到模型的精度基本保持不变,决策树的最大深度为9。
2.3 基于支持向量機的信用评估模型
如果信用评估问题是线性可分的,那么SVM模型的决定边界就是对训练集找到的最优超平面
D(x)=wTx+b(1)
其中:w是个特征值的权值,b是常数。
其决策函数为f(x)=sgn(wT+b)(2)
式中:sgn为符号函数,当D(x)>0时,sgn(D(x))=1,反之为0。
在此模型的求解过程中,需要使用核函数进行非线性映射处理到高维特征空间从而转化为线性可分的问题。因此,核函数和参数的选择对SVM回归效果影响显著,本文选择的是径向基核函数。此外,还引入了惩罚参数C,在训练集样本上采用网格遍历方法,通过遗传算法对参数进行优化并通过交叉验证检验。观察可知,当C值为4时,模型精度达到最大值,即82.5%。
2.4 对比实验结果分析
通过实验得到两种模型预测结果对比如下图。将使用提取的特征样本集对测试集上的2 311个数据进行了预测,随机森林模型中对数据模糊推理和不确定度分别为0%和88.4%,AUC=76%,预测结果的准确率为98.3%;在支持向量机模型中,FNR仅为3.06%,AUC为73%,预测的准确率为96.94%,表明两种模型都具有良好的效果且随机森林模型的评估效果优于支持向量机模型。模型在对企业不违约的概率判别中显示出了很好的效果,但对企业违约概率的判别由于数据的不均衡使得实验结果较差。随机森林模型ROC图如图1所示,SVM模型ROC图如图2所示。
3 结语
本文在兼顾原始数据可获得性原则的基础上,综合考虑了包含企业规模、盈利能力和偿债能力等在内的财务及非财务指标建立了一套合理且能较好反映企业信用状态的综合评价指标体系,并进一步考虑到数据特征采用了适合小样本数据集训练的支持向量机回归集成模型和具有良好的噪声容限和高稳定性的随机森林模型。实验结果显示,两种机器学习方法较传统方法预测精度好、学习效率高。其中,随机森林信用评估模型的分类准确率更是高达98.3%,表明机器学习方法在进行中小企业信用评估中能更好地进行数据有效信息的挖掘和具有更好的可行性及有效性。
[参考文献]
[1]杨元泽.中国中小企业信贷风险评估研究[J].金融论坛,2009(3):69-73.
[2]薛霏霏.科技型中小企业信用风险评价模型及实证研究[D].大连:东北财经大学,2019.
[3]林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报(自然科学版),2007(2):199-203.
(编辑 傅金睿)