基于XGBoost的企业倒闭风险预测

2018-04-27 12:27
无线互联科技 2018年8期
关键词:预测出预测融合

石 涛

(广东工业大学 自动化学院,广东 广州 510000)

近年来大量小微型企业的活力释放,小微企业已经成长为国民经济的重要组成部分,对我国的国际民生产生重要的影响[1]。由于资金、管理、决策等一系列行为导致很多企业都无法长久经营,能否预测出企业的风险对于银行等借贷机构就显得非常重要了。银行准确预测出企业的停业风险就可以合理地投放贷款,减少损失。传统的大型企业财务信息公开完善,且在银行等借贷领域的信用记录也可查询,使用这些完备的数据便可以预测企业风险;但是小微型企业一般不会公开自己的财务信息,并且获得的行为数据也都不完整,所以使用传统的方法分析是行不通的。

为了解决企业数据缺失造成的困难,本文提出了一种使用XGBoost算法的企业风险预测模型。模型针对企业的招聘数据、项目数据、投资数据等9项行为数据分别构建独立的预测模型,并对每个模型的结果进行线性加权融合,分别计算曲线下面积(Area Under Curve,AUC)值和F1分数作为评分标准,据此预测出企业未来退出市场的概率,以作为其他机构决策的参考。

1 数据描述

本文的全部数据来源于全国2 000万企业抽取一部分,包括企业主体在多方面留下的行为足迹信息数据,数据包括两种。(1)企业身份信息以及企业在一定时间内的行为数据(见表1)。(2)目标数据,该数据包括企业的经营状况:停业1,正常0。企业基本信息数据是身份数据,一个企业只有一条数据,而其他数据都是行为数据,一个企业可又有多条数据,也可能一条都没有。

表1 企业行为数据

续表1

企业身份信息(见表2)包括企业的类型、成立的年度、注册资本,还有一些给定计算好的指标等信息。这部分数据是表现每个企业最为基本的信息,所以不管在哪个字模型中都会将其作为特征进行计算。行为数据总共包含8种,分别是变更数据、分子机构数、投资数据、权利数据、项目数据、被执行数据、失信数据和招聘数据,分别包含企业的各类行为。

表2 企业身份信息

对数据的预处理是非常必要的环节。由于原始数据存在缺失值,我们先要做的就是填补空值,然后要去除重复行数据。由于XGBoost仅适用于处理数值型向量,因此,处理训练集和测试集时需要将所有标量数据转换为数值型向量,独热编码(one-hot)是常用的转换方式[2]。本文数据集中的ETYPE和HY等数据都需要经one-hot编码后才能进行训练。

2 XGBoost算法介绍

XGBoost是一种迭代回归树算法,是在GBDT算法基础上的改进,但二者皆属于Boosting提升方法。XGBoost可支持多线程并发任务,这是因为特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然Boosting算法迭代必须串行,但是在处理每个特征列时就可以做到并行,因此,实现并行化后在同等条件下比同类算法速度提升10倍以上[3]。XGBoost考虑了训练数据为稀疏值的情况,可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率。XGBoost内部包含大量的CART回归树,使用残差来提升模型,内部的正则化防过拟合技术可以保证模型的鲁棒性。XGBoost算法可自定义损失函数,且支持多种语言编程,因此非常灵活。下面是该算法的一些重要推导公式。

2.1 目标损失函数

2.2 对目标函数做泰勒二阶展开

因为我们要求的是这个目标函数的最小值,(2)式后面的常数项constant是无用的,可以直接去掉。而Ω这项表示的是一个正则化项,可以表示为:

有了(3)式,将其带入(2),然后再做变形:

对ω求导,可得最优系数,而obj*是对树结构的一个评价函数,值越小,代表误差越小:

3 实验过程与结果

我们的数据是全国2 000多万企业中筛选出部分作为样本,根据所提供的数据,预测出企业未来两年是否由于经营不善而退出市场。由于行为数据涉及多个方面,为了进行对比,我们先对每种行为数据分别训练模型,观察模型的AUC分数,这样就可以确定出哪些数据的影响比较大。同时我们还将数据带入随机森林算法中,将其结果与XGBoost算法的结果对比,从而选出最合适的预测模型。实验结果如表3所示。

由实验结果可以发现,不同的行为数据对模型精度有很大影响。变更数据,项目数据,被执行数据,招聘数据对XGBoost算法和随机森林算法都有比较大的影响;而分支机构数据,投资数据,权利数据则出现比较大的反差。这是由于模型对不同的特征的灵敏度造成的差异。由于随机森林算法引入的随机性,使得其对噪声不敏感,不容易导致过拟合[4],泛化性能也就非常好,所以我们会发现它的结果波动不会非常大。而XGBoost算法是对残差进行迭代优化,所以拟合结果效果非常好。综合比较两种算法的效果,我们选用XGBoost算法作为基本算法来做模型融合。

模型融合的思想是在单一模型的预测结果上,再使用模型融合方法来进一步提高模型预测的准确率[5]。多模型融合是取得优秀分析能力的有效途径[6]。具体来说,上面的步骤已经算出了各个子模型的参数,也知道了各个模型对于预测样本的结果。据此我们可以使用投票法对结果进行表决,如果这几个分类器中有多数的结果是1(停业),那结果就是停业,否则就是正常;同时我们也可以对模型的预测概率作平均,公式如下:

其中,n表示模型的个数,Weighti表示该模型权重,Pi表示模型i的预测概率值。其中投票法太过简单,所以选用参数取平均法作融合。当然还有其他一些复杂的方法来实现,此处不再赘述。经实验,使用多种行为数据作模型融合,10次结果取平均的AUC值为0.916,且结果波动范围大大减小,只有3.3%。以上分析结果说明,采用XGBoost算法作模型融合可以实现预测企业倒闭的概率,对于指导行业正常发展有一定的意义。

4 结语

本文基于一种XGBoost的回归树模型,使用不同的行为数据记录,对全国的小型企业的未来是否会正常经营进行预测,对结果参数取平均作模型融合,并用AUC值进行评估。结果显示对比使用随机森林算法,此方法得出的结果正确率相对较高,性能相对稳定,对相关行业具有实际的指导意义。

[参考文献]

[1]陈志朋.科学发展观视域下中国小微企业发展研究[D].长春:长春师范大学,2014.

[2]黄达文,方梵岚.基于XGBoost算法的用电电量预测的实践应用[J].现代信息科技,2017(4):10-12.

[3]叶倩怡,饶泓,姬名书.基于Xgboost的商业销售预测[J].南昌大学学报(理科版),2017(3):275-281.

[4]李贞贵.随机森林改进的若干研究[D].厦门:厦门大学,2013.

[5]李巧.模型融合算法的研究及应用[D].武汉:湖北大学,2016.

[6]马健.多模型融合学习方法与应用[D].南京:南京大学,2016.

猜你喜欢
预测出预测融合
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
村企党建联建融合共赢
融合菜
从创新出发,与高考数列相遇、融合
《融合》
人工智能AlphaFold成功预测蛋白质3D结构