基于XGBoost的企业倒闭风险预测

2018-04-27 12:27石涛

无线互联科技 2018年8期

石涛

（广东工业大学自动化学院，广东广州 510000）

近年来大量小微型企业的活力释放，小微企业已经成长为国民经济的重要组成部分，对我国的国际民生产生重要的影响[1]。由于资金、管理、决策等一系列行为导致很多企业都无法长久经营，能否预测出企业的风险对于银行等借贷机构就显得非常重要了。银行准确预测出企业的停业风险就可以合理地投放贷款，减少损失。传统的大型企业财务信息公开完善，且在银行等借贷领域的信用记录也可查询，使用这些完备的数据便可以预测企业风险；但是小微型企业一般不会公开自己的财务信息，并且获得的行为数据也都不完整，所以使用传统的方法分析是行不通的。

为了解决企业数据缺失造成的困难，本文提出了一种使用XGBoost算法的企业风险预测模型。模型针对企业的招聘数据、项目数据、投资数据等9项行为数据分别构建独立的预测模型，并对每个模型的结果进行线性加权融合，分别计算曲线下面积（Area Under Curve，AUC）值和F1分数作为评分标准，据此预测出企业未来退出市场的概率，以作为其他机构决策的参考。

1 数据描述

本文的全部数据来源于全国2 000万企业抽取一部分，包括企业主体在多方面留下的行为足迹信息数据，数据包括两种。（1）企业身份信息以及企业在一定时间内的行为数据（见表1）。（2）目标数据，该数据包括企业的经营状况：停业1，正常0。企业基本信息数据是身份数据，一个企业只有一条数据，而其他数据都是行为数据，一个企业可又有多条数据，也可能一条都没有。

表1 企业行为数据

续表1

企业身份信息（见表2）包括企业的类型、成立的年度、注册资本，还有一些给定计算好的指标等信息。这部分数据是表现每个企业最为基本的信息，所以不管在哪个字模型中都会将其作为特征进行计算。行为数据总共包含8种，分别是变更数据、分子机构数、投资数据、权利数据、项目数据、被执行数据、失信数据和招聘数据，分别包含企业的各类行为。

表2 企业身份信息

对数据的预处理是非常必要的环节。由于原始数据存在缺失值，我们先要做的就是填补空值，然后要去除重复行数据。由于XGBoost仅适用于处理数值型向量，因此，处理训练集和测试集时需要将所有标量数据转换为数值型向量，独热编码（one-hot）是常用的转换方式[2]。本文数据集中的ETYPE和HY等数据都需要经one-hot编码后才能进行训练。

2 XGBoost算法介绍

XGBoost是一种迭代回归树算法，是在GBDT算法基础上的改进，但二者皆属于Boosting提升方法。XGBoost可支持多线程并发任务，这是因为特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然Boosting算法迭代必须串行，但是在处理每个特征列时就可以做到并行，因此，实现并行化后在同等条件下比同类算法速度提升10倍以上[3]。XGBoost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。XGBoost内部包含大量的CART回归树，使用残差来提升模型，内部的正则化防过拟合技术可以保证模型的鲁棒性。XGBoost算法可自定义损失函数，且支持多种语言编程，因此非常灵活。下面是该算法的一些重要推导公式。

2.1 目标损失函数

2.2 对目标函数做泰勒二阶展开

因为我们要求的是这个目标函数的最小值，（2）式后面的常数项constant是无用的，可以直接去掉。而Ω这项表示的是一个正则化项，可以表示为：

有了（3）式，将其带入（2），然后再做变形：

对ω求导，可得最优系数，而obj*是对树结构的一个评价函数，值越小，代表误差越小：

3 实验过程与结果

我们的数据是全国2 000多万企业中筛选出部分作为样本，根据所提供的数据，预测出企业未来两年是否由于经营不善而退出市场。由于行为数据涉及多个方面，为了进行对比，我们先对每种行为数据分别训练模型，观察模型的AUC分数，这样就可以确定出哪些数据的影响比较大。同时我们还将数据带入随机森林算法中，将其结果与XGBoost算法的结果对比，从而选出最合适的预测模型。实验结果如表3所示。

由实验结果可以发现，不同的行为数据对模型精度有很大影响。变更数据，项目数据，被执行数据，招聘数据对XGBoost算法和随机森林算法都有比较大的影响；而分支机构数据，投资数据，权利数据则出现比较大的反差。这是由于模型对不同的特征的灵敏度造成的差异。由于随机森林算法引入的随机性，使得其对噪声不敏感，不容易导致过拟合[4]，泛化性能也就非常好，所以我们会发现它的结果波动不会非常大。而XGBoost算法是对残差进行迭代优化，所以拟合结果效果非常好。综合比较两种算法的效果，我们选用XGBoost算法作为基本算法来做模型融合。

模型融合的思想是在单一模型的预测结果上，再使用模型融合方法来进一步提高模型预测的准确率[5]。多模型融合是取得优秀分析能力的有效途径[6]。具体来说，上面的步骤已经算出了各个子模型的参数，也知道了各个模型对于预测样本的结果。据此我们可以使用投票法对结果进行表决，如果这几个分类器中有多数的结果是1（停业），那结果就是停业，否则就是正常；同时我们也可以对模型的预测概率作平均，公式如下：

其中，n表示模型的个数，Weighti表示该模型权重，Pi表示模型i的预测概率值。其中投票法太过简单，所以选用参数取平均法作融合。当然还有其他一些复杂的方法来实现，此处不再赘述。经实验，使用多种行为数据作模型融合，10次结果取平均的AUC值为0.916，且结果波动范围大大减小，只有3.3%。以上分析结果说明，采用XGBoost算法作模型融合可以实现预测企业倒闭的概率，对于指导行业正常发展有一定的意义。

4 结语

本文基于一种XGBoost的回归树模型，使用不同的行为数据记录，对全国的小型企业的未来是否会正常经营进行预测，对结果参数取平均作模型融合，并用AUC值进行评估。结果显示对比使用随机森林算法，此方法得出的结果正确率相对较高，性能相对稳定，对相关行业具有实际的指导意义。

[参考文献]

[1]陈志朋.科学发展观视域下中国小微企业发展研究[D].长春：长春师范大学，2014.

[2]黄达文，方梵岚.基于XGBoost算法的用电电量预测的实践应用[J].现代信息科技，2017（4）：10-12.

[3]叶倩怡，饶泓，姬名书.基于Xgboost的商业销售预测[J].南昌大学学报（理科版），2017（3）：275-281.

[4]李贞贵.随机森林改进的若干研究[D].厦门：厦门大学，2013.

[5]李巧.模型融合算法的研究及应用[D].武汉：湖北大学，2016.

[6]马健.多模型融合学习方法与应用[D].南京：南京大学，2016.