基于多阶段混合集成的中小企业信用风险评价

2022-06-24 12:47郭懿统刘浩南王辰楷潘治廷
吉林金融研究 2022年3期
关键词:特征选择降维混合

郭懿统 刘浩南 梅 杰 王辰楷 潘治廷

(东北大学,辽宁 沈阳 110004)

一、引言

中小企业是我国经济产业的重要支柱,但中小企业融资难、融资贵等问题却愈发突出。构建预测准确率高、适用范围广的中小企业信用风险评价模型愈发重要。早期基于机器学习的信用风险评价模型多采用单一分类算法,自集成学习被引入该领域,研究发现集成学习模型多用于单一机器学习算法。总结已有文献发现目前研究主要集中于以下两个方面。

(一)集成学习分类算法的改进优化

该类研究的代表性成果有:Tomczak等(2016)采用boosting方法,构建极端梯度提升树集成模型;He和Zhang(2018)使用随机森林和极端梯度提升树作为集成学习基础分类器;王重仁等(2019)提出了基于贝叶斯参数优化和XGBoost算法的个人违约风险评价方法;Gang等(2012)人基于Bagging和随机空间两种集成策略,提出双策略集成树,能改善噪声数据和数据冗余属性的影响;Alaraj等(2016)提出基于Gabriel邻域图编辑和多元自适应回归样条的混合集成信用评分模型。

(二)研究分类前特征选择或参数优化的组合

部分学者认为分类算法改进成本高,提高效果不显著,因此将研究重点转向不平衡样本处理、分类特征选择等阶段。

不平衡样本处理阶段多利用采样技术,通过调整不同类别样本个数得到平衡数据集。He等(2018)改进了balance cascade欠采样方法。刘洋在不减少原数据集中采用重复采样进行数据处理,弥补欠采样的信息损失。Jie等(2018)采用了SMOTE-DSR过采样与Bagging-DSR欠采样结合的混合采样方法。KunNiu(2020),程砚秋等(2016)也对样本类不平衡有所研究。

分类特征选择阶段通过影响数据质量从而影响模型效果。ADL(2015)对比不同的特征选择方法,认为GA算法和LR算法较优。Jadhav等(2018)提出了基于wrapper信息增益为导向的降维方法。Nali等(2020)提出了集成特征选择方法,并与传统特征选择方法进行对比。

虽然学者们在上述各阶段均有研究,但研究多局限于模型的特定环节,缺少对混合集成全局最优化及集成策略的讨论,致使模型泛化能力欠佳,模型稳健性及适应性尚待提升。

本文针对以上问题,关注多个阶段组成的混合集成框架:不平衡样本处理、评价特征降维、集成算法选择。在类不平衡处理阶段依据三种采样思路选取代表性技术;在评价指标选取环节依据特征选择和特征提取两类策略选取技术;在算法环节选用代表性的串行、并行集成范式,利用树模型作为基分类器构建集成学习算法模型。通过召回率、Accuracy、AUC等指标,讨论多阶段混合集成中策略选择对于模型评价的影响,并得到兼顾可靠性与优越性的多阶段集成组合策略。

二、多阶段模型影响因素

本文选用的三种采样方法、两种降维方法以及两类集成分类算法具有代表性,由此组成了十二个混合集成系统,通过实证分析不同采样与降维思路对中小企业信用风险评价结果的影响,并从中选取最佳的集成策略。

(一) 采样算法

对于建模数据不充分与不平衡问题,本文使用采样方法构造有效平衡样本。多有随机欠采样,过采样与混合采样三种类型。

1.随机欠采样

随机欠采样以少数类样本为基准,从多数类样本中随机抽取与少数类样本同等数量的样本,两者组合形成平衡数据集。此方法全部使用真实样本解决类不平衡问题,但样本信息损失过多,使得样本不充分问题更加严重。

2.过采样

SMOTE采样法是一种过采样法,其原理是对所有少数类样本的K个近邻同类样本构建新的少数类样本。构建原理为:

3.混合采样法

SMOTEENN算法首先通过SMOTE算法扩充数据集,得到新数据集,过采样之后基于ENN数据清理技术对样本重叠数据进行清洗,相较于SMOTE过采样方法,可以将部分不合理的人工样本剔除。

(二) 特征降维算法

使用特征降维方法可缓解数据特征相关性大问题,同时避免由于特征矩阵过大、模型复杂度过高导致的“维度灾难”。本文采用特征提取与特征降维方法进行实证对比。

1.特征提取

特征提取即凝练原始特征得到新的特征,进而改变原始特征空间。基于可解释性原则,这里采用因子分析法研究特征提取的效果。其原理是将相关性高的特征转化为不相关的少数几个因子,然后根据方差贡献率确定所需要的因子个数。在此基础上,根据因子旋转载荷矩阵解释新变量以及重要程度,为决策者决策提供帮助。

2.特征选择

特征选择是从原始特征中筛选特征子集,且未改变原始特征空间。本文选取基于随机森林的Gini下降量法测量指标重要性进行排序,并选择靠前的指标。

Gini系数的本质是度量一个集合的“不纯度”。例如在二分类问题下,某节点的数据集D。若D根据特征A的某一取值a,被分割为D1和D2两个部分,则在a的条件下,切分后的Gini指数度量:

随机森林模型会产生OOB数据未被用于模型建立。用其测试随机森林性能,得到模型Gini指数。之后向某个特征A的值中人为添加噪声扰动,数据集变为D'。再计算得模型Gini指数,与原始Gini指数之间的差异被称为Gini下降量,若添加噪声后的模型Gini指数显著降低,则表明该特征具有较高的重要性。以此进行排序。

(三) 集成学习分类算法

1.XG boost

XG boost算法可以看作t棵树的加法模型:

每次加入决策树会在原模型不做更改的前提下进行梯度提升,目标是最小化目标函数,其目标函数定义为:

其中第一项是传统的损失函数,表示预测值与真实值的差异程度。第二项是模型的惩罚项,反应模型的复杂度。

目标函数中的惩罚项表示如下:

最小化目标函数的目的是在模型的预测准确率与泛化能力二者之间寻找一个平衡点。

2.随机森林

随机森林利用bootstrap重抽样方法从原始样本集中抽取K个训练样本集,后对每个Bootstrap样本生成K个CART决策树建模。若每个样本有M个变量,则在每个决策树的构造过程中,特征子集M个变量中随机抽取m个变量(m

三、实验设置

(一)数据选取,评价指标初选

本研究以中国中小企业财务指标数据作为实证分析的数据集。为确保数据可靠性以及可获得性,原始数据来源于中小板上市公司。受新冠疫情影响,2020年与2021年财务指标数据不具有一般性,因此选取2019年年末财务数据作为实验样本。以被特殊处理的上市中小企业(即ST与*ST)作为高风险企业样本,以未作处理的正常运营公司数据作为低风险样本。数据集中高风险与低风险样本的比例为71:928,高风险企业占比约7.1%。

本文综合考虑前人的研究,从盈利能力,偿债能力,营运能力和成长能力四个方面构建评价指标体系。盈利能力表示企业利用当下资源创造利润的能力,具体的二级指标包括净资产收益率、销售净利率、成本费用利润率、成本费用利润率、总资产净利率、营业净利率等。偿债能力则反映了该企业往期偿债情况,进而体现其信用状况,二级指标包括流动比率、速动比率、现金比率、净资产负债率、产权比率、利息保障倍数等。营运能力表示企业经营效率的高低,主要指企业营运资产的效率与效益,二级指标包括存货周转率、总资产周转率与应收账款周转率。成长能力体现了企业发展的快慢与对未来的预期等,二级指标包括净资产周转率、营业收入增长率与总资产增长率。

(二) 数据预处理

为了获得适合该模型的数据集,需要对数据进行预处理。在本节中,将通过如下步骤,实现对实验数据的预处理。

首先进行缺失值处理。以上指标数据并非完整,主要原因是中小企业数据信息不透明。除利息保障倍数缺失303个值之外,其余特征的缺少值数量均在20以下。因此对于缺失较少的指标数据采用均值填补法进行填补。由于利息保障倍数是衡量企业长期偿债能力大小的重要标志,因此对该缺失值使用缺失森林法进行填补。

其次进行数据的标准化。原始数据xi通过以下公式转换为新的数据yi。

(三)模型表现评价指标

通过性能度量对本研究中提出的模型进行评价。这些度量的描述可以用表1中的混淆矩阵来解释。

表1 混淆矩阵

根据上述解释,可以得到一些评价指标,如下所示:

Accuracy被认为是模型的正确预测在实例总数中所占的比例。召回率被认为是模型正确预测的高风险中小企业的比率。TN rate代表模型正确预测的低风险中小企业的比率。此外,AUC值也是评价模型性能的常用指标。

(四)模型建立

本节介绍了信用风险评价的多阶段混合集成模型。Python语言具有丰富的开源库,能够满足本研究实证过程的所有要求。为了保证模型最终测试的可靠性,本研究的最终验证集均为真实企业样本。将欠采样后的实验数据按8:2的比例分为训练集和验证集。这29个验证样本是本研究中唯一的验证集,不参与过采样、建模、参数调整等过程。

图1给出了实验模型的流程图。它包括模型建立的流程和阶段:(1)数据预处理;(2)抽样;(3)特征降维;(4)集成分类算法;(5)绩效评价。本文将重点讨论第二、第三和第四阶段。如图1所示,本文选择三种采样方法、两种降维方法和两种集成分类算法,由此形成了12种集成策略来构建12个混合集成模型。通过实证分析并从中选择最佳集成策略。

图1 实验流程

在特征降维阶段,对采样后的样本进行KMO检验和Bartlett球形检验,三种采样方法下的检验结果见表2,表明本研究初选的20个指标适合使用因子分析进行降维。第二、四、六、八、十、十二混合集成选用Gini下降量法对20个指标重要性进行排序,综合模型性能与降维原则,确定最终保留的指标个数。

表2 不同的采样方法的检验结果

在集成分类算法阶段,选择XGBoost作为串行集成范式的代表方法,随机森林作为并行集成范式的代表方法。在训练集上使用五重交叉验证来确定模型参数的取值。

四、实证结果

(一)混合集成整体结果

对于中小企业信用风险评价而言,对高风险企业的误判代价远高于对低风险企业的误判。通过在训练集上进行五折交叉验证调整十二种多阶段策略集成构建的混合集成系统的参数。使用预先保存的验证集验证模型在实际环境中的泛化能力。十二个混合集成系统的评价效果见表3。

表3 十二种混合集成系统评价效果

可以看出, SMOTE-FA-RF模型的准确率最高,为93.10%,但召回率较低,约为85.71%,对低风险企业风险泛化能力较好。在表3中,SMOTEENN-FA-XGBoost模型的Accuracy和召回率最高,分别为93.10%和92.85%,适用于整体的信用风险评价以及高风险企业风险预测。同时该策略AUC值排名第二,略低于第一位的策略。鉴于其拥有最高的准确率和第二高的AUC,本文认为组成此混合集成框架的集成组合策略为最优策略。

(二) 混合集成分阶段分析

三类采样方法对于混合集成模型的真正率召回率影响结果见表4。可以看出召回率最高的是SMOTEENN-FA-XGBoost,达到了92.9%。SMOTE过采样下的混合集成召回率普遍偏低,过采样生成的大量人工样本使得模型产生偏差。对高风险企业的误判是十分致命的。而混合采样法与朴素欠采样平均召回率相同,表明过采样后利用ENN进行人工样本数据清洗可以有效调整这种劣势。部分混合集成模型的真正率都达到了100%。采用SMOTEENN混合采样的混合集成模型平均真正率高于采用欠采样的混合集成平均真正率。

表4 三类采样方法模型召回率与真正率

两类特征降维方法对于混合集成模型的真正率召回率影响结果见表5。显而易见,相比于基于Gini下降量特征选择法的混合集成模型来说,基于因子分析特征提取的混合集成模型的召回率均较大。而就真正率而言,采用Gini下降量法的混合集成模型平均提升并不明显,大多数情况下两者持平。特征提取方法利用原始特征进行融合凝练成新特征,不仅能够保持对原始指标数据有效信息的利用率,还能够过滤对模型评价提升没有帮助的无关信息,对原始数据有降噪的功能。特征选择方法则直接舍弃贡献排名靠后的指标,不仅损失部分有价值的信息,而且对贡献靠前的指标数据中的冗余信息未做到有效剔除。

表5 两类特征降维方法模型召回率和真正率

进一步,比较两类集成分类算法的混合集成模型的效果,如表6所示。可以发现,基于XGBoost集成分类器的混合集成模型的平均召回率约为78.57%,与基于随机森林分类器的模型相当。XGBoost的平均真正率略高于随机森林分类器,前者约为96.67%,后者约为95.56%。同时,效果最佳的策略所采用的分类算法为XGBoost算法。

表6 两类集成分类算法的召回率和真正率

五、结语

本文研究了混合集成各个阶段的方法选取对于信用风险评价效果的影响。具体研究中,选取了欠采样,过采样,混合采样三种代表性采样的方法,特征提取和特征选择两类特征降维思想的代表方法,以及bagging与boosting两类基本集成算法的代表分类算法。通过实证检验,首先定性讨论了多阶段混合集成中各阶段策略选择对于模型评价效果的影响,其次给出了一条兼顾可靠性与优越性的评价流程多阶段集成策略。研究发现SMOTEENN-FA-XGBoost模型具有相比于其他策略最高的可靠性与优越性。从理论层面,未来研究可以尝试扩大和更新混合集成模型中的算法选择以丰富并优化集成策略,亦可以本文中的三阶段为基础扩展为更多阶段的全局最优化研究。从应用层面,未来研究可纳入更加广泛的信用风险数据进行建模。

猜你喜欢
特征选择降维混合
混合宅
混动成为降维打击的实力 东风风神皓极
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
一起来学习“混合运算”
降维打击
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于特征选择聚类方法的稀疏TSK模糊系统
混合所有制