赵雪峰 ,吴伟伟 ,吴德林 ,国 旭 ,时辉凝
(1.哈尔滨工业大学(深圳)经济管理学院,广东 深圳 518006;2.哈尔滨工业大学 经济与管理学院,哈尔滨 150001;3.华为技术有限公司财经财务管理部,广东 深圳 523808;4.中国工商银行集约运营中心,广东 佛山 528010)
十三届全国人大三次会议中,李克强总理指出,伴随疫情爆发,我国近6 亿人民月收入不足千元。可见,在疫情导致经济面临较大下行压力的背景下,一方面需采取纾困政策保障基本民生,另一方面需稳住市场,防止恶性事件冲击市场带来经济骤速下滑[1-2]。其中,恶性事件以公司危机而进行财务造假为突出代表,由于财务造假不仅给债权人、投资人带来巨大投资风险[3-5],而且会发生多米诺骨牌效应,造成我国经济雪上加霜[6-7]。因此,及时有效地对财务危机进行预警预测,可为扭转财务危机局面的公司提供充足的操作空间[8],降低破产可能性,也可及时规避投资风险,保护各利益相关方权益[9]。另外,在我国乃至全球经济下滑的环境中,对重塑人民信心也起到积极作用[10-11]。
目前,国内外涌现出很多以财务特征为基础构建的财务风险预测模型,有效地推动了财务危机的智能预警,且每个学者的研究侧重点也不尽相同,但可主要分为模型构建及特征选取两个方面。
从模型构建上而言,逐渐从传统机器学习延伸至深度学习及集成学习中。在以传统机器学习为基础的构建中,Altman 等[12]构建优化Zeta 评判模型,提高了财务风险预测的准确率。Beaver[13]基于控制变量原则,利用单变量方法预测企业财务危机。张茂军等[14]基于Aalen可加模型,实证分析出上市公司违约概率与财务预警指标间的关系,结果表明,总资产规模、营业利润率、运营资金/资产总金额以及留存收益/资产总金额4个指标均影响上市公司陷入财务困境的强度。鲍新中等[15]构建了基于面板Logit模型的财务困境预警模型,并分别检验了非财务指标对财务预警模型的影响、行业差异对财务预警模型的影响以及预警临界点的选择对模型的影响。顾晓安等[16]将应计盈余管理变量与真实盈余管理变量引入至Logistic财务预警模型中,并对由盈余管理行为导致的财务信息偏差进行纠正,减少了因财务信息失真造成的预警模型误判。鲍新中等[17]从32个财务与非财务指标中选取11个指标作为财务预警典型指标,在此基础上,建立COX 比例风险模型。Kumar等[18]利用Logistic回归、随机森林和支持向量机,可对不均衡预警财务数据进行修正。黄超等[19]基于双正交小波在非线性信号处理方面的良好性能,构造基于双正交小波混合核函数的KPCA-SVM 财务危机预警模型。王威[20]将Lasso和Logistic两种模型进行结合,提高财务风险预测的鲁棒性。石先兵[21]结合降维算法和支持向量机的优势,创建PCA-SVM 预警模型,有效提高模型泛化能力。
在以深度学习及集成学习为基础的构建中,王玉冬等[22]采用果蝇算法和粒子群算法构建神经网络预警模型,解决了财务危机预警时收敛速度慢,易导致局部最优解无解的缺陷。Niu 等[23]提出一种基于两阶段特征选择的深度学习模型,在有效地捕捉多元金融时间序列非线性的同时,采用误差修正模型对预测结果进行校正,提高了模型泛化性及预测准确率。吴冲等[24]利用可动态调整参数的粒子群算法,优化概率神经网络的平滑参数,进而解决概率神经网络平滑参数确定及空间结构复杂的问题。肖毅等[25]集成文本挖掘和深度学习构建企业财务风险预警模型,提出融合卷积神经网络和长短期记忆网络的财务风险预警动态建模方法,并以中国信息服务业上市公司为样本开展实证研究。刘小萌等[26]分别利用传统多变量区别分析方法及基因类神经网络建立预测模型,以检验两者中何者具有更高的预测能力,表示基因类神经网络模型的预测效果有更佳的一般性,更能让外部关系人将模型应用于样本外的企业风险预测。
从特征选择上而言,从影响公司财务状况的角度,可将特征分为财务特征和非财务特征,不同研究人员对于特征研究的侧重点也不同。李江宇等[27]从证券公司对上市公司财务指标的预期差角度分析,定量考察财务数据预期差的价值发现能力,分析验证了财务预期差因子对于超额收益的解释力度。Huang等[28]选取加权平均利率、全国房地产繁荣指数、货币供应量M2、宣布有效汇率、深圳成分指数等18个替代指标,建立金融状况指数,分析表明,利率、房地产价格、货币供应量、汇率和股票价格,可有效地反映我国实际金融状况,同时证明在财政紧缩时,可通过金融指标的变化实现预警。王昱等[29]从经营效率、财务效率、融资效率和人力资本效率4个维度的效率特征出发,分别提出相对应的投入产出指标体系,并采用数据包络法评价上市公司对各个维度的相对有效性,并在此基础上,将得到的多维效率指标与财务指标相融合。Yan等[30]利用无约束分布滞后模型和支持向量机(SVM),引入3~5个周期滞后的财务比率和宏观经济因素,从而检测出公司内外部的早期变化对其财务状况的影响。王莲乔等[31]发现,融资强度对PPP 项目财务风险有正向影响,私营部门投资比例负向调节了这一影响,且该调节作用依赖于国家宏观环境的财务风险结论。尹建华等[32]发现,重污染企业往往选择牺牲环境绩效来提高财务绩效,企业规模越大,环境绩效对财务绩效的负向影响越小,而企业所有制形式对两者关系的调节效应不显著,另外也发现,企业客观特征对环境绩效和财务绩效之间的调节作用还依赖于积极的环境信息披露。刘端等[33]研究得出客户关系越集中,重要程度越大,则企业的财务绩效水平越高,客户关系集中度对存货资源效率、营销资源效率以及应收账款资源效率具有显著的正向影响,企业的这三大有形资源效率是客户关系集中度作用于企业财务绩效。
根据文献内容综合分析,相比于深度学习预警模型而言,传统机器学习预警模型主要围绕控制特征或修正特征偏差等作为研究切入点,如通过控制变量原则,研究单变量下的企业财务危机[13]、将盈余管理变量引入至Logistic财务预警模型中,并对由盈余管理行为导致的财务信息偏差进行纠正,减少预警模型误判[16]等。而深度学习预警模型相比于传统机器学习预警模型,由于深度学习内部参数众多、结构更复杂,故更倾向于研究模型组合及模型结构优化,如将卷积神经网络和长短期记忆网络融合[25]、利用可动态调整参数的粒子群算法,优化概率预警神经网络的平滑参数[24]等。但通常而言,传统机器学习预警模型受限于结构较为简单,难以适应复杂企业场景下的预警分析,同时,通过特征控制、修正等方案也可能存在主观因素,因而在一般情况下预警表现不如深度学习预警模型。但深度学习预警模型也因结构复杂、内部参数多等因素,在预警分析之前,需在训练阶段利用大量准确无误的训练数据集调整优化内部参数,一方面,收集大量准确无误的训练数据集难度高;另一方面,当训练数据集数量或纯洁度不满足模型要求时,又容易出现预警表现差的现象[41]。因此,为了解决因模型结构简单或训练数据集缺失而导致的传统机器学习或深度学习预警表现下滑问题,本文在CART 树对训练数据集不敏感的前提下,集成多棵CART 树得到集成分类器,从而达到提高模型复杂度的同时,规避训练数据集缺失的问题,从而整体优化预警表现。
在影响企业财务危机的特征研究中,目前多数仅以某一类特征为前提,分析该类特征对财务造假的影响,由于考虑特征单一,而实际企业财务出现危机,也归咎于众多因素的综合影响,从而导致该方法运用至实际场景有限;少数研究方法虽综合多种可能影响企业财务危机的特征因素,但缺乏对不同特征之间的因果关系分析,从而造成企业预警分析时,因特征维度过大,造成特征冗余现象,又因特征冗余容易造成模型过拟合,导致模型预警表现下滑的现象[27]。因此,为了解决因特征单一导致财务预警应用场景受限,或因特征维度过大造成模型过拟合的问题,本文对所收集的高维特征执行因果分析,从而优化出合理维度范围的特征集合,并基于上述集成分类器和已优化的特征集合完成企业预警,从而有效规避因财务特征影响预警表现的现象。
目前预警模型构建及预警特征选择相对独立,从模型构建角度而言,机器学习多以变量控制法,深度学习多以训练调参法预测企业财务危机,并没有考虑不同企业特征对预警模型的影响;从预警特征选择角度而言,利用特征选择法实现特征选择,并通过实证数据研究特征选择法的有效性。可见,在企业财务预警研究中,特征选择与模型构建相对独立且割裂,缺乏一种可有效从海量特征中选择出价值特征,并直接实现企业预警的端到端方法。
除此之外,关于预警模型的应用价值,主流方向还是通过实证数据或仿真数据,验证其预警准确率,客观而言,准确率确实在某种程度上可衡量出模型实用价值,但不同预警模型在不同特征维度范围内,其预警效果是否也各不相同? 即不同财务预警模型可能具有不同的特征最优维度,当在特征最优维度下,其预警表现最优。然而,目前研究中,缺乏对预警模型与特征维度的实证探讨,从而无法得到更具指导意义的研究价值。
综上所述,本文结合现有研究成果,以克服机器学习及深度学习构建预警模型的弊端、特征维度造成预警场景受限、预警表现不佳为目的,构建出以特征因果关系分析为基础的集成财务预警模型(An boosted model of corporate financial early warning based on characteristic causality analysis,简称CFW-Boost模型),从而完成特征优化与企业预警端到端的实现,并通过中国A 股上市公司实证数据训练CFW-Boost后,进一步探究CFW-Boost模型与其他预警模型在不同特征维度的预警表现,在确定存在特征最优维度的结论下,对比分析与其他模型的异同点,进一步体现CFW-Boost的优势性,进而得出管理结论。
根据财务预警要求和CFW-Boost模型特征,财务预警中的CFW-Boost模型分为3个模块,分别为平稳性检验、特征因果分析及集成分类器预测,3个模块的主要构建过程如图1所示。
其中,CFW-Boost模型的核心在于特征因果分析及集成分类器预测,其中特征因果分析主要基于高维特征集X与低维特征集的映射关系,将高维特征集X降维至低维特征集,进而利用集成分类器,构建低维特征集的目标函数,并优化目标函数得到财务预警结果。
X——高维特征集,且X=,…,表示公司在t时刻下可能影响公司财务状况的第i个特征
——低维特征集,利用X求解得到的,,且n≥m,T≥R
q——高维特征集的样本总量
p——低维特征集的样本总量,且p≤q
——表示低维特征集中第j样本对应的公司财务真实标签,j=1,2,…,p
——表示低维特征集中第j样本对应的公司财务预测标签,j=1,2,…,p
fk)——表示编号为k的CART树根据第j个样本生成的目标函数,k=1,2,…,K
Tunç[34]指出,公司财务状况应综合多个维度多个指标进行分析,故本文所述的高维特征集的特征数量不少于上百个,但如何从上百个特征中选择与公司财务状况息息相关的特征,是CFW-Boost模型首先需要做的工作。
一般情况下,影响公司财务特征均是平稳随机过程生成的时间序列数据,根据Song等[35]所述,以平稳时间序列数据为基础的经济分析具有有效性,故先构建平稳性检验方程,检查高维特征集的平稳性,且仅保留具有平稳性的特征。平稳性检验方程为
当利用平稳性剔除部分高维特征后,进一步利用高维特征集构建映射到低维特征集的期望函数,并最优化期望函数的参数值,反向求解得到低维特征集。
综上可知,首先构建高维特征集X映射到低维特征集的映射关系:
在式(2)中,Λ是变化矩阵,维度为n×m,在低维特征集的每个特征,均满足标准正态分布(0,I)的假设下,变化矩阵的作用是将的维度从m变为n,将的均值由0变为μ,同样地,噪点ò满足高斯分布ò~N(0,φ)。根据多元高斯分布求解式(2)的联合分布为
根据协方差公式分别计算式(4)的方差:
结合式(6)~(10),得出方差为
进一步,当最优化出参数μ,Λ,φ,即可计算出。根据最大似然估计法与p的概率分布,构建包括μ、Λ、φ的似然函数:
由Jensen不等式知,若函数f(x)为凸函数,则f(x)的期望函数大于或等于函数的期望,对应的数学表达式为f(E[x])≤E[f(x)],因此,似然函数为
当Jensen不等式等号成立时,当且仅当x为常量时,f(E[x])=E[f(x)],故式(13)的值为
在式(2)中,在假设每个特征均满足标准正态分布(0,I)时,联立式(12)、(14)得出:
结合式(11)、(15)和式(16),分别求得μ、Λ、φ、原始样本X和低维特征集的关系表达式为:
进一步,迭代出μ、Λ、φ参数的最优解,并联立μ、Λ、φ的最优解和式(2),求解得到低维特征集,从而将高维特征集中n个特征降低至低维特征集的m个特征。
当完成降维操作后,根据集成分类器可处理多种特征,并依然保持较高准确度的优点[36],将CART 决策树作为集成分类器中的最小单元,并在不同的企业预警场景中,集成不同数量的CART 决策树,当利用低维特征集集成多棵CART 树得到集成分类器时,假设集成分类器生成公司财务预测标签的分类函数为
当集成K棵CART 树的分类函数为
集成CART 树的数量K与分类准确度并非是正比关系,即并非K值越大,预测标签越接近真实标签[37],因此,在集成每棵CART 树时,需要利用目标函数衡量集成后的分类器,是否比集成前的分类器在分类效果上更优异。其中,目标函数为
式中:objectK为集成了K棵CART 树时的目标函数;为公司财务真实标签与预测标签的误差函数。
进一步,在集成分类函数中引入正则化项Ω(fk),当在集成CART 树过程时,正则化项会依赖CART 树叶子节点个数、每个叶子节点的输出值,从而防止集成分类器在预警过程中特征过拟合现象的发生。另外,本文在构建集成分类器时,不同CART 树的不同叶子节点对应不同的权重系数,从而规避仅依赖于单棵或少部分CART 树时,造成预警泛化能力差的问题。进一步,惩罚项Ω(fk)为
式中:S为CART 树的叶子结点数;ωj为CART 树叶子结点的权重,结合式(22)、(23),得到目标函数:
constant表示常数项,基于泰勒展开法则进一步展开目标函数,得到
式中,gj、hj分别为的一阶和二阶偏导:
联立式(25)~(27)得
进一步求解权重的一阶偏导,可得
结合式(30)、(31),可得最终的目标函数为
进一步,利用基尼指数衡量每次增加CART 树后的集成分类器,比未增加CART 树时的分类器,在预测标签上的表现是否更优异,直至增加CART树后的集成分类器,无法比未增加时的分类器表现得更优异,则得到适用于企业财务风险预警的多层CART 数集成模型,即CFW-Boost模型。
利用国泰安证数据库、各类企业网站等,获取上市公司对应的特征集,并根据CFW-Boost模型的理论构建过程,将研究分为训练阶段和测试阶段,其中训练阶段流程如图2所示。
步骤1从公开数据库、各类企业网站等爬取企业特征数据集及对应的公司财务真实标签集,将企业特征数据集分为模型训练集和模型测试集。进一步,参照王昱等[29]以经营、财务、融资和人力资本等维度拆分指标,以及葛兴浪等[38]所研究出的企业信息指标体系,将模型训练集划分为非财务高维特征集和财务高维特征集,利用CFW-Boost对非财务高维特征集和财务高维特征集进行平稳性检验,剔除少量非平稳性数据得到平稳性的高维特征集。
另外,本文所述公开数据包括国泰安等数据库,而爬虫手段主要是构建爬虫程序进入佰腾网(https://www.baiten.cn/),并搜索目标公司的专利申请,并获取对应的专利指标,特别是公司专利申请的申请类别(发明、实用新型和外观设计)、专利所涉及的技术领域及主要核心技术三部分指标。
步骤2构建μ、Λ、φ与高维特征集的关系表达式及最优化关系表达式,将高维特征集降维成低维特征集,其中,低维特征集包括非财务低维特征集及财务低维特征集。
步骤3利用低维特征集训练集成分类器,得到公司财务预测标签集。
步骤4利用公司财务预测标签集和步骤1中的公司财务真实标签集,计算出预测准确率,若预测准确率小于预设的准确率阈值,调整集成分类器的内部参数并返回步骤3,重新计算公司财务预测标签集,直至预测准确率大于或等于预设的准确率阈值时,组合平稳性检验、降维及集成分类器,得到CFW-Boost模型。
步骤5利用步骤1 中的模型测试集测试CFW-Boost模型的准确率,从而得到相关结论。
从国泰安等数据库中提取2000~2020 年共3 812份上市公司的企业数据集,在数据清洗后,以是否处于ST(特别处理,Special Treatment)状态划分企业数据集,得到472份ST 企业数据集及3 167份正常企业数据集。另外,根据数据集中所记录的公司信息,整理出以财务特征及非财务特征为分类原则的高维特征集。
根据表1知,本文以财务指标和非财务指标划分企业特征,并基于经营能力、盈利能力、成长能力以及管理层结构进行多级划分,从而得到训练集和测试集。
表1 高维特征部分展示
在ST 企业数据集中,假设公司在本文研究时间范围内屡次被ST,则以首次被ST 的时间线为准,并根据首次被ST 的时间线或正常数据集中所记录的时间线,对ST 数据集及正常数据集进行平稳性检验,当完成平稳性检验后,按照CFW-Boost的降维步骤构建代码,迭代训练得到与高维特征表对应的低维特征集。
按照图2将低维特征集(包括非财务低维特征集、财务低维特征集)作为第一训练数据集训练集成分类器,通过监视目标函数的函数值objectK,构建出函数值与训练次数的曲线图。同时,为了对比低维特征相比于高维特征集,在集成分类器训练过程中的优异性,将高维特征集(包括非财务高维特征集、财务高维特征集)作为第二训练数据集,训练集成分类器,得到低维特征集与高维特征集在集成分类器的训练对比图(见图3)。
根据图3可得出,利用低维特征集训练集成分类器时,当训练次数达到700次后,目标值变化幅度趋于稳定,目标值的平均值为0.051 9,集成分类器训练完成。利用高维特征集训练集成分类器时,在训练次数达到900次后,目标值变化幅度才趋于稳定,且目标值的平均值为0.063 6。可见,利用CFW-Boost模型中的特征因果分析后得到的低维特征集,不管从训练次数还是目标值大小及稳定性上,都更有利于集成分类器的训练。
进一步,Lasso 和Logistic 结合得到Lasso-Logistic[20],与利用降维算法和支持向量机创建得到的PCA-SVM[21]都是较为典型的具有特征分析及财务预警作用的模型。为了探究CFW-Boost相比于Lasso-Logistic、PCA-SVM 的优劣势,对上述第二训练数据集进行数据丰富得到第三训练数据集,依次训练CFW-Boost、Lasso-Logistic及PCASVM,得到对比图(见图4)。
根据图4 可得出,在训练周期上,CFW-Boost周期最长,需达到1 500次左右目标函数值才趋于稳定,PCA-SVM 次之,目标函数值趋于稳定需约1 000次训练,Lasso-Logistic最少仅需1 000次;在目标函数值上,当各模型训练完成后,CFW-Boost的目标函数值最小,平均值0.055,PCA-SVM 目标函数值均值为0.081,Lasso-Logistic为0.067。可见,CFW-Boost对第三训练数据集的适应力最好,预警准确率最高。
当CFW-Boost训练完成后,参照2.1所述测试阶段,本文以机器学习及深度学习为划分依据选择对比模型,其中,机器学习模型,依次选择模型结构简单、训练速度较快的Logistic,添加平稳性检验以提高模型鲁棒性的Lasso-Logistic,低维特征集下表现优异的支持向量机(SVN)、添加降维操作的PCA-SVM、高维特征集下表现优异的随机森林;而深度学习模型选择典型代表的卷积神经网络及长短期记忆网络,进一步评估CFW-Boost的实际预警表现。
首先将包括83个维度的测试数据集平均分为3组,利用各模型分别测试在每组的准确率,如表2所示。
表2 各模型测试准确率
结合表2各模型表现,以机器学习和深度学习区别点的角度:①深度学习相比于机器学习,虽然在图像及自然语言方向具有较为明显的优势[39-40],但在公司财务预警方向上,以机器学习为基础构建的预警模型,预警表现并不一定比深度学习差,如PCA-SVM,其训练准确率及测试准确率,都明显优异于卷积神经网络及长短期记忆网络;②单个机器学习算法构建的预警模型,一般不具有特征筛选功能,如Logistic、支持向量机等,但可通过组合模型的方式,克服不具有特征筛选的缺点,如Lasso-Logistic、PCA-SVM 等,且组合后的模型,预警表现一般可进一步提高。
结合①、②所述,在公司财务预警上,相比于深度学习模型,合适的组合多个机器学习会得到更优异的预警表现。因此,本文以该思想,集成多棵CART 得到CFW-Boost。
从每个模型具体表现的角度看,8组模型都可实现财务预警的作用,但CFW-Boost模型相比于其他7组模型,准确率更高,在本文设定每组模型均训练2 000次的前提下,CFW-Boost训练准确率达到最高的95.77%,优异于表现次好的PCA-SVM。另外,CFW-Boost也具有更优秀的特征筛选能力,与卷积神经网络、长短期记忆网络、PCA-SVM 以及Lasso-Logistic等,同样具有特征筛选的其他模型对比,CFW-Boost测试准确率领先于其他组模型,达到85.56%。因此,综合来讲,CFW-Boost具备较强的特征筛选能力,且有效提高公司财务预警准确率。
为了进一步探究企业数据集中,特征维度变化对CFW-Boost预警表现的影响,通过按比例去除特征的原则,对上述测试数据集共83组特征执行去除操作,如依次去除测试数据集中25%特征、50%特征及75%特征,分别得到25%测试数据集、50%测试数据集和75%测试数据集,对应的原测试数据集简称0%测试数据集,表示未执行特征去除操作。之后依次用0%、25%、50%及75%共4组测试数据集,评估上述8组模型的预警表现,如表3所示。
表3 比例去除特征下各模型测试准确率
可见,随着测试数据集中特征维度的不断变少,不同模型的准确率变化幅度也有较大差异。其中,特征维度变化对PCA-SVM 及Lasso-Logistic的测试准确率影响最小,变化幅度值不大于2.5%,对CFW-Boost、卷积神经网络及长短期记忆网络的准确率影响最大,且随着特征维度的不断变少,卷积神经网络及长短期记忆网络的准确率不断降低。
为进一步探究特征维度变化对CFW-Boost预警表现的影响,按照每组测试数据集依次递减5%的方法,得到0%,5%,10%,…,80%,85%,共18组测试数据集。其中,0%测试数据集依然表示未剔除特征,85%测试数据集表示已剔除85%特征数后的数据集。
汇总每个模型在上述18组测试数据集的准确率,构建得到准确率与特征去除比例的点线图(见图5)。
进一步,利用4阶多项式拟合图5中每条点线,得到准确率与特征去除比例的拟合曲线图(见图6)。
由图6 各拟合曲线的总体表现可见,CFWBoost及Logistic、PCA-SVM、随机森林等机器学习类模型,在伴随企业特征维度减少时,准确率会呈现小范围内波动,总体趋于平缓下降的现象;而以深度学习为代表的长短期记忆网络和卷积神经网络,准确率则会出现无波动的急剧下降现象。因此,CFW-Boost及机器学习类模型,相比于长短期记忆网络和卷积神经网络,具有更强的模型稳定性和鲁棒性。
重要地,每组模型都对应特征最优维度,即相比于模型在非最优维度的表现来看,在最优维度数下的预警表现往往最好。其中,CFW-Boost的特征最优维度约为[63,82](对应图6中X轴[0,23]),此时测试准确率高达87.26%,明显优于其他模型;而当特征数去除比例大于23%后,CFW-Boost的预警表现逐渐下滑,在[47,63]区间内(对应图6中X轴[23,42]),CFW-Boost的预警表现被PCA-SVM反超,即[47,63]变为PCA-SVM 的特征最优维度。换言之,CFW-Boost相比于其他模型,其特征最优维度较大(如本文所给定的测试数据集,其财务特征最优维度数为[63,82]),进而得到CFW-Boost对低维特征的财务预警表现力一般,但在高维特征中具有明显优势,预警准确率较大幅度高于其他模型。
本文在多数模型执行企业财务预警时,由于考虑特征维度单一,进而影响预警准确率的背景下,以分析特征因果关系为基础,集成多棵CART 树构建得到CFW-Boost,并利用实证数据进行训练,进一步分析CFW-Boost相比于其他预警模型在实证数据中的预警表现,进而得出:
(1)企业财务受多种因素影响,因此,根据财务指标及非财务指标识别出多类财务特征,并通过特征因果分析降低多类财务特征的特征维度后,基于CFW-Boost内的CART 树分析每种财务特征对企业风险的影响,构建面向特征因果分析的CFWBoost企业财务风险预警模型。经过数值分析及与其他财务预警模型的对比分析发现,本文构建的模型在提高预警准确率的同时,通过特征因果分析可有效降低多类特征的特征维度,避免因特征维度过高产生特征冗余,造成CFW-Boost过拟合,模型鲁棒性下降的现象。
(2)通过集成多棵CART 树得到的CFWBoost,在与其他组合模型及深度学习模型对比中发现,CFW-Boost虽需更高的训练周期,但无论在训练阶段还是测试阶段,其预警准确率更高、预警表现也更稳定;同时,特征维度的变化会影响CFWBoost的预警准确率,在特征从高维降为低维的过程中,CFW-Boost的准确率会呈现局部范围内波动,总体平缓下降的现象。因此,在高维特征时选择CFW-Boost进行企业预警时效果更优。
(3)各财务预警模型均具有各自对应的特征最优维度,在特征最优维度下,对应的财务预警模型的预警表现最优。其中,CFW-Boost的特征最优维度相比于其他预警而言,其维度数值最大,表示CFWBoost相比于其他预警模型,在高维特征中预警准确率更高,优异性更强。
基于本文研究结论,可对企业及市场监督部门提出如下建议:由于不同模型的预警准确率及稳定性上均具有差异性,每组模型一般都对应特征最优维度,故在应用模型对企业进行财务预警时,需实际结合企业性质,选择出最适合企业的预警模型。其中重要地,可依赖所实际结合的企业性质,确定企业的特征最优维度,在最优维度内可选择出企业所对应的最优预警模型。进一步,当特征最优维度的数值较大时,CFW-Boost的预警表现优异于其他模型,实际应用价值更高,因而合理选择CFW-Boost进行企业财务预警,可有效提高预警准确率,避免因模型的错误预测,给予企业及市场造成经济风险。