考虑金融网络指标的信息技术类上市公司财务危机预测研究

2023-09-25 02:32陈晓芳苗博威
运筹与管理 2023年8期
关键词:财务危机准确率金融

吴 冲, 陈晓芳, 苗博威

(哈尔滨工业大学 经济与管理学院,黑龙江 哈尔滨 150001)

0 引言

随着信息技术的逐步突破与落地应用,信息技术行业进入蓬勃发展时期,同时其高风险,高收益的标签也被显现。信息技术类企业容易陷入财务困境的原因在于,首先,上市初期资金投入力度大,研发过程和时效性存在不确定性;其次,技术产品更新迭代速度快,相关产品生命周期短,导致企业未来收益的不确定;最后,信息技术类企业面临偿债能力差且经营风险大的市场状况,一旦技术研发失败,极易造成资金链断裂等问题。因此,信息技术行业急需建立具有行业针对性的财务危机预测(financial distress prediction, FDP)模型,使企业管理层及时监控企业财务及运营状况,避免财务危机发生。

探索有效的FDP模型一直是学术界和实务界共同关注的重要研究课题[1]。学者们将研究聚焦于FDP模型算法和指标选择上。经典的统计FDP模型包括单变量分析模型[2]、多元判别分析模型[3]、线性模型[4]、logistic回归模型[5]等。近年来,由于财务指标维度增加,数据类型复杂化,基于统计的FDP模型已经无法满足需求。为了寻求更高的准确率,机器学习算法被引入FDP领域。如决策树[6]、神经网络[7]、支持向量机[8]、随机森林[9]等。单一的分类器模型存在一定的弊端和局限性,而集成模型能够弱化单一分类器的缺点,提高模型的预测性能和泛化能力。

轻量化梯度提升机(Light Gradient Boosting Machine, LightGBM)[10]作为集成算法被广泛应用于预测领域。沙靖岚[11]将lightGBM算法应用到P2P行业的违约预测中,结果表明采用lightGBM进行分类预测是有效的。贾鹏翔[12]采用lightGBM算法预测二手车的价格,与Xgboost和随机森林算法相比lightGBM具有更小的残差值。顾桐等[13]研究发现lightGBM算法在预测方面优于决策树,支持向量机等机器学习方法,具有预测潜力。与同类型的GBDT, Xgboost等集成算法相比,lightGBM算法采用基于梯度的单边采样(Gradient-based One-Side Sampling, GOSS)算法、互斥特征绑定(Exclusive Feature Bundling, EFB)算法、直方图算法、直方图差加速和叶子生长策略等方法进行优化,减少数据实例和特征数量,降低了计算的复杂度,提升了训练速度[14]。因此,本文采用lightGBM算法构建FDP模型。

在FDP模型的指标选择上,多数学者选择财务指标进行研究。一方面源于财务指标的易得性,另一方面源于其能直观地反映企业的财务状况[15]。然而仅使用财务指标进行财务危机预测,难以全面反应企业的状况。财务指标只是财务危机发生的表象,并不能显现财务危机发生的原因[16]。因此有学者将非财务指标纳入FDP模型中。非财务因素如公司治理、企业经营效率、资本市场股价信息等对财务危机的发生具有重要影响[17]。已有研究[18,19]表明财务指标与非财务指标结合能显著提高预测准确度。

市场信息能够显示企业的运营状况,但上市公司的市场变化难以捕捉。利用市场信息中的股票信息构建金融网络,能够为决策者提供市场变化的依据。研究发现网络测度指标在一定程度上能够提升分类器的预测能力[20,21]。随着复杂网络在预测领域的兴起,利用其进行预测的研究层出不穷,例如对顾客流失[22]和股票价格[23]等进行预测。因此本文采用企业的股票收益构建金融网络,将股票信息以金融网络指标的形式输入预测模型,以此探究市场信息对FDP的影响。本文研究丰富了企业财务危机预测结果的内涵,同时也为FDP模型的构建提供了新思路。

1 研究方法

1.1 金融网络指标

资本市场的各个企业与机构之间存在着经营联系,交叉持股等现象,企业之间存在高度关联性,因此可以将金融市场看作金融网络。在金融网络中,网络的节点为各个企业,网络的边指代各个企业之间的往来关系,如投资行为、经营行为、持股行为等。在金融市场中,这种往来关系可以用企业股票价格序列的相关性来抽象化。

金融网络由大量企业节点构成,其内部节点之间具有复杂的交互作用,由于选取的企业样本时间跨度较大,且截取的数据为上市公司T-3年末的面板数据。因此对每个企业取其T-3年末前500个交易日的日收盘价,形成收盘价时间序列。对于每个公司样本i,t日的日收益率ri(t)可以表示为:

ri(t)=lnPi(t)-lnPi(t-1)

(1)

其中pi(t)为企业i在第t日的收盘价,pi(t-1)为企业i在第t日前一个交易日的收盘价。企业i,j的相关系数cij公式表示如下:

(2)

(3)

在网络中,通常使用网络特征指标衡量网络的性能。本文在经济社会理论研究的基础上,选择度中心性、接近中心性、中介中心性、Pagerank值这四种指标来衡量金融网络的性能。

度中心性指一个节点上的直接联系数。在加权网络的分析中,度中心性一般被扩展为节点所连接边的权重之和,公式如下。

CD(i)=∑cij

(4)

接近中心性通常定义为节点平均距离的倒数,用以表示节点与节点之间的接近特性,即:

(5)

中介中心性的概念在于,一个具有高度中介中心性的企业会对其他企业产生重要影响,因为它可以影响通过它的信息。中介中心性是基于网络路径的概念,由Freeman提出,公式如(6)。其中,σjk为节点j到k的最短路径的总数,σjk(i)是j到k的最短路径中通过节点i的路径数。

(6)

(7)

α为跳转概率,一般取值为0.85。显然PR值越高,代表节点的重要性越高。

通过对网络性质的研究,本文采用信息技术类上市公司的股价波动信息构建金融网络,可得到企业在网络中的指标,并将其作为FDP模型的输入变量。

1.2 LightGBM模型

LightGBM算法是一个基于梯度决策树的框架,该算法在梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的基础上进行优化[24]。GBDT是一种广泛使用的机器学习算法,具有高效、准确和可解释性,其以固定大小的回归树作为基学习器,使用梯度提升方法进行改进。假设每颗树的叶子个数为S,每棵树将输入空间划分为s个不相交的区域R1m,R2m,…,Rsm,并预测Rsm的恒定值bsm。回归树可以形象化的表示为:

(8)

当x∈Rsm时I(*)值为1,其他情况则为0。模型更新方程fm(x)和梯度下降的步长ρm可以表示为:

fm(x)=fm-1(x)+ρmgm(x)

(9)

(10)

在上式中,L(yi,fm(x)为GBDT的损失函数,每步的优化条件为使损失函数最小。在梯度提升方法中,使用回归树代替gm,则公式(9)和(10)可以表示为:

(11)

(12)

在算法迭代的过程中,每一轮算法所产生的残差都将成为下一轮的学习目标,如此循环,直到全局残差值小于设定的阈值或迭代次数达到最大值时结束,然后输出最终的结果。传统的GBDT需要扫描每个特征的所有数据实例,估计所有可能分裂点的信息增益。因此,它们的计算复杂性将与特征数量和实例数量成正比,使得GBDT在处理大量数据时非常耗时。GOSS算法和EFB算法减少数据实例和特征数量,提高算法的训练速度,同时保证训练的准确率。

(13)

其中,Al={xi∈A:xij≤d},Ar={xi∈A:xij>d},Bl={xi∈B:xijd},使用系数(1-a)/b将B上的梯度和归一化到的大小。在GOSS中,我们在一个更小的实例子集上,而不是在所有实例上确定分裂点,可以大大降低计算成本。更重要的是GOSS不会损失太多的训练精度,并且会比随机抽样表现得更好。

EFB算法通过对特征采样,将互斥特征结合为一个特征,达到降维的目的。EFB算法利用特征之间的关系构造一个加权无向图,用贪婪算法寻找可以捆绑的特征。算法通过设置最大互斥率平衡准确度和效率。通过对互斥特征中的一个特征增加偏移变量,实现互斥特征的合并,保证原始特征能从合并的特征中分离出来。互斥特征绑定后计算的复杂性从O(#data×#feature)变为O(#data×#bundle),有效地降低了计算的复杂性,提高了训练速度。

为了降低算法复杂度,减少训练时间消耗并提高预测准确度,lightGBM使用直方图算法、叶子生长策略、直方图差加速等方式寻找最佳分裂点。通过这些方法降低计算复杂度,大幅提升模型学习效率。本文采用lightGBM算法构建信息技术类上市公司财务危机预测模型,并提出了基于lightGBM算法的调参集成策略。通过参数调节,选择准确率最高的lightGBM算法模型作为基础模型,然后对基础模型进行单一参数调节获得新的模型。将调节后的模型与基础模型的结果进行经典投票法选择,得到最终预测结果。

2 样本与指标选择

2.1 样本选择

本文数据来自国泰安CSMAR数据库,Wind数据库和年报手动收集。选取我国沪深A股行业分类代码为C39,I63,I64,I65的信息技术类企业。根据我国资本市场的机制,将上市企业是否被特殊处理(Special treatment, ST,*ST)作为判断企业是否发生财务危机的标准。研究样本选取由连续两年净利润为负导致被ST的企业,其他原因予以剔除;使用T-3年的年报数据为基准,选取同年度、同行业且资产规模类似的企业,被ST企业为正样本,非ST企业为负样本。研究选取102家上市公司,包含24家ST企业及78家非ST企业。

2.2 指标体系构建

本文的预测指标主要包括财务、非财务及金融网络指标。初始阶段包括三大类59个指标,如表1所示。在信息技术企业中企业的技术创新能力尤为重要,因此非财务指标主要从创新能力入手。其次,企业治理结构影响企业的稳定程度,外部评价则主要体现为财务审计情况。

表1 模型指标体系表

对数据进行预处理,首先采用中位数对缺失值进行填充。其次,对财务指标进行规范化处理,转化为0到1之间的浮点数,消除量纲的影响。最后,针对非财务指标采取分箱化处理,根据离散数值分布情况,划定不同区间,统计进入每个区间的样本,以区间标号替换原数据。

为了筛选出识别能力强的指标,需要对上述59个指标进行Mann-Whitney U显著性检验,考察对应指标是否对财务危机企业有足够的敏感性。最终,共有38个指标通过显著性检验。如表2所示。

表2 被选指标

3 实证研究

3.1 参数设置与实验设计

研究将含财务与非财务指标的模型定义为基础lightGBM模型,经过调参集成后的模型定义为集成lightGBM模型,将引入金融网络指标的lightGBM模型定义为FNI-lightGBM模型。数据分析平台为SPSS22和Python3.7。在建模的过程中,参数的调节非常重要,对lightGBM算法来说更是如此。

首先确定boosting_type,设定为gbdt,表示使用梯度提升决策树类算法;其次设定learning_rate值,这里取0.05;再次n_estimators,默认为200;最后调节树深度及叶子节点数,主要作用是防止过拟合,基础设定max_depth为4,num_leaves一般要满足,因此设定叶子节点数为15。

根据调参集成策略对lightGBM进行调节,调节后的模型参数如表3所示。lightGBM1为基础模型,lightGBM2是调节树最大深度后的模型,lightGBM3修改了提升算法,lightGBM4和lightGBM5分别调节了学习率和叶子最小记录数。集成lightGBM的结果由lightGBM1-5投票产生。

表3 模型调优参数

准确率,精度和召回率是最为常见的实验结果评价标准。一般来说精度越高召回率越低。本文着重考虑真正财务危机的企业是否被识别,因此选用准确率和召回率作为评估指标。

本文从三个方面进行对比实验的设计与分析。第一组实验将基础lightGBM模型与调参后生成的集成lightGBM模型进行对比,验证调参集成策略是否有效;第二组实验在第一组实验的基础上,增添金融网络指标,对比FNI-lightGBM与lightGBM模型的准确率和召回率,以此验证金融网络指标对FDP模型的影响;第三组实验将lightGBM模型与常用的FDP模型进行对比,并在此基础上将金融网络指标引入常用的预测模型,进一步证明lightGBM模型预测的优异性以及金融网络指标对FDP模型的影响。

3.2 结果对比分析

为验证模型的稳健性,将模型进行10折交叉验证。本文将基础lightGBM模型与集成lightGBM模型进行比较,结果如表4所示。从表4可以看出集成lightGBM模型具有更高的预测性能,证明调参集成策略是有效的。

表4 模型评估指标比较

FNI-lightGBM模型进行相同的调参集成处理,结果如表5所示。集成lightGBM模型的准确率和召回率低于FNI-lightGBM模型,初步说明金融网络指标的引入提高了FDP模型的准确性,即股票信息的引入能够提高FDP模型的预测性能。

表5 多个模型对比结果

基于相同样本数据,使用常见的模型,如Logistic回归(Logistic Regression, LR)、支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)分别构建普通模型与加入金融网络指标的模型,与集成lightGBM模型和FNI-lightGBM模型进行结果对比,如表5所示。从表5可以看出,集成lightGBM模型与FNI-lightGBM模型分类的准确率均高于常见模型,且两个模型准确度均高于90%,其中FNI-lightGBM模型的召回率达到了93.75%,分类效果更优。

图1和图2分别为LR,SVM,RF和集成lightGBM四个算法模型加入金融网络指标前后的准确率和召回率。从图1中可以看出集成lightGBM模型的准确率和召回率更高,预测性能更好。从图2中可以看出引入金融网络指标后,lightGBM模型预测性仍能更好。

图1 普通模型结果对比

图2 加入金融网络指标模型结果对比

图3为四个模型在引入网络指标前后准确率和召回率的变化,从中可以看出,LR,SVM,RF和集成lightGBM模型在引入网络指标后,预测性能有所提升。上述结果首先说明本文所提出的调参集成策略是有效的,通过模型之间的信息互补,提高了模型的预测性能;其次,股票信息的引入是有效的,将市场信息引入财务危机预测模型能够进一步提升模型的准确率。

图3 普通模型与加入金融网络指标模型结果对比图组

4 结论

本文以我国的沪深A股信息技术上市公司为研究对象,构建考虑了金融网络指标的信息技术类上市公司企业财务危机预测模型。为解决市场信息难以捕捉的问题,研究采用股票收益信息显示市场变化,并将股票信息以网络指标的形式输入预测模型。为了发挥集成算法在FDP模型中的作用,同时解决单一分类器无法充分使用数据的问题,本文采用lightGBM集成算法构建预测模型,并提出了基于lightGBM算法的调参集成策略。通过参数调节,获得五个lightGBM模型,模型最终的预测结果由经典投票法选择。选取102家企业进行实证研究,结果显示,包含网络指标的lightGBM模型预测效果更好,且其它模型在引入网络指标后,准确率和召回率也明显提升;相比于基础lightGBM模型,经过调参集成的模型准确度有所增加,且明显高于其他常用的财务危机预测模型。网络指标的优异性说明股票信息能够提高模型的预测效果,即含有市场信息的指标适用于信息技术类企业财务危机的预测。lightGBM调参集成策略也为FDP研究提供了新思路。

猜你喜欢
财务危机准确率金融
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于LASSO-LARS的上市公司财务危机预警模型研究
何方平:我与金融相伴25年
君唯康的金融梦
高速公路车牌识别标识站准确率验证法
拿什么拯救中年财务危机
基于遗传算法和LS-SVM的财务危机预测
内部控制与财务危机预警耦合——基于外贸企业内部控制与风险管理问题的研究