王文胜,沈 超
(杭州电子科技大学 经济学院,浙江 杭州 310018)
自我国经济从高速向高质量发展转型以来,经济进入新常态,增速逐渐放缓,企业管理水平面临巨大挑战。部分企业经营效率低下、对外界市场不确定性的应变能力不足,导致企业财务危机屡见不鲜,不仅破坏企业稳健运营,同时也损害了广大投资者的利益,故建立科学高效的财务预警模型,推动企业在危机恶化前采取有效措施,对企业和投资者双方都有积极意义。
上市企业财务预警本质上归属二分类问题,预警模型主要分为两类,统计模型和机器学习。前者包括单变量预测[1]、多元判别分析[2]等,后者包含逻辑斯蒂回归(Logistic)、支持向量机(SVM)等。与统计模型相比,机器学习能够更有效地处理数据间的复杂关系,准确率更高[3],逐渐成为主流。Ohlson[4]采用Logistic对企业财务危机进行预警,并对样本企业输出破产概率,证明Logistic有效性;方匡南等[5]针对财务指标间的网络结构关系,构建基于网结构的Logistic模型;李长山[6]利用因子分析和Logistic建立风险预警,着重强调企业的获利能力和偿债能力;朱发根等[7]首次将SVM运用于高新技术上市公司财务预警,整体准确率高达90%;刘玉敏等[8]结合粒子群优化算法改进传统SVM,精确寻找最优参数,模型预测效率得到提升。但Logistic、SVM在财务预警领域仍存在一些难以克服的缺陷:Logistic决策面是基于线性的,难以处理财务预警这类非线性问题,并且其对样本量大小要求比较高,现实中往往无法满足;SVM能较好适应非线性、小样本场景,但其核函数、超参数选取困难,往往需要借助粒子群优化、遗传算法等[9]参数寻优方法。因此有必要讨论一种新的有效方法来识别财务风险问题。
高斯过程分类(GPC)是一种新颖性的非参概率分类算法,理论基础严密,具备计算简单、参数自适应获取、后验概率估计更加精确等优势,同样适用于非线性、小样本场景。Huang[10]利用变分高斯过程分类对信用评级进行预测,每年最低预测错误率GPC均优于Logistic、SVM等;Antunes等[11]针对财务破产概率进行分析与可视化,相比Logistic、SVM,GPC除更鲜明的概率解释外,破产预测准确率更高,表明GPC在财务预警领域具有可行性。
财务预警领域普遍存在数据不平衡性,即正常企业数远远大于风险企业。若使用不平衡样本直接建模,会导致分类结果偏向多数类[12]从而丢失模型预警能力。王泽霞和李正治[13]采用配对样本方式解决数据不平衡,检验管理层语调是否能改善模型预警效率;但数据进行配对时,会丢失部分多数类样本信息。熊毅和张友棠[14]运用全部样本构建Logit模型,通过确定F计分临界值进行预警;模型处理全部不平衡样本时,分类阈值会发生偏移,Provost[15]提出阈值移动可解决不平衡问题,但阈值的确定较为困难。聂瑞华和石洪波[16]通过SMOTE对数据进行预处理,反复试验确定过采样比例,再结合贝叶斯网络进行分类,在平均准确率和标准差方面取得较优结果;过采样能缓解数据不平衡性,但其抽样比例需反复试验确定,若选取不当,结果会适得其反,此外过采样还会破坏原始数据结构,增加噪声引入的可能性。Huang等[17]构建组合核函数,在特征加权基础上运用单类支持向量机(OCSVM)构建财务困境预测模型;OCSVM属于新颖性检测,建模时仅运用到单一类别样本,而财务预警归属二分类,亦会丢失部分样本信息。
此外,财务预警领域代价敏感问题也不容忽视,在现实中,风险企业的错分代价往往大于正常企业。张涛等[18]构建样本依赖矩阵,通过最小风险贝叶斯决策对分类结果进行后处理,实现代价敏感,在UCI标准信用数据集上取得优良结果;罗康洋和王国强[19]利用改进MRMR算法结合代价敏感支持向量机建模预测,少数类识别率有所提高;马彪等[20]将代价敏感引入变分高斯过程中,在传统GPC联合似然函数上引入不同权重系数,使得错分少数类样本的代价大于错分多数类样本的代价,最终实现改善少数类样本预测精度的目的。
文献回顾发现,从模型选取来看,GPC相对于传统Logistic、SVM模型具备非线性拟合能力强,超参数自适应获取等优势,但其在财务预警领域的应用研究不多;从样本不平衡角度来看,配对样本和单类学习会丢失部分样本信息,阈值移动和过采样则是临界点和抽样比例难以确定;从代价敏感角度来看,已有学者证明加权高斯过程分类算法的有效性,但并未运用至财务领域实证研究,并且其样本的权重矩阵设定困难。因此,本文首先将GPC应用于财务预警领域;其次针对数据不平衡性,以配对样本为基础样本,运用单类支持向量机充分挖掘剩余正常企业蕴含的信息,以此形式综合考虑整体样本;最后,利用训练好的OCSVM对配对样本进行异常检测,凭借输出的异常分数进行样本权重矩阵设定,结合加权高斯过程分类构建财务预警模型,以此检验GPC能否提高财务预警效力以及剩余正常企业样本是否包含财务预警的信息增量。
财务预警数据中正常企业数量远多于风险企业,本文以配对样本为基础样本,采用单类支持向量机模型(OCSVM)挖掘剩余正常企业信息。OCSVM是标准支持向量机的变体形式,对数据异常值点具有出色的识别能力。其有两种学习形式,超球法和超平面法,本文采用超球法。它将样本数据通过核函数映射至高维空间,使得大部分样本尽可能被包含在超球体区域内,少部分点位于超球体外。若样本点落在区域内,则认为该点为正常点,反之则为异常点。涵盖剩余正常企业的超球体表达式如下:
(1)
其中a表示球体中心,R表示球体半径,ξi表示松弛变量,其允许将超球体区域外的部分点视为正常点。为平衡球体体积与目标样本数量,添加惩罚项系数C,因此目标函数为:
(2)
通过引入拉格朗日乘子,将式(1)代入式(2),构建拉格朗日函数,然后通过偏导求极值。最终目标函数简化为:
(3)
(4)
由式(3)、式(4)解出αi便可知球体中心α、R,当样本点与α之间距离大于R,则视为异常点;反之,则视为正常点。在财务预警领域,异常点即代表风险企业,利用训练好的OCSVM对配对样本进行异常检测,输出异常分数并对其归一化至0-1区间,用score表示,用于权重设置。score越小,样本点属于异常点的几率就越大。基于错分代价敏感思想,通过加大异常点的样本权重以期望提高风险企业识别率,参考孟安波等[21]的做法,权重表达式如下:
ui=exp(1-scorei)
(5)
高斯过程分类(GPC)是结合贝叶斯方法和核技巧的非参概率分类算法,通过训练数据对目标变量的后验概率进行建模,再采用非线性映射函数将隐函数值转换至0-1之间。相比于传统Logistic、SVM等模型,GPC非线性求解能力出色,参数自适应获取,模型收敛能力更强。假设X为样本的特征空间,D={(x1,y1),(x2,y2),…,(xn,yn)}为训练数据集合,其中n表示样本个数,xi∈X,yi∈[-1,1]。
1.先验分布
二元分类基本思想为确定潜在映射函数f(x),对测试样本进行分类。高斯过程分类便假定f(x)为一个高斯过程,即在f(x)上添加零均值,协方差为K的高斯分布先验,即f(X|θ)~GP(0,K),相应的概率密度函数可表示为:
(6)
其中K表示协方差函数,也称作核函数,本文采用平方指数协方差函数,其表示如下:
(7)
式(6)的θ={σf,l}表示超参数,可通过极大似然估计自适应获得。
2.加权联合似然函数
传统二分类中,样本属于某标签的可能性用条件概率表示:
p(yi|fi)=φ(yifi)
(8)
(9)
其中φ表示挤压函数,将输出值转化为概率值,一般采用Logistic回归函数,形式如式(9)所示。基于样本独立性假设,二分类样本y服从伯努利分布,其联合似然函数表示为:
(10)
财务预警领域错分代价敏感,为提高风险企业识别率,结合经OCSVM处理后所得的样本权重ui,改进为加权联合似然函数[22]:
(11)
3.后验分布及其Laplace近似
根据上述先验分布以及加权联合似然函数,结合贝叶斯原理可得后验分布:
(12)
那么,与x*对应的潜在函数f*的后验分布为:
(13)
计算过程中后验分布p(f|D,θ)积分困难,参考文献[23]使用Laplace进行高斯近似,最终f*的近似后验分布为:
(14)
4.概率预测
最后,通过f*的近似后验分布进行预测:
(15)
(16)
本文数据来源为国泰安数据库,以沪深A股制造业上市企业为研究对象,选取其在2016—2020年的经营状态为样本,以被特殊处理作为风险的标志,ST企业记为1,正常企业记为0。参照石晓军等[24]做法,以t-2年的财务数据预测t年是否会被特殊处理,因此选取2014—2018年财务数据进行匹配。样本共搜集ST企业91家,正常企业546家,按照1:2配比原则,随机选取182家正常企业与91家ST企业配对,其余364家正常企业作为剩余样本用作异常检测。获取总体样本之后,需进行数据预处理,主要包括:一是对缺失值进行填补,运用指标均值进行填充;二是对各项指标进行归一化处理。
参照文献一般做法,从偿债能力、发展能力、经营能力、盈利能力方面共选取25个初始变量,具体如表1所示。
表1 初始候选变量
1.指标双重显著性检验
针对初始变量能否有效区分ST与正常企业进行双重显著性检验,即双样本Kolmogorov-Smirnov(K-S)检验和Mann Whitney-U(MW-U)检验。两样本K-S检验其分布是否存在显著差异,MW-U检验两样本均值是否存在显著差异,初始变量的双重显著性检验结果如表2、表3所示。
表2 K-S检验结果
表3 MW-U检验结果
为保证变量筛选严格性,只有当某指标在双重检验中结果均不显著才会被剔除,综上结果保留所有变量。
2.主成分提取
多指标建模会存在多重共线性问题,导致模型预测精度下降,因此采用主成分分析提取主成分,避免多重共线性。运用整体样本进行主成分降维,KMO统计量值为0.719,Bartlett球形检验显著性为0;以80%累计方差贡献率作为提取标准,共选择12个主成分,累计方差贡献率为81.51%。
本文将风险企业记作正例,用1表示;正常企业记作负例,用0表示。TP表示实际为正例预测也为正例的样本;FN表示实际为正例但预测为负例的样本;FP表示实际为负例但预测为正例的样本;TN表示实际为负例同时预测也为负例的样本。由此可计算FPR、TPR,FPR表示实际为负例但预测为正例的比例,TPR表示实际为正例预测也为正例的占比。Roc曲线下方面积大小(AUC)为TPR、FPR构成的曲线面积大小,通常以此度量模型对正负例样本的区分能力,AUC值越大,模型分类效果越好;在数据平衡情况下,准确率(ACC)能较好反映对正负例样本整体的分类精度;召回率(Recall)则更注重少数类识别率,表示实际为正例的样本中被预测为正例的样本比例,1-Recall即表示第一类错误率(弃真),Recall越高,第一类错误率越低,对风险企业识别率越高。在现实生活中误判风险企业的代价往往比误判正常企业高得多,因此着重关注Recall。故本文选用三项指标AUC、ACC、Recall作为分类评价标准,均由混淆矩阵给出,具体表达式如下:
表4 混淆矩阵
(17)
(18)
AUC=AreaTPR-FPR
(19)
(20)
(21)
从配对样本的91家ST企业和182家正常企业中,随机选取64家ST企业和127家正常企业作为训练样本,剩余27家ST企业和55家正常企业作为测试样本。通过python进行模拟实验,预测结果如表5所示。
表5 预警模型训练和测试结果
从表5测试集表现可看出,未引入OCSVM异常权重时,使用Logistic模型27家ST企业中有8家企业被误判,55家正常企业中有5家被误判;使用SVM模型27家ST企业中有8家企业被误判,55家正常企业中有4家被误判;使用GPC模型27家ST企业中有10家企业被误判,55家正常企业中有2家被误判,表明相较于Logistic和SVM,GPC对正常企业识别率更高,而对风险企业识别率稍有不足。从整体测试集表现来看,GPC与SVM优于Logistic模型,均达到85.4%,结合图1来看,未引入剩余正常企业信息时,GPC的AUC达到0.929 3,优于Logistic、SVM,表明GPC模型对于上市企业财务风险具有良好的预警效果。
现实中往往存在代价敏感问题,风险企业的识别率高低占据主导。综合考虑剩余正常企业信息,引入OCSVM异常检测后,结合GPC,27家ST企业中仅有8家企业被误判,55家正常企业中有2家被误判,风险企业识别率从63.0%提升至70.4%,整体预测准确率从85.4%提升至87.8%。结合图1来看,引入剩余正常企业信息后,OCSVM-GPC的AUC进一步提升至0.934 7,表明GPC融入剩余正常企业信息后,模型预测效力进一步提高,在建模时需综合利用整体样本信息,仅使用配对样本会导致部分信息增量丢失。
图1 Roc曲线
进行稳健性检验,排除因训练集、测试集划分不一致而导致的结果偏差。进行100次不同的子集划分,划分比例均保持7 ∶3,观察其AUC、ACC、Recall均值及标准差,试验结果如表6所示。
表6 稳健性检验结果
由表6结果可知,GPC在AUC、准确率方面均优于Logistic和SVM,但Recall方面处于劣势;引入剩余正常企业信息后,AUC、准确率相对于GPC进一步提高,Recall也显著提升。这表明初始状态下GPC对于风险企业识别率低,而引入剩余正常企业信息后,能明显提高风险企业识别率,从而提升整体预测准确率,该结论与表5所得结论相一致。从标准差来看,SVM、GPC、OCSVM-GPC的稳健性不相上下,均优于Logistic。
本文首先借鉴GPC分类方法的优势,将其引入财务预警领域;其次针对配对样本会造成部分正常企业样本信息丢失的局限性,采用OCSVM构建异常检测模型,充分挖掘剩余正常企业信息;再次,利用训练好的OCSVM对配对样本输出异常分数,构建样本权重矩阵,并将样本权重矩阵与加权高斯过程分类模型结合,实现代价敏感;最后,选取沪深A股制造业上市企业2016—2020年的数据进行实证分析,结果表明,OCSVM-GPC模型相较于Logistic、SVM和传统GPC来说,风险企业识别率更高,整体分类准确率也更高。本文的主要结论为:
1.GPC整体预测效力优于Logistic和SVM
从整体准确率来说,GPC、SVM均达到85.4%,均优于Logistic的84.1%;从风险企业识别率来说,GPC仅为63.0%,劣于Logistic、SVM的70.4%;从正常企业识别率来说,GPC为96.4%,远高于Logistic和SVM的90.9%、92.7%;从AUC来说,GPC为0.929 3,高于Logistic、SVM的0.823 6、0.909 1。综上,GPC存在风险企业识别率不足的缺陷,但其整体识别率与SVM相持平并高于Logistic,在AUC指标上优于Logistic和SVM。因此GPC整体预测效力优于Logistic和SVM,也进一步说明GPC在财务预警领域的适用性。
2.样本配对时,丢失部分样本信息中包含财务预警的信息增量,应考虑整体样本
本文以配对样本为基础样本,创新性地引入OCSVM异常检测模型来充分挖掘部分剩余企业信息。利用OCSVM模型输出配对样本点的异常分数,进行样本权重矩阵的设定,并结合样本权重矩阵和加权高斯过程分类,实现代价敏感。实证结果表明,在数据划分不变情况下,综合考虑剩余部分企业信息后,OCSVM-GPC对于风险企业识别率为70.4%,远高于传统GPC;整体分类准确率达到87.8%,高于Logistic、SVM和传统GPC。因此建模时,单单考虑配对样本有失偏颇,需综合考虑整体样本信息,异常检测输出样本权重矩阵结合代价敏感类模型为此提供了一种解决思路。