何胜美 方茂扬 王响
摘 要 1:1样本配比的财务预警模型的系数和概率估计是有偏的,全市場公司的样本数据又高度不平衡.为克服两类样本不平衡给预警模型带来的影响,引入公司误判代价分析,以ST公司误判代价为权重,通过最小化加权的对数似然损失函数,建立误判代价加权的Logistic回归财务预警模型.实证结果表明,误判代价加权的Logistic回归模型具有较好的预警效果,2007年的训练样本上正常公司和ST公司的识别率为89.43%和93.33%,2008年测试样本上两类公司的识别率分别为:92.1%和95.83%.
关键词 数理经济学;财务预警模型;加权Logistic回归;不平衡数据
中图分类号 F061.5文献标识码 A
Abstract The estimated coefficients and probability are biased in Prediction of Financial Distress with traditional 1:1 sample ratio,and the sample data based on the whole market is highly imbalanced.So in order to overcome the influence of imbalance,the misclassification cost of two kinds of companies was analyzed.Taking misclassification cost of ST Company as the weight,minimizing the weighted log likelihood loss function,a weighted Logistic regression model was used in Prediction of Financial Distress.The empirical results show that the weighted Logistic regression model has perfect effect.The recognition rate between normal financial company and ST company on training data in 2007 year was 89.43% and 93.33%,respectively;while the recognition rate of the two types of company is 92.1% and 95.83%,respectively,in the independent test sample in 2008 year.
Key words mathematical economics;financial distress prediction;weighted logistics regression;imbalanced data
1 引 言
企业财务预警实证研究方法一般有如下几种:单变量模型(如一元判别模型),多变量模型(如多元线性判别模型、多元逻辑回归模型、多元概率比回归模型、基于现代机器学习的判别模型),逐步深入的研究,取得了许多典型的成果.
早在上世纪三十年代,国外就开始了企业财务预警研究.Fitzpatrick P J(1932)[1]首次以财务比率预测财务困境.Beaver W(1966)[2]也利用单变量分析法建立财务预警模型,发现可以提前至少5年对公司财务困境进行预测.针对单变量分析的局限性,Altman E(1968)[3]提出了著名的多元Z值判定模型(称为Z-score模型),为客观地评价企业财务状况开创了一种新思路.为了克服线性判别模型对预测指标有着严格的联合正态分布要求这一局限性,Martin D(1977)[4]引入Logistic回归分析法建立企业财务预警模型,Ohlson J A(1980)[5]尝试试用Probit模型来建立财务危机预警模型.上世纪九十年代以后,由于人工智能技术的发展,神经网络开始被引入财务预警研究当中,被证实有一定的预测能力,比如Odour M D(2012)[6]等.吴世农(1986)[7]在我国首次撰文介绍企业破产的财务分析指标与预测模型之后相关的研究报告.陈静(1999)[8]借鉴了Altman E的财务困境模型,利用单变量分析和判别分析的fishin准则得出判断函数,标志着国内研究财务困境问题的开始.张玲(2000)[9]选取了沪深两市14个行业120家上市公司为样本,从15个财务比率指标中选择了4个指标构建预警模型,研究发现模型具有超前4年的预测结果.吴世农(2001)[10]分别利用多元判别分析、线性概率分析和Logistic回归分析进行建模预测,研究结果表明Logistic预测模型效果最好.杨宝安(2001)[11]针对判别分析存在的问题,引入人工神经网络构建模型.各种人工智能包括机器学习的方法陆续引入到相关研究当中,如李秉祥提出的组合预警模型;郭德仁(2009)[12]构建了基于模糊聚类和模糊模式识别的模型;蒋盛益(2010)[13]基于机器学习理论,探讨了贝叶斯网络、决策树、基于规则分类、最近邻分类、多层感应机、BP神经网络和Logistic回归在企业财务预警研究中的实证效果.尽管财务预警研究取得了长足发展,吴星泽(2011)[14]总结分析研究现状,提出以往研究在研究框架上也存在一定的问题.
第2期何胜美等:基于误判代价加权的Logistic财务预警模型研究
首先,在样本的选择上存在一定问题.市场上正常公司样本和财务不正常公司样本比例往往是很高的,以2017年5月沪深上市公司为例,共有3241家非ST公司(财务正常),而ST和*ST公司只有74家,正常公司和陷入财务困境公司比例约为43:1.但过往大部分研究样本采用1:1样本配对,选择样本时,先选定好财务失败的公司做为负类样本,然后根据一定规则,从财务正常的公司中按照1:1比例选择正常公司配对,形成总的研究样本.这种样本的选择(尤其是正常公司样本的选择)是非随机的,它会导致模型系数和概率的估计有偏(Zmijewski M E,1984)[15],吴星泽[14]从Bayes定理证明了这一点,彭大庆(2006)[16]的实证研究也说明这个问题.但如果对于正常公司的选择采用随机抽样,那么建立起来的预警模型效果将受到随机抽样的影响,这样得到的预警模型不稳定,结果也不可靠(何胜美等,2014)[17].所以单纯1:1样本配对建立财务预警模型不太可行.如果采用全样本建模,那么样本比例不均衡(当前沪深上市公司约为43:1).对于高度不平衡的数据集的分类,训练的识别模型将严重偏向样本数量多的类,从而导致数量少的类的识别效果偏低(Hai-bo H,2009)[18].何胜美等(2014)[17]研究表明,不加处理采用全样本建立的财务预警模型几乎将所有的ST公司误判成了正常公司,同时能保持很高的总体识别率.无论对于企业管理者还是投资者,都是不可接受的.针对这问题,SMOTO和Bagging算法引入到财务预警研究当中,一定程度上改进了上述问题.