李星辰 王青龙 林国庆
摘 要:当前我国上市公司信息披露仍存在着许多不规范的现象,个别上市公司在面临财务危机时,粉饰其财务风险,进行财务造假。本文利用上市超过3年的A股共3002家上市公司的财务数据,通过对ST、*ST和10家2019年退市的公司样本分析,根据不同的时间窗口,构建了财务预警因子库,共96个因子。分别采用机器学习中的逻辑斯蒂回归、支持向量机、决策树模型对因子数据进行训练。将数据集分为训练集和测试集,用训练集训练模型,并将模型应用在测试集中进行预测。结果如下:(1)三种模型均有较好的预测能力,其准确率都在94%以上;(2)决策树模型的预测效果最佳,支持向量机模型次之,逻辑斯蒂回归模型的预测效果最差;(3)三种模型都存在将较多的财务预警公司预测为正常公司的情况。本文通过将三种模型进行对比分析,以寻找更加优质的财务预警模型,来更好地帮助企业识别财务风险。
关键词:财务预警;机器学习;逻辑回归模型;支持向量机模型;决策树模型
引言:目前,我国宏观经济正面临着下行压力,许多企业在大形势下都面临着融资困难和财务风险暴露的问题,目前我国上市公司信息披露仍存在着许多不规范的现象,因此,识别可能进行财务造假的公司,有助于帮助投资者合理投资,更有利于维护经济社会的健康良性发展。
由于企业财务风险暴露是有征兆的,所以企业的财务危机是可以预测的,因此本文基于大数据和机器学习方法,构建识别上市公司财务造假的三种不同的财务预警模型,通过对比分析得出更有价值的财务预警模型,这能帮助企业识别财务风险,有助于实现财务状况的良性循环,具有巨大的应用价值。
一、数据处理与因子库构建
1.数据来源
本文样本公司的相关财务数据主要来自锐思RESSET数据库以及同花顺金融数据库。我们选取了3002家A股上市公司以及10家2019年退市的上市公司的相关数据作为样本,考虑到上市不满三年的公司,业绩变动幅度可能相对较大且业绩表现不够稳定,因此将其剔除。
2.構造因子库
根据国内外已有的关于上市公司财务造假的相关研究成果,结合定性分析和定量分析,从企业的偿债能力、营运能力、盈利能力以及其他能力等四方面,提取出30个相关财务指标作为可提取因子。由于对出现风险暴露或者已退市的上市公司来说,出现财务问题年度的前三年是公司财务状况发生变化的重要转折点,因此我们选取了最近3年-5年的上市公司年度数据,将选取的财务指标进行不同年度的处理,最终形成了包含96个可提取因子的因子库。
二、模型构建
根据现有研究,国内学者建立的财务预警模型较多,不同模型具有其自身优缺点,其中利用逻辑斯蒂回归、支持向量机和决策树方法的研究受到较多关注,因此本文选择这三种模型进行对比分析。
1.逻辑斯蒂回归模型
(1)模型概述
逻辑斯蒂回归(LR)是在进行数据挖掘时经常使用的一种分类模型,该方法的基本原理为:在线性回归的基础之上,与sigmoid函数两者相结合,利用极大似然函数估计回归参数w和b,公式如下所示:
(2)模型的计算和结果分析
本论文通过Matlab中的机器学习工具箱求解。LR模型所得结果的准确率如下表所示:
由上表可知,LR模型在训练集和测试集中所得的准确率分别是94.8%和92.38%。
训练集和测试集的混淆矩阵如下表所示。
由上表4可知,LR模型在全样本中的准确率为94.39%,精确度为38.58%,召回率为32.67%,F值为35.38%。由此可知,召回率并不高,其判断的精确度为35.38%,相对较低。从总体结果看,无论是训练集还是测试集准确率都在92%以上,体现出较好的总体准确率,该模型对发生财务预警的公司预测结果则较差,而对未发生财务预警的公司预测较准确。
2.支持向量机模型
(1)模型概述
支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。支持向量机属于有监督学习模型可以用于数据的分析、分类、回归以及检测异常值。
(2)模型的计算和结果分析
SVM模型所得结果的准确率如下表所示:
由上表5可知,SVM模型在训练集和测试集中所得的准确率分别是95.72%和93.55%。与LR模型的准确率相近。
由表7可知,SVM模型在全样本中的准确率为95.35%,精确度为59.26%,召回率为21.33%,F值为31.37%。由此可知,比LR模型召回率低11.34%,其判断的精确度为59.26%,相对LR模型较高。
3.决策树模型
(1)模型概述
决策树是在进行数据挖掘时经常使用的分类和预测方法,该方法的基本原理为:根据算法规定的分类条件对整体数据进行分类,产生一个决策节点,仍然按照该算法规则分类,在下一个决策节点重复上述操作,运算到无法继续分类为止。而对于Boosted Tree算法为,每添加一次树,即为学习一个新的目标函数,在这棵树上寻找最佳节点进行特征分裂。
(2)模型的计算和结果分析
由上表可知,Boosted Tree模型在训练集和测试集中所得的准确率分别是96.32%和95.51%。在三个模型中的准确率最高。
由上表可知,Boosted Tree模型在全样本中的准确率为96.18%,精确度为68.82%,召回率为42.67%,F值为52.68%。
三、总结
本论文针对上市公司的财务预警问题,构建因子库,分别采用了机器学习中的逻辑斯蒂回归法、支持向量机方法和决策树方法,对训练集进行了分类,并用测试集进行预测,结果对比如下表所示。
由上表可知,三种模型具有较高的准确率,均在94%以上,其中Boosted Tree准确率最高;精确度则差距较大,Boosted Tree模型最高;同时Boosted Tree模型具有高达42.67%的召回率。从上表的结果对比可以看出,尽管三种模型都对财务预警问题具有相当的预测能力,但上述三种模型预测能力由优到劣依次为:决策树模型、支持向量机模型、逻辑斯蒂回归模型。因此通过本文论述研究,认为决策树模型对公司进行财务预警是较好的选择。但是本文还有改进之处,一方面由于部分上市公司的财务数据不够真实,另一方面可能来自数据的滞后性,致使对财务造假公司预测效果精确度有所不足,针对这一问题笔者将会进一步改进。
参考文献:
[1]张玲玲.A股上市公司财务预警模型对比研究——基于logistic回归和BP神经网络模型[J].环渤海经濟瞭望,2019(09):165-166.
[2]田珅,陈文熙.房地产退市风险企业财务预警研究——基于主成分分析与logistic模型对比[J].沈阳建筑大学学报(社会科学版),2019,21(04):376-381.
[3]姚欣.Z模型在我国上市公司财务风险预警中的适用性研究[J].会计师,2019(13):22-23.
[4]徐碧莹,程昔武.基于Logistic回归模型的建筑业上市公司财务风险预警分析[J].景德镇学院学报,2019,34(03):1-4.
[5]王元月,景在伦,刘伟.KMV模型在渔业上市公司财务预警中的运用——以獐子岛为例[J].中国渔业经济,2019,37(03):56-61.
[6]郑玉玉.“互联网+”背景下ZA信息技术公司财务风险预警研究[D].东华理工大学,2019.
[7]胥光华.基于机器学习构建的公司财务预警系统研究[D].厦门大学,2014.
[8]王媛媛.基于因子分析与支持向量机的上市公司财务危机预警研究[D].西安电子科技大学,2012.
[9]梁小红.财务危机预警的SVMs模型研究——基于我国制造业上市公司经验数据[J].福建论坛(人文社会科学版),2011(12):37-41.
[10]刘彦文.上市公司财务危机预警模型研究[D].大连理工大学,2009.
作者简介:李星辰(1998- ),天津科技大学本科生,主要研究方向:产业金融、国民经济;王青龙(1998- ),天津科技大学本科生,主要研究方向:计算数学与数据分析;林国庆(1997- ),天津科技大学本科生,主要研究方向:数据挖掘