基于随机森林的创业板与主板上市公司财务数据比较研究

2018-01-23 12:57王瑞臻林婧
中国市场 2018年2期
关键词:随机森林财务数据上市公司

王瑞臻+林婧

[摘 要]文章利用四种不同的分类模型Logistic模型、决策树模型、BP神经网络以及随机森林对2015年创业板与主板上市公司差异性财务数据进行了识别。研究发现不同的识别方法,识别结果有一定差异,在识别差异性数据的此类问题上,随机森林具有一定的优势。随机森林识别出的两板差异性数据主要有速动比率、流动比率、应收账款周转率等。

[关键词]随机森林;上市公司;财务数据;差异性识别

[DOI]10.13939/j.cnki.zgsc.2018.02.188

1 引 言

2009年启动创业板,至今已有600多家公司成功发行。虽然创业板与主板市场的准入条件、交易规则以及投资者特征等方面不同,但可以根据统计财务数据对两市场进行对比研究,找出两个市场在哪些方面存在差异,分析差异的原因,并通过彼此之间的借鉴来加以完善,这对我国股市持续稳定的发展具有参考价值。为识别出两板上市公司差异性财务数据,通常涉及传统的ANOVA方差分析,与此同时,分类模型可为此类问题提供一种方法。分类问题在医学、经济管理等领域经常涉及,针对这一类问题通常采用统计学方法Logistic进行分析。近年来,越来越多的机器学习方法对分类模型给出了新的解决方案,常见的机器学习分类模型如决策树模型、BP神经网络、随机森林等,一般来说,建立的分类模型是用来预测。但无论是Logistic模型还是上述的机器学习都可以对输入的变量按重要性提取出关键变量,这对我们识别创业板与主板上市公司的差异性财务数据提供了另外一种可行的方法。进一步通过上述多类模型的比较,可以选取出适合差异性差别的方法。

2 变量选择与数据预处理

2.1 研究对象

本文财务数据来自国泰安数据服务中心中国上市公司财务指标分析数据库,剔除一些异常上市公司和极端值后,选取2015年创业板的491家上市公司,1249家主板上市公司,共计1740个观测值。由于本文是为了识别差异性财务数据,充分使用数据进行建模,所以把所有数据作为训练样本进行训练且充当检验样本进行检验。

2.2 变量选择

依照选取财务指标的全面性、重要性、科学性的原则从上市公司共选取30个财务指标,如表1所示。

即使其中有的指标之间可能高度相关 ,但本文采用的方法比较均能较好地处理高度相关性,选取较多的财务数据将尽量包含比较多的信息 ,尽可能多地从各方面识别出主板与创业板上市公司的差异性财务数据。

2.3 缺失值处理与数据标准化

缺失值对于上述模型有着很显著的影响,为了降低这一影响,利用统计软件SPSS19.0中的以缺失值邻近点的算术平均值进行替代。再对所有指标进行标准化处理。采用Z-score标准化方法也叫标准差标准化,经过处理的数据符合标准正态分布,即均值0,标准差为1,其转化函数为:

其中σ用所有样本数据的标准差估计,μ用所有样本数据的均值估计。

3 基于随机森林的差异性指标识别

随机森林算法是组合分类模型中的一种,该分类器最早由LeoBreiman和AdeleCutler提出。随机森林是由很多CART决策树分类模型集成的组合分类模型,在给定自变量X后,每个决策树分类模型都有一票投票权来选择最优的分类结果。其基本步骤为:首先利用Bootstrap重抽样方法从原始训练样本中抽取n个样本,且每个样本的容量都与原始训练集中的样本个数相同,对n个样本建立n个CART决策树模型得到各个分类结果,最后投票记录并决定最终分类结果。随机森林的每棵树都不剪枝,让其充分生长,最终的模型结果是对所有的决策数的结果的简单平均。

在R3.33版本中利用程序包RandomForest可以快速地对数据进行建模。随机森林变量重要性识别的方法是置换精度重要性,其原理是:随机删减某些变量,这时如果预测精度大大降低,则说明该变量特别重要。首先使用RandomForest函数,使用样本量为500(Ntree=500),对每个样本建立一棵决策树,并按照置换精度重要性输出自变量重要性。

自变量重要性如表2所示,重要性大小的从大到小排序前十位依次为:速动比率、流动比率、应收账款周转率、市销率、市净率、本利比、总资产增长率、资产负债率、股东权益比率、产权比率。

4 不同分类模型比较

4.1 分类模型拟合混淆矩阵

根据综上建立的四个分类模型输出的混淆矩阵,进行汇总得到表3。分类模型的拟合判别正确率会对差异性指标的识别造成影响。

从拟合效果分析来看,随机森林拟合效果最好为100%,其次分别为BP神经网络、决策树、Logistic模型,這样的结果通常是可以理解的。

4.2 分类模型优劣分析

第一,Logistic模型作为传统的统计方法,其特点是识别线性特征,对于非线性特征的处理存在一定的劣势。

第二,决策树对于识别非线性特征有优势且易于理解和分析,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,但其对异常值过于敏感, 很容易导致树的结构的巨大变换。

第三,BP神经网络其非线性映射能力非常强,能够处理内部机制非常复杂的问题,并且容错能力也很有优势,在部分神经元被破坏的条件下依然能够保持较高的精度。但其缺点也是很明显的,神经网络结构选择不一会导致每次训练得到不同结果的,同时模型复杂不易理解。这给神经网络的应用在一定程度上造成了一些影响。

第四,随机森林作为组合模型针对差异性指标识别问题有着很大的优势,随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标。由于随机森林在每棵树的每个节点仅仅随机选择少数变量来竞争拆分变量,限制了强势变量,很多变量都进入了决策树,这对随机变量的误判率降低提供了很大的帮助。更重要的是在识别差异性指标这类问题,随机森林这种节点竞争变量随机限量选择的做法使得一些弱势变量可以有机会参加建模,这对差异性指标的识别效果的提升帮助很大。除此之外,随机森林的训练速度快也是其受欢迎的一个原因。endprint

5 差异性指标比较分析

随机森林识别的差异性指标前四位为速动比率、流动比率、应收账款周转率与市销率。其中流动比率与速动比率反映的是上市公司短期偿债能力;应收账款周转率通常反映上市公司的营运能力;市销率通常能够反映成长能力。结合相关参考文献,得到如下结论。

5.1 流动比率与速动比率

流动比率与速动比率通常反映企业偿还短期债务的能力。从上市公司经营者角度来看:首先,流动比率越高意味着过多的资金滞留在持有的流动资产上,就会影响资金在生产经营过程中高效地运转。从比较数据来看创业板上市公司的流动比率远远高于主板上市公司,主板上市公司的流动比率在正常范围内,而创业板上市公司的流动速率超出正常营运需求,这就意味着大量资金停留在流动资产上。创业板没有合理充分地运用超募资金,创业板上市公司规模较小,会发生资金筹集到手但新创意和新项目却未产生的情况。速动比率的高低能直接反映企业的短期偿债能力强弱,它是对流动比率的补充,通过对速动比率的差异也进一步印证了上市公司超募的情况。

5.2 应收账款周转率

应收账款周转率能够反映企业营运能力,其值越高,表示平均应收账款周期越短,资金回收越快,所以一般来说,应收账款周转率越高企业营运能力越强。数据表明创业板营运资金过多呆滞在应收账款上,影响正常资金周转及偿债能力,进一步影响公司的营运能力。但在创业板超募的情况下,企业有超额的资金进行运营,这种应收账款风险并未暴露出来,进而也未影响到公司的正常运营。

5.3 市销率

市销率是总市值除以(年度)主营业务收入的值。一般来说,市销率越低,估值越低,上涨潜力越大。主板上市公司的市销率小于创业板的市销率,这说明创业板的估值水平相对主板来说要高,这与实际情况相符。通常认为创业板的成长性较主板有很大优势,其成长性优势通常反映市值估计,进而反映到市销率。

6 结 论

综上所述,本文从众多财务数据中识别出在两板块上市公司差异性数据,通过分类模型的比较发现,随机森林在解决此类问题上有很大的优势。通过随机森林识别出来的差异性财务数据显示,创业板较主板上市公司来说总体存在着超募、高估值以及营运能力较差的情况,这与实际情况相符。创业板与主板市场的准入条件、交易规则以及投资者特征等方面不同,进而导致财务数据上的差异。这种差异如果在合理的范围内是属于正常现象,创业板设立的目的是为中小企业提供上市融资的渠道,进一步激发中小企业在经济发展中的驱动作用。

参考文献:

[1]杨淑娥,黄礼.基于BP神经网络的上市公司财务预警模型[J].系统工程理论与实践,2005(1):12-18,26.

[2]陈善广,鲍勇.BP神經网络学习算法研究[J].应用基础与工程科学学报,1995(4):105-110.

[3]孟杰.随机森林模型在财务失败预警中的应用[J].统计与决策,2014(4):179-181.

[4]方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011(3):32-38.

[5]赵振顺.流动、速动和资产负债比率的分析及运用[J].会计之友,1995(1):34.

[6]潘宗英.基于杜邦模型的财务比较研究——来自主板与创业板上市公司的数据[J].财会通讯,2012(26):99-100.

[7]吴喜之.应用回归及分类:基于R[M].北京:中国人民大学出版社,2016:171-190.endprint

猜你喜欢
随机森林财务数据上市公司
2018上市公司中报主要财务数据(8)
2017上市公司年报主要财务数据(6)
2017年上市公司年报主要财务数据(1)
2018上市公司中报主要财务数据(3)
拱坝变形监测预报的随机森林模型及应用