基于Granger causality的VAR法填补财务面板数据研究

2020-12-23 07:01侯世君冯长焕文雯
中国商论 2020年16期

侯世君 冯长焕 文雯

摘 要:上市公司财务分析指标数据中有很多缺失数据,其会影响投资者、债权人、管理者及政府部门对上市公司的评价。考虑到传统的缺失值插补方法对财务数据填补效果不理想,提出了基于格兰杰因果关系的VAR法对上市公司财务数据填补,对比分析均值插补、EM插补、回归插补、多重插补,发现VAR法优于前述几种方法。

关键词:格兰杰因果关系  VAR插补法  EM插补  回归插补  多重插补

中图分类号:F275 文献标识码:A 文章编号:2096-0298(2020)08(b)--04

对于缺失值填补方法的研究,已有学者提出加权法、均值插补、热平台插补、冷平台插补、回归插补和模型插补等[1]。Kalton和Kish(1984)提出K近邻插补法,克服了热平台插补法的不足。20世纪70年代EM(Expectation Maximization)算法被Rubin等人提出。

20世纪80年代,Rubin总结并克服了EM算法的缺点,提出了多重插补法[2]。1998年Maren K. Olsen[3]在《Multiple  Imputation  for Multivariate  Missing-data problem》中提出了处理多个变量含有缺失值的多重插补法,并在实际运用中取得了良好的效果。金勇进[4]在《缺失值的插补调整》一文中介绍了演绎估计、均值插补、随机插补、回归插补和多重插补等一系列对缺失值的插补方法。袁中萸[5]选取某科学基金会研究学者年薪及评价各指标的数据,结合 SAS软件,通过估计多元线性回归模型参数的相对误差大小,比较了均值插补、EM算法、回归插补、多重插补4种缺失数据处理方法,在7种不同缺失率下的填补效果。程万伟[6]用稀疏表示的相关理论研究了时间序列缺失值的插补。潘传快、祁春节、李思璇[7]借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计提出Bootstrap多重插补法。张晓琴、王敏[8] 提出了主成分回归方法进行插补。

国内外对缺失值填补方法的研究很多,但鲜有对上市公司缺失财务数据填补进行研究。上市公司的财务数据反映了企业的盈利能力、偿债能力、成长能力和营运能力等财务状况。从历年上市公司各项财务比率指标来看,发现有很多缺失值。这些缺失的财务指标会影响对上市公司财务状况的分析。以往对公司财务指标评价的研究大都是通过直接删除缺失数据对应的公司或删除相应指标的方法,把删失后的数据进行综合财务指标分析。但这种方法往往会导致很多上市公司或指标未纳入分析。并且上市公司财务数据各项指标之间都有一定的关联,属于面板数据,用以往传统的插补方法效果不理想。本文针对这种情况,提出一种基于格兰杰因果关系的向量自回归法,填补上市公司财务指标缺失数据,以避免分析过程中出现上市公司或指标遗漏的情况。

1 相关理论

1.1 多重插补

利用多重插值的思想来对缺失值进行处理的方法起源于贝叶斯推断[9],多重插补作为一种基于重复模拟缺失值的方法,面对复杂的缺失值问题时,是最常用的方法。它的插补思想是, 给每个缺失值都构造m个插补值(m>1),从而产生了m个完全数据集,对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,得到最终的目标变量的估计。

多重插补可分为三个阶段:(1)对目标变量的估计。(2)创建完全数据集。(3)目标变量的确定。其中最关键的阶段为目标变量的估计,该阶段需要确定估计缺失值的方法,即缺失值是以何种方法或者模型被估计出来,该阶段直接影响统计推断的有效性[10]。

研究多重插补的方法有很多种,如插补值是由回归模型的预测值加上一个随机误差项结合而成的随机回归插补法[11]等。

1.2 格兰杰因果关系

格兰杰因果关系原理:当两个变量在时间上有先导—滞后关系时,可以从统计上考察这种关系是单向还是双向。如果主要是一个变量过去的行为在影响另一个变量的当前行为,存在单向关系;如果双方的过去行为在相互影响着对方的当前行为,存在双向关系。格兰杰因果关系检验假设了有两个变量Y和X的预测的信息全部包含在这些变量的时间序列中,检验要求估计以下回归:

2 财务数据的VAR分析

由于上市公司财务比率数据中各项指标性质不相同,通常具有不同的量纲和数量级,如每股收益(单位:元/股)、每股净资产(单位:元/股)、存货周转天数(单位:天)等存在不同单位;如主营业务利润率、息税前利润率(%)、流动比率、速动比率等不存在量纲影响。如果直接用数据进行分析,会突出数值较高的指標在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

将上述标准化后的数据进行格兰杰因果关系检验。对于面板数据,若指标序列与指标序列间存在格兰杰因果关系,标记这些序列为。选取具有格兰杰因果关系的指标利用软件进行向量自回归(常用EVIEWS,默认滞后两阶),可得到序列预测公式:

3 实证分析

3.1 数据来源

实验数据来自网易财经官网,选择1992—2018历年万科上市公司的年度财务报告数据表1、表2所示,选取的指标包括每股收益(摊薄)、每股净资产、每股资本公积金、每股销售收入、每股现金流量、主营业务利润率、息税前利润率(%)、流动比率、速动比率、利息保障数、资产负债率、主营业务增长率、主营利润增长率、净利润增长率、每股收益增长率、应收账款周转率、应收账款周转天数(天)、存货周转率、存货周转天数(天)、固定资产周转率、总资产周转率、净资产周转率等22个指标27年共594个观测值。

3.2 实验流程

3.3 数据预处理

3.3.1 标准化处理

为消除不同量纲对实验的影响,首先对有量纲的数据进行标准化处理,使所有数据处于同一数量级。对于原始数据,若有无量纲,则作为测试数据,若存在量纲(每股收益等),用式(3)对数据标准化处理,最终将所有数据都表示为比率这一数量级。将变换后的数据和无量纲的数据收集到同一个EXCEL表格中作为测试数据。

3.3.2 人为随机缺失

人为随机缺失几个数据作为对照数据,用于对比实验结果与真实值的相对误差(带有*的数据表示本文随机删失的数据)。

3.3.3 格兰杰因果检验

对财务数据各项指标进行格兰杰因果检验(为了方便在EVIEWS中操作,我们把各项指标标记为,分别代表每股收益(摊薄)、每股净资产、每股资本公积金等)。进行格兰杰因果检验之前,首先应对数据平稳性进行检验。在EVIEWS中,常用的单位根检验是Unit Root Test。若数据平稳,继续进行格兰杰因果检验。若不平稳,则对数据进行平稳化处理。常见的平稳化处理方法包括对数变换、差分、平滑法等。格兰杰因果检验默认滞后两阶进行检验。选取含有缺失数据的指标对格兰杰因果检验结果进行分析,选出含有格兰杰因果关系的指标。部分结果如表3、表4、表5所示。

3.3.4 VAR模型处理

根据软件处理结果,对含有缺失数据的指标序列进行向量回归,直接利用软件得出数学表达式。

3.3.5 还原数据,比较各种方法效果

将利用模型得出的预测结果带入式(6),将标准化后数据还原为财务数据,利用式(7)计算出相对误差,并与随机删失的真实值进行对比。

另通过SPSS软件对各缺失值进行均值插补、EM插补以及回归插补,作为对照组验证本文方法的效果,通过表6对各结果进行直观比较。

4 結语

由以上实验可以看出,本文所提出的缺失值插补算法在处理面板数据缺失插补时,效果相较于均值插补、EM插补、回归插补、多重插补等插补方法精度更高。但如果财务指标数据初始年份存在缺失的情况下,用此方法预测的效果不佳,因此本文方法适用于缺失数据未出现在初始位置的情况,适合顺向插补。此法不适用于逆向插补,即利用后面的数据对前面缺失数据进行推测(因为时间序列数据前期数据可能会影响后期,但是后期的数据不会影响之前的数据)。因而对于初始位置缺失的面板数据的填补方法仍有待研究。

参考文献

冯丽红.调查数据缺失值常用插补方法比较的实证分析[D].石家庄:河北经贸大学,2014.

Gibson, M. G.(1989), Statistical Analysis with Missing Data. Journal of the Royal Statistical Society: Series D (The Statistician), 38. doi:10.2307/2349029

Maren K. Olsen. Multiple Imputation for Multivariate Missing-data problem[OL], http:www.stat.psu.edu/~jls/misoftwa.html,1998-03-09.

金勇进.缺失数据的插补调整[J].数理统计与管理,2001(06).

袁中萸.多元线性回归模型中缺失数据填补方法的效果比较[D].长沙:中南大学,2008

程万伟.时间序列缺失值插补方法研究[D].长沙:湖南大学,2018.

潘传快,祁春节,李思璇.正态线形模型下缺失值的Bootstrap多重插补与比较[J].统计与决策,2017(10).

张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计,2016,32(01).

张成萍.残缺数据的填补[D].长沙:中南大学,2006.

乔丽华,傅德印.缺失数据的多重插补方法[J].统计教育,2006(12).

刘艳玲.调查数据无回答的插补方法及模拟比较[D].天津:天津财经大学,2012.