王钒
摘要:文章利用主成分回归分析法构建了行业增值指数对国民生产总值的预测模型。通过美国2001—2015年的数据检验发现,本研究所构建理论预测模型对GDP增值轨迹变化具有较高的预测能力,并且,消费品行业、服务业和公共设施行业等四个行业对GDP的变化影响最为显著。
关键词:行业增值指数 GDP 主成分回归模型
一、研究问题的提出
目前而言,世界各国及主要经济体仍是将国内生产总值(GDP)的变化情况作为衡量一国经济是否健康的一个重要指标。特别是GDP季度变化数据常被用来作为短期内比较不同国别经济增长优劣的最直观证据。而不同国家的GDP数值虽不相同,但其均在不同程度上与国内资本、劳动力需求、就业率以及股市等宏观经济基本面的因素具有重要内在关联。更进一步来讲,上述宏观经济基本面因素的综合体,也是能够深度反应国家宏观经济发展状况的“晴雨表”则非国家行业企业发展莫属。换言之,不同行业经济的发展对GDP数值变化具有决定性的影响,能够反应经济发展的本质状况。由此,科学合理地通过行业数据来预测GDP数值变化轨迹不仅具有理论上的可行性,更对决策者有效研判经济发展状况,制定较为合理的顶层制度设计具有重要的现实意义。
美国经济发展虽然近年来一直没有走出“疲软”态势,但其在全球经济发展中仍是不具争议的第一大国。甚至美国经济发展在一定程度上也是全球经济发展变化的缩影和代表。以此类推,深入探讨美国行业收益的增长与美国GDP增长之间的内在关联,不仅对科学认知两者之间的作用机理具有学术价值,更对我国经济发展,甚至其他国家经济发展中科学处理行业经济发展与GDP之间的关系具有重要的现实意义。
二、文献综述
准确预测GDP发展趋势是考虑宏观经济变化和制定宏观经济政策的重要依据。国内外大量文献对GDP进行了预测分析,取得了颇多有益成果。最新的代表性研究有:周奎(2016)利用ARIMA模型对我国1978—2013年的GDP时间序列数据进行分析后发现,ARIMA模型方法对我国GDP总量发展趋势具有重要预测作用;蒋铁军和张怀强(2014)提出对GDP序列进行相空间重构,运用C-C方法确定最佳的嵌入维数和延迟时间,并结合主成分回归优化了预测GDP变化的方法。还有学者基于省级特质进行了GDP预测分析,如刘花璐和汤涛(2015)运用灰色系统理论中的GM(1,1)预测模型,对湖北省GDP变化趋势进行了预测,并指出了影响GDP发展诸因素的关联程度;高凤和任志安(2016)则以山东省为例,基于ARIMA模型对山东省1978—2013年GDP数据进行了模型拟合,其研究结果表明ARIMA模型预测方法较好;陈洁等(2015)利用时间序列分析方法,对比1993—2013年间江苏省人均GDP预测值与实际值之间的差异,发现ARIMA模型对GDP变化值具有一定的预测作用。此外,还有研究专门针对不同国别的GDP预测进行了系统分析,如徐坡岭和刘来会(2015)利用俄罗斯2002—2013年的季度数据作为样本,主要分析了季节性差分自回归模型——SARIMA 模型在俄罗斯季度GDP预测中的应用,并得出俄罗斯未来四年的GDP年增长率在2.3%左右,长期的经济增长率在2.1%左右;张倩倩(2016)则应用ARMA算法对美国的人均GDP进行预测,并通过将预测数值与模拟结果对比说明该模型具有科学之处。综上,从最近的研究可得,现有研究中多是以历史GDP数据为样本采用不同研究方法对未来GDP数值变化趋势进行预测分析,样本来源比较单一。在这种情况下,单一的样本来源容易使GDP预测值不能客观关联其他相关因素的影响,也不能考虑GDP预测值变化可能存在的多元性。然而,鲜有研究基于行业增值指数等变量系统预测GDP变化轨迹,并据此建构预测模型。鉴于此,本研究则尝试利用主成分回归分析模型找寻不同行业数据与GDP数值变化之间的内在关联,多途径预测GDP变化趋势。并且,考虑到美国在目前仍是全球经济发展相对成熟和稳定的经济体,其样本来源和预测结果比较有代表性,能在一定程度上代表现阶段经济发展的趋势,故本研究选取美国行业数据来分析其对美国GDP的预测效果。
三、数据收集与实证分析
(一)行业变量界定
本研究所采取的行业信息是依据雅虎金融(Yahoo Finance)对行业划分的八个板块。主要包括:第一,消费品行业(Consumer Goods,简称CG),指的是普通消费者购买的产品,或者称为最终商品。第二,基本材料行业(Basic Materials,简称BM),指基本材料部门的公司涉及发现、开发和加工的原材料。第三,工业品行业(Industrial Goods,简称IG),主要是指与用于建筑业和制造业的生产商品。第四,金融业(Financial,简称FI)主要包含的公司为商业和零售客户提供金融服务。第五,科技行业(Technology,简称TE),指的是基于技术产品和服务的研究、开发和销售。第六,服务业(Services,简称SE),主要指部分经济生产中的无形商品。第七,公共事业行业(Utility,简称UT),指的是天然气和电力等公用事业费用。第八,医疗行业(Healthcare,简称HC),指的是医疗和保健商品或相关服务。
(二)数据来源
对于产业收益的数据获取,笔者在基于Yahoo Finance所提供的信息,查找出对应每个行业的上市公司列表,然后对其进行采样,即,随机选取35个公司。再从Wikinvest中获取每个公司的季度收益数据。考虑到获取真实有效的收益数据以及有足够长的分析时间周期,本文所选的公司必须满足以下两个条件:一是必须是上市公司,并且在Wikinvest上可以查到这个公司在2001年第一季度(2001.q1)至2015年第三季度(2015.q3)之间的季度收益;二是没有缺失数据。所以,在这个过程中初期采样中的一些公司因为上市时间不够长,中途被并购,关闭,或者数据缺失而被放弃,最终只有209个公司用于接下来的分析,其中,消费品行业25个,基本材料行业31个,工业品行业27个,金融业24个,科技行业25个,服务业24个,公共事业行业24个,医疗行业25个。相应的,同时间段2001.q1-2015.q3总共59个GDP的季度数据来自美国国家商务部官网(Bureau of Economic Analysis)。
(三)描述性统计分析对比
本文的数据分析都是用R语言完成。首先我们来观察这2001—2015年的美国GDP的增长趋势,采样获取的八个行业所有公司的收益(简称总收益)增长趋势,以及每个行业收益的增长曲线。通过对比可以看出,总收益的增长趋势(图2)与GDP的增长趋势(图1)非常相似。2008年美国的经济大萧条在两个曲线上都有所体现。每个行业的收益增长曲线(图3)虽各有不同,但是总体上呈上升趋势,且与GDP增长趋势相符合。由此可见,GDP与收益有很强的相关性,并且,不同产业的收益对GDP的影响可能略有不同。
(四)主成分回归结果分析
在每个行业中,各个公司之间其收益增值存在很大的相关性,为了消除这种相关性,本文运用主成分分析法(Principle component analysis,简称PCA)对其进行分析,即在每个行业中对其收益变化提取其最主要的成分,用于建立多元回归模型,也称主成分回归模型(Principle component regression, 简称PCR)。也就是说,用PCA筛选出的主成分作为新的自变量替换掉原来的自变量做回归分析。它的意义在于,为了使建立的模型易于做结构分析和预测,从原始变量构成的子集(每个行业)中选取最优变量,组成最优变量集合(即8个子集合的最优变量组成的集合)。此外,由表1可知,对于每个行业,PCA筛选出的PC1几乎有60%以上的方差贡献率(除了金融业和公共事业稍微差一些,只有40%的贡献率)。 对于每个行业,其第一主成分(PC1)可代表这个行业里公司收益的总体表现/总体变化趋势。 通过观察每个行业主成分的载荷,我们可以看出,对于除了公共事业行业以外的其他七个行业,负的载荷值代表收益增加,而对于公共事业,各公司的正的载荷值代表收益增加。因此,我们认为用PCA得出的PC1来代替各行业收益增值构造回归模型是可行的。
本研究利用两种方式对GDP增值进行处理:第一,构建模型一,即简单的算出每个时间点相对之前时间点的增值;第二,构建模型二,即计算GDP在每个时间点上的导数,目的在于可以明确在每个时间点上GDP的增长率。基于此,本研究利用主成分回归模型分析后的结果如表2所示。从模型拟合结果可知:由可决系数对比分析可得,模型二相比模型一的拟合优度要好一些(模型一:0.4874/0.4054;模型二:0.682/0.6311);从F—检验结果看,两个方程均在p=0.05的水平上通过显著性检验;从各自变量的显著性检验来看,模型一中,消费品行业,金融业和服务业在0.05的水平上显著重要,科技行业和公共事业行业在0.10的水平上显著重要;模型二中,消费品行业、工业品行业、金融业和服务业在0.05的水平上显著重要,基本材料行业和公共事业行业在0.10的水平上显著重要;综上,可以看出,各行业对GDP的影响在两个模型中略有不同。
此外,本研究将运用逐步回归法(Stepwise Regression)和比较回归方程法选择最优回归方程。本研究的选优参考标准为:剩余均方和(简称MSE),其值较小的回归方程较优;校正后的复决定系数(简称AdjR2),其值较大的回归方程较优;Akaike信息量(简称AIC),其值较小的回归方程较优;BIC信息量(简称BIC),其值较小的回归方程较优;Mallow’s Cp统计量(简称CP),其值较小且与p’较接近的回归方程较优。如表2所示,按照此标准,通过比较两个模型的回归方程可知,两个模型都选择了相同的最优模型(CG + FI + SE + UT)。相同的,逐步回归法(表5)对模型一选出了相同的结果,即CG+FI+SE+UT;而对模型二选择的最优模型中多了基本材料行业(BM)和工业品行业(IG)两个行业,即CG+BM+IG+FI+ SE + UT。由此可以肯定,消费品行业、金融业、服务业和公共事业这4个行业的收益增值对GDP的增值有显著影响。
(五)预测模型结果分析
在上述分析结果的基础上,对两个模型是否可以用来预测GDP的增长进行对比分析。首先,从59个时间点上随机抽取80%的数据(约49个时间点)用作训练数据,剩下的20%(约10个时间点)则用于测试数据。利用训练数据建立模型,并且在测试数据上进行预测,以此来对比真实值与预测值的差异。为了更好的展示训练数据和测试数据可用,笔者进行了4次随机采样,每一次分别抽取80%作为训练数据,20%作为测试数据。测算结果如表3所示,实线代表测试数据上的GDP真实值,虚线代表GDP预测值。如表中对比图形可知,两个模型的四次随机抽取的测试数据中,其GDP真实值与预测值曲线非常相似。并且,上述结果也可从相应的T-test中得到印证,即所有p-value均不能拒绝原假设,换言之,真实值与预测值没有明显差别,所以模型有效。研究结果表明,用最优模型做出来的结果与原模型一样,产业增值与GDP增值之间具有较强的内在关联,上文所述模型对GDP具有较好的预测性。
四、结论
与以往研究不同的是,本研究通过主成分回归方法设定理论模型,并利用美国2001年第一季度至2015年第三季度8大行业增值指数的数据来预测GDP增值的变化趋势,得到如下有益发现:第一,行业收益增值曲线与美国GDP增值曲线轨迹相同,表明GDP与行业收益具有很强的内在关联性。该研究结论表明,不同行业利润增加是增加GDP收入的重要支撑。第二,GDP增值预测模型较GDP导数预测模型整体预测效果好,但不同行业对GDP的影响略有差异。本研究表明,消费品行业、金融业、服务业、科技行业和公共事业行业会显著影响GDP增值预测模型的效果,而消费品行业、工业品行业、金融业、服务业、基本材料行业和公共事业行业则是显著影响GDP导数预测模型效果的主导因素。第三,通过最优回归方程对比分析结果可知消费品行业、金融业、服务业和公共事业这4个行业的收益增值对GDP的增值有显著影响。并且,本研究表明,在2001年至2015年间的八个产业中,金融业最能拉动经济增长,其次是消费品行业、服务业和公共设施行业。政府管理部门可利用上述四个行业所建的最优模型来科学预测GDP增值变化轨迹。
参考文献:
[1]周奎.RIMA模型在我国GDP预测中的应用[J].广西职业技术学院学报,2016(1)
[2]蒋铁军,张怀强.基于相空间重构和进化KPCR的GDP预测研究[J].统计与决策, 2014(3)
[3]陈洁,曹克章,刘哲.基于时间序列的江苏人均 GDP 预测研究[J].南京工程学院学报(社会科学版),2015(4)
[4]徐坡岭,刘来会.俄罗斯经济发展形势的分析与预测[J].2015(2)
[5]张倩倩.基于ARMA算法的美国人均 GDP 预测模型设计[J].云南民族大学学报: 自然科学版,2016(2)