张 庆,宋向东,薛延廷
基于GDP增长率的质量评估方法
张 庆,宋向东,薛延廷
本文基于生产法和支出法公式,对GDP增长率和其相关经济变量的增长率建立模型,其中所有数据均采用一定方法换算成1978年不变价,计算实际增长率,采用经典方法和逐步局部影响分析方法对我国1978-2013年GDP增长率数据进行分析和对比,找出异常年份,结果表明,逐步局部影响分析方法可以发现经典方法掩盖的点。
增长率;生产法;支出法;逐步局部影响分析
改革开放三十多年来,中国GDP年均增长速度达到9.85%,同期世界经济年均增速只有2.8%,这一现象被世人誉为“中国经济奇迹”。我国经济发展的基本趋势没有因国际国内形势新变化而改变,经济增长的动力仍然强劲。在经历过亚洲金融危机、1998年特大自然灾害、美国次贷危机等曾一度对世界经济造成过重大损失的经济事件,亚洲周边国家和西方主要经济体依然在较低的经济增长中徘徊,而中国却依然保持强劲的势头。在2011年,我国经济超过日本成为世界第二大经济体。国家统计局初步核算,2014年中国国内生产总值636463亿元,首次突破10万亿美元,继美国美国之后第二个跻身超10万亿美元经济体俱乐部。据国际货币基金组织测算,2014年中国经济增量的贡献率是27.8%,居世界首位。世界银行行长佐利克说:“不论是新加坡、东盟还是欧洲和美国,都在某种程度上依赖中国的改革成果。”这使得中国宏观经济数据受到世界各国学者的强烈关注。然而,由于我国的统计机制未完善,宏观经济数据质量理论还没有完全与国际接轨,使得我国数据质量管理体系尚存在很多问题,这也引起了国内外学者对我国统计数据质量的高度质疑。
有众多学者对我国经济数据进行了分析,任若恩(1997)用价格指数缩减的方法发现,1986~1994年间,GDP的增长率高估了3.8个百分点。Maddison(1998)用生产指数发现,在1978-1994年间,GDP增长率高估了2.4个百分点。孟连、王小鲁(2000)对中国经济增长统计数据可信度估计中运用了柯布道格拉斯生产函数模型,分析结果认为1992~1997年期间工业增加值增长率高估了近1/4,去掉这一虚增的部分,调整后的工业增加值增长率在12.2%左右;而GDP增长率虚增的幅度远远小于工业增长率的虚增,在1978~1991年期间按可能有一个百分点的虚增,在,由回归方程得到观测的残差为1992~1997年期间,可能虚增了2.5个百分点,调整后的增长率为9%。任若恩(2002)通过考察1971~1999年间日本、韩国、德国、英国和美国的能源增长数据和GDP增长数据,发现在这些国家的不同时期都出现过能源消耗与GDP增长不同步的现象,因而认为经济增长率与能源消耗增长率应该大致相等的假定并不成立。近年来,统计诊断方法越来越得到众多学者的青睐,其内容越来越完善,卢二坡和黄炳艺(2010)在刘洪和黄燕(2009)的基础上,采用稳健MM估计对两种劳动投入的生产函数进行诊断,并与传统最小二乘法的诊断结果对比。李晓茜(2013)选取与GDP关联性较强的多个宏观经济指标,考察GDP与宏观经济指标之间的匹配程度,找到合适的模型来拟合两者之间的发展趋势,并运用逐步局影响分析诊断各个模型的异常值。本文基于GDP的生产法和支出法公式,采用实际增长率进行最小二乘回归和逐步局部影响分析,并进行对比,从而找出异常年份。
(一)经典回归方法
多元线性回归的经典方法是最小二乘(OLS)估计方法,该方法的一般假设模型为:
X是用来预测Y的n×(p+1)维自变量,β为p+1维回归系数,ε为p+1维随机误差,其中εi~N(0,σ2)。β的最小二乘估计为,矩阵H=X(XTX)-1XT称为帽子矩阵。
(二)残差、杠杆值和Cook距离
标准化残差使残差具有可比性,其标准化残差大于2即认为是异常值,这简化了判定工作,但没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,因而在寻找异常值时,用学生化残差优于普通残差,其学生化残差大于2为异常值。
杠杆值(即h值)即为帽子矩阵的对角线值,大小可以表示第i个样本值对Y影响的大小。它衡量了某一个数据点远离样本中心的程度,是数据质量诊断最为重要、也最为基本的统计量,hii越大表示该样本离中心样本越远,它就越可能是异常点。
Cook距离描述了第i个样本值对整体回归模型产生了多大影响,其值越大,则表明是强影响点。
在通常的做法中,往往只考虑杠杆值、学生化残差和Cook距离中的某一种度量手段对异常值的影响,而往往忽略了几种方法的综合运用。论文认为,在考察一个观测值是否真对模型的拟合产生较大影响的时候,往往只倚重其中的一种方法是不准确的,一个完整的分析应该对这几种方法进行综合的考虑。
(三)局部影响分析
局部影响分析是Cook(1986)首先提出来的一种识别数据强影响点的新方法。局部影响分析的主要特点是引入扰动的概念,而把异常点归结为“比其他点受到更大扰动的点”。局部影响分析的基本思想是通过对模型引入某个微小的扰动,然后对于我们感兴趣的统计量,看其在什么干扰方向上的变化最大,进而找出对模型局部影响较大的数据点,而这些点也有可能是总体的强影响点。该方法可用于各种统计模型,之后又有许多学者提出了不同的改进方法,本文主要介绍针对线性模型的具体做法。根据Cook的理论,似然距离被定义为其中为模型扰动前后的对数似然函数和分别代表原模型ω=ω0和扰动模型的θ的极大似然估计。Cook使用影响曲率来测量扰动引起的局部变化,其中,和和时的取值。局部影响的主要诊断统计量通过最大化Ch,且hTh=1。hmax表示扰动影响最大的方向,是矩阵A=△T(-L)-1△的最大特征值对应的特征向量。
针对前面回归模型,其对数似然函数为
其中D(e)是以e1,e2,…en为对角元素的n阶对角矩阵,方差加权扰动模式的影响曲率的计算公式为
(四)逐步局部影响分析
第一步:在方差扰动方式下我们对所有的数据点进行全面扰动。在hTh=1的条件下极大化hTAh得到诊断统计量如果某些点己经被识别为影响点,我们就用指标集I来标示这些点,用[I]来标示剩余的数据点。
第二步:我们再次对模型进行扰动,但是I中指标所对应的数据点不再参加到扰动中。很容易证明第二步中基于扰动似然函数的局部影响分析可由
第三步:在前面几步中已经识别出来的影响点(包括第一步和第二步)就不再参加扰动,重复第二步中的方法。这一过程一直持续到影响点全部找到为止,这时我们也可以说迭代过程收敛了。
(五)基准点的选择
由于上述过程有迭代,所以确定每一步中用来判定影响点的基准是很重要的。在第一步里我们把而作为基准点。而在第k步里(k>1),假设有mk个数据点被扰动,我们考虑用三种方式来定义的基准。
(2)可变基准:第k步是对mk个数据点进行局部影响分析,因为我们限定了的长度等于s2,所以判别准则可以定义为
(3)平均基准:记第(k-1)步的基准为b(k-1)。在局部影响分析的逐步分析法的第k步里,既包含在前一步得到的的部分分量也包括了第k步的诊断统计量。因此第k步里加权平均基准定义为:
其中 为第k步的可变基准。
石磊和黄梅(2011)中的例子表明采用平均临界值更为合理,即可变基准和平均基准的平均值。在实际应用中,同时使用基准点和观察法来识别影响点更可靠。
我国GDP统计通常有三种方法,即生产法、收入法和支出法,三种方法理论上应该得到的结果相同,但是由于所选统计角度不同、统计口径差别、统计资料来源不同以及实际统计中的误差,因而要加上一个统计误差项来进行调整,使其达到一致GDP增长率是宏观经济的四个重要观测指标之一,还有三个是失业率、通胀率和国际收支。考虑到收集考察数据的难易,所以本文运用生产法和支出法对GDP增长率数据进行诊断,其中增长率采用实际增长率,生产法采用三大产业增长率,利用GDP指数和三大产业指数计算其实际增长率;支出法采用三大需求增长率,由于净出口变动起伏太大,所以将其分为出口和进口增长率,其相关变量均用商品零售价格指数去除价格因素的影响换算成1978年不变价,然后计算其实际增长率,数据均取自《2014年中国统计年鉴》。
(一)生产法
1.经典方法诊断
应用最小二乘法进行回归方程的模拟,对三大产业实际增长率进行拟合。我们采用不带截距项的模型拟合回归方程,得到
上述回归方程的P值为<.0001,修正R2值为0.9969,可以看出GDP(Y)实际增长率与第一产业增长率(X1)、第二产业增长率(X2)和第三产业增长率(X3)有明显的线性关系,其各个系数均在0.05水平下显著,该模型拟合效果较好。表1为针对传统方法进行的异常值的判别。
表1 各个统计量对应的异常值
图1 逐步局部影响的hmax绝对值的散点图
2.逐步局部影响分析
第一步,对所有数据进行扰动,得到最大特征值的绝对值的特征向量hmax的散点图,可以看出1985年和2007年超出了临界值。
第二步,将1985年和2007年移出扰动模型,对剩余数据进行扰动,可以看出1984年超出了临界值,1984年为上一步掩盖的点。
第三步,将1984年、1985年和2007年移出扰动模型,对剩余数据进行扰动,1992年超出临界值。
第四步,将1984年、1985年、1992年和2007年移出扰动模型,对剩余数据进行扰动,没有数据超出临界值,至此迭代终止。
基于生产法的经典回归看出,GDP的增长主要依赖于第二产业和第三产业的增长,其异常点由表1可知,综合几种判定方法,可以得出1985年、1990年和2007年为异常点,而根据逐步局部影响分析可以得出1984年、1985年、1992年和2007年均为异常点,可以看出影响分析能检测出经典回归掩盖的点。其出现异常的原因可能是,改革开放以来中国的产业结构经历了很大的变革,三大产业之间的比例关系有明显的改善,第一产业比重逐渐减小而第三产业迅速增长,且增长速度呈现前期峰谷交替、后期平缓的态势,对GDP增长的贡献率在曲折中上升,成为国民经济的第二推动力。1984年、1985年、1992年和2007年的第三产业增长均很突出。“六五”期间(1981年~1985年),改革开放刚刚取得了一定成果,我国胜利完成了进行经济调整、整顿的任务,国民经济开始走上一条比较协调、注重效益的新路子。在此期间,还成功地推进了农村经济体制改革,农业发展十分迅速,并开始了以城市为重点的经济体制全面改革。1984年和1985年,农业增长最为明显,加上第三产业增长迅猛,所以GDP增长率大幅增加。1992年初,邓小平视察武昌、深圳、珠海、上海等地,发表著名的南方谈话。在总结了十一届三中全会以来基本实践和基本经验的基础上,丰富和发展了建设有中国特色的社会主义理论,推动了我国又一轮经济建设的高潮。2007年,我国重点领域和关键环节改革不断取得新突破,经济发展的体制机制环境逐步改善。第二产业仍然是推动经济增长的第一动力,且第三产业一直稳步发展,导致GDP增长率达到14.16%。
(二)支出法
1.经典方法诊断
应用最小二乘法进行回归方程的模拟,对最终消费增长率、资本形成总额增长率、出口增长率和进口增长率进行拟合。我们采用不带截距项的模型拟合回归方程,得到
上述回归方程的P值为<.0001,修正R2值为0.9951,可以看出GDP(Y)实际增长率与最终消费增长率(X1)、资本形成总额增长率(X2)、出口增长率(X3)和进口增长率(X4)有明显的线性关系,其各个系数均在0.05水平下显著,该模型拟合效果较好。表2为针对传统方法进行的异常值的判别。
表2 各个统计量对应的异常值
2.逐步局部影响分析
第一步,对所有数据进行扰动,得到最大特征值的绝对值的特征向量hmax的散点图,可以看出2005年、2006年和2009年超出了临界值。
第二步,将2005年、2006年和2009年移出扰动模型,对剩余数据进行扰动,可以看出1993年、1994年和1996年超出了临界值。
第三步,将1993年、1994年、1996年、2005年、2006年和2009年移出扰动模型,可以看出2007年超出了临界值。
第四步,将1993年、1994年、1996年、2005年、2006年、2007年和2009年移出扰动模型,对剩余数据进行扰动,没有数据超出临界值,至此迭代终止。
图2 逐步局部影响的hmax绝对值的散点图
基于支出法的经典回归看出,GDP的增长主要依赖于消费和投资,其异常点由表2可知,综合几种异常点判别方法,可以看出1985年、1993年、2006年、2007年和2009年为异常点,而根据逐步局部影响分析可以得出1993年、1994年、1996年、2005年、2006年、2007年和2009年均为异常点,可以看出影响分析能检测出经典回归掩盖的点。由分析结果,我们大致还可以看出,我国GDP异常值点和强影响点的出现呈现或多或少聚集成堆出现的现象,孤立的异常点不是我国宏观经济时间序列的主要特征。1993年是一个杠杆年份,上半年,由于固定资产投资规模扩张过猛与金融持续的混乱,经济过热开始明显,所以在高速增长的同时带来了三大赤字同步爆发,其中外汇严重赤字。1994年出现了改革以来的最高通胀,随后出台了一系列的重大政策,比如人民币的民意汇率贬值,税制改革,货币化加快等等,国务院做出《关于进一步深化对外贸易体制改革的决定》,对外贸易增长较快。1996年通货膨胀率依然很高,我国开始采取适度从紧的货币政策,大大制约了对外贸易。为防止经济过热,在采取很大力度的宏观经济调控措施后,2005年和2006年国民经济增长速度依然保持加速度状态,固定资产投资仍然快速增长,房地产价格依然上涨,国际收支较为严重的不平衡。2007年和2009年处于金融危机时期,中国经济增速放缓将成为大势所趋,出口以及固定资产投资增速回落是必然趋势。
本文在基于生产法和支出法对GDP实际增长率进行诊断,采用经典回归方法和逐步局部影响分析法并进行对比,可以看出局部影响分析能检测出经典方法掩盖的点。但是异常值的诊断都是建立在既定的数据集可靠的基础上的,但在本文中,采用不同的模型,运用同一方法诊断出的异常值结论也不尽相同。因此,要尽可能的选取相对可靠的相关指标,总的来说,我国经济环境错综复杂,即使检测出有异常年份,但结合当时的经济背景,还是可以找出异常的原因的。
中国的产业结构经历了很大的变革,三大产业之间的比例关系有明显的改善,我国已经由一个传统的农业经济大国转变为工业经济大国。但我们也必须看到,在我国产业结构变化过程中存在一定的问题并在一定程度上制约着我国经济的发展,农业现代化进程缓慢,工业结构重型化,服务业发展滞后,为了促进我国产业结构的优化升级和经济又好又快的发展,必须采取合理有效的经济措施。
消费、投资和净出口是推动经济增长的三大支柱,它们之间的比例是否合理,直接影响着宏观经济效益和效率。过度以投资推动的经济增长对经济长期持续发展会产生负面影响。所以要转变经济发展方式,从投资主导型、出口主导型向消费主导型转变,走以消费为主的发展道路,形成消费、投资协调拉动经济增长的格局。
但整体来说我国经济发展态势良好,经济增长由政策刺激向自主增长有序转变。我们要把握宏观调控的方向、力度和节奏,利用有利时机推进经济结构调整,深化重点领域和关键环节改革,巩固经济发展的好势头。
[1]Ruoen,R.China’s Economic Performance in an International Perspective[J].OECD Development Centre.Paris,1997.
[2]Maddison,Angus.Chinese Economic Performance in the Long Run[J].OECD Development Centre,Paris,1998.
[3]孟连;王小鲁对中国经济增长统计数据可信度的估计[J].经济研究,2000,(10):3-13.
[4]任若恩.中国GDP统计水分有多大———评两个估计中国GDP数据研究的若干方法问题[J].经济学(季刊),2002,2(1):37-52. [5]卢二坡,黄炳艺.基于稳健MM估计的统计数据质量评估方法[J].统计研究,2010,27(12):16-22.
[6]刘洪,黄燕.基于经典计量模型的统计数据质量评估方法[J]. 2009,26(3).91-96.
[7]李晓茜.统计数据质量评估方法研究[D].云南:云南财经大学, 2011:9-41.
[8]Cook,R.D.Assessment of Local Influence[J].J.R.Statist,Soc.ser B, 1986,(48):133-169.
[9]LeiShi,MeiHuang.Stepwise local influence analysis[J]. Computational Statistics&Data Analysis.2011,55(2):973-982.
张庆,女,河北保定人,燕山大学理学院硕士研究生,研究方向:宏观经济数据质量研究;
宋向东,男,河北秦皇岛人,燕山大学理学院副教授、硕士,研究方向:应用统计;
薛延廷,女,河北邯郸人,燕山大学理学院硕士研究生,研究方向:应用统计。
F832
A
1008-4428(2015)07-51-04
全国统计科学研究(计划)项目(2011LY064)。