李慧菁
[摘要]该篇文章就是运用探索性数据分析的方法定量地分析消费对于经济增长的拉动作用。本文分别运用三组耐抗线法和最小二乘法对它们的样本点进行回归拟合。在最小二乘法的求解过程中运用了4种判断异常点的方法,其中包括将原始残差进行3种尺度下的残差转换以及对每个样本杠杆率的计算,综合以上4种残差分析后找出异常点,将去掉异常点后的数据再次进行最小二乘法的求解,得到拟合直线,最终分别求出两种方法下的均方误差并进行模型优劣的比较。
[关键词]最小二乘法;三组耐抗线;异常点;最终消费支出;生产总值
[中图分类号]F832[文献标识码]A[文章编号]1005-6432(2014)21-0118-03
1数据来源
为了定量地研究消费与经济增长的关系,笔者选择了被公认为衡量国家经济状况最佳指标的生产总值以及被认为衡量消费需求最佳指标的最终消费支出。选取的样本为2011年中国31省的各地区最终消费支出与其对应的生产总值。相关数据来源于统计局发行的《2012年国家统计年鉴》,31省的生产总值在“统计年鉴”中“国民经济核算”下的“地区生产总值和指数”中,对应的最终消费支出在“国民经济核算”下的“各地区最终消费支出及构成(2011年)”中。
2三组耐抗线分析
对于数据(x,y),首先把x的值按升序排序使得x1≤…≤xi≤…xn。然后将(xi,yi)平均分为左、中、右三组,使得每组的个数尽可能相等。在三个组中我们分别求出x和y的中位数,分别得到三个组的总括点(xL,yL),(xM,yM)以及(xR,yR)。组内总括点使得拟合线具有耐抗性。为了更好地拟合数据,我们以斜率b0和中心值xm来进行拟合:
=a*0+b0(x-xM)(式1)
a*0=13{[yL-b0(xL-xM)]+yM+[yR-b0(xR-xM)]}(式2)
计算各点的初始残差:
ri=yi-[a*0+b0(x-xM)](式3)
用(xi,ri)代替(xi,yi),重复拟合过程,得到斜率与水平的调整值δ1,γ1。调整后的斜率和水平值为b0+δ1,a*0+γ1,新残差为
r(1)i=r(0)i-{y1-[]a*0+b0(xi-xM)]}(式4)
继续不断地进行迭代过程,直到斜率的调整值不超过b0的绝对值的001%,得到最后的水平a和斜率b。[3]
将2011年31省的31个截面数据运用该方法计算得出该拟合直线为
=19483+29184(x-82679)=29184x-4646(式5)
三组耐抗性方法下各地区生产总值与最终消费支出的散点图和拟合直线见图1、图2所示。
图1三组耐抗线下拟合直线
图2最小二乘法下拟合直线
3最小二乘法分析
31模型初步求解
=a+bx(式6)
该方法即为了使得(-yi)2平方和最小,由此可求得
b=(xi-)(yi-)(xi-)2(式7)
a=-b(式8)
由MATLAB可求得回归方程为:
=22280x-3951193(式9)
最小二乘法下各地区生产总值与最终消费支出的散点图和拟合直线见图2所示。
32异常点分析
321残差图
r=yi-i(式10)
将各省的最终消费与其残差画图分析,见图3、图4。
图3原始残差图
图4杠杆率图
由此图可看到有一个点明显超出4000的范围,而另三个点也略超出4000,则可判定有异常值的存在。严重超出4000的样本为第15个,即山东,略超出4000的有1、9、19号城市,即北京、上海、广东。
322杠杆率图
hij=1n+(xi-)(xj-)秐k=1(xk-)2(式11)
杠杆率用h表示。hii即表示如果给yi一个改变量Δyi,hiiΔyi就是它在i中造成的改变。因此,在最小二乘法中,yi的任何改变,都会对i有成正比的影响。这也是非耐抗性的集中体现。对于hij有这样的规律:它们在1n到1之间,且和必须等于模型中的参数的个数。
在本实例分析,即各地区GDP与各地区最终消费支出的探索性分析中,由于此模型为一元线性回归模型,只有两个参数,截距与斜率,又共有31个样本数据,因此这31个残差的平均杠杆率为2/31,即00645。而从图中可以看出有3个残差的杠杆率远远大于其平均杠杆率,找出这三个异常数据点。在MATLAB中可以找到这三个异常值,分别为第10、15、19个省份出现了异常点,即江苏、山东、广东三省。
33标准化残差图
第i个残差的方差为:
var(ri)=σ2(1-hii)(式12)
则调整方差为:
rai=ri1-hii(式13)
估计σ2为
σ2=1n-2秐i=1ri2(式14)
则第i个标准化残差为
rsi=ris1-hii(式15)
图5标准化残差图
图6除以四分展布后的残差图
从图5可以看出,由于标准化后的残差消除了异方差,且服从正态分布,则其标准化残差的绝对值超过Zα2(196)的概率为5%,而由图可看出有2个值明显超出了2,又从MATLAB中可找到超过196的异常值分别为9、15、19号城市,即上海、山东、广东三地,但其中上海的标准化残差为-19723,其绝对值仅仅略大于196。
34除以四分展布后的残差图
rdF=(r-XM)(XU-XL)(式16)
其中,XM为X,即最终消费支出的中位数,XU为X的上四分位数,XL为X的下四分位数。用四分展布定义离群值截断点时,定义的是离上、下四分位数超过32dF的值,对应此处的残差即为超过正负2的点即为离群截断点,如图6所示。或直接画出残差的箱线图也可一目了然地发现离群点,如图7、图8所示。而通过MATLAB可求出仅仅第15号城市,即山东为离群截断点。
图7残差的箱线图
图8改进后的散点图和拟合直线
综上对于异常点的分析,包括了进行三种尺度划分的残差分析,以及对杠杆率的计算可看出第15号城市在4种异常点判断时均被列入其中,而19号城市在三种分析中均被视为残差。9号城市虽然出现了两次,但每次都是刚刚超出标准而被选为异常点,其余的1号与10号也仅仅出现了一次,综合以上分析,笔者认为应将15号与19号城市剔除,以避免异常值对于回归拟合的影响。
35模型优化
根据以上分析,将15号与19号城市剔除,再次进行最小二乘法,得到如下拟合直线。拟合图形如图8所示。
=22734x-7337587(式17)
36优化效果评价
直接用最小二乘法拟合直线与通过分析异常点而将其剔除的改进后的最小二乘法进行的直线拟合的效果可用均方误差来比较优劣。
MSE=秐i=1e2in(式18)
首先计算优化后的最小二乘法算得的均方误差为37216×106,然后计算最初的直接最小二乘法得来的均方误差为51240×106。由此明显看出去掉两个离群点后的拟合偏误要小得多,模型的优化是有效的。
4三组耐抗线与最小二乘法的比较
将原始样本数据所进行的三组耐抗线计算与最小二乘法计算所得到的残差画在一张图中,得到图8。其中绿色的圈代表运用最小二乘法得到的残差,红色的圈表示运用三组耐抗线进行拟合后得到的残差。用肉眼观察我们发现运用三组耐抗线时有距离均值非常远的点,而最小二乘法得到的残差离中心基本都不远。由此可以看出三组耐抗线本身具有的耐抗性,它不因个别的偏离较大的点而剧烈变动自己的拟合参数值,因此即便有离异很大的点,它会将离群点对它的影响降到很小,因此在残差图上就可能出现某些离群点距离拟合直线上对应点的距离很大的情况了。而最小二乘法就基本上不会出现此种情况,因为它要使得残差平方和最小,因而考虑到了所有的数,包括异常点,而对于离群值越大的点来说,最小二乘法的拟合效果便越不好,因为它为了使得残差平方和最小,有可能牺牲掉其他的较好的拟合效果,而为了使得这个离群的残差平方小而越靠近此离群点。因此对于异常值较大或较多的情况下,三组耐抗线的方法一定比最小二乘法的方法可靠。但在此实例中,由于仅有两个离群点,并且两个离群点离群的程度都很小,因此由三组耐抗线算得的均方误差为21752×107,而最小二乘法算出的均方误差仅为51240×106(见图9)。
图9原始数据下三组耐抗线与
最小二乘法残差的比较
5结论
根据以上三组耐抗线、最小二乘法、剔除异常值的最小二乘法三种方法所进行的残差的比较,得到的MSE(均方误差)中最小的为剔除异常值的最小二乘法。因此此实例的最终拟合直线为=22734x-7337587,并且拟合的优度较高。由此可以看出,消费这辆拉动经济增长的马车对于经济的发展确实是有非常稳定的影响的。由此来说,《中共中央关于制定国民经济和社会发展第十二个五年规划的建议》中对于促进消费拟定的三条建议对经济的促进是很有积极作用的。
参考文献:
[1]许光建币陨罨改革和扩大内需为抓手努力保持经济稳定增长——当前我国宏观经济形势和政策分析[EB/OL](2013-09-09)県ttp://www眂nki眓et/kcms/detail/111010盕201309091203010県tml,last visited at 2013-09-09.
[2]谢伟东,洪文峰蔽夜当前经济条件下如何扩大国内消费需求[J]苯鹑诰济,2010(9):23-24.
[3]刘俊卿,杨军,强德厚毖芯科温变化趋势的新方法——三组耐抗线[J]备珊灯象,2007(5):79-82.