郑俊卿
(山东科技大学数学与系统科学学院统计系 山东 青岛 266590)
基于Lasso方法的山东经济增长影响因素实证研究
郑俊卿
(山东科技大学数学与系统科学学院统计系 山东 青岛 266590)
通过从国际、国内宏观经济环境和山东省局部环境中共计选取12个主要影响因素作为自变量,并利用Lasso变量选取方法对影响山东省经济增长的这些主要影响因素进行了实证分析,结果发现Lasso变量选取方法在对经济领域的研究有极大的积极作用,并通过实证分析影响山东省现阶段经济发展的各个因素。
Lasso方法;变量选择;经济增长;影响因素
在构建模型进行统计分析时,变量选择是我们不容忽视的问题。变量选择不当会使得模型出现多重共线性、过拟合等问题。早期的变量选择方法一般是采用逐步回归法同AIC、BIC准则结合,这种方法虽然具有一定的实用性,但也有很多不足,并且在模型选择时也会不稳定。此后Tibshirani(1996)提出了Lasso方法,Lasso方法会在模型进行参数估计的同时实现变量选择。在此之后,在进一步的研究中,大量学者对Lasso变量选取方法的算法及理论进行了研究。
对于Lasso变量选取方法,正是在模型中添加惩罚项来实现变量的压缩,系数估计较小的剔除,由此可以较好地解决模型的多重共线性问题以及过拟合问题等,这使得Lasso变量选取方法的应用领域十分广泛。
对于一般的线性回归模型:
Y=α+Xβ+ε
其中,Y=(y1,y2,…yn)T,X=(x1,x2,…,xp),xi=(x1i,x2i,…,xni),i=1,2,…,p,α为常数项,β=(β1,β2,…,βp)T,n为观测数目。ε=(ε1,ε2,…,εn)T为误差项,且满足E(ε)=0,Var(ε)=σ2I。
(1)
上式也可以用惩罚性的形式给出:
(2)
其中,调和参数λ≥0。显然,当λ越大时,模型中惩罚项所占的比重就越大,这意味着变量压缩的越多;反之,λ越小,模型的惩罚项所占比重越小,模型的拟合越好。
本文采用lasso方法对影响山东省经济发展的主要因素进行分析,并应用R语言编程求解Lasso。
(一)变量选取及数据来源
本文从国内环境影响、山东省区域影响及国际环境影响因素三个方面选取主要影响变量。国内环境将由人均GDP、年平均利率来衡量;山东省区域影响因素主要由山东省人均地区生产总值、山东省地方财政支出、山东省消费品零售总额、山东省老年抚养比、山东省重要科技成果数量、山东省第三产业生产总值、山东省能源生产总量、山东省城镇居民可支配收入来衡量;国际环境影响因素主要由山东省进出口总额及美元兑人民币汇率两方面来衡量。
本文中所需数据均来自于国家统计年鉴及山东省统计年鉴。
(二)数据预处理
为消除数据量纲对模型的影响,在利用lasso方法前,本文先对数据及逆行标准化处理以消除量纲等带来的负面影响,即:
(三)lasso变量选择
本文利用RStudio软件进行Lasso变量选取,其中常用的软件包主要包括msgps、glmnet及lars等,在本文中利用msgps软件包对影响因素进行变量选择,根据此算法得到的部分结果如下表:
表1 山东省经济增长影响因素的Lasso参数估计部分结果
通过表1我们可以发现:
1.利用Lasso变量选取的方法可以有效的发现对模型因变量具有强影响力的因素,Lasso方法可以将对山东省经济增长作用不大的影响因素的系数压缩为0,并且同时还可以消除选取变量间的多重共线性、过拟合性等问题,因此,Lasso方法在经济方面的应用具有十分积极的作用。
2.人均GDP、山东省消费品零售总额、第三产业生产总值和能源生产总量对山东省经济增长具有一定的积极作用,说明国内宏观经济环境和山东省局部环境因素对山东省经济增长的影响是有利的。
3.相比于国内宏观经济环境和山东省局部环境因素对山东省经济增长的影响,国际环境对山东省经济增长的影响略弱,因此,有必要加强同国际经济环境的交流。
本文对Lasso变量选取方法进行了介绍,并将此方法应用到山东省经济增长的影响因素分析中,结果表明:Lasso方法对经济领域的研究具有很好的促进作用,其可以有效的处理各个影响因素之间的多重共线性问题,并能对影响作用较弱的变量将其系数进行压缩为0;目前山东省经济增长同国内宏观经济环境和山东省局部环境因素的影响较大,其中消费、能源等作用突出,科研等方面则需进一步加强,而国际环境对山东省经济增长的影响则偏弱。
[1]Tibshirani,R.Regression shrinkage and selection via Journal of the Royal Statistical Society Series B,the lasso.1996,58(1):267-288.
[2]闫丽娜,覃婷,王彤.LASSO方法在Cox回归模型中的应用[J].中国卫生统计,2012,29(1):58-60.
[3]曹芳,朱永忠.基于多重共线性的Lasso方法[J].江南大学学报(自然科学版),2012,11(1).
[4]钟金花,基于Lasso方法的上海经济增长影响因素实证研究[J].统计与决策,2013,373(1).
[5]徐庆娟,杨彬彬.基于R软件的Lasso回归在肿瘤信息基因选择中的应用[J].广西师范学院学报(自然科学版),2016,33(12).
郑俊卿,男,汉族,山东临沂,硕士研究生,山东科技大学,精算学与风险管理。