岭回归方法和偏最小二乘回归方法在处理多重共线性问题的实例比较

2015-05-30 13:11周鑫
数学学习与研究 2015年3期

周鑫

内容提要:文章介绍了处理多元线性回归模型中多重共线性问题的有偏回归方法——岭回归和偏最小二乘回归,并通过实例比较了两种方法建立的回归方程的拟合效果,而偏最小二乘回归方法相对岭回归方法要更优.

【关键词】多重共线性;岭回归;偏最小二乘回归

【中图分类号】O212.4 【文献标识码】A

一、问题提出

在多元线性回归模型中,如果解释变量之间存在着密切的线性相关关系,就称它们之间存在着多重共线性.在出现多重共线性情形时,普通最小二乘估计不再适用;回归参数的估计值方差会很大,从而影响自变量对因变量的解释;估计的精度会降低;估计的效果也会变坏.在实际经济问题的多元回归分析中,多重共线性的现象很多,这时我们就应该寻找另外的回归方法对参数进行估计.

二、方法介绍

如果在实际问题中出现了多重共线性的现象,我们可以选择用有偏回归方法——岭回归(RR)和偏最小二乘回归(PLS)来处理.岭回归是利用岭估计(X′X+kI)-1X′Y来替代普通最小二乘估计(X′X)-1X′Y,从而消除了普通最小二乘估计中矩阵X′X无法求逆的问题.偏最小二乘回归是先在自变量集和因变量集中分别提取第一潜在因子t1与u1,其中t1与u1分别是自变量与因变量的线性组合,要求t1与u1尽可能多地提取所在变量组的变异信息,且t1与u1的相关程度达最大,然后建立因变量与t1的回归方程,若回归方程不能达到满意的精度,则继续提取第二潜在因子,否则停止.

三、实例比较

根据理论及对现实情况的认识,拟建立以我国国民总收入(单位:亿元)为因变量y,以就业人员数(单位:万人)、财政收入(单位:亿元)、能源生产总量(单位:万吨标准煤)、国有单位工资总额(单位:亿元)和城镇集体工资总额(单位:亿元)分别为自变量x1,x2,x3,x4,x5的线性回归模型.由《中国统计年鉴》查得相关数据如下:

在SAS软件上使用REG过程来建立最小二乘回归方程,所有自变量的方差膨胀因子都大于100,诊断出模型中存在非常严重的多重共线性问题.用最小二乘法所得到的回归方程为

y=-431189+6.13224x1-0.18088x2+0.44051x3+5.69125x4-13.63786x5.

可以看到方程中,自变量x2,x5的系数为负,这显然与事实不符,这正是由多重共线性所导致,因此最小二乘回归求出的回归方程不利于模型的解释,下面改用岭回归方法来建模.

用SAS软件中的REG过程,求解岭回归方程.由岭迹图可以看出,当岭参数k≥0.02后,岭迹曲线趋于稳定,因此,取k=0.02的岭回归估计来建立岭回归方程为

y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5.

这时,回归系数的符号符合实际意义.

现在用偏最小二乘回归方法来进行处理,用SAS软件中的PLS过程建立偏最小二乘回

归方程,用最常用的舍一交叉验证法来抽取偏最小二乘的成分,结果抽取了3个偏最小二乘成分,得到偏最小二乘回归方程为

y=-309489.7954+4.4234x1+1.5336x2+0.2272x3+4.6856x4+1.2270x5,

这时,回归方程中的回归系数的符号也都符合实际意义.

根据前面得出的岭回归方程和偏最小二乘回归方程,计算出衡量模型拟合效果好坏的平均绝对百分误差和复测定系数,得到相应的数值如下:

四、总 结

从上例可以看出,在多元线性回归模型中出现共线性问题时,最小二乘回归方法已经不再适用,而用岭回归和偏最小二乘回归这两种有偏回归方法都可以处理多重共线性问题,且从表2的结果可知,两种方法建立的回归方程拟合的效果都不错,而偏最小二乘回归方法相对岭回归方法要更优.

【参考文献】

[1]高惠璇.实用统计方法与SAS系统[M].北京:北京大学出版社,2001.

[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998.

[3]王惠文,偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.