多重共线性问题的岭回归实例

2019-11-30 07:45王飞孙嘉聪沈丹
数学学习与研究 2019年20期
关键词:回归模型

王飞 孙嘉聪 沈丹

【摘要】在多元線性回归模型中,变量之间多重共线性的存在十分普遍,但其危害却不容忽视,文章简述了回归模型中多重共线性的一系列问题,并通过实例采用岭回归分析法对经济问题中的多重共线性问题进行了分析.所以研究线性回归中变量之间的多重共线性具有一定的实用价值.

【关键词】回归模型;多重共线性;岭回归分析

一、多重共线性

(一)多重共线性的含义

由于模型设定和数据等各方面的问题,模型的解释变量之间很可能存在某种程度的线性关系,这时称多元线性回归模型存在多重共线性问题.

数学描述:对于模型yi=β0+β1x1i+β2x2i+…+βpxpi+εi,i=1,2,…,n.(1-1)

其基本假设之一是解释变量X1,X2,…,Xp是相互独立的.如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity).

如果存在c1x1i+c2x2i+…+cpxpi=0,i=1,2,…,n.(1-2)

其中c不全为0,则称X1,X2,…,Xp之间存在线性.如果式(1-2)近似地对所有数据成立,则称X1,X2,…,Xp之间存在近似多重共线性.

(二)多重共线性形成的基本原因

完全多重共线性常因为在模型设定时把有严格联系的变量引进同一个模型,或者因为虚拟变量设置不当引起的.而近似多重共线性既与变量选择有关,也与数据有关,虽然由于解释变量的选择不当,把内在相关性较强的变量引进同一个模型,是导致近似多重共线性的重要原因,但近似多重共线性更经常的原因是经济数据的共同趋势.

(三)多重共线性的危害

当解释变量系统中存在严重的多重共线性时,若仍用最小二乘法拟合回归模型,则模型的精确性、可靠性都不能得到保证.

1.在解释变量完全相关的情况下,最小二乘法的回归系数完全无法估计.最小二乘法下,回归系数的估计量是β^=(X′X)-1,当X中的量完全相关时,(X′X)是不可逆矩阵.因此,此公式无法求得回归系数β,自然也得不到应有的回归模型.

2.若解释变量间存在着不完全的共线性,回归系数是可估计的,回归系数的估计方差会随着解释变量之间的相关性的不断增强而迅速扩大.在高度相关条件下,回归系数的方差很大,往往只更换样本中的个别数据所得到的回归系数的值就会有很大差异,这对于所得到的回归方程的可靠性就很难判断了.

3.存在严重的多重共线性时,回归系数的统计检验有一定的困难.在高度相关条件下,回归系数的方差不断增大,相应的t检验值减小,造成回归系数的t检验不能通过.在应用过程中,由于解释变量之间的多重共线性,造成一些重要的解释变量无法通过显著性检验,就可能把一些重要的解释变量作为无足轻重的因素而舍弃,从而得出与客观情况相悖的结论.

4.在解释变量高度相关的条件下,用最小二乘法得到的回归模型,其回归系数的物理含义很难解释.许多从专业知识上看似乎十分重要的变量,其回归系数的取值变得微不足道,甚至还会出现回归系数的符号与人们的实际概念完全相反的现象.

二、岭回归法

例:法国经济分析数据,考察进口总额Y与三个解释变量:国内总产值X1,存储量X2,总消费量X3(单位均为十亿法郎),现收集数据,具体值见表1.

对给定的原始数据进行中心化和标准化,得到如下数据:

可以通过计算得到它所有可能的最小二乘回归.如下表2-2.

进入回归的变量

回归系数的最小二乘估计

计算出其对应的三个特征值:λ1=1.999,λ2=0.998,λ3=0.003,

则其条件数d=λ1λ3=1.9990.003=666.333,在100与1000之间,即存在中等程度的复共线性.

设“标准化”变量的回归方程为:

Y^′=β^1X1′+β^2X2′+β^3X3′.(2-1)

应用岭估计的概念:β^(k)=(X′X+kI)-1X′Y并代入不同的k值,如下图2-3.

图2-3 外贸数据回归的岭迹图

(其中实线:β^1(k),虚线:β^2(k),点划线:β^3(k),横轴:k取值,竖轴:β^(k))

由岭迹图2-3可以看出,岭迹β^1(k)随着k的增加而快速增加,k=0.04后就稳定下来.总体来看,可以取k=0.04.

则对应的岭估计为:β^1(0.04)=0.420,β^2(0.04)=0213,β^3(0.04)=0.525代入“标准化”变量的回归方程(2-1):

Y^-YSY=β^1(0.04)X1-X1S1+β^2(0.04)X2-X2S2+β^3(004)X3-X3S3,

简化后得到岭回归方程:Y^=-8.5537+0.0635X1+05859X2+0.1156X3.

三、结 论

岭回归法解决多重共线性问题有其独到之处,与其他方法不尽相同.但要想减少MSE(β^),应采取岭回归法,无论采取什么方法,都应从实际情况出发,选择对解决实际问题有利而简单的方法,不仅可以对分析各变量之间的作用和联系带来意想不到的帮助,而且可以达到事半功倍的效果.

【参考文献】

[1]何晓群.多元统计分析[M].北京:中国人民大学出版社,2008:152-174.

[2]周纪芗.实用回归分析方法[M].上海:上海科学技术出版社,1990.

[3]赵松山.对多重共线性的深入思考[J]当代财经,2003(6):125-128.

[4][美]古扎拉蒂著,林少宫译.计量经济学[M]北京:中国人民大学出版社,2000.

猜你喜欢
回归模型
农村秸秆处理方式的影响因素
国际旅游外汇收入影响因素分析
城市空间用地扩展变化研究与规模预测
电子商务影响因素的计量分析
房地产价格影响因素实证分析
我国高额外汇储备的决定机制分析
恩格尔系数与消费者支出模式变动的关系
《应用回归分析》课程教学内容与教学方法的改革与实践
基于广义回归神经网络的工业项目电气设计工时预测
基于广义回归神经网络的工业项目电气设计工时预测