□赵玉新
近年来不少学者都在积极探索解决多元线性回归中的多重共线性研究,对三种解决方法进行深入探讨,针对每种解决方法的优劣以及实际应用效果进行深入分析,探讨每种解决方法的实际应用情景,从而提高多元线性回归的统计分析有效性以及预测准确性。三种方法的适用对象以及使用机理,本文研究的中心,其目的是为了提高实际问题中多元线性回归的分析效果,降低多重共线性对分析结果及预测结果的影响,明确这些解决方法的实用情景以及模型预测分析是多元线性回归应用继续解决的问题。
多重共线性问题是多元线性回归中自变量由于线性关系或者是近似线性关系,导致变量的显著性更加隐蔽,不利于察觉,所以增加了强参数估计的方差,导致模型的构建更加复杂、不稳定,不利于多元线性回归分析。若是多元线性回归中多重共线性存在于自变量系统之中,依旧是采用最小二乘拟合回归系数,就会降低模型的精确度以及可靠性,原因如下:一是当自变量完全相关时,最小二乘回归系数难以估计;二是自变量之间若是存在不完全共线线性,虽然回归系数可以估计但是估计方差会与自变量共线性成正比例关系;三是高度相关条件下,回归系数的估计值会与样本数据的微小变化的波动性大,导致回归系数估计值稳定性下降;四是所示多重共线性影响较为严重,则回归系数统计检验就难以顺利进行;五是当自变量高度相关下,最小二乘法得到的回归模型中的回归系数难以解释物理含义,所以导致回归系数的取值价值下降,严重会导致回归系数符号与实际情况相反;六是回归模型基于样本,多重线性也是抽样数据所以建立的回归模型若是用于预测,就难以保证预测期间数据不会受到多重共线问题影响,相对的共线性问题对预测结果虽然不会造成严重影响,但是预测结果却难以确定;七是多重共线一旦出现,回归系数就难以用一般解释方法进行解释。由此可见多元线性回归中多重共线性影响严重,无法满足多元线性的模型构建以及参数估计,不利于预测以及统计分析,研究多重共线性的消除是提高多元线性回归分析价值提升以及模型稳健性的重要保障。
现阶段学者们探索出的多重共线性解决方法主要是成分回归、岭回归以及对偏最小二乘回归三个方法,能够有效消除多元线性回归中多重共线性形象,针对自变量以及变量小系统的数据进行多样处理。不过在解决线性回归模型的多重共线性问题之中,这三种方法各具优势,但是在岭回归及主成分回归之中岭参数以及特征因子筛选问题还是备受争议,而对偏最小二乘回归的机理及模型作用更加明显。
(一)主成分回归。主成分回归的核心思想是主成分分析,根据多元统计方法针对多个变量间的相关系进行分析,利用几个互不相关的主成分构建新的综合指标,从而替换原有的具有一定相关性的P个指标,从而确保主成分具有更多的原始信息。具体步骤如下:一是摒除因变量Y,只考虑自变量的集合进行主成分提取,先是确定自变量集合的前m个非零特征值及向量,之后再针对主成分的性质,从均值为零和方差算子入手,前者是E(F h)=0,h=1,2,…,m,后者为var(F h)=λh h=1,2,…,m所以有var(F1)≥var(F2)≥…≥var(Fm),能够反映出原变异信息的反应精度;二是针对第一主成分与所有原变量的相关度进行最优问题确定,也就是寻找一个综合变量与原有所有自变量形成最相关,换言之就是第一主成分的确定;三是对主成分进行协方差确定,也就是针对主成分之间的不相关线性进行多重相关性回归建模,通过成分提取思路,摒除因变量Y的影响,但是主成分回归难以解释Y,所以其应用范围有限。
(二)岭回归。岭回归消除多重共线性得解决机理,主要是针对自变量中的复共线性也就是|XX'|≈0时,给XX’加上正常的数矩Kl(k>0),那么X'X+KI=0的可能性就会高于X'X,那么此时的基本思想:当出现多重共线性时,X'X≈0,从而使参数的β^=(X'X+KI)-1X'Y就会高于普通最小二乘估计的β,那么得到的模型就会更加稳定。岭回归应用主要应用于经济数据分析,可以针对进口总额Y以及国内总产值X1、储存量X2以及总消费量X3之间的关系进行分析,实际应用案例有2011年的法国经济数据分析,通过收集得到的11组数据,计算出各个自变量及变量的平均值、方差、然后通过对给定的原始数据进行标准化及中心化,可以进一步得出最小二乘回归,进而得出所需的特征值以及回归方程,再通过岭估计的概念在回归方程中通过不同K值的代入能够得到残差平方和是岭迹k的单调增函数,从而得到回归的岭迹图,取得稳定的K值之后就可以得到所需的岭回归方程,用于统计分析以及预测技术。
(三)对偏最小二乘回归。对偏最小二乘回归主要是针对多因变量的统计关系之中,尤其是在回归分析中若是自变量与因变量之间的个数较多,则因变量与自变量之间都会存在严重的多重共线性问题,所以就不能采用一般的多元回归方法,因此需要利用最小二乘法进行建模,提高数据统计分析的效果以及数据价值。
对偏最小二乘回归的基本思想如下:第一,记t1=X0W1,则能够将多元线性回归中多重共线性的消除转变为优化问题,确定max。第二,将X0和Y确定在t1的回归线上,也就是实现回归方程的数值带入,例如:X0=t1p1'+X1。第三,则是将残差矩阵中的X1和y1代替X0和y,然后采取提取t1的方法,进行第二个综合变量的t2的提取,以此类推,提取所有的综合变量,目前比较流行采用的是交差有效性,针对Y进行成分t1,t2,…的普通多元线性回归线防城区入定,然后针对X1,X2…进行线性组合得到PLS1回归模型。总体而言,对偏最小二乘回归采用的是循环式的信息分解与数据提取,所以能够确保原始信息与变量信息的保存,自动排除对Y解释无意义的数据,能够有效对数据进行综合性分析及模型构建,虽然对数据要求比较高,但是其应用范围是最广的。
总而言之,比对起成分回归以及岭回归而言,对偏最小二乘回归虽然在数据方面比较严格,但是其研究分析方法以及模型实用性较高,岭回归则是能够在均方误差无偏估计最小原则的情况下选择岭参数,而成分回归则是能够利用主成分加权残差平台进行筛选特征值,在实际应用过程中各有千秋,但对偏最小二乘回归的模型最为有效,所以在消除多重共线性中备受关注。