胡 完 孙岩松 胡良平△
数据存在共线性时采用主成分回归分析与投影寻踪回归分析的效果比较*
胡 完1孙岩松2△胡良平1△
目的 比较主成分回归分析与投影寻踪回归分析在数据存在共线性时效果之差别。方法 利用实际数据从拟合效果和预测效果两方面评价两种建模方法的优劣。结果 主成分回归模型的决定系数为0.8172,相对误差绝对值的平均值为6.42%,预测误差的均方为0.61;投影寻踪回归分析各模型的决定系数为0.8851~0.9944,相对误差绝对值的平均值为1.11%~4.81%,预测误差的均方为0.03~0.38。结论 本实例数据(存在一定共线性)分析结果表明,投影寻踪回归分析的拟合效果与预测效果均优于主成分回归分析。
主成分回归分析 投影寻踪回归分析 共线性 拟合效果 预测效果
在进行回归分析时,经常会遇到自变量间存在共线性的问题。当自变量间存在共线性时,可能使回归系数的估计变得不稳定,从而不能判断各自变量对因变量的影响程度,甚至会使回归系数的正负号与其代表的变量在专业上的含义不吻合[1]。主成分回归分析是解决多重线性回归分析中数据存在共线性时的方法之一。主成分回归分析的原理是:将原来具有共线性的自变量X1,X2,…,Xp,通过计算相关系数矩阵R的特征根及对应的特征向量,找到相应的p个主成分变量Z1,Z2,…,Zp,然后再利用多重线性回归分析方法,研究因变量与主成分变量之间的关系,最后再将主成分变量还原为原自变量即可得到因变量对原自变量的回归模型。
1.投影寻踪回归方法简介
在实际科研中,高维数据的统计分析越来越普遍,数据高维时出现了计算量大、容易出现“维数祸根”以及传统的统计学方法在高维时稳健性变差的问题[2],在上述背景下出现了投影寻踪回归(projection pursuit regression,PPR)分析法。PPR的基本思想是:将高维数据投影到低维(1~3维)子空间上,寻找出能反映原高维数据结构或特征的投影后进行回归分析,从而达到研究和分析高维数据的目的[3],使用PPR的关键是找到最佳投影方向。1981年,Friedman和Stuetzle[4]基于投影寻踪的思想最先给出了投影寻踪回归分析方法,其主要目的是解决高维空间中的回归建模问题。他们提出了用若干个岭函数加权的形式来逼近回归函数的思想。投影寻踪回归分析模型的数学表达式为:
(1)
本文中所用的投影寻踪回归模型为基于Hermite多项式的回归模型,它采用的是可变阶的正交Hermite多项式拟合(1)式中的岭函数。其r阶Hermite函数的数学表达式为:
(2)
其中r!代表r的阶乘,r为Hermite函数的阶数,z=aTX,φ为标准高斯方程,Hr(z)为Hermite多项式采用递推的公式给出。Hr(z)递推关系定义:
(3)
此时投影寻踪回归模型的表达式为:
(4)
其中,R为多项式的阶数,c是多项式的系数,h表示正交Hermite多项式。
2.投影寻踪回归模型求解
投影寻踪回归分析的关键是找到最佳投影方向,目前一般采用遗传算法(genetic algorithms,GA)来优化投影方向。GA是模拟生物进化中自然选择、杂交、变异等群体遗传机制的一种数值优化方法,它把待解决的问题作为对目标函数的全局优化,待优化的变量对应生物种群的个体,利用繁殖、交叉、变异与选择操作,反复迭代直到获得符合要求的种群或者进化时限[5-7]。本文中投影寻踪回归模型求解采用的是基于实数编码的遗传算法来优化投影方向和岭函数的参数。具体求解步骤如下:
③重复①和②直至找到使Q最小的最佳投影方向a1和最佳岭函数f1。
④检验模型是否达到要求,若达到要求则终止计算,若未达到要求则进行下面步骤。
⑤寻找下一个岭函数:用残差代替因变量与自变量建立关系,重复①至③,直至找到第m个最佳投影方向am和最佳岭函数fm。
⑥重复④和⑤直到模型达到要求。
本文中拟合样本采用的是原始的样本数据,预测样本采用的是对应于相应变量的平均值、最大值、最小值、中位数、四分之一分位数、四分之三分位数所形成的6个统计量值作为预测样本。
拟合效果评价采用下列方法:
①决定系数。
②相对误差绝对值的平均值(下文中简写为“FITave”)。
③利用实际值与拟合值建立简单回归方程,然后检验回归方程的斜率是否为1且截距项是否为0。
④残差分析。
预测效果评价采用下列方法:
①各预测样本相对误差的绝对值。
②预测误差的均方(下文中简写为“MSE”):预测误差的均方比平均绝对误差或平均相对误差绝对值能更好地衡量预测的精确度[8]。
表1 17个城市降水中离子浓度和pH值浓度
*:数据来源为文献[2]。
表2为对应于表1中相应变量的平均值、最大值、最小值、中位数、四分之一分位数、四分之三分位数所形成的6个统计量值所形成的预测样本。
表2 预测样本详细数据取值
对表1中的数据以y为因变量x1、x2、x3、x4、x5为自变量进行多重线性回归分析,经共线性诊断,最大条件数为14.80215>10,故自变量间存在一定程度的多重共线性关系。
主成分回归分析:第1个主成分包含了原先5个自变量信息的50.93%,前2个主成分包含了原先5个自变量信息的80.52%,前3个主成分包含了原先5个自变量信息的91.08%,前4个主成分包含了原先5个自变量信息的99.77%。以y为因变量,5个主成分为自变量,采用逐步筛选变量(sle=0.10,sls=0.05)法、前进法结合剔除模型中无统计学意义(检验水准设定为0.05)的变量方法、后退法结合剔除模型中无统计学意义(检验水准设定为0.05)的变量方法进行多重线性回归分析,结果均为仅第2个主成分进入回归方程,此时主成分对原自变量信息的涵盖量为29.58%。进一步分别绘制y与各主成分、主成分的平方项、各主成分之间的交互项的散点图,结果显示仅第2主成分与y之间存在直线关系,并且,y与前述提及的其他派生变量无确定性的曲线变化趋势。故回归模型中仅包含第2个主成分的回归方程是可取的。主成分回归模型的标准化残差图显示散点均匀随机分布在以0为参考线±2倍标准差范围内,未见异常点。
投影寻踪回归分析:分别用1~2个岭函数,Hermite多项式阶数为2~5来进行投影寻踪回归分析,投影寻踪回归分析各模型命名为pprM_N,其中M代表岭函数个数,N代表Hermite多项式的阶数,例如ppr1_2代表岭函数个数为1个、Hermite多项式阶数为2时的投影寻踪回归模型。ppr1_2,ppr1_3,ppr2_3的标准化残差图中除“合肥”落在(-2,-3)倍标准差范围内外,其余散点均匀随机分布在以0为参考线±2倍标准差范围内;ppr1_4的标准化残差图中除“北京”落在(+2,+3)倍标准差范围内外,其余散点均匀随机分布在以0为参考线±2倍标准差范围内;ppr1_5的标准化残差图中除“贵阳”落在(-2,-3)倍标准差范围内外,其余散点均匀随机分布在以0为参考线±2倍标准差范围内;ppr2_4的标准化残差图中除“杭州”落在(+2,+3)倍标准差范围内外,其余散点均匀随机分布在以0为参考线±2倍标准差范围内;ppr2_5的标准化残差图中散点均匀随机分布在以0为参考线±2倍标准差范围内。故总的来说,从各投影寻踪回归模型的标准化残差图中未发现十分明显的异常点。因篇幅所限,上面提及的残差图此处从略。
对各模型采用实际值与拟合值进行简单回归分析,然后检验截距项是否为0,斜率是否为1,该假设检验结果汇总见表3。
表3 斜率和截距项假设检验结果汇总
从表3可知,主成分回归和投影寻踪回归各模型的预测值与实际值的一致性均较好。
主成分回归分析和投影寻踪回归分析各模型的决定系数(R2)、相对误差绝对值的平均值(FITave)、预测样本中各观测的相对误差、预测样本的预测误差的均方(MSE)结果见表4。
表4 主成分回归分析与投影寻踪回归分析各模型结果汇总
从表4可知,主成分回归模型的决定系数明显小于各投影寻踪回归模型,相对误差绝对值的平均值大于各投影寻踪回归模型,故从拟合效果而言,可认为投影寻踪回归模型的拟合效果好于主成分回归。并且在Hermite多项式阶数固定时,投影寻踪回归的拟合效果随着岭函数个数的增加呈现更好的变化趋势;在岭函数个数固定时,投影寻踪回归的拟合效果随着Hermite多项式阶数的增加呈现更好的变化趋势。
就预测效果而言,各投影寻踪回归模型中mean的相对误差绝对值均大于主成分回归模型得到的相对误差绝对值,其余5个预测样本max、min、median、q1和q3的相对误差绝对值均小于主成分回归模型。各投影寻踪回归模型预测误差的均方(MSE)小于主成分回归模型得到的预测误差均方。所以从整体上可以认为投影寻踪回归模型的预测效果好于主成分回归。
故对于表1中数据而言,采用投影寻踪回归模型拟合,其效果要好于主成分回归。
在多重线性回归分析中数据存在多重共线性是常见的问题,目前对于多重共线性的处理方法主要包括:变量筛选、主成分回归、岭回归、偏最小二乘回归、增大样本含量等方法,但因篇幅所限,本文仅考虑主成分回归。主成分回归分析在解决变量共线性时可能遇到的问题就是最终进入方程的主成分变量对原自变量信息的贡献率较低。像本文实例,采用主成分回归,仅对原自变量信息贡献率为29.58%的第2个主成分变量进入了回归方程,并且模型的决定系数只有0.8172,所以此时采用主成分回归效果不是很理想。
投影寻踪回归(PPR)具有稳健性好、预测结果准确度高等优点,已被广泛应用于高维数据,尤其是非线性、非正态高维数据的分析和处理。本文中实例采用GA对投影方向进行优化,利用PPR法将5维数据投影到1维后,克服了“维数祸根”的问题,并且无论是从拟合效果(决定系数、相对误差绝对值的平均值)而言,还是从预测效果(各预测个体的绝对误差和预测误差的均方)来说,PPR都优于主成分回归分析。
在本实例分析中,考虑到主成分回归模型中主成分对原自变量信息的贡献率低可能是造成PPR效果优于主成分回归的原因,故在主成分回归模型中加入第一主成分(不考虑该成分回归系数经统计学检验无意义)。当主成分回归模型中包含第一、第二主成分时,对原自变量信息的贡献率达到了80.52%,模型决定系数为0.8545,相对误差绝对值的平均值(FITave)为4.84,预测误差的均方为0.32。其拟合效果仍差于PPR各模型,预测效果整体上除稍优于ppr2_3外,差于其他各PPR模型。故就本实例数据而言,尚不能认为主成分对原自变量信息的贡献率低是造成主成分回归拟合效果和预测效果要差于PPR的原因。
主成分回归分析采用正态标准化处理数据会导致信息丢失,预测精度相应降低,而PPR直接从数据本身出发,利用GA全局优化,不会丢失数据的信息,预测精度高,这或许是造成PPR拟合效果和预测效果要好于主成分回归的原因之一。主成分回归和PPR效果的差异原因有待进一步的研究。
[1]胡良平.医学统计学——运用三型理论进行现代回归分析.北京:人民军医出版社,2010:98.
[2]付强,赵小勇.投影寻踪模型原理及其应用.北京:科学出版社,2006,2:139-140.
[3]Zadehl A.Fuzzy sets .Information and Control,1965,8(3):338-353.
[4]Friedman JH,Stuetzle W.Projection pursuit regression .J Amer Statist Assoc,1981,76:817-823.
[5]Holland JH.Genetic algorithms and the optimal allocations of trials .SIAM Journal of Computing,1973,2:88-105.
[6]Holland JH.Genetic algorithms .Scientific American,1992,(4):44-50.
[7]刘勇,康立山,陈毓屏.非数值并行算法(第二册)——遗传算法.北京:科学出版社,1997.
[8]徐国祥.统计预测和决策.第2版.上海:上海财经大学出版社,2006:243.
(责任编辑:郭海强)
A Comparative Study on the Effect of Principal Component Regression Analysis and Projection Pursuit Regression Analysis Applied to the Data with Collinearity
Hu Wan,Sun Yansong,Hu Liangping
(ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences(100850),Beijing)
Objective To compare the difference of effect between principal component regression analysis and projection pursuit regression analysis when collinearity exists in data.Methods Evaluating the advantages and disadvantages of the two modeling methods by using the actual data on two aspects: the fitting effect and the predicting effect.Results The principal component regression model showed that the coefficient of determination was 0.8172, the mean of absolute relative error was 6.42%and the mean square of prediction error was 0.61.The projection pursuit regression model, on the other hand, showed that the coefficient of determination ranged from 0.8851 to 0.9944, the mean of absolute relative error ranged from1.11% to 4.81%and the mean square of prediction error ranged from 0.03 to 0.38.Conclusion The analysis results based on the actual data with collinearity indicate that the projection pursuit regression analysis outperforms the principal component regression analysis both in fitting and predicting effect.
Principal component regression analysis; Projection pursuit regression analysis; Collinearity; The fitting effect; The predicting effect
*国家重点研发计划,生物安全监测网络系统集成技术研究(2016YFC1200700)
1.军事医学科学院生物医学统计学咨询中心(100850)
2.军事医学科学院
△通信作者:胡良平,E-mail:lphu812@sina.com;孙岩松,E-mail:sunys@qq.com