伍立志 杨 文 贾孝霞 沈其君△
线性模型中自变量相对重要性常见估计方法的模拟比较研究*
伍立志1杨 文2贾孝霞3沈其君2△
目的 比较和评价不同实验条件下常见估计方法在估计自变量相对重要性时的指标差异,探索影响各方法的估计结果差异的因素。方法 通过设置不同相关程度、自变量共线性水平及自变量个数等因子,使用改进后的大规模模拟研究观察不同方法间自变量估计值。结果 优势分析、相对权重、乘积尺度的重要性估计值之和与模型R2之差,小于标准回归系数平方、简单相关系数平方。在2400个重要性指标值中,乘积尺度法估计的负值达到229个(9.54%)。相关系数平方估计值小于优势分析法。标准回归系数平方出现较多极端值。自变量间共线性水平可解释平均Kendallτ值4%~25%的变异,样本量可解释20%~77%的变异,而自变量个数可解释14%~60%的变异。结论 对自变量重要性估计结果的影响最大的两个因子是样本量和自变量个数,其次有共线性水平和自变量与因变量间的相关程度。标准回归系数平方的估计结果变异性最大,相对权重与优势分析的估计结果是相对“有偏”的。
线性模型 相对重要性 方法比较 模拟研究
在评价线性回归模型中自变量的相对重要性时,常用的方法包括简单相关系数平方、标准回归系数[1-2]等。当针对自变量间存在共线性的情况,研究者先后提出了乘积尺度法、优势分析法及相对权重法。国外相关研究[3-4]均发现优势分析和相对权重虽理论基础不同,得到的重要性估计结果却非常相近。课题组在以往研究中使用基于主成分分析的大规模模拟研究全面比较和评价这两种方法[5],并以此为基础,在本研究中使用改进后的大规模模拟研究对相关系数平方(r2)、标准回归系数平方(β2)、乘积尺度(βr)以及相对权重和优势分析五种自变量估计方法进行比较,以探索各方法估计结果的差异。
1.两种传统的自变量相对重要性估计方法
在估计自变量相对重要性时,有许多传统的指标和方法,包括标准回归系数、Pearson相关系数以及偏相关和半偏相关系数等。在不考虑其他自变量的影响,只关注每个自变量与因变量间直接关系时,通常用简单相关系数的平方(r2)来表示。而在其他自变量存在的情况下,考虑某个自变量对因变量变异的预测能力,常用标准回归系数平方(β2)表示。
2.乘积尺度 Hoffman于1960年指出模型中自变量(x)的标准回归系数(βx)与相应的简单相关系数(rxy),两者之积和即为决定系数R2,对应的以其乘积βxrxy为每一自变量对因变量变异的贡献,这一方法被Bring等人命名为“乘积尺度”(Product Measure)[6]。
3.优势分析 1993年,Budescu提出了“优势分析”方法,对于任意两个自变量xi和xj,相对于余下p-2个自变量的任意子集xh,xi均能取得比xj更大的半偏相关系数平方,则称xi对xj具有“优势”[7],Azen和Budescu在2003年修订了“优势”这一定义。将优势分析方法分为完全优势分析、条件优势分析和一般优势分析[8],本文采用了一般优势分析的方法和定义来估计各自变量的相对重要性[9]。
4.相对权重 Johnson提出了(法即相对权重。它是将自变量Xj正交转换得到的正交变量ZK,以因变量Y对Zk做回归得到回归系数βk,每个自变量Xj分别对Zk做回归得到回归系数λjk。要计算每个自变量的相对重要性,只需计算每个自变量对应两组回归系数的积和ε[3]。公式如下:
(1)
1.参数设置
本研究对前期研究中的大规模模拟方法进行改进[5],剔除或简化对重要性评价结果无影响或影响极小的实验因子,添加样本量作为新的因子,对上述五种自变量估计方法进行比较。本研究选取优势分析作为各方法比较的基准,以比较各方法与其的指标值之差和一致性分析结果。研究所用的参数设置如表1。
2.模拟实验过程
本文基于LeBreton等人在2004年提出的模拟过程[11],在主成分分析的框架内,将相关阵分解成定义三个主成分的八个实验因子。通过这些实验因子产生组成主成分的特征值λ及因子载荷阵,进而生成模拟数据的相关阵,再使用Fan等人的方法产生样本数据集[12],进行自变量相对重要性分析。
*:实验因子一共可组成5 × 1 ×4 × 1 × 5 ×4 =400种不同的实验条件,每种实验条件下,重复产生100份模拟数据。
3.评价方法
为了比较各方法的相对重要性估计值,每一个实验条件下,计算每一个变量对应的估计值的差值d(d=优势分析-其他各方法),再计算同一条件下各变量指标差的均值,观测的分布特征,以判断两方法的指标值之间的差别。为了比较各方法的自变量重要性排序结果,用Kendall系数对各方法的自变量重要性结果与优势分析结果进行一致性检验,计算每一实验条件下对应的平均Kendallτ值。将每一个实验条件看作是一组观测值,其中六个实验因子便可看作是一组相互独立的新自变量,再以对应的平均Kendallτ值作为一个新的因变量,此时便可得到一个样本量为400的新“数据集”。对其做回归,回归模型中,所有实验因子均有意义且相互独立,可对这组新的自变量进行重要性估计,同时观察实验因子在不同水平时导致的平均Kendallτ值变化,评价实验因子对各方法结果差异的影响。
1.各方法与优势分析法之间的重要性估计值之差
各方法与优势分析法之间的指标差做直方图如下:
标准回归系数平方对应的分布较好的分布在0周围,但这一方法出现较多极端值,这是其他三种方法未有的现象。最小者为-2.0221,其绝对值远大于对因变量的重要性估计值。相关系数平方的分布较分散,估计结果呈现较大的变异性,呈左偏态分布,估计值比优势分析的重要性指标偏小。乘积尺度法与优势分析法较为贴近,其对应的集中分布于0周围,但范围稍宽,四分位间距和极差分别为0.0144和2.7614。可以看出有较大一部分差值大于0。相对权重法对应的集中分布于0位的右侧且呈明显的偏态分布。这与前期研究结果相符。
为了观察本次研究中各实验因子对各方法指标差的影响,将各方法对应的指标差随实验因子改变而变化的情况列表如下。
2.各方法与优势分析法之间的一致性分析
根据各方法与优势分析法间一致性结果的回归分析,可发现自变量与因变量间平均相关程度(因子1)可解释平均Kendallτ值2%~13%的变异,而共线性水平(因子3)可解释平均Kendallτ值4%~25%的变异,样本量可解释20%~77%的变异,而自变量个数可解释14%~60%的变异。具体如下列各表所示:
*:R2=0.7492,F=294.97,P<0.0001,所有因子的回归系数均有统计学意义且P<0.0001。
*:R2=0.6268,F=165.87,P<0.0001,所有因子的回归系数均有统计学意义且P<0.0001。
*:R2=0.6857,F=215.49,P<0.0001,所有因子的回归系数均有统计学意义且P<0.0001。
在本次研究中优势分析、相对权重和乘积尺度法的估计结果十分接近,不仅验证了以往研究者的推断,也证明了本次研究选取优势分析法作为方法比较基准的可行性。值得注意的是,本研究中选取了优势分析法作为比较各方法的基准,这绝不是说优势分析是估计自变量相对重要性的最优方法。目前的几种重要性估计方法各有优劣,而且学者对重要性方法的评价准则尚存争议。
*:R2=0.5227,F=108.14,P<0.0001,所有因子的回归系数均有统计学意义且P<0.0001。
在前期研究的基础上将实验因子进行适当的增减后 ,对比标准回归系数平方、相关系数平方、乘积尺度、相对权重以及优势分析五种方法,发现标准回归系数平方出现了较多的极端值,可能因为模型中出现某些高度相关的自变量而导致。相关系数平方与优势分析的指标差不受样本量变化的影响,但自变量个数增大时,指标差会增大。乘积尺度法与优势分析的指标差最为贴近,不受实验因子变化影响,但乘积尺度的最大缺点有负估计值的出现,相对权重依然相比优势分析的重要性估计值偏小,且随着样本量和自变量个数增大而逐渐接近优势分析。
在估计自变量相对重要性时,如果自变量间存在共线性,不应使用标准回归系数平方和简单相关系数平方等传统指标。相对权重法要好于乘积尺度法。相对权重法可看作是优势分析的“有偏估计”,尽管优势分析法的计算较为复杂,但随着计算机硬件的升级,这一问题不再突出。因此,本文推荐使用优势分析法来进行自变量的相对重要性估计。
本研究已经讨论的标准回归系数平方、简单相关系数平方、乘积尺度、相对权重以及优势分析,近年来还出现了PMVD法、随机森林法[13]以及基于对策理论的Shapley value,不同方法间重要性估计的差异更有待研究,模拟研究以其研究结果可信、省时省力等优点逐渐为研究者所接受并推广。均可以本研究中的大规模Monte Carlo模拟来进行比较和评价。以后的研究中可关注诸如共线性水平、自变量个数、样本量大小等实验因子影响方法间重要性估计差异的机理。可能的话,寻找比一致性评价更合适的方法作为评价不同方法的重要性估计结果。
[1]张波,代鲁燕,黄启风.logistic回归中自变量相对重要性的相对权重估计.中国卫生统计,2012,29(2): 191-192.
[2]贾孝霞,伍立志,沈其君.线性回归中自变量重要性估计的平均秩序方差分解法.中国卫生统计,2014,31(3): 535-537.
[3]JOHNSON JW.A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression.Multivariate Behavioral Research,2000,35(1): 1-19.
[4]CHAO YCE,ZHAO Y,KUPPER LL.Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies.Journal of Occupational and Environmental Hygiene,2008,5(8): 519-529.
[5]伍立志,贾孝霞,沈其君.自变量相对重要性评价中优势分析法和相对权重法的模拟比较.中国卫生统计,2014,31(1): 104-106.
[6]BRING J.A geometric approach to compare variables in a regression model.The American Statistician,1996,50(3): 57-62.
[7]BUDESCU DV.Dominance analysis A new approach to the problem of relative importance of predictors in multiple regression.Psychological Bulletin,1993,114(3): 542-551.
[8]AZEN R,BUDESCU DV.The dominance analysis approach for comparing predictors in multiple regression.Psychological Methods,2003,8(2): 129-148.
[9]HUO Y,BUDESCU DV.An Extension of Dominance Analysis to Canonical Correlation Analysis.Multivariate Behavioral Research,2009,44(5): 688-709.
[10]LEBRETON JM,TONIDANDEL S.Multivariate relative importance: Extending relative weight analysis to multivariate criterion spaces.Journal of Applied Psychology,2008,93(2): 329-345.
[11]LEBRETON J M,PLOYHART R E,LADD R T.A Monte Carlo Comparison of Relative Importance Methodologies.Organizational Research Methods,2004,7(3): 258-282.
[12]FAN X,FELSOVALY A,SIVO SA.SAS for Monte Carlo Studies A Guide for Quantitative Researchers.SAS Publishing,2003.
[13]STROBL C,BOULESTEIX AL,ZEILEIS A.Bias in random forest variable importance measures: illustrations,sources and a solution.BMC Bioinformatics,2007,8(25): 1-21.
(责任编辑:郭海强)
国家自然基金(81172771);浙江省自然科学基金(LQ14H260003)
1.浙江省疾病预防控制中心环境与职业卫生所(310051)
2.宁波大学
3.浙江医药高等专科学校
△通信作者:沈其君,E-mail:shenqijun@nbu.edu.cn