赵俊琴 王 慧 王 彤△
·应用研究·
基于LASSO的高维数据线性回归模型统计推断方法比较*
赵俊琴1,2王 慧1王 彤1△
目的 比较五种基于LASSO的高维数据线性回归模型统计推断方法:LASSO-惩罚计分检验,多重样本拆分、稳定选择、低维投影、协方差检验。方法 采用R软件模拟不同情形的高维数据,用五种方法做统计推断,以期望假阳性率和检验效能为评价指标,比较这五种方法在不同高维数据情形下的表现。结果 在理想高维数据情形下,除协方差检验推断结果保守外,其余方法表现都较好。在复杂高维数据情形下,LASSO-惩罚计分检验的检验效能是五种方法中最高的,其次为多重样本拆分,而LASSO-惩罚计分检验的EFP也是最高的,多重样本拆分的EFP基本接近0。结论 在常见复杂高维数据中LASSO-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法,两者相对而言前者较宽松,后者较保守。在实际应用中可根据应用需求来选择合适的统计推断方法。
高维数据 LASSO 统计推断 线性回归
高通量检测技术的发展带来了如基因、多肽、蛋白组学等大规模数据。这类预测变量p大于样本量n,甚至p随着n的增长呈数量级增长的数据被称为高维数据[1]。如何从大量的预测变量中迅速准确地筛选出少数真实变量集是高维数据分析面临的重要问题。目前针对高维数据的变量筛选方法已发展较为完善,主要包括惩罚类变量筛选方法(LASSO、弹性网等)、主成分分析法、偏最小二乘法等。然而基于有限样本建立的模型的可靠性和稳定性还需要进一步通过统计推断来给出答案。
由于高维数据的变量筛选方法大多依靠稀疏假定,存在很多系数为零的变量,分布的不连续性导致很难得到系数估计值的近似分布,因此高维数据的统计推断领域还未有公认的好方法。LASSO(least absolute shrinkage and selection operator)可获得最优解和解的稀疏性,自提出以来备受欢迎。因此本研究将介绍现有的基于LASSO的高维数据线性回归模型统计推断方法,分别是协方差检验(covariance test)、多重样本拆分(multiple sample-splitting)、稳定选择(stability selection)、低维投影(Low-dimensional projection estimate)、LASSO-惩罚计分检验(LASSO penalized score test),并作比较,目的在于推荐其中较好的方法。
1.LASSO简介
LASSO的主要思想是在最小二乘法的基础上加入一个惩罚项λ‖β‖1,通过使系数的绝对值和小于某一个常数来最小化残差平方和,同时与y关系弱的自变量系数被惩罚为0从而实现稀疏性。相比最小二乘法,LASSO牺牲了一些无偏性但实现了解的稀疏性,使模型更为稳定。LASSO解是凸函数,可获得最优解,见公式(1)。
(1)
选择合适大小的调整参数λ很重要(λ过大,可能导致过多变量被惩罚为0,从而遗漏重要变量;反之,可能导致最终模型过度拟合而可解释性差)。目前λ的估计方法主要有:交叉验证法、广义交叉验证法和无偏风险估计分析[2]。下文中未做特别说明的λ选择方法均为交叉验证法。
2.协方差检验
协方差检验[3]是基于LASSO解路径的方法,即随着λ从某个值(在该λ下LASSO模型只包含截距项)减小到0,每一次λ减小有一个变量进入模型,然后检验该变量所引起的残差平方和的改变量是否在残差方差解释的范围内,直到下一个进入模型的变量被检验为无统计学意义终止,由该变量之前所有变量构成最终模型。
3.多重样本拆分
多重样本拆分法源自对单样本拆分的改进。单样本拆分的主要思想是拆分样本、降维、用经典检验方法做推断。但单样本拆分法的结果不稳定,过于依赖样本的拆分结果[4]。为了提高可重复性,Meinshausen和Meier提出多重样本拆分[5],将样本随机拆分为两份样本量相同的子样本,第一份采用LASSO筛选变量得到变量集,第二份用最小二乘法作参数估计,并采用经典检验方法对变量作检验。以上整个过程重复B次,将P值合并。重复次数B达到50到100即可。
4.稳定选择
5.低维投影
6.LASSO-惩罚计分检验
采用R软件模拟高维数据不同情形。
设置自变量矩阵Xn×p,每一行表示一个观测,每一列表示一个自变量。X1,…,Xp均为服从正态分布N(0,1)的独立随机变量,随机误差项服从标准正态分布。
7种样本量:n=50、75、100、150、200、300、400;两种自变量个数:p=100、300;
两种自变量间相关性:(1)自变量间相互独立corr(Xi,Xj)=0;(2)自变量间的相关性随着自变量在矩阵中距离越远而递减corr(Xi,Xj)=0.5|i-j|。LASSO在处理相关性较强的数据中表现较差,第二种相关性设定可观察五种方法的推断结果是否依赖于LASSO的变量估计结果;
按照以上参数的设置生成高维数据(见图1、图2),模拟次数B=100,分别用前面介绍的五种方法进行变量筛选及统计推断。其中稳定选择的重复抽样次数设为500,截断点πthr取0.6;多重样本拆分的拆分次数设为50;LASSO-惩罚计分检验采用近似方差估计法。结果评价指标为期望假阳性率(expected false positives,EFP)和检验效能,分别定义如下:
(2)
(3)
‖β‖0表示真实非零回归系数的个数,Pjk表示第k(k∈(1,…,B))个模拟数据中第j个变量的P值。
分别以EFP和检验效能为纵坐标,五种方法为横坐标作图。图1显示随着自变量个数的增加,五种方法的EFP均明显增加。图2显示真实回归系数的降低,使五种方法的检验效能均大幅度降低,特别是在小样本的情况下降低更为明显。在理想高维数据情形下(a图)稳定选择的表现是五种方法中最好的,但在实际情况下理想的高维数据很难见到。常见复杂高维数据情形下(h图)LASSO-惩罚计分检验发现真实非零变量的能力优于其余四种方法,且其对非零变量可识别性的要求低,但期望假阳性率高。多重样本拆分发现真实变量的能力虽然依赖于非零变量可识别性,但当要求不满足时结果仅次于LASSO-惩罚计分检验,且其期望假阳性率极低。
在常见复杂高维数据中LASSO-惩罚计分检验和多重样本拆分是两种较好的高维数据线性回归模型统计推断方法.两者相对而言前者较宽松,后者较保守。在实际应用中无法得知真实数据非零变量可识别性的高低,但可根据实际需求来选择合适的统计推断方法。例如,若是探索性分析想要从大量数据信息中检测出可能与结果变量相关的所有变量,或是在恶性疾病相关基因的检测中,检测出与其相关的所有可能基因来进一步验证,则可用LASSO-惩罚计分检验,检测结果较全面。若是验证性分析,要求被检测为有意义的变量与结果变量存在实际相关的概率很高,则可用多重样本拆分。
图1 五种方法的EFP
(横坐标数字1~6分别代表:LASSO-惩罚计分检验λ分别为0.05、0.07、0.1、0.2、0.5、0.7;7:多重样本拆分;8:稳定选择;9:低维投影;10:协方差检验。样本量n,○ 50,×100,+200,◇ 400,□ 75,△ 150,○ 300)
图2 五种方法的检验效能
受计算机运行速度等方面的限制,本次研究的数据模拟较为简单,模拟次数较少。LASSO在处理存在强相关的数据时仍存在局限性[10],所以可以考虑将LASSO-惩罚计分检验的惩罚类变量筛选方法换做弹性网或ISIS(iterative sure independence screening)等处理强相关数据的方法来降低假阳性率。多重样本拆分在非零变量可识别性低时效能较低,可以考虑将子样本中变量筛选方法改为其他对该条件要求低的变量筛选方法。
[1]Greenshtein E,Ritov YA.Persistence in high-dimensional linear predictor selection and the virtue of over-parametrization.Bernoulli,2004,10(6):971-988.
[2]张秀秀,王慧,田双双,等.高维数据回归分析中基于LASSO的自变量选择.中国卫生统计,2013,30(6):922-926.
[3]Lockhart R,Taylor J,Tibshirani RJ,et al.A significance test for the LASSO.The Annals of Statistics,2014,42(2):413-468.
[4]Dezeure R,Bühlmann P,Meier L,et al.High-dimensional Inference:Confidence interval,p-values and R-Software hdi.Statistical Science,2015,30(4):533-558.
[5]Meinshausen N,Meier L,Bühlmann P.P-values for high-dimensional regression.Journal of the American Statistical Association,2009,104(488):1671-1681.
[6]Meinshausen N,Bühlmann P.Stability Selection.Journal of the Royal Statistical Society,B,2010,72(4):417-473.
[7]Zhang CH,Zhang SS.Confidence intervals for low dimensional parameters in high dimensional linear models.Journal of the Royal Statistical Society,B,2014,76(1):217-242.
[8]Geer SVD,Bühlmann P,Ritov Ya,et al.On asymptotically optimal confidence regions and tests for high-dimensional models.The Annals of Statistics.2014,42(3):1166-1202.
[9]Voorman A,Shojaie A,Witten D.Inference in High Dimensions with the Penalized Score Test[EB/OL].Statistics,2014.
[10]闫丽娜,王彤.惩罚COX模型和弹性网技术在高维数据生存分析中的应用.太原:山西医科大学,2011.
(责任编辑:郭海强)
* 国家自然科学基金资助(81473073)
1.山西医科大学卫生统计教研室(030001)
2.河北省疾病预防与控制中心
△ 通信作者:王彤,E-mail:wtstat@21cn.com