张凌洁宝鸡文理学院
浅谈高维数据变量选择现状与方法
张凌洁
宝鸡文理学院
变量选择是统计分析理论中的重要内容,也是目前学者们研究的重点。本文在传统数据变量选择的基础上,介绍高维数据变量选择方法的研究历史和研究现状,总结已有变量选择的研究成果,并在此基础上进行了总结和展望。
高维 变量选择 稳健方法
从20世纪60年代至今,变量选择的研究已有不少文献与资料。以Akaike 在1974年提出的AIC准则为标志,近几十年来,变量选择是统计学者们研究的重点,研究的方法和理论结果已经有了相对成熟的进展。
经典的变量选择包括前进法、后退法、逐步回归法、最优回归子集法等,通过AIC,BIC,Cp等从候选模型中选出一个最优子集来拟合回归模型。建立回归模型初期,引入很多相关的变量以减小模型的误差;选择对因变量有明显影响的重要变量以提高模型预测的精度和可解释性。
实际中,经典的变量选择方法,适合模型中变量个数比较少的模型。但是当变量个数增多时,需要解决的问题也随之增多。如由于要求解一个多项式复杂程度的非确定性问题,从而处理高维和海量问题时失效;对于成百上千的变量,如果我们选择过多的变量,则会使计算成本过大、变量选择估计的速度减慢以及模型选择的精准度降低,也会出现过度拟合现象;如果我们选择较少的变量,则会遗漏重要变量或选择变量不当,使结果误差较大,也失去了分析研究的意义。只有选取适合的变量选择方法,才能选择出有用变量,去除冗余变量,化简模型。这样既节省了计算量,也便于分析数据使结果更加精确,所以选择适合的变量选择方法是研究高维数据时的重要的步骤。
近年来,统计学者们提出用惩罚函数同时进行变量选择和系数估计,其基本思想就是在进行参数估计的同时,把较小的系数估计压缩,而将较大的系数估计保留,从而选择出重要变量达到变量选择的目的──正则化方法。正则化估计能大大减少计算量、克服经典变量选择方法的不稳定性。目前的惩罚方法有:Tishirani等提出的Lasso、Fan等提出的SCAD、Zou等提出的自适应Lasso、Zou等提出的Elast ic Net、Wang等提出的组Lasso、Zhao等提出的分级Lasso、Candes等提出的Dantzig Selector 以及Xu等提出L1/2正则化、Zhang等提出处理NP维下的非凸惩罚估计MCP惩罚、Fan等研究超高维非凸惩罚函数变量选择问题。
随着科学技术的发展,人们可以搜集到物理化学、个性化医疗、雾霾分析及其它领域的高维海量数据。这些数据计算的复杂性和高成本使得经典地变量选择方法不再适用,为此,统计学者们开始寻找研究高维数据的变量选择方法,即以lasso为代表的惩罚似然方法(通过系数压缩来实现变量选择)。然而实际中的高维数据却含有异常值点,使得数据呈现尖峰或厚尾分布,此时的变量选择方法将不再具有优良性和稳健性,统计学者们提出稳健估计方法,即用具有稳健性的损失函数来替代最小二乘损失函数,如M-估计、最小平方中位数估计和最小平方修整估计、分位数回归模型、秩回归、CQR估计等。
2.1方法的提出和性质的研究
1996年Tibshirani提出一般线性模型下的lasso方法,开启了高维数据变量选择的研究,具有划时代的意义。Lasso可以使无明显影响变量的系数压缩为零,同时进行变量选择和参数估计。Lasso在估计值较大的变量可将重要变量的系数压缩较小,而保证参数估计的准确性。但是lasso方法不具有oracle性。2004年Fan得出SCAD具有oracle性质且降低了计算的复杂度。2007年Zhao提出lasso不具有相合性也不具有oracle性,Zou对lasso做相同系数压缩提出ALasso方法,证明其在固定维数时具有oracle性。2010年Shojaie提出ALasso中调整系数A值的ALasso是一种凸优化问题,可快速有效地得到其全局最优解。2005年Zou提出了处理基因微阵列数据的Elastic net方法,对系数二次惩罚,使得具有组效应的数据可以进行有效的变量选择,且能解决高维小样本问题。2009年Zou提出的adaptive Elastic Net具有oracle性质。为解决Lasso方法过拟合问题,2007年Meinshausen引入压缩参数提出Relaxed Lasso,2013张凌洁等分析研究LS+LAD组合损失函数的高维稳健统计性质。这些方法一定程度上可以处理高维统计问题。
2.2方法在各类模型中的研究
一般线性模型中有变量选择,同样其他模型中也有变量选择。1996年Tibshirani推出COX模型下的lasso,2001年Paek提出广义线性模型下的lasso,2007年Meinshausen提出高斯图模型中的Graphical lasso,2014年张凌洁等分析研究了分层惩罚链接单个图模型的估计的多图模型,2011年卢颖提出poisson对数线性模型下和logist ic回归模型下的ElasticNet变量选择方法,同年Nardi提出时间序列模型下的lasso,Kai等提出的变系数半参数模型下的SCAD及其理论性质,崔静等提出Poisson对数回归模型下ALasso的定义和性质,2012年Li提出半参数模型的lasso,2015年苏美红等[4]分析研究了LADElastic Net模型选择的一致性。
2.3方法研究注意的事项
正则化方法研究的模式通常是“损失函数+惩罚函数”,一个较优的惩罚估计需注意以下几个问题:
(1)选择损失函数。损失函数的好坏决定着模型的稳健性,数据模型呈正态分布时,其结果最佳;
(2)选择惩罚函数。惩罚估计的理论性质(稀疏性、连续性和无偏性)取决于惩罚函数的选择;
(3)采用的算法。算法的可行性,运算时间直接影响着估计结果的准确性;
(4)选择调试参数。调试参数对模型稀疏性和相合性影响较大。
随着大数据应用的深广,人们对高维数据的研究和运用也日益普遍。高维数据变量选择是大数据研究领域的热点,也是大数据领域不得不关注的重要问题。本文介绍了高维数据变量选择方法的研究历史和研究现状,总结了一些已有的研究成果。高维数据变量选择模型多种多样,从中选择与实际情况相结合并不断地修改模型使其具有实际应用价值。如果采用最优的函数和有效的算法,用于模型的建立与算法的实现,可为高维数据变量选择的应用提供研究基础,有利于推进研究工作的进一步深化,也有利于体现现实价值。
[1] Tibshi rani, R. Regression shrinkage and selectionvia the Lasso[J]. Journal of the Royal Statistical Society Series B. 1996, 58: 267-288.
[2]张凌洁,苏美红,张海。LS,LAD组合损失的高维统计性质分析[J].纯粹数学与应用数学期刊(自然科学版),2013,29(5):536-546.
[3]张凌洁,张海。多图模型的联合估计的群桥方法[J].高校应用数学学报(自然科学版).2014,29(2):127-137.
[4]苏美红,张海,张凌洁.基于LAD-Elast ic Net的模型选择[J].南京大学学报(自然科学版),2015,51(4):894-900.
宝鸡文理学院校级重点科研项目,项目名称:高维数据统计性质分析。编号:(ZK16118)。
0212.1
张凌洁(1986-),女,陕西凤翔人,硕士学位,主要研究方向:机器学习。