常用的特征筛选方法研究

2020-02-04 07:40于娜
科技资讯 2020年36期

于娜

摘  要:数据化的信息时代, 人们一直期待能够将没有代表性的冗余的特征去除, 从而使获得的数据是通常由有效的、具有代表性的特征表示的。通过特征筛选去建立一个预测精度高的可解释模型。正则化下的稀疏模型是识别积极活跃特征的一种流行技术。总体来说,特征筛选目标为: 剔除不具代表性的冗余特征, 识别积极的有效特征; 可解释性好的高准度预测模型。筛选出有效的特征不仅可以提高计算效率, 还能提高预测模型的精准度。

关键词:安全筛选  启发式筛选方法  SASVI 筛选方法  DPP筛选方法

中图分类号:O177.5                          文献标识码:A文章编号:1672-3791(2020)12(c)-0231-03

Research on Common Feature Screening Methods

YU Na*

(Heilongjiang College of Business and Technology, Harbin, Heilongjiang Province,150025 China)

Abstract: In the information age of data, people have been expecting to remove redundant featurethat is not representative, so that the obtained data is generally represented by effective and representative feature. A high-precision prediction is established by feature filtering  explainable model. The sparse model under regularization is a popular technique for identifying active features. In general, the goal of feature selection is to remove redundant feature that is not representative and identify positive, effective feature high-precision prediction model and good interpretability. Screening out effective features can not only improve the calculation efficiency, but also improve the accuracy of the prediction model.

Key Words: Security screening; Heuristic screening approach; The SASVI approach; The DPP approach

1996年Tibshirani[1]提出了一种基于正则(罚)的Lasso模型,模型如下:

(1)

其中,权重表示模型系数。

特征筛选能够通过加速计算,降低模型维度成为解决稀疏或结构化稀疏正则化学习模型的重要步骤。针对于LASSO一类的筛选方法[2-6]主要分为启发式筛选方法和安全筛选方法两类。启发式筛选方法无法保证在优化问题的最优解向量中移除都是非积极特征。启发式筛选方法之一是“强规则”筛选,它基于某种假设推导其筛选规则,并且无法保证该假设总是存在的。而安全筛选方法则能有效地完善这一问题。安全指的就是可以保证剔除的特征都是非积极特征。安全筛选方法通过估测对偶最优解得到筛选规则,估测的值越精确,可以剔除掉的非积极特征越多。一种安全筛选方法是2012年El Ghaoui[3]和他的同事提出的SAFE筛选规则,该方法可以识别在解向量中系数为零的预测变量,进而在优化问题中排除无效的预测变量或特征以减小模型的复杂程度。2013年Wang Jie等人在此基础上提出了DPP[2]筛选规则,该方法利用对偶问题的可行集是一个闭凸多面体的几何特性提出的。2014年Liu Jun等人提出的SASVI[5]筛选规则,利用了变分不等式为对偶问题提供优化条件,构建的可行集更加严格。筛选规则的关键在于如何构造对偶问题的最优解集的可行域,可行域越紧严格,越接近精确的对偶最优解,筛选越有效。该文以一类Fused Lasso[2]模型为例,对比这几类筛选规则。考虑当系数惩罚项的正则参数为零时的模型:

1  对偶问题

该文主要研究的是如下优化问题:

其中,表示模型系数,是设计矩阵,为差分矩阵形式如下:

初始问题(3)式,得到对偶问题如下:

相当于对下式进行优化:

(4)

2  SASVI篩选规则

下面主要谈一谈关于可行集建立问题。

定理1 设f( )是一个可微凸函数,C是一个闭凸集,是约束优化问题:

的最优解当且仅当。

对于对偶问题来说,在时,无法通过简单的运算,求得到对偶最优解。由此,考虑利用定理1中的变分不等式构建一个紧的对偶可行集。可行集如下:

通过分析可知,当参数越靠近,可行集越紧。当 时,有,该可行集为一个单点集里

只含有一个元素。

因为,通过构建的筛选规则:

可以通过下式来估测

(5)

通过计算(3)式得到结果,当结果小于1时,由筛选规则知,有           。由此可以识别出相邻特征中具有相同系数的特征。

3  常用的筛选方法

3.1 强规则筛选方法

定理2 设C是一个非空闭凸集,满足‖Pc(x1)-Pc(x2)‖2≤‖x1-x2‖2,x2,x2∈C,则称投影映射是连续且非扩张的。

Tibshirani首先提出了利用假设特征和与残差之间的线性函数对于参数是非扩张的构建了可行集如下。

当时,有:

由此,可以有如下估测:

不难发现,它们都是依赖于前j个特征的和与对偶

变量的内积的绝对值来进行估测的,其中。通过对可行域的估测发现,强规则方法的估測的域要更松、更大,并且无法保证该规则安全,即筛除的特征都是没有代表性的冗余特征。为了保证筛选的准确性后续也提出了用KKT方法进行修正,但也需要反复地去削弱条件,增加了计算的复杂度。

3.2 SAFE筛选方法

令,该方法利用的是一种对偶标准去估测模型上界,有

通过求解上式,可以得到

最优解

将该方法构建的可行集与SASVI筛选规则比较如下:

令θ=s*θ1*有变分不等式有

通过对比两筛选规则知,SAFE所定义的球域是包大于SASVI所定义的区域的,相对于SASVI的可行域,该区域要更松弛。

3.3 DPP筛选方法

该方法是将初始优化问题的对偶问题表述成一个投影问题,该方法是投影算子非扩张性的直接应用。

由于,

所以有,

该方法利用了投影算子在闭凸多面体上的性质,为Lasso模型带来了新的筛选规则,该方法优点是可以推广到Group Lasso、Fused Lasso等模型上去。适用的模型多,极大地提高了计算效率。与SASVI比较可知,该方法构建的可行集不等式可由SASVI的不等式放缩得到,比SASVI 的可行集松弛。

4  结语

该文系统地介绍了常用的特征筛选方法的筛选规则,通在理论上说明了这几种筛选规则的优缺点, 其中有利用假设构建筛选规则的方法,也有利用投影算子在几何上的具体应用对可行集进行构建的方法, 在文中将这几种方法分别进行了讨论。可以看出, SASVI筛选规则估测的可行集可以更加紧,估测的对偶问题最优解更为精确, 该筛选规则在排除特征方面更有效。DPP方法可以适用更多的模型,特征筛选也被广泛地应用到各个领域[6]。

参考文献

[1] rob.Tibshirani.Regression Shrinkage and Selection Via the Lasso[J].journal of the royal statistical society.series b:methodological,1996,58(1):267-288.

[2] wang jie,fan wei,ye jieping.Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9):1806-1820.

[3] lauren el ghaoui,vivien viallon,tarek robbani.Safe Feature Elimination in Sparse Supervised Learning[J].pacific journal of optimization,2012(8): 667-698.

[4] 张环.Fused-LASSO惩罚最小一乘回归的统计分析与优化算法[D].北京交通大学,2016.

[5] Lu Jianhui,Li Yachao,Chen Shaonan. Degrees of freedom in lasso problems[J]. Open Access Library Journal,2016,3(3):1-10.

[6] nataliya. Sokolovska,yann. Chevaleyre, karine. Clement,et al. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[c]//2017 international joint conference on neural networks lijcnn.2017.

[7] 孙健.浅谈计算计工程设计中数据的挖掘特征以及相关算法[J].科技资讯,2018,16(31):30,32.

[8] MA Chi,huang Jian. Asymptotic properties of Lasso in high-dimensional partially linear models[J].science china cmathemati-cs,2016,59(4):769-788.