特征选择稳定性方法研究*

2021-11-21 18:19王吉川刘艺
数字技术与应用 2021年9期
关键词:特征选择子集扰动

王吉川 刘艺

(国防科技创新研究院,北京 100071)

0 引言

特征选择是重要且常用的降维方法,然而长期以来,特征选择的研究聚焦于提升学习算法的预测性能,忽视了稳定性的重要性。

特征选择稳定性是指特征选择方法对样本的微小扰动具有一定的鲁棒性。通过提升特征选择方法的稳定性,能够提高特征子集的相似性,进而增强领域专家的可信度,提升发现相关特征和领域知识的概率,有效降低数据采集和存储的复杂度,同时一定程度上提升学习算法的预测能力[1]。

特征选择稳定性的研究在国际上已经展开了十几年,形成了较为系统的研究体系,并在诸多领域得到了深入的应用,然而国内鲜有这方面的成果。根据采用的策略不同,特征选择稳定性提升方法可以分为扰动法、特征法,其中扰动法包括数据扰动法、函数扰动法和混合法;特征法包括组特征法和特征信息法。本文对近年来的特征选择稳定性提升方法做深入的总结,阐述每种方法的特点和典型代表,给出未来的研究方向。

1 扰动法研究进展

扰动法是基于集成学习的思想,融合多个特征子集构成稳定特征集合的方法,包括数据扰动法、函数扰动法和混合法。

数据扰动法是对训练数据进行划分或采样,生成多个数据子集,在数据子集上选择特征,融合多个特征子集得到结果。文献[2]为了提升特征选择的稳定性,每次抽样训练数据的一半,并通过不同超参数的结构化稀疏性的贝叶斯多类非负矩阵分解模型进行选择。文献[3]提出基于重复交叉验证的集成特征选择方法,并采用支持向量机和递归特征消除方法评估对其进行评价。实验结果表明,数据集规模与交叉折数的比值越高,重复交叉验证的特征选择稳定性与分类性能相比于传统的Bootstrap扰动越好,但是如果数据集的规模较小,则效果并不明显。文献[4]为了进一步发现微阵列数据中基因型和表型的因果关系,采用Bootstrap选择规模为B的训练样本子集,提取稳定的候选基因,增强结果的稳定性和置信度。传统的数据扰动法为了模拟数据扰动,只单纯地对数据集划分采样,忽视了对数据集各条记录自身的研究。事实上,数据集中各条记录的概率分布越统一,数据方差越小,越容易筛选出稳定的特征子集。近年来,在以往抽样数据集形成多个数据子集的基础上,对数据记录的分布与特征选择稳定性关系的研究也越来越深入。文献[5]引入差异系数和最近相似样本和异类样本平均距离,评估样本之间的差异性;然后采用杰卡德系数更新特征权重;最后基于邻域互信息评估候选特征,在此基础上通过改进的多标签ReliefF算法进行特征选择。本方法很好地平衡了特征选择稳定性和分类性能,但是计算效率较低,为了提升计算效率,需要进一步研究基于多标签邻域粗糙集的更有效的搜索策略和不确定性测度。文献[6]首先根据样本和特征的相关性的对样本进行权重评估,并将加权后的样本作为特征选择方法的输入。文献[7]认为特征选择不稳定性本质上与数据方差有关,提出了一种基于Bagging技术的集成方法,通过减少数据方差来提高医学数据集特征选择的稳定性,在每个数据集上,应用了五种著名的特征选择算法来选择不同数量的特征。该方法在保持分类精度的同时,显著提高了选择的稳定性,但是该方法对选择子特征的数量要求较高,一旦子特征数量较多或较少,都会影响稳定性。文献[8]提出了基于能量的正则化学习(Feature weighting as Regularized Energy-based Learning,FREL)。利用L1或L2正则化方法研究了FREL的稳定性,此外,作为增强稳定性的一种常用实现策略,还提出了一种集成FREL。与传统的数据扰动发相比,近年来的改进增加了各个数据样本对特征选择稳定性影响的研究,更好地利用了数据集本身的性质。然而,难点在于很多数据集的分布较为模糊,以及选择什么样的指标来衡量样本对特征选择稳定性的影响,不同的数据集对应着不同的指标。因此针对不同数据集选择不同的指标需要进一步深入的研究。

函数扰动法是在同一数据集上采用多种方法选择特征子集,然后得出稳定的特征集合。文献[9]为了提升基于传感器的人类行为活动识别的准确率,提出了基于集成的过滤特征选择方法,通过信息增益、增益率、卡方检验和ReliefF在训练样本上选择特征,并通过权重聚合四种方法的特征排序。文献[10]在训练数据上随机选择90%的数据样本,然后采用神经网络、ReliefF、SVM-RFE、F-test以及互信息对特征进行排序,提升算法的稳定性。函数扰动法弥补了数据扰动法的缺点,适用于小样本数据集,然而函数扰动法的效果取决于集成时使用的特征选择方法。对于不同的数据集而言,由于数据分布和特征结构不同,合适的特征选择方法是不同的,因此难以针对具体数据集选择最合适的集成方法[11]。函数扰动法通常同时采用集成单变量和多变量方法,这样能够在保证分类性能的情况下提升稳定性。然而,这导致了方法的时间开销增加,在一定程度上影响了方法的广泛使用。

混合法是同时使用数据扰动和函数扰动的方法。文献[12]提出了结合稳定性的集成特征选择框架,该框架同时结合了数据扰动法和函数扰动法,在Bootstrap生成多个数据子集的基础上,采用多种方法选择特征,结论表明该框架能够在保持分类性能的同时提升稳定性,此外,还验证了仅用函数扰动法提升能力较弱。使用Bootstrap抽样生成多个训练样本,然后采用10 种不同的方法在训练样本上进行特征选择,并将特征排序结果进行集成。由于混合法融合了数据扰动和函数扰动两种方法,因此它具备了两种方法的优点和缺点,这对研究者提出了更高的要求。研究人员需要同时设计数据扰动的策略和特征选择方法。良好设计的混合法对稳定性的提升要强于仅采用数据扰动和函数扰动的方法,而且泛化性能较好。

2 特征法研究进展

特征法是通过特征本身或特征之间的关联性构建稳定特征子集的方法。特征法包括组特征法和特征信息法。

组特征法是通过识别或转换原始特征,构成高度相关的多组特征(新特征),在特征组中选择稳定的特征构建特征子集。提出了一种基于粒子群优化和粗糙集的特征选择和分类方法,该方法首先提出快速规约算法,根据特征的依赖度得到尽可能小的规约特征子集,然后采用不一致处理算法,移除可能导致不一致决策的特征,最后将分类质量、特征数量和近似精度作为粒子群算法的优化目标求解特征子集。提出一种集成特征组的方法,首先在训练样本上进行随机抽样,生成多组数据子样本,然后通过基于核密度、相关性和信息增益的方法在数据子样本上生成特征组。到目前为止,组特征法的成果较多,特别是基于核密度和正则化技术的方法,但是组特征法缺乏可解释性,仍然是通过实验结果观察而来,对组特征法提升特征选择稳定性的理论研究较少。此外,同数据扰动法一样,组特征法也并不适用于数据集规模较小的情况。

特征信息法是采用某种度量方式评估特征的信息量,然后结合信息量及特定的方法选择特征集合。提出了基于叠加评分的特征选择方法,首先给出通过熵定义的对称不确定指标,然后基于该指标提出叠加评分的计算方式,并采用叠加评分选择具有判别能力的特征,显著提升相关特征的选择概率。提出了一种鲁棒的特征选择方法,基于皮尔逊相关系数从36 0个放射学特征中选择稳定特征;然后引入无监督K均值算法,从第一步中选择的特征中删除冗余特征,并获得K组候选特征的集合;最后,通过K组特征集训练四个预测模型,选择具有最佳预测性能的最终特征集和最终预测模型。提出了一种基于相关性、冗余度和互补性的特征选择方法,该方法使用对称不确定度量特征和类别之间的相关性,然后通过近似马尔可夫毯度量特征的冗余度,移除冗余特征,最后采用互信息评估特征的互补性,保留与当前选择特征子集具有最大互补性分值的特征。与函数扰动法类似,特征信息法适用于数据集规模较小的情况。但是正如函数扰动法的难点在于选择合适的特征选择方法一样,特征信息法对度量准则的要求较高,难以针对具体的数据集选用最合适的度量准则。

3 结论

当前,国际上已经形成了较为完整的特征选择稳定性提升方法研究体系,但是国内在该方向的发展较为缓慢,同时,特征选择稳定性研究的空白领域仍然较多,可以从以下几个方面展开探索和深入分析。

目前的特征选择稳定性一般注重于传统的二分类、多分类问题,多标签数据的稳定特征选择研究则鲜见报道,因此亟待开展相关研究。在当前的大数据中,分布不平衡的情况较为常见,针对不平衡数据的特征选择稳定性研究亦是值得探讨的课题。由于采集和存储可能面临的各种异常,系统常面临严重的数据缺失情况,缺失数据的特征选择稳定性研究仍然是空白研究领域,亟待开展该方向的研究。

猜你喜欢
特征选择子集扰动
Bernoulli泛函上典则酉对合的扰动
拓扑空间中紧致子集的性质研究
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
(h)性质及其扰动
Kmeans 应用与特征选择
小噪声扰动的二维扩散的极大似然估计
联合互信息水下目标特征选择算法
用于光伏MPPT中的模糊控制占空比扰动法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法