胡振威,汪廷华,周慧颖
赣南师范大学 数学与计算机科学学院,江西 赣州 341000
在人工智能领域,特别是机器学习[1-3]和数据挖掘领域中[4-5],现实世界的应用数据通常被表示为高维特征向量,直接利用这些高维数据往往会导致诸多严重问题:首先,会增加分类的计算成本和复杂性,这种现象被称为“维度诅咒”[6];其次,降低了分类器的泛化能力;第三,很难分析理解特征在决策过程中的作用,因为从专家的角度来看,只有一小部分特征与决策相关,其他无关特征极大影响了数据分析的性能与结果。因此,对于有监督学习中的分类问题,在执行分类任务之前,重要的是应用合适的特征选择方法,选择与类别相关的特征。作为分类的预处理步骤,特征选择[7-9]可以降低学习算法的时间和空间要求,缓解“维度诅咒”所带来的过拟合问题,解决无关特征和冗余特征带来的性能不佳问题。此外,特征选择不仅能降低数据的维度,从而有助于数据的理解和可视化,而且通常能生成更紧凑的、具有更强泛化能力的模型。特征选择的主要思想是获得代表数据集的良好特征子集,消除提供少量信息的特征,在不影响类分布、不显著降低分类精度的情况下达到降维目的。
近年来,核方法[10-12]被广泛应用于各种机器学习问题。它将样本数据从原空间映射到特征空间,即高维再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS),使得即使是如线性方法般简单的算法都能获得优秀的性能。核方法成功的关键在于可以通过指定一个核函数来计算特征空间中数据点之间的内积,从而唯一确定映射到特征空间中的内容。换言之,核函数隐式定义了从原空间到特征空间的非线性映射,通过计算核函数来避免在高维特征空间中的昂贵计算。因此,核方法的核心问题之一是核的选择。许多核统计相关性度量已经被提出用于统计推断,用来捕捉随机变量之间的依赖性[13-16],如核广义方差[17]、核约束协方差[18]和希尔伯特-施密特独立性准则(Hilbert-Schmidt independence criterion,HSIC)[16]等,这些度量在总结协方差算子及其使用的规范化方式上有所不同。其中,HSIC应用最为广泛[19],它由RKHS之间的交叉协方差算子的希尔伯特-施密特范数(HS范数)的经验估计组成,Gretton等人[16]已经证明了当且仅当随机变量相互独立时,HSIC为零。因此,它不仅被广泛用于统计独立性测试,而且还被应用于各种学习问题[20-23]。与其他经典分布度量相比,HSIC有以下的优势[16]:首先,HSIC的经验估计计算简单,只需要计算Gram矩阵乘积的迹,且不需要额外定义正则化项。其次,HSIC收敛速率快,经验估计值以1/m的速率收敛于总体估计值,其中m是样本总量。因此,基于HSIC的独立性检验不存在学习速率慢的问题。特别地,随着样本量的增加,可以保证以高概率检测到任何现有的依赖关系。最后,HSIC的经验估计值的有限样本偏差为O(m-1),与有限样本波动相比可以忽略不计。
本文系统综述了基于HSIC的特征选择方法的基本模型,将HSIC引入特征选择过程中,应用于学习任务,给特征选择算法的研究与发展提供了丰富的设计思路和广泛的应用前景。在分析各种方法的特点,总结其研究现状的基础上,进一步凝炼其发展方向。
根据不同的标准,特征选择有不同的分类方法。根据数据集中的标签信息是否可用,特征选择方法可以分为有监督[24-25]、半监督[26]和无监督[27]三种。三种方法的区别在于训练过程中使用了多少标记的训练样本。监督方法一般需要一组完全的标签数据来识别和选择相关特征,数据集中每个样本的标签信息可以是有序值、真实值或者类别信息(视具体分类任务而定);半监督方法对只有有限数量标签样本的数据集进行操作[28];无监督方法则不需要标签数据。当标签实际可用时,通常优先选择监督学习方法,因为标签中含有特征和标签之间依赖关系的附加信息。然而,现实世界产生的数据中标签数据通常很少,人工标记相当昂贵,而未标记的数据要丰富得多。因此,无监督特征选择[29-31]在实践中很重要,并在科学界引起了极大的关注。此外,无监督特征选择方法有两个重要的优势[32-33]:(1)它们是无偏的,并且在先验知识不可用时有良好的表现;(2)与可能无法处理新的类别数据的监督特征选择方法相比,它们可以降低过拟合的风险。
根据与学习算法的关系,特征选择方法可以分为三种[7-8,25]:(1)过滤式(fliter)方法,特征选择过程独立于具体的学习算法,通过数据本身选择最相关的特征,即基于数据的内在属性来评估特征,不需要使用任何可以指导相关特征搜索的学习算法。因此,特征选择过程与后续学习器无关。过滤式方法的主要特点是效率和可扩展性。信息增益[34-35]、Fisher评分[36]、Pearson相关系数[37]、卡方检验[38]和互信息[39]是用于捕捉特征重要性的常用统计度量。(2)包装式(wrapper)方法,可以理解为将特征选择过程和分类器封装在一起,以分类器的交叉验证结果来评估特征子集的优劣。目前学者们已经提出许多包装式方法[40-41],实验结果表明特征经过包装式方法处理后,学习算法的准确率一般比过滤式方法处理后的结果好。但算法在特征子集空间中进行穷举搜索,因此更耗时,且仅限与特定的分类算法结合使用,当样本不足时,容易过拟合[42]。(3)嵌入式(embedded)方法[43-45],试图利用两种方法(过滤式和包装式)的特性,在计算效率和有效性(使用所选特征时相关目标任务的质量)之间取得良好的折衷。嵌入式方法克服了计算的复杂性。在该方法中,特征选择和模型学习同时进行,并且在模型的训练阶段选择特征。因此,与包装式方法相比,嵌入式方法的计算成本明显更低,同时避免每次开始选择新的特征时对模型的训练过程[32,46]。每种特征选择方法都有各自的优点和缺点,就计算速度而言,过滤式方法比嵌入式方法快,而嵌入式方法又比包装式方法快。包装式方法中过拟合的可能性比嵌入式方法更大,过滤式方法最小。由于过滤式方法不依赖于任何特定的学习方法,它们更受欢迎,也更具可操作性[47]。
本章简要描述了RKHS之间互协方差算子所必需的功能分析背景[13],并介绍了互协方差算子的HS范数,最后给出关于HSIC的初步概述。
HSIC是一种基于核的独立性度量方法,该方法原理是在RKHS上定义互协方差算子,再从这些算子中推导出合适度量独立性的统计量来计算独立性的大小。HSIC采用的是Hilbert-Schmidt互协方差算子,通过对算子范数的经验估计得到独立性判断准则。
考虑一个从X→ℝ的函数,设F为该函数的再生核希尔伯特空间,其中X是一个可分的度量空间。对于点x,x′∈X,对应元素φ(x),φ(x′)∈F(称φ:X→F为特征映射),使得,其中k:X×X→ℝ是一个相关的再生核,这里要求F是可分的(它必须有一个完整的正交系统)。同样地,还定义了第二个可分度量空间Y的RKHS G,它也具有特征映射φ和核
设Pxy(x,y)是(X×Y)上的联合测度,相应的边缘测度分别被记为Px(x)、Py(y),则协方差矩阵Cxy被定义为:
其中,Exy、Ex、Ey分别是关于联合测度Pxy、边缘测度Px、Py的期望值,yT是y的转置。协方差矩阵能够编码随机变量之间的所有二阶相关性。文献[13]定义了一个能有效总结随机变量x和y之间线性相关性的统计量——Cxy的Frobenius范数(也称为HS范数):
其中,σi是协方差矩阵的奇异值(singular value),tr(·)表示迹运算。当且仅当x和y之间不存在线性相关性时(不等同于线性独立),等于零。因此该方法仅限判断随机变量间的线性相关性。然而,当处理的数据类型未知或者不仅仅是线性依赖关系时,这种方法的作用是非常有限的[21]。根据核方法理论[12,48-49],在低维空间中非线性可分问题可以转化为高维空间中的线性可分问题,因此利用核方法可在已有线性算法的基础上解决非线性问题。
给定两个特征映射φ:X→F和φ:Y→G,其中F和G分别是核函数k和l对应的RKHS,可以将φ和φ之间的互协方差算子定义为线性算子Cxy:G→F:
其中,⊗表示张量积,对于任意f∈F和g∈G,有f⊗g:G→F:
此外,根据HS范数的定义,可以计算出f⊗g:
由此,HSIC就被定义为互协方差算子的HS范数的平方:
这里Ex,x′,y,y′表示从Pxy中提取的独立对(x,y)和(x′,y′)的期望值。文献[16]证明了这个表达式,并表明当核k和l有界时,Cxy的HS范数存在。
核函数起着简化问题的作用,事实上不需要描述特征映射φ(·)和φ(·)的显式构造(可能是未知的或相当复杂),也不需要描述RKHS(可能具有相当高的维数,甚至是无限维)。原空间中核函数计算隐式地对应于RKHS中的运算,且计算量与其维数无关,因此避免了在更高维特征空间内的运算。
设Z={(x1,y1),(x2,y2),…,(xm,ym)}∈(X×Y)表示从联合分布Pxy中提取出的m个独立观测值。Gretton等人[16]提出了具有O(m-1)偏差的HSIC估计量,在给定有限个观测值的情况下对HSIC进行近似估计,证明了这个估计量在适当的情况下是集中的:
其中,K,L∈ℝm×m是包含元素为Kij=k(xi,xj)和Lij=l(yi,yj)的核矩阵,H=Im-m-111T∈ℝm×m是一个中心化矩阵,其中1∈ℝm是m维全1列向量。估计量HSIC0具有偏差:
这种偏差来自于HSIC0中的自相互作用项。也就是说,HSIC0中仍存在估计量为O(m)的形式为KijLil和KjiLli的项,导致了O(m-1)的偏差。为了解决这个问题,Song等人[50]提出了一种无偏估计量HSIC1,在确保适当归一化的同时消除了额外的项:
这样就能通过简单的核矩阵K和L的计算来估计随机变量x和y之间的相关性,而不需要执行其他的复杂计算操作(如密度估计等)。另外,HSIC0和HSIC1都不需要任何显式的正则化参数,正则化隐含在核的选择中,这与早期的核依赖估计工作都不同。
特征选择是离散空间上的NP-hard组合优化问题,对2d(d为特征数)种可能的特征子集展开穷举搜索在计算上是不切实际的。许多算法通过在维度上引入权重将特征选择问题表述为连续优化问题[51-54]。这些方法对于线性可分问题固然表现良好,但对于非线性可分问题,优化通常变成非凸的,局部最优不一定能提供最好的结果。考虑到评估经验HSIC不依赖于特定的学习器,通常有两种方法来执行高效的特征选择:一是应用贪婪或随机搜索策略来搜索最优特征子集。二是引入权重将问题表述为连续优化问题。前者除了核函数参数外不需要其他的参数,因此计算效率高,但容易陷入局部最优解;后者引入权重将离散问题表述为连续优化问题,从而找到全局最优解,但加入了正则化参数,使得算法计算复杂度增加,总体计算成本变高。
基于HSIC的特征选择方法流程图如图1所示。其中虚线框内的部分需要循环执行,当HSIC值符合某一条件时,循环结束,得到满足用户需求的特征子集。
BAHSIC(backward elimination using HSIC)是Song等人[50,55-56]提出的一种基于后向消除的监督特征选择算法。关键想法是好的特征应该高度依赖于标签,获得这种依赖之后,它利用后向消除来选择最相关的特征子集。具体来说,用集合S表示全部特征,BAHSIC通过生成一个列表S*来工作,该列表中包含相关性递增的特征。在每一步中,S*从S中附加一个不包含在S*中的特征(该特征对集合S的依赖性最小)。算法递归地产生S*,从S中删除最不相关的特征,并在每次迭代时将它们添加到S*的末尾。这样,特征选择问题可以通过简单地从S*中取出最后t个特征来解决。然而,当集合S中存在大量不相关的特征时,从S中删除单个特征的效率显然是很低的,但一次性删除太多特征则会有丢失相关特征的风险。实验发现算法的速率和所选特征质量之间一个很好的折衷是在每次迭代中移除10%的当前特征。在BAHSIC中,标签核矩阵L在整个过程中是固定的,如果需要,可以预先计算并存储以加速。因此,BAHSIC主要的计算来自于对降维数据核矩阵K的重复计算。此外,与大多数其他特征选择方法只为二进制分类或回归问题而制定不同,BAHSIC不仅直接适用于二进制、多类和回归问题,而且封装了许多著名的特征选择标准,如Pearson相关系数、均值差及其变体、最大均值差(maximum mean difference,MMD)、核目标对齐(kernel target alignment,KTA)、岭回归(ridge regression)、二次互信息和支持向量回归消除等[21]。除此之外,缺少标签数据的无监督特征选择也可使用BAHSIC的变体形式来解决。在这种情况下,目标是选择可用的特征子集,使其与完整数据集密切相关。换言之,BAHSIC的变体想找到数据本身的压缩表示,希望对后续学习任务有帮助,BAHSIC通过简单地使用完整的数据集作为标签来实现这一点。
与试图每次删除特征来尽可能增加所选特征子集与结果之间相关性的后向消除技术相反,使用HSIC的前向选择(forward selection using HSIC,FOHSIC)尝试尽可能为每次包含的特征实现这一点。它建立一个相关度递减的特征序列,通过一次添加一个特征到使用HSIC作为依赖性度量标准获得的特征集合中,来实现增加特征子集与结果之间的相关性。为了能够更快地选择特征,可以选择一组特征而不是单个特征(例如,固定比例a),并将它们一次性加入到S*中。这样,特征选择问题可以通过简单地从S*中取出前t个特征来解决。
Liaghat和Mansoori[30]提出了一种基于特征删除前后的样本相似度矩阵相关性最大化的无监督特征选择框架,该框架采用HSIC方法,通过后向消除不相关或冗余特征来进行特征选择。为了获得更好的HSIC估计,尝试使用自适应技术处理对角占优矩阵,然后针对未标记数据集提出了一种基于此估计的特征选择方法。文献[57]为标记数据提供了平衡对角占优相似矩阵值的方法。这是一种非线性转换,因此值较大的变量比较小的变量减少更多,并且矩阵值的动态范围减小。除了保持样本的相对成对相似性外,核矩阵中的数值范围也被缩小,对角优势消失或大大减弱。该方法使用文献[57]中处理核矩阵中大对角线的技巧,互协方差算子Cxy被改写为:
其中,G表示d个特征的集合(m个样本是d维的),G′表示被选择的特征集合,KG和LG′表示使用核函数k和l计算的样本相似矩阵。然后根据‖ ‖Cxy2使用不完全Cholesky估计,HSIC估计为:
其中,σi是矩阵(KG)qH(LG′)qH的第i个特征值。根据HSIC2,提出一种无监督的特征选择方法,称为相似性保持BAHSIC(SP-BAHSIC),用于识别具有对角占优相似矩阵数据集的信息特征。该方法在样本数相对较少、特征数较多的数据集上取得了较好的结果(即m≪d)。为了提高SP-BAHSIC的性能,降低计算量和时间复杂度,提出了基于聚类的SP-BAHSIC方法SPC-BAHSIC,它使用k-means聚类算法[58]来选择所需数量的特征。在SPC-BAHSIC中,每个聚类簇只评估一个特征,因此它比SP-BAHSIC更快。然而SP-BAHSIC和SPC-BAHSIC方法都是使用后向消除搜索策略,当需要少量信息特征时,搜索阶段使用正向选择更为合适。因此,Liaghat和Mansoori提出了SP-FOHSIC算法,用于找到最大化HSIC2的特征子集。同样的,提出了SPC-BAHSIC算法来加速SP-FOHSIC的计算效率。最后值得注意的一点,在后向消除的步骤中,删除的特征无法再进行选择,前向选择也是一样,已经被选择的特征无法再被删除。因此,在搜索阶段使用增l减r策略[59-61],能够有效地缓解这个问题。当l>r时其工作原理类似于正向选择,但区别在于在每个阶段都有可能删除之前选择的特征。同样的,当l<r时,增l减r方法的工作原理类似于反向消除,但在每一步中,都有可能从之前删除的特征中进行选择。由于增l减r策略能够降低算法陷入局部最优的风险,Liaghat和Mansoori由此提出了SP-LRHSIC和SPC-LRHSIC方法。在一些合成数据集和真实数据集(特别是在小样本和高维的数据集中)上的实验结果证明了这些方法的有效性。
使用HSIC,可以执行特征的前向选择和后向消除,特别是对数据使用线性核(对标签无此要求)时,前向选择和后向消除是等价的。尽管FOHSIC在计算上的效率更高,但BAHSIC往往能够选择质量更优的特征,因为这些特征都是在其他所有特征都存在的背景下评估得到的。例如,在文献[50]中,在对数据集hepatitis的处理结果中显示,BAHSIC的分类错误率在(13.8±3.5)%范围内,FOHSIC的分类错误率在(15.0±2.5)%范围内,基于互信息方法的分类错误率在(15.0±4.1)%范围内,Relief的分类错误率在(17.5±2.0)%范围内。由此可以看出,虽然BAHSIC是一种过滤方法,但与人工和真实世界数据中更专业的方法相比,它仍然表现出良好的性能,并且在运行效率方面也非常有竞争力。后向消除和正向选择等贪婪搜索策略容易产生局部最优解,为了解决这一限制,随机搜索策略,如遗传算法[62]、蝙蝠算法[63]等,被用于搜索全局最优的特征子集[22,64],在搜索过程中增加一些随机性来帮助摆脱局部最优解。
除贪婪方法外,使用HSIC的特征选择还可以通过将特征选择问题转换成连续优化问题来解决。在数据的维度上引入权重w=(w1,w2,…,wd)T∈ℝd:x↦w◦x,其中◦表示对应元素的乘积,由此,使用HSIC的特征选择变成了关于w的优化问题:
其中,w要求是稀疏的,HSIC(w)是w关于HSIC的函数。为了获得所选特征的稀疏解,Song等人[50]将l0范数与目标函数结合:
其中,λ是控制特征选择标准HSIC(w)和稀疏性之间权衡的惩罚系数,计算w中非零元素的数量,通过对具有大量非零元素的标准施加更重的惩罚来实现稀疏性。然而,l0范数不是一个连续的函数,但它可以用凹函数来近似:
实验表明,当α=5时在实践中的效果很好。
在Jordan算法的启发下,Gangeh等人[65]提出了一种稀疏奇异值分解(SVD)方法来诱导稀疏性。该方法使用一种完全不同的方式来执行基于HSIC的特征选择:将HSIC与矩阵稀疏分解的快速技术结合使用,以确定DNA微阵列特征的稀疏投影。只有一小部分基因在提取的投影向量中具有非零权重,因此被识别为给定响应变量的相关基因。所提出的特征选择算法包括两个主要步骤:一是找到依赖于响应变量y的最大化投影s,s=uTX;二是确保投影空间是稀疏的,使得只有该空间中的显著特征具有非零表示。其中uTX是所有特征的线性组合,u中的元素决定了每个特征的重要性或权重。如果u是一个稀疏向量,那么某些无关特征的权重为零,权重非零的特征子集就是期望最大预测信息的特征子集,仅选择最显著的特征(具有非零系数),即最具代表性的特征。在所提出的算法中,一次必须检查数据矩阵的一行,因此该方法可扩展到大型数据集,但该方法不适用于较高维数据。
Masaeli等人[66]提出了一种使用l1/l∞正则化诱导矩阵稀疏性的方法。在该方法中,设W=(w1,w2,…,wd)T∈ℝd×d是数据X↦WX上大小为d×d的变换矩阵(其中wj,j=1,2,…,d表示权重向量),特征选择可以描述为:
其中,wj是矩阵W的第j行,代表wj的无穷范数,λ是正则化参数。其基本是想是:设wjk为变换矩阵W的元素,若特征fj没有被算法选择,则W的第j行的所有元素应该为零(即∀k,wjk=0),特征fj对特征选择标准HSIC(W)没有贡献。如果fj被算法选择,这意味着对于fj来说,W的第j行至少有一个元素是非零的,fj对HSIC(W)是有贡献的。因此,强制W具有更多的零行可以解释为选择更少的特征。利用这个思想,通过添加l1/l∞正则化来加强矩阵W行的稀疏性,以符合特征选择标准HSIC(W)。l∞范数表示向量wj元素绝对值的最大值,l1范数可以导致矩阵稀疏[67-68]。原则上,该方法诱导每行元素最大绝对值的稀疏性。正则化参数λ控制着HSIC(W)和稀疏性之间的权衡,增加λ意味着迫使更多的行为零,这将移除更多的特征。λ=0的极端情况下,会选择所有特征,相反,对于趋于无穷大的λ,则不会选择任何特征(W≡0)。因此,控制λ从零到无穷大的范围可以理解为所选特征数量从d到零的范围。此外,通过允许W的非对角元素非零,不仅可以选择最相关特征,而且还能自动消除冗余。该方法是非凸的,因此需要从许多不同的初始点重新启动以选择良好的特征,这在计算上是昂贵的。
为了获得特征的稀疏性,Yamada等人[69]在Lasso回归模型[67]的基础上提出了一种基于HSIC Lasso的特征选择方法。该方法使用一组核函数来选择信息量最大的非冗余特征,通过解决Lasso问题找到解决方案。其具体形式为:
此外,许多学者提出了一些扩展技术,用来改进HSIC Lasso模型。Ren等人[71]提出一种新的方法,称为基于HSIC-Lasso的Granger因果分析模型(HSIC-Lasso-GC),用于揭示多元时间序列之间的非线性因果关系。该方法可以同时获得多个输入变量到输出变量的因果关系分析结果。此外,将输入和输出变量映射到RKHS中,通过RKHS揭示非线性因果关系。模型中有许多未知参数需要确定,如核函数参数、正则化参数等,从而使得算法复杂度变高,系统运行成本增加,算法不具备普适性等问题。Yamada等人[72]提出一种称为最小角度非线性分布(least angle non-linear distribution,LAND)的特征选择方法,将最小角度回归(least angle regression,LARS)和HSIC结合起来,能够有效地利用非线性特征的依赖关系。该方法扩展了新的HSIC Lasso模型,以处理超高维和大规模数据集,并通过利用参数空间稀疏的LARS算法的非负变量来有效地找到全局最优解。此外,该方法保证了以最小的冗余度找到最大预测特征的最优子集,从而获得更高的预测能力和更好的可解释性,但不可避免地增加了算法的运行成本且算法不具备普适性。Damodaran等人[73]在RKHS中开发了一种新的基于代理核和HSIC的类可分性矩阵,设计了一个基于Lasso的框架,将所提出的类可分性矩阵和Lasso模型耦合到一个称为HSIC-SK Lasso(HSIC-surrogate kernel Lasso)的统一框架中执行特征选择。该框架可以选择特征子集,增加类别可分性信息,同时避免了在选择类别、鉴别特征时所涉及的计算密集的子集搜索操作。它通过基于类的数量而不是训练样本的数量来修改输入和输出项及其长度,从而提高HSIC Lasso的计算效率,但因为训练集的变化而产生不稳定的特征往往会影响模型的稳定性。SpHSIC(sparse HSIC regression)[74]是一种基于HSIC的通用非线性特征选择算法,是著名的最小冗余最大相关特征选择算法的连续优化变体。具体来说,SpHSIC由两部分组成,一方面是凸HSIC损失函数,另一方面是正则化项。在稀疏性假设下,该方法提出了由一个惩罚模型来恢复准确的稀疏支持,即关键特征,其中惩罚集由Lasso[67]、Bridge[75]、MCP[76]和SCAD[77]给出,除了Lasso外,其余都是非凸的。这也改进了HSIC Lasso模型。
这些算法都是在特征选择标准中引入权重来获得特征的稀疏性,从而选择最优的特征子集。但是方法(14)和方法(16)都是非凸优化问题,要找到最优解的计算量很大。通过引入Lasso技术来将问题转化为凸优化问题,可以有效地计算全局最优解。
除了上述方法,许多学者也提出一些其他方法进行特征选择,主要分为基于HSIC变体的方法和引入正则化项的方法,分别阐述如下。
对于使用HSIC变体形式的特征选择方法,Yamada等人[78]提出一种称为aHSIC(additive HSIC)的检测度量,用于解决高维时间序列数据变化点检测问题。aHSIC的一个新颖之处在于,若设置适当的参数α,则可以仅仅基于与输出相关的特征来进行依赖性测量。因此,与传统的检测方法相比,aHSIC在噪声特征方面比现有方法更具鲁棒性,适用于高维时间序列数据,但同时也使得算法训练时间变长,系统运行成本增加。Kong等人[79]提出一种用于图形分类的多标签特征选择方法(gMLC),用于有效地搜索具有多标签图对象的最优子图特征。该方法首先基于给定的具有多个标签的图数据集,推导出一个子图特征的评估准则,称为gHSIC,用来估计子图特征与图的多个标签之间的依赖性。然后,为了避免子图特征的穷举,提出一种分支定界算法,通过使用多个标签修剪子图搜索空间来有效地搜索最优子图特征。但该算法只使用简单的策略构造标签核矩阵,如何选择其他类型的标签核来更有效地利用标签之间的相关性仍需进一步探索。与最大化特征和类标签之间的HSIC值的方法相反,Camps-Valls等人[80]提出通过最小化HSICp-value来选择特征。因为作为衡量特征与标签独立性大小的标准,p-value比HSIC经验估计更加敏感。p-value越大则说明特征与标签之间的独立性越强,反之,说明两者的独立性越弱。该方法在多光谱、高光谱和SAR数据的处理上表现出良好性能,特别适合于每个维度标记样本数量相对较少的情况,但对于更多的标记样本则表现不佳。Xu[81]指出非对角元素本质上描述了特征的线性条件冗余,并利用HSIC矩阵中的所有元素定义了两个新的多标签特征选择准则:HSIC-avg和HSIC-max。对于候选特征,该方法最大化其相关性并最小化其平均或最大冗余,通过将特征排序和顺序正向选择相结合,构成一种高效的混合搜索策略。前者根据特征之间的相关性对所有特征进行降序排序,而后者通过相关性最大化和冗余最小化来找出最具鉴别能力的特征。在多个数据集上的实验结果表明,该方法是高效的。该方法具备多种算法的优点,在冗余特征的处理上有显著的效果,可以提高模型的泛化性能和精度,但不可避免地带来了算法运行时间成本增加且普适性不高等问题。
对于在目标函数中引入正则化项的特征选择方法,Jiang等人[82]提出了一种基于稀疏正则化和相关性最大化的半监督多标签特征选择方法(FSSRDM),将半监督学习、l2,1范数和HSIC集成到一个框架中,在这个框架中,标记和未标记的数据都被用于特征的选择,而且同时考虑了特征与标签之间的依赖性和标签与标签之间的相关性。该方法利用HSIC来捕获特征和标签之间的依赖关系,并试图最大化这种依赖性,以便利用这种依赖关系和有限的标签训练数据。此外,该方法还采用了l2,1范数来选择最相关的特征,防止过拟合,但不可避免地增加了算法的参数个数,造成算法的运行时间变长,复杂度更高。Liu等人[83]提出了一种广义多视图无监督特征选择方法(gMUFS),同时探索多视图的互补性以及聚类结构与所选特征之间的复杂相关性。具体地说,通过学习多视图一致性伪标签矩阵,利用HSIC在核空间中最大化一致性簇结构与所选特征之间的依赖关系,选择最有价值的特征。得益于不同视图的互补性,该方法可以很好地识别潜在的聚类结构。为了简单高效,该算法采用内积核函数,考虑更多核函数来获得更好的性能值得进一步探索。
每种算法都存在自身的优缺点,上述所提出的几种算法在特征选择问题上的性能总结如表1所示。
表1 基于HSIC的特征选择算法性能比较Table 1 Performance comparison of HSIC-based feature selection algorithms
基于HSIC的优点,使用其进行特征选择的一个重要特性是其通用性。各种基于HSIC及其变体的特征选择方法在实际应用中的效果不同,其中最常用的是贪婪或随机搜索策略,Song等人通过选择不同的核函数,使得BAHSIC以一种原则性的方式容纳二分类、多类和回归等问题于一身,但无论是BAHSIC还是FOHSIC等都只能处理较小规模数据。为了解决大规模数据下的特征选择问题,提出了其他的方法,包括LAND、稀疏SVD等。此外,诸如aHSIC、gHSIC、HSIC p-value等HSIC的变体形式也扩展了HSIC在特征选择领域的应用。
作为一种典型的依赖性度量方法,HSIC能够在核空间中评估两个变量之间的相关性,不需要密度估计,并且具有良好的一致性收敛保证,这比在原始空间中测量相关性更为有效和灵活。此外,HSIC方法是一种非参数方法,不要求数据符合某种特定分布,不依赖先验知识库,这使得HSIC方法具有很好的推广性。同时,核方法的使用还能带来计算上的高效性,且丰富的核选择可以直接应用于输入数据和标签。此外,HSIC的经验估计的计算复杂度是O(m2),只需要计算核矩阵K和L,不涉及密度估计。因此,HSIC给特征选择算法提供了丰富的设计思路和广泛的应用前景,进一步推动了特征选择的研究与发展。本文系统阐述了几种典型的基于HSIC的特征选择方法,希望能够为后来的研究者提供有效的参考,从中获得新的启发。尽管基于HSIC的特征选择方法应用广泛,但仍存在一些有待解决的问题,可以从以下几个方面进行概述:
(1)HSIC不仅广泛应用于统计独立性测试,还被广泛应用于各种学习问题,如特征选择、降维、聚类和其他学习范式,核函数应根据当前的任务进行预定义,即由于没有实用的核函数选择方法,需要研究者手动选择核函数。虽然已经有多种通用核函数可供没有先验知识时使用(如高斯核函数等),但对于特定的学习任务和实际应用,研究如何选择能使模型高效学习的核函数仍是非常重要和有价值的。
(2)根据现有的文献,大多数特征选择方法都需要指定超参数,例如特征数量、最优子集数量或每种方法使用的特征选择技术固有的其他参数,对于模型参数的选择尚无明确的理论依据,且在不同的数据集上有不同的表现,在大多数情况下不可能知道每个数据集的最佳参数值。虽然已经提出了许多优化方法来改进学习模型,但如何高效学习模型的最优组合参数仍需进一步探索。且实际问题中的数据规模较大,研究出一种高效且稳定的算法来优化特征选择模型,仍具有挑战性。
(3)在现实问题中混合数据非常常见,例如在生物医学和医疗保健、社会经济学和商业、软件成本评估等领域,在由混合数据描述的问题中,如何选择相关特征是一个重要的问题。目前大多数方法仅针对数值数据设计,因此对于混合数据,有开发新的特征选择算法的空间。
(4)目前基于HSIC的无监督特征选择方向的研究略少,而现实世界产生的数据中标签数据通常很少,人工标记相当昂贵,且未标记的数据包含的信息要丰富得多。因此,无监督特征选择在实践中很重要,设计出高效且稳定的基于HSIC的无监督特征选择模型是一个值得研究的方向。