刘全金,赵志敏,李颖新,俞晓磊
(1.南京航空航天大学理学院,江苏南京210016;2.安庆师范学院物理与电气工程学院,安徽安庆246011;3.北京经纬纺机新技术有限公司,北京100176;4.北京市轻纺机械机器视觉工程技术研究中心,北京100176;5.江苏省标准化研究院,江苏南京210029)
基于近邻信息和PSO算法的集成特征选取
刘全金1,2,赵志敏1,李颖新3,4,俞晓磊5
(1.南京航空航天大学理学院,江苏南京210016;2.安庆师范学院物理与电气工程学院,安徽安庆246011;3.北京经纬纺机新技术有限公司,北京100176;4.北京市轻纺机械机器视觉工程技术研究中心,北京100176;5.江苏省标准化研究院,江苏南京210029)
提出了一种新的PSO特征选取方法.以粒子对应特征组合的同类近邻样本和异类近邻样本间的距离关系作为类别可分性和粒子适应度函数.以适应度函数加权的群体历史最佳、粒子历史最佳和粒子邻域内最佳个体信息共同指导粒子运动方向,搜索类内紧密、类间分离的最佳特征组合;同时,利用加权集成方法对PSO特征选取方法进行集成,以提高特征选取方法的稳定性和鲁棒性.在5个高维数据集上的特征选取实验结果表明集成PSO特征选取方法的有效性和可行性.
特征选取;PSO;集成方法;分类
利用机器学习技术对高维数据降维,使降维后的数据仍承载初始数据中有效信息[1,2].特征选取方法根据特征评价函数,从原始数据中选取代表原始数据特性的关键特征[3,4].特征选取方法分为特征权重选取方法和特征子集选取方法.特征权重选取方法根据特征在不同类别样本中的分布选取分类特征[5],或基于分类模型推算特征对分类的影响进而选取分类特征[6].特征子集选取方法包括穷举法、启发法和随机法等.高维数据集的穷举法特征选取是NP问题;启发法为次优搜索算法,在迭代的过程中产生维数递增或递减的特征子集,能得到近似最优解[7],如顺序后向选择法(Sequential Backward Selection,SBS);随机法基于随机性从特征空间中选取特征子集,主要包括基于进化思想的遗传算法和粒子群算法等优化算法.
Kennedy等人[8]提出粒子群(Particle Swarm Optimization,PSO)算法.粒子群粒子通过与个体历史最佳和群体历史最佳的信息交流实现种群进化[9].二进制 PSO算法[10]被用于解决0-1整数规划问题,也适于特征选取问题研究.文献[11,12]提出基于分类器的二进制PSO特征选取算法(简称BPSO方法),以粒子个体对应特征组合分类结果为适应度函数进行分类特征选取研究.适应度函数的特征组合分类交叉校验需要较大的计算量,选取的特征组合亦可能过拟合于适应度函数所用的分类模型.另外,仅考虑粒子群群体历史最佳的全局模型虽然算法收敛速度快,但算法易于早熟.
集成特征选取方法通过集成来自不同特征选取算法、不同样本组成或不同特征选取范围选取的特征,从中确定最佳分类特征[13].Abeel[14]和Saeys[15]通过实验证明集成方法有助于提高特征选取方法鲁棒性和稳定性.
本文提出基于近邻信息的BPSO特征选取方法(以下简称NBPSO方法).基于同类近邻样本和异类近邻样本信息定义粒子个体对应特征组合的类别可分性和粒子适应度函数,以保证特征组合类内紧密、类间分离;同时,引入粒子近邻信息,提出以类别可分性加权的群体历史最佳位置、粒子个体历史最佳位置和粒子邻域内最佳位置共同指导粒子个体运动方向,在特征空间中搜索最佳特征组合,研究高维数据的特征降维问题.另外,本文提出基于加权集成方法对并行NBPSO方法所选特征集成,以提高NBPSO方法的稳定性和鲁棒性.
在5个高维数据集上进行的特征选取实验结果表明NBPSO方法在特征组合分类、算法复杂度和稳定度等方面优于基于分类器的BPSO特征选取方法,并证实了加权集成方法对NBPSO方法的促进作用.这说明本文所提特征选取方法的有效性和可行性.
PSO算法中每个粒子代表解空间中一个解.初始阶段,群体粒子随机分布于解空间;进化过程中,粒子基于适应度函数,根据个体和群体历史最佳粒子位置更新速度和位置,逐渐收敛于解空间的最佳位置.
式中,速度惯性因子ω>0;速度权重c1>0和c2>0;随机参数r1∈[0,1]和r2∈[0,1];以最大速度vmax和最小速度vmin限制粒子移动速度范围.
基于二进制 PSO算法的BPSO特征选取方法将所有备选特征作为特征选取搜索空间,搜索空间中不同位置粒子对应的特征组合.对于训练集TrainD∈Rm xn(n个样本、m个特征),在m维二值解空间中粒子位置分量∈{0,1}决定第d个特征的选择状态,分量值1或0表征特征被选取或被舍弃.用S型函数将速度分量压缩至(0,1)之间,根据式(2)确定该粒子最新位置:
式中,rand是0到1之间的随机数值.
粒子适应度函数f(Xik)以粒子对应特征组合的类别可分性为主要参数,很多文献定义特征组合分类正确率为类别可分性,同时,将特征组合维数作为适应度函数另一个参数,使之向低维特征组合进化.进化终止时,Pg为特征解空间最佳解向量,其非零元素Pg d对应的特征组成分类特征集合.
3.1NBPSO特征选取方法
本文提出基于近邻信息的BPSO特征选取方法(简称NBPSO方法).综合运用全局搜索和局部搜索优势,将粒子邻域内最佳个体粒子信息纳入BPSO特征选取方法的粒子速度更新中,并以粒子对特征组合在同类近邻样本和异类同类样本间的距离关系作为粒子适应度函数,通过粒子适应度函数施加对粒子运动方向的影响.
粒子群进化过程中补充粒子邻域内最佳粒子信息,有助于BPSO算法利用粒子的局部信息提高全局搜索能力;用适应度函数加权粒子间“位置差异”,引导粒子向适应度函数更大的位置移动;对适应度函数值归一化,既有助于均衡之间关系,又有助于平衡粒子之间“位置差异”与粒子速度之间的数值关系(见算法1).
算法1 NBPSO 特征选取方法
式中,n是TrainD的样本个数,Dj是第 j个样本,nearHit表示离Dj最近的同类样本个数,nearMiss表示离样本Dj最近的异类样本个数;表示基于粒子对应特征组合样本Dj与同类近邻样本间的欧氏距离,表示基于粒子对应特征组合样本Dj与异类近邻样本间的欧氏距离,表示粒子对应特征组合中的特征个数.
适应度函数以样本与异类近邻样本间平均距离和样本与同类近邻样本间平均距离的差值度量特征组合的类别可分性,旨在搜索类内紧密、类间分离的特征组合.适应度函数兼顾特征组合的类别可分性与特征组合维数,有利于NBPSO方法选取类间差异性大、类内相似度高的低维分类特征集合.
计算样本间距复杂度比样本分类交叉校验复杂度低,故NBPSO方法的算法复杂度比基于分类结果构建适应度函数的BPSO方法的算法复杂度低,消耗时间少.
3.2集成NBPSO特征选取方法
利用NBPSO方法进行集成特征选取研究(简称ENBPSO方法).首先,多个NBPSO特征选取过程并行进行;然后,对所选特征做加权集成,通过特征的集成权值高低确定分类特征.
如图1,在特征选取范围内并行进行N个NBPSO特征选取过程.每个NBPSO过程基于随机产生的粒子群初始群体确定各自的特征搜索范围,通过粒子与群体历史最佳、个体邻域内最佳和个体历史最佳的信息交换,调整进化速度和方向,进而获取群体历史最佳粒子对应特征组合.通过特征组合集成确定特征的集成权值,选取权值高的特征作为分类特征.
粒子群随机初始化使每个NBPSO过程的特征搜索范围各不相同,满足集成方法特征选取范围多样性条件,有利于提高特征选取方法鲁棒性和所选分类特征的分类性能.
粒子适应度函数式(4)前半段是粒子对应特征组合在训练集样本中异类样本之间差异性和同类样本之间相似性的差值,定义其为NBPSO过程最佳粒子对应特征组合Soptimal的类别可分性Div(Soptimal).根据特征组合类别可分性对N次NBPSO所得特征组合进行加权集成,集成公式为:
以类别可分性指标加权特征组合的特征,集成后的特征权值能体现特征被选频次,又反映特征在异类样本和同类样本间的相对差异程度,权值高的特征对分类贡献大.然而,如何根据特征权值确定选取阈值进而选取分类特征集合目前尚无普适性标准.
利用顺序后向选取(SBS)方法,一次仅剔除一个特征形成嵌套的候选特征子集,然后根据特征子集评价函数从中找出寻找最佳特征集合.这种方式选取效果较好,但对于高维数据特征选取问题,这种方式计算量太大,不易现实.文献[6]提出一种折中办法,在递归特征剔除过程(RFE,Recursive Featrue Elimination)中,兼顾特征选取方法有效性和可行性,每次按比例选择一部分特征作为候选特征子集.
在RFE过程中用ENBPSO方法获取特征集成权值,基于特征集成权值生成候选特征子集,以候选特征子集分类结果为评价函数从中选取最佳特征集合(见算法2).
算法2 ENBPSO特征选取方法
数据集被分为训练集和校验集.RFE过程中,对每个新生成候选特征子集重新并行N次NBPSO特征选取,特征的动态集成权值能客观反映特征之间的相对重要性,有利于提高特征选取质量.
SVM(Support Vector Machine)分类器是Vapnik等人[6]基于结构风险最小化原理,运用统计学习理论推导出的分类模型.KNN(K-Nearest Neighbor)分类器是基于近邻思想演化而来的较为简单分类算法[4].分类正确率体现基于特征子集建立的分类器对样本的识别能力;分类AUC(Area Under roc Curve)值表示ROC(Receiver Operating Characteristics)曲线下面积[16],能客观反映异类样本数量不均匀时的分类结果.
将NBPSO方法、ENBPSO方法和基于SVM的BPSO方法以及SVM-RFE方法同时进行特征选取实验,通过实验比较4种方法在高维特征数据集上的特征选取性能. SVM-RFE方法基于SVM分类模型在RFE过程中分析特征对分类模型的影响,进而选取分类特征集合[6].为不失一般性,在5个两类数据集上进行特征选取实验.表1列出了DLBCL、Acute Leukemia、Multiple Myeloma、Colon和Prostate等5个基因表达谱数据集的相关参数.
表1 基因表达谱数据集
4.1特征选取实验参数设置
鉴于高维数据中存在大量与类别无关的噪声特征,在特征选取之前利用Bhattacharyya距离过滤噪声特征.Bhattacharyya距离不但体现特征在不同类别样本间的差异,还反映特征在各类样本中的变化情况[22].
为客观比较4种特征选取方法性能,将数据集按3∶1∶1随机分割为训练集、校验集和独立测试集.如图2所示,首先,根据Bhattacharyya距离过滤噪声特征,缩小特征选取范围:在Colon训练集里选择Bhattacharyya距离较大的前500个基因作为特征选取范围;在其他4个数据集的训练集里均以Bhattacharyya距离较大的前1000个基因为特征选取范围.然后,4种方法基于相同训练集、相同特征选取范围在 RFE过程中产生候选特征子集:SVM-RFE方法基于特征对SVM模型的影响对特征排序,生成候选特征子集;BPSO方法以 SVM分类器在训练集中5倍交叉校验的分类AUC值和正确率及特征组合维数倒数为粒子个体适应度函数值;NBPSO 和ENBPSO方法通过式(4)计算粒子个体适应度函数值;将BPSO方法和NBPSO方法选取的特征集合作为各自下一轮特征选取过程的候选特征子集,ENBPSO方法根据算法2生成候选特征基因子集.
4种方法以SVM和KNN分类器对相同校验集的分类结果为评价函数从候选特征子集中选择最佳特征集合(即分类特征集合),再以相同的独立测试集测试分类特征集合分类能力.每种方法重复进行20次,得到20个分类特征集合,以这些特征集合在独立测试集上分类测试的统计结果比较4种特征选取方法的性能.
设置RFE过程的特征剔除率为50%,SVM核函数为线性核函数,KNN分类器的K=5,即5近邻分类.
PSO参数是基于经验值基础上,经过多次试验调试确定的.BPSO方法中PSO算法种群规模L=100,kmax=200,vmax=2,vmin=-2,c1=c2=4,ω在进化过程中从1逐渐减小至0.7.NBPSO方法中PSO算法vmax=4,vmin=-4,nearMiss=nearHit=5,其他参数与BPSO方法参数相同. ENBPSO方法设置集成规模N=20,其中NBPSO方法中PSO算法kmax=100,其他参数与单次NBPSO参数相同.
4.2分类特征集合分类结果
SVM-RFE方法、BPSO方法、NBPSO方法和ENBPSO方法在5个数据集上选出20个分类特征集合,它们在独立测试集里的分类AUC值和正确率的平均值和标准差如表2所示.
由表2知,在Multiple Myeloma数据集上,NBPSO和ENBPSO方法所选特征均正确识别所有独立测试集样本类别.比较4种方法所选分类特征集合的分类AUC值,在除Colon数据集外的其他4个数据集上,NBPSO和ENBPSO方法均优于 BPSO方法和SVM-RFE方法;在DLBCL和Prostate数据集上,ENBPSO方法优于NBPSO方法;在A-cute Leukemia和Colon数据集上,NBPSO和ENBPSO方法选取的分类特征集合的分类AUC值互有高低.比较4种方法所选分类特征集合的分类正确率,在5个数据集上,NBPSO和ENBPSO方法都优于BPSO方法和SVM-RFE方法;在DLBCL、Colon和Prostate数据集上,ENBPSO方法优于NBPSO方法;在Acute Leukemia数据集上,NBPSO和ENBPSO方法选取的分类特征集合的分类正确率互有高低.
表2 分类特征集合在独立测试集上的分类结果统计表
5.1分类特征集合的分类性能显著性检验
基于单因素非参数方差分析Kruskal-Walls检验方法[23],利用MATLAB工具箱的kruskalwallis函数对4种方法所选20个分类特征集合在独立测试集上的分类测试结果进行显著性差异分析,以进一步比较四者性能.每个方法在每个数据集上80个独立分类测试数据(20个SVM分类正确率、20个SVM分类AUC值、20个KNN分类正确率和20个KNN分类AUC值)组成一组. Kruskal-Walls检验结果如表3所示.
表3 分类特征集合的分类性能差异性比较表
综合表2和表3数据可知,NBPSO方法和ENBPSO方法在5个数据集上选出的特征集合比BPSO方法和SVM-RFE方法选出的特征集合分类能力强;同时,ENBPSO方法选出的特征集合分类能力比NBPSO方法选出的特征集合分类能力略强.
5.2特征选取方法的时间复杂度
特征选取方法的算法复杂度决定于训练集样本数、特征选取范围、评价函数等因素.粒子群算法复杂度决定于种群规模、终止条件和适应度函数等因素.因为算法运行时间与算法复杂度成线性关系,所以相同实验条件下不同算法消耗的时间长短可用于比较算法间的复杂度关系.表4列出4种特征选取方法从5个数据集选取20个分类特征集合所用平均时间.
表4 特征选取方法运行时间表
SVM-RFE方法用时最短,NBPSO方法所用时间次之,ENBPSO方法耗时最长.BPSO方法消耗的时间主要用于粒子个体适应度函数的5倍SVM分类交叉校验,NBPSO方法粒子个体适应度函数基于近邻样本信息计算特征组合的可分性,所用计算量相对BPSO较小.ENBPSO集成方法增加的多次 NBPOS选取过程提高了特征选取算法的计算量,使之消耗了更多时间.由上,NBPSO方法复杂度比BPSO方法复杂度低;因为集成方法增加的选取过程提高了ENBPSO方法复杂度.
5.3特征选取方法的稳定性
特征选取方法性能包括分类特征集合分类能力、选取方法稳定性和消耗时间等指标.所谓稳定性是指特征选取方法在变化的数据环境中所选分类特征集合的相对稳定度.
基于秩相似系数的特征选取方法稳定度指标[15],根据4种方法20次特征选取实验所得特征集合分析特征选取方法稳定性.如表5所示,SVM-RFE方法的稳定性低于其他3种方法.BPSO方法在DLBCL数据集上的稳定性优于NBPSO方法,而NBPSO方法在其他4个数据集上的稳定性优于BPSO方法.ENBPSO方法在5个数据集上的稳定性都优于其他3种方法,这也是集成方法用计算复杂度换来稳定性.
表5 特征选取方法稳定度比较表
随着计算机技术特别是计算机硬件技术发展,科学家们逐渐降低对特征选取方法计算复杂度的要求,越来越关注于特征集合的分类能力和特征选取方法的稳定性.所以,尽管ENBPSO方法在运行时间上比其他3种方法消耗多,但鉴于稳定性方面的优势,ENBPSO方法会有更大应用前景.
针对高维数据结构特点,本文提出基于近邻信息的二进制PSO特征选取方法.将基于同类近邻样本和异类近邻样本信息定义的特征组合类别可分性作为粒子个体的适应度函数,用特征组合类别可分性加权的群体历史最佳、粒子历史最佳和粒子邻域内最佳个体信息共同指导粒子运动方向,在特征空间里搜索分类特征集合.5个高维数据集上的特征选取实验表明基于近邻样本信息构建的粒子个体适应度函数降低了特征选取算法的复杂度;粒子邻域内最佳个体信息的引入提高了特征选取质量;基于类别可分性的加权集成方法有效提高了NBPSO方法的特征选取性能.
NBPSO方法和ENBPSO方法较好地完成了两类样本特征选取任务,今后将通过式(4)、(5)分析多类别特征组合在类间和类内的相对关系,进一步研究两种方法在高维特征数据集里的多类别特征选取中的应用.
[1]Liu H,Sun J,Liu L,et al.Feature selection with dynamic mutual information[J].Pattern Recognition,2009,42(7):1330-1339.
[2]邹涛,张翠.概念级误用检测系统的认知能力研究[J].电子学报,2004,32(10):1694-1697. Zou Tao,Zhang Cui.A study on apperception ability of concept level misuse detection system[J].Acta Electronica Sinica,2004,32(10):1694-1697.(in Chinese)
[3]李颖新,刘全金,阮晓钢.一种肿瘤基因表达数据的知识提取方法[J].电子学报,2004,32(9):1479-1482. LI Ying-Xin,LIU Quan-jin,RUAN Xiao-gang.A method for extracting knowledge from tumor gene expression data [J].Acta Electronica Sinica,2004,32(9):1479-1482. (in Chinese)
[4]边肇祺,张学工.模式识别[M].北京,清华大学出版社,2004.176-203. Bian Zhaoqi,Zhang Xuegong.Pattern Recognition[M]. Beijing:Tsinghua University Publisher,2004.176-203. (in Chinese)
[5]Zhang Daoqiang,Chen Songcan,Zhou Zhi-Hua.Constraint score:A new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):1440-1451.
[6]Guyon I,Weston J,Barnhil S,et al.Gene selection for cancer classification using support vector machines[J]. Machine learning,2002,46(1-3):389-422.
[7]王树林,王戟,陈火旺,等.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636 -649. Wang Shulin,Wang Ji,Chen Huowang,et al.Heuristic breadth-first search algorithm for informative gene selection based on gene expression profiles[J].Chinese Journal of Computers,2008,31(4):636-649.(in Chinese)
[8]Kennedy J,Eberhart R C.Particle swarm optimization[A]. Proceedings of International Conference on Neutral Networks IV[C].Piscataway NJ:IEEE Service Center,1995. 1942-1948.
[9]朱大林,詹腾,张屹,等.多策略差分进化的元胞多目标粒子群算法[J].电子学报,2014,42(9):1831-1838. Zhu Da-lin,Zhan Teng,Zhang yi,et al.Cellular multi-objective particle swarm algorithm based on multi-strategy differential evolution[J].Acta Electronica Sinica,2014,42 (9):1831-1838.(in Chinese)
[10]Kennedy J,Eberhart RC.A discrete binary version of the particle swarm algorithm[A].Proceedings of IEEE International Conference on Systems,Man,and Cybernetics [C].Washington:IEEE,1997.4104-4109.
[11]Lin SW,Ying KC,Chen SC,et al.Particle swarm optimization for parameter determination and feature selection of support vector machines[J].Expert Systems with Applications,2008,35(4):1817-1824.
[12]Sahua B,Mishra D.A novel feature selection algorithm using particle swarm optimization for cancer microarray data[A].Proceedings of International Conference on Modelling Optimization and Computing[C].USA:Procedia Engineering,2012,38.27-31.
[13]李霞,张田文,郭政.一种基于递归分类树的集成特征基因选取方法[J].计算机学报,2004,27(5):675 -681. Li Xia,Zhang Tianwen,Guo Zheng.A novel ensemble of feature selection based on recursive partition-tree[J].ChineseJournal of Computers,2004,27(5):675-681.(in Chinese)
[14]Abeel T,Helleputte T,Van de Peer Y,et al.Robust biomarker identification for cancer diagnosis with ensemble feature selection methods[J].Bioinformatics,2010,26 (3):392-298.
[15]Saeys Y,Abeel T,Peer YV.Robust feature selection using ensemble feature selection techniques[A].Proceedings of ECML PKDD’2008,Part II[C].LNAI:Springer,2008,5212.313-325.
[16]Provost F,Fawcett T.Analysis and visualization of classifier performance:Comparison under imprecise class and cost distributions[A].Proceedings of 3rd International Conference on Knowledge Discovery and Data Mining [C].USA:AAAI Press,1997.43-48.
[17]Shipp MA,Ross KN,Tamayo P,et al.Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning[J].Nat Med,2002,8(1):68-74.
[18]Golub TR,Slonim DK,Tamayo P,et al.Molecular classification of cancer class discovery and class prediction by gene expression monitoring[J].Science,1999,286 (5439):531-537.
[19]Zhan F,Hardin J,Kordsmeier B,et al.Global gene expression profiling of multiple myeloma,monoclonal gammopathy of undetermined significance,and normal bone marrow plasma cells[J].Blood,2002,99(5):1745 -1757.
[20]Alon U,Barkai N,Notterman DA,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays [J].PNAS USA,1999,96(12):6745-6750.
[21]Singh D,Febbo PG,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.
[22]Liu QJ,Zhao ZM,Li YX,et al.Feature selection based on sensitivity analysis of fuzzy ISODATA[J].Neuro Computing,2012,85(1):29-37.
[23]周品.MATLAB概率与数理统计[M].北京:清华大学出版社,2012.267-270. Zhou Pin.MATLAB Probability and Mathematical Statistics[M].Beijing:Tsinghua University Publisher,2012. 267-270.(in Chinese)
刘全金 男,1971年12月生于安徽六安,南京航空航天大学理学院博士研究生,安庆师范学院教授,主要研究方向:机器学习、信息处理.
E-mail:liuquanjing666@126.com
赵志敏(通信作者) 女,1955年3月生于辽宁沈阳,南京航空航天大学理学院教授,主要研究方向:现代测量与控制技术、智能计算.
E-mail:nuaazhzhm@126.com
李颖新 男,1972年9月生于河北迁安,北京经纬纺机新技术有限公司高级工程师,博士,主要研究方向:机器视觉、机器学习与数据挖掘、生物信息学.
E-mail:linterlee@126.com
俞晓磊 男,1981年10月生于江苏南京,江苏省标准化研究院高级工程师、南京理工大学博士后,主要研究方向:通信与射频信号处理、电子信号检测技术.
E-mail:nuaaxiaoleiyu@126.com
Ensemble Feature Selection Method Based on Neighborhood Information and PSO Algorithm
LIU Quan-jin1,2,ZHAO Zhi-min1,LI Ying-xin3,4,YU Xiao-lei5
(1.College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 210016,China;2.Department of Physics,Anqing Normal College,Anqing,Anhui 246011,China;3.Beijing Jingwei Textile Machinery New Technology Co Ltd,Beijing 100176,China;4.Beijing Light Industry and Textile Machinery Engineering Research Center for Machine Vision,Beijing 100176,China;5.Jiangsu Institute of Standardization,Nanjing,Jiangsu 210029,China)
A new PSO algorithm is proposed in this paper for feature selection.Distances within the same class and between different classes are used as the index for distinguishing different classes,and thus can be used to construct the fitness function of particles in PSO.The direction of particles for searching optimal features which can result in close intra-class distance and far inter-class distance is determined by the current best solution of the particle and the optimal individual in particle neighborhood,weighted by the fitness function.Meanwhile,the PSO algorithm is aggregated by the weighted voting method to improve its stability and robustness.The experiment results on 5 high dimensional datasets show that the ensemble PSO algorithm is effective and feasible.
feature selection;PSO(particle swarm optimization);ensemble method;classification
TP391
A
0372-2112(2016)04-0995-08
电子学报URL:http://www.ejournal.org.cn 10.3969/j.issn.0372-2112.2016.04.034
2014-10-24;
2014-12-16;责任编辑:孙瑶
国家自然科学基金(No.61475071,No.61173068,No.10172043);教育部博士点基金(No.20093218110024);江苏省自然科学基金青年基金(No.BK20141032);国家质检总局科技项目(No.2013QK194);安徽省自然科学基金(No.1608085QF157)