自适应特征筛选的地雷目标AdaBoost分类器

2011-03-22 08:22施云飞周智敏
电子与信息学报 2011年8期
关键词:特征选择分类器分类

施云飞 宋 千 金 添 周智敏

(国防科学技术大学电子科学与工程学院 长沙 410073)

1 引言

超宽带地表穿透雷达(Ground Penetrating Radar, GPR)通过发射低频超宽带信号获取良好的土壤和植被穿透能力,广泛应用于地雷探测。特别是车载前视地表穿透雷达(Forward-Looking Ground Penetrating Radar, FLGPR)能够快速、准确地对单个地雷探测及雷场定位,具有安全距离长、探测面积大、探测速度快等优点,是一种安全可靠的探雷技术[1]。FLGPR作为前视成像雷达[2]的一种,能够对雷达前方较大范围的区域成2维图像。其方位上为阵列天线,采用单元顺序工作实现分时的合成孔径工作方式。借用虚拟孔径技术[3],FLGPR通过较少的接收天线和较小的实孔径可以等效获得更大的接收孔径,因此又将此雷达称为前视地表穿透虚拟孔径雷达(Forward-Looking GroundPenetrating Virtual Aperture Radar, FLGPVAR)。代表系统有美国斯坦福研究所(SRI)[4]和美国规划系统有限公司(PSI)[5]的车载 FLGPR。国内研究刚刚起步,国防科大超宽带实验室对车载FLGPVAR做了详细和深入的研究,并取得较好成果[6]。

超宽带虚拟孔径体制具有很高的距离和方位向分辨率,目标在2维雷达图像中细节信息丰富,因此完全可以在图像域实现地雷与杂波的分类,所以FLGPVAR检测地雷本质上是一个基于图像的目标分类问题[7,8]。分类器对非训练样本(也称为测试样本)的分类性能称为泛化能力,是衡量分类器性能的重要指标。AdaBoost是一种组合多个弱分类器的算法,通过选择训练误差最小的弱分类器,有效提高最终强分类器的泛化性能,被认为是性能最好的分类方法之一[9]。但传统的AdaBoost算法的特征筛选和分类器训练过程是分离的,其迭代过程中不包括特征选择,其固定不变的特征集无法降低弱分类器的训练误差,使得分类器性能不能用以指导特征选择,同时特征选择依据原则也缺乏针对性,也就无法有效改善分类器的泛化性能。文献[10]提出的AdaBoost算法在迭代过程中加入特征选择,但是特征选择的代价函数与分类器性能无直接关系,是一种过滤式特征选择算法[11]。文献[12]提出基于Wrapper的嵌入式特征选择算法,通过分类器训练误差衡量特征集的优劣,但每次只选择一个而不是多个特征组成的特征集,依然无法将训练误差降到最低。

本文在前两种算法基础上,提出在AdaBoost算法的迭代过程中,选择能使弱分类器训练误差最小的特征集,同时为降低地雷探测中的漏警率,以给定探测率时的虚警率作为训练误差。通过这种方式得到的强分类器在保证探测率的同时有效降低了虚警率,还具有良好的泛化性能。本文结构如下:第2节是弱分类器的设计,第3节分析AdaBoost迭代过程中,如何选择弱分类器才能提高强分类器的泛化性能,第4节研究AdaBoost迭代过程中特征选择的代价函数,第5节是比较不同分类算法在实测数据中的应用;第6节是文章总结。

2 弱分类器设计

AdaBoost通过若干弱分类器的组合得到一个强分类器,弱分类器的性能影响AdaBoost的迭代次数及分类性能。地雷分类需要区分目标和杂波,其中杂波是除地雷之外的一切物体。当探测环境发生变化时,地雷特征变化不大,而杂波可能完全不同。但是实际中不可能获得所有环境中典型的杂波样本,这使得地雷分类更接近一类分类(one-class classification)问题[13]。因此使用超球面支持向量机(HS-SVM)为弱分类器,最终的强分类器由若干HS-SVM加权得到。

3 弱分类器选择

AdaBoost算法有非常小的泛化错误率,其具体流程略。在求解权重的过程中,以逐步递增的方式增加基函数,不调整已添加的基函数中的参数及其权重。如果第T−1步的分类器为

其中ht(x)为基函数,βt为对应基函数的权重,x为特征向量。定义代价函数为

文献[14]指出,每次迭代过程中使代价函数P最小,能最大化分类边界(margin),从而保证最终的强分类器有很好的泛化性能。所以第T步新增加的基函数hT及其权重βT要使代价函数最小,即

令式(9)两边等于零,得到

所以每次迭代过程中引入能使 (1/)P=N最小的弱分类器,并且该弱分类器的权值为就能得到泛化性能很好的强分类器。

4 特征选择

传统上,特征选择研究如何从众多特征中找到那些对分类识别最有效的特征,从而实现特征空间维数的压缩。分类器研究对给定的训练数据,寻找最优的分类界面使训练误差最小,并且分类器的泛化性能良好。特征选择一般依据某种准则函数,对原始特征进行变换降维。这些准则包括类别可分性判据、Fisher准则函数、判决边界等。文献[12]指出,以特征内部相互关系为准则得到的特征集,适合某些分类器但未必适合所有分类器。在分类器确定以后,特征选择以降低分类器训练误差为目的,将分类器训练误差作为准则函数,这种结合特征选择与分类器训练的模块如图1所示。

图1 特征选择与分类器训练模块

由此在AdaBoost分类器的基础上,将特征选择与分类器训练模块加入其迭代过程中,得到新的AdaBoost分类器结构,如图2所示。其中di,i=1,… ,N表示样本权值,wi,i=1,… ,N表示弱分类器权值。每次迭代过程中,遍历所有特征组合,对不同的特征集和训练样本,调整式(1)中弱分类器的参数C,得到不同特征集所对应的训练误差,选出能够使训练误差最小的特征集。对于错分的样本,增加其权值,重新选择特征集及弱分类器。重复上述过程,直到满足最大迭代次数,最终训练得到一个强分类器。

图2 结合自动特征筛选的AdaBoost分类器

考虑到所有特征的组合可能太多,这里引入顺序前进浮动选择(Sequential Floating Forward Selection, SFFS)算法[10],以降低计算量。特征选择过程中,如果将代价函数定义为 AdaBoost的代价函数其实考虑的是所有类别的分类误差,忽略了不同类别分类错误所造成的不同代价。事实上,地雷探测中漏警后果远比虚警严重,应分别设置漏警和虚警的权值。但手工设置权值比较武断,因此考虑在保证探测率Pd不低于设计指标的前提下,将虚警率Pf降至最低。AdaBoost的代价函数P分解如下:

其中N1和N2分别表示目标和杂波的个数。由式(11)发现探测率Pd不变时,Pf最小等价于P最小。所以在 AdaBoost迭代过程中,最佳特征集ts=,其中T表示原始特征集,表示一恒定探测率。对于不同的特征集,调节式(1)中的C,通过训练数据拟合可以分别得到Pd和Pf随C的变化函数Γ(C)和Λ(C),给定Pd后,得到阈值相应的。定义特征选择的代价函数J(·)为

通过 SFFS选择特征集的过程中,选择能使式(12)最小的特征集,以及该特征集所对应的弱分类器。这样得到的特征集和弱分类器在保证探测率的同时兼具良好的泛化性能。

5 实测数据结果

将本文的 AdaBoost算法记为 AFS-AdaBoost(Adaptive Feature Selection AdaBoost),对FLGPVAR的实测数据分别使用传统AdaBoost和AFS-AdaBoost这两种算法分类,两种算法的弱分类器都是HS-SVM。其中地雷的感兴趣区域(Region Of Interest, ROI)的切片通过人工方式提取得到,总数为300个;杂波通过基于能量的检测器[15]自动提取,总数为4000个。地雷和杂波的ROI如图3所示。

图3 地雷和杂波的ROI图像

基于ROI的原始特征包括13个局部统计特征和9个图像几何特征[8],从这22个原始特征中挑出对分类器而言最有效的特征集。为验证分类算法的泛化性能,将数据分成10批,每批包括30个地雷和400个杂波。其中9批用于训练,剩下的用于测试,从而得到10次交叉验证的结果。

图4是训练数据的探测率为0.97时,两种分类算法的虚警率随迭代次数的变化关系。从图4可以看出,AdaBoost的虚警率在迭代次数达到50时基本不变,AFS-AdaBoost的虚警率在迭代次数达到20时基本不变。这表明AFS-AdaBoost的收敛速度快于AdaBoost。

图4 两种算法收敛速度比较

图5是使用AFS-AdaBoost算法分类的结果,图5(a)是训练数据的接收机工作特性(Receiver Operating Characteristics, ROC)曲线,表明随着迭代次数的增加,训练误差接近于零。从图5(b)是测试数据的 ROC曲线,可以看出,随着迭代次数不断增加,分类器检测性能持续改善,表明新的分类器在有效提取样本分类信息的同时,具有控制过拟合的作用。

图5 AFS-AdaBoost分类结果

图6是两种算法迭代次数都达到150时的检测性能比较。可以看出,AFS-AdaBoost具有更好的检测性能。

图6 两种算法检测性能比较

6 结束语

本文提出一种用于FLGPVAR地雷检测的分类算法。这种算法在传统AdaBoost分类器的基础上,将特征选择加入弱分类器的迭代过程中,并将恒探测率下的虚警率作为特征选择的代价函数,在保证探测率的同时有效降低弱分类器训练误差,最终改善强分类器的泛化能力。实测数据结果表明,本文提出的分类算法其探测率是可控的,并且泛化能力较传统 AdaBoost算法有所提高,满足地雷探测的要求。

[1] Liu Guo-qing, Wang Yan-wei, Li Jian, andet al.. SAR imaging for a forward-looking GPR system[C]. Proceedings of SPIE, 2003, Vol.5089: 322-333.

[2] 陈琦, 杨汝良. 机载前视合成孔径雷达 Chirp Scaling成像算法研究 [J]. 电子与信息学报, 2008, 30(1): 228-232.Chen Qi and Yang Ru-liang. Research of chirp scaling imaging algorithm for air-borne forward-looking SAR [J].Journal of Electronics&Information Technology, 2008, 30(1):228-232.

[3] Jin Tian and Zhou Zhi-min. Imaging model of forwardlooking ground penetrating radar with split-aperture transmitting configuration[C]. 2nd Asian and Pacific Conference on Synthetic Aperture Radar, Xi’an, China, 2009:21-24.

[4] Kositsky J, Cosgrove R, Amazeen C,et al.. Results from a forward-looking GPR mine detection system [C]. Proceedings of SPIE, 2002, Vol.4742: 205-217.

[5] Bradley M, Witten T, Duncan M,et al.. Mine detection with a forward-looking ground-penetrating synthetic aperture radar [C]. Proceedings of SPIE, 2003, Vol.5089: 334-347.

[6] 陆必应. 步进频率连续波探地雷达数字信号处理机 [J]. 雷达科学与技术, 2010, 8(3): 229-232.Lu Bi-ying. Digital signal processor of a SFCW ground penetrating radar [J].Radar Science and Technology, 2010,8(3): 229-232.

[7] 朱孝开. 基于核方法的图像目标识别技术研究[D]. [博士论文],国防科学技术大学, 2009.Zhu Xiao-kai. Kernel methods for image object recognition[D]. [Ph.D. dissertation], National University of Defense Technology, 2009.

[8] 郭雷. 宽带雷达目标极化特征提取与核方法识别研究[D]. [博士论文], 国防科学技术大学, 2009.Guo Lei. Wideband radar target polarimetric feature extraction and recognition method based on kernel method[D]. [Ph. D. dissertation], National University of Defense Technology, 2009.

[9] Freund Y and Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences, 1997,55(1): 119-139.

[10] Sun Yi-jun and Li Jian. Adaptive learning approach to landmine detection [J].IEEE Transactions on Aerospace and Electronic Systems, 2005, 41(3): 973-985.

[11] Guyon I and Elisseeff A. An introduction to variable and feature selection [J].Journal of Machine Learning Research,2003, 21(3): 1157-1182.

[12] Viola P and Jones M. Rapid object detection using a boosted cascade of simple features[C]. Proc. CVPR 2001, Hawaii,USA, 2001, 1: 511-518.

[13] Tax D. One-class classification: concept-learning in the absence of counter-examples [D]. [Ph.D. dissertation], Deflt University of Technology, 2001.

[14] Schapire R E, Freund Y, Bartlett P,et al.. Boosting the margin: a new explanation for the effectiveness of voting methods [J].The Annals of Statistics, 1998, 26(5): 1651-1686.

[15] Shi Yun-fei, Jin Tian, Song Qian,et al.. A segmentationbased CFAR algorithm for subsurface targets detection in FLGPVAR[C]. 20102nd International Conference on Signal Processing Systems, Dalian, China, July 5-7, 2010, 2:293-298.

猜你喜欢
特征选择分类器分类
分类算一算
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
Kmeans 应用与特征选择
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别