结合ReliefF、GA和SVM的面向对象建筑物目标识别特征选择方法

2017-12-19 09:45薛章鹰刘兴权
测绘工程 2017年2期
关键词:特征选择子集适应度

薛章鹰, 刘兴权

(中南大学 地球科学与信息物理学院, 湖南 长沙 410083)



结合ReliefF、GA和SVM的面向对象建筑物目标识别特征选择方法

薛章鹰, 刘兴权

(中南大学 地球科学与信息物理学院, 湖南 长沙 410083)

提出结合ReliefF算法、遗传算法(Genetic algorithm, GA)和支持向量机(Support Vector Machine, SVM)的高分辨率遥感影像建筑物目标识别特征选择算法。首先使用ReliefF算法进行初步的特征筛选,然后将SVM参数和特征子集编码到GA染色体中,以SVM识别精度构建适应度函数,同时优化特征子集和SVM参数。实验结果表明,将文中算法应用于建筑物目标识别,能以较小的特征子集和较短的优化时间达到较高的识别精度。

ReliefF;遗传算法;支持向量机;特征选择

面向对象目标识别将影像分割成大小不一、包含多个像素的同质区域(对象),以对象取代像元作为识别的基本单元,它综合考虑影像对象的光谱、几何、纹理和拓扑关系等特征,可以得到较高精度的识别结果,是当前高分辨率遥感影像目标识别技术的发展趋势。然而,由于“维数灾难”的存在,如果将所有的特征都输入分类器,不仅会使运算变得复杂,处理速度大大下降;而且在有限样本的情况下,过多的特征可能会导致分类精度降低。

目前,常用的高分辨率遥感影像面向对象目标识别特征选择方法主要有经验分析法[1-2]、分离阈值法[3-4]、基于互信息的最大相关性最小冗余度方法[5-6]和结合GA与SVM的特征选择方法[7]等。其中,结合GA与SVM的特征选择方法根据SVM识别精度构建GA适应度函数,以识别精度引导优化过程,通常可以得到较高的识别精度。但是该算法没有考虑同时优化特征子集和SVM参数,而且所得到的特征子集较大,优化时间较长。因此,本文提出了一种结合ReliefF算法、GA和SVM的特征选择算法,该算法首先使用ReliefF算法进行初步的特征筛选,然后将SVM参数和特征子集编码到GA染色体中,使用GA同时优化特征子集和SVM参数,利用该算法所得到的特征子集和SVM参数对高分辨率遥感影像中的建筑物目标进行识别。

1 结合ReliefF、GA和SVM的特征选择方法

1.1 相关理论

Relief算法是基于两类问题的特征选择算法,主要思想是根据特征区分相邻样本的能力来决定特征权重[8]。ReliefF算法是对Relief算法的扩展,它可以解决多类问题以及回归问题,并提供了对不完整数据的处理方法[9]。遗传算法是Holland于1975年提出的一种基于生物自然选择和遗传机理的随机搜索算法,它与问题的领域无关,具有较强的鲁棒性,常用于解决复杂的优化问题[10]。支持向量机是在统计学习理论的基础上发展起来的新一代学习算法[11]。其主要思想是:将输入空间通过非线性变换映射到高维空间中,使原输入空间中线性不可分的问题映射到高维空间后变为线性可分,并在保证不同类别样本正确分开的同时最大化类别之间的分类间隔[12]。

1.2 基本思想

本文提出的结合ReliefF、GA和SVM的特征选择算法首先使用ReliefF算法计算出各个特征的权重,依据权重对特征进行排序,排序靠后的特征将被直接排除,不再参与到GA的优化过程中,从而缩短GA染色体的长度,减少优化时间。在使用SVM时,两个关键的问题是:如何选择最优的输入特征子集以及如何设置最优的核函数参数。输入特征子集的改变会影响对应的最优核函数参数,核函数参数的改变也会影响对应的最优输入特征子集。因此,为了达到最优的目标识别精度,本文算法将核函数参数和特征子集一起编码到GA染色体中,在优化特征子集的同时优化核函数的参数,最后使用优化得到的特征子集和核函数参数来识别影像中的建筑物目标,算法流程如图1所示。

图1 结合ReliefF、GA和SVM的特征选择算法

1.3 染色体编码

图2 由参数C,γ和特征子集组成的染色体

1.4 种群初始化

本文算法使用ReliefF算法来减少输入到GA进行优化的特征子集的特征个数,并且依据特征权重为GA提供一个好的初始种群,从而为GA提供一批好的搜索起点。种群初始化的具体步骤如下:

1)使用ReliefF算法算出各个特征的权重,依据特征权重对特征进行排序,选择排序结果最靠前的nf个特征参与到GA的优化过程中,直接淘汰其他权重过低的特征。

2)在SVM参数二进制编码部分,随机设置某个二进制位为0或者1;在特征子集二进制编码部分,将保留下来前nf个特征的权重归一化,以归一化后的结果作为该特征的被选概率,如果该特征被选中,则对应位设为1,未被选中则设为0。

重复步骤2),直到产生的个体数目达到初始种群大小。

1.5 适应度函数设置

适应度是遗传算法中个体进化的驱动力,是进行自然选择的依据,个体质量的优劣由适应度来评价[13]。本文算法在设计适应度函数时主要考虑如下3个因素:目标识别精度、所选特征子集的特征个数以及所选特征子集的特征成本。具有最高的目标识别精度、最少的特征个数以及最低的特征成本的个体将具有最高的适应度函数值。为了同时考虑这3个因素,本文设计了如下适应度函数:

(1)

其中:ωA为目标识别精度的权重,ωF为特征个数和特征成本的权重,ωA+ωF=1,Accuracy为目标的识别精度,Ci为获取特征i所需成本,Fi为1,则表示特征i被选择;Fi为0,则表示特征i未被选择。目标的识别精度Accuracy通过对测试样本集的识别结果构建混淆矩阵来计算,计算公式如下:

(2)

其中:FP表示把负例识别为正例的数量(本文中正例为建筑物,负例为非建筑物),FN表示把正例识别为负例的数量,TP表示正确识别的正例的数量,TN表示正确识别的负例的数量。

2 建筑物目标识别实验

为了验证本文提出的结合ReliefF、GA和SVM的特征选择算法在高分辨率遥感影像面向对象建筑物目标识别中的优势,本文选取了3组实验数据进行了实验。将实验结果与其他几种方法进行对比,包括GA-SVM(C,γ)方法、使用经验特征的SVM方法和使用全部特征的SVM方法。其中,GA-SVM(C,γ)方法仅优化特征子集,不同时优化SVM参数,也不使用ReliefF算法;使用经验特征的SVM方法所选用的特征有亮度、各波段均值、各波段标准差、面积、长度、长/宽、主方向、紧致度和矩形度。

由于GA的优化结果具有不确定性,本文对每组数据进行10次实验,以10次实验结果的平均值作为评价算法的依据。

2.1 实验数据和实验环境

实验数据1为QuickBird影像,获取于ENVI示例数据,大小为682×634;实验数据2为美国加州地区Google影像,获取于Google Earth,大小为681×643;实验数据3为印度Sundarbans地区QuickBird影像,获取于GLCF网站,大小为400×400。Quickbird影像包含蓝、绿、红和近红外4个波段,Google影像包含蓝、绿和红3个波段。

本文实验环境操作系统为Win7,处理器为AMD Athlon主频2.71 GHz,内存为4 G。算法在MATLAB中实现,SVM使用的是台湾大学林智仁教授等[14]开发的Libsvm。

2.2 影像分割和特征提取

本文使用分形网络演化算法(FNEA)算法[15]对影像进行多尺度分割,分割在eCognition软件中完成,3组实验数据的分割尺度、光谱异质性权重和紧致度权重分别设为(45,0.5,0.9)、(35,0.4,0.9)和(25,0.5,0.9)。

从分割后影像对象中提取的特征包含光谱特征、几何特征和纹理特征[16]3类,从实验数据1和实验数据3中提取的特征均为82个,从实验数据2中提取的特征为67个。

2.3 实验样本和参数说明

本文的实验样本分为训练样本集和测试样本集,样本分为建筑物、植被和其他地面三类地物,样本类别和个数如表1所示。

表1 样本类别和个数

ReliefF算法参数设定如下:最近邻样本个数设为40,迭代次数设为输入样本的总个数,从该算法的计算结果中保留下来进入GA优化过程的特征个数设为30。

GA的参数设定如下:种群大小设为100,直接进入下一代的优良个体数设为10,GA的停止条件设为遗传代数达到100或者连续进化10代适应度

函数值的变化小于0.001。在适应度函数参数的设置方面,由于本文以提高目标识别精度作为主要目标,将目标识别精度的权重设为0.9,将特征个数和特征成本的权重设为0.1。在特征成本的设置方面,将具有较高计算代价的纹理特征的成本设为2,将光谱特征和几何特征的成本设为1。

对于不使用GA优化SVM参数的方法,参数C和γ通过交叉验证方法[17]得到。

2.4 实验结果与分析比较

本文算法的实验数据原图和建筑物识别结果见图3。实验数据1达到最优建筑物识别精度时,所选特征子集中包含的特征有建筑物指数、近红外波段GLCM均值、近红外均值、近红外波段GLCM同质性、密度;实验数据2达到最优建筑物识别精度时,所选特征子集中包含的特征有绿光波段贡献率、最大差分、红光波段均值、红光波段GLCM均值、植被指数、亮度、绿光波段均值、绿光波段GLCM熵、面积、体积、蓝光波段GLCM同质性、红光波段GLDV熵;实验数据3达到最优建筑物识别精度时,所选特征子集中包含的特征有归一化植被指数、比值植被指数、土壤调节植被指数、蓝光波段均值、红光波段均值、最大差分、长度和绿光波段GLCM均值。

(a)数据1原图

(c)数据3原图

(d)数据1识别结果

(e)数据2识别结果

(f)数据3识别结果

本文选取了建筑物识别精度、总精度、Kappa系数、优化时间和优化后特征子集的特征个数5项指标,用于将本文算法与其他算法进行比较(见表2,使用GA的特征选择算法的统计量均为10次实验的平均值)。可以发现,使用全部特征的SVM方法虽然可以达到80%以上的识别精度,但是其使用的特征个数过多,带来了巨大的计算成本,同时其精度低于使用GA的特征选择算法;使用经验特征的SVM方法在某些时候可以达到与使用全部特征的SVM方法相当的识别精度,但是该方法对人的经验要求较高,当影像场景变化时,利用已有的特征选择经验难以达到较高的识别精度;GA-SVM(C,γ)方法具有较高的识别精度和一致性,但是由于其没有同时优化特征子集和SVM参数,识别精度依然低于本文算法,且存在所选特征子集特征个数较多的问题。

将本文算法实验结果与GA-SVM(C,γ)方法进行比较可以发现,本文算法较大幅度地缩短了优化时间,减少了优化得到的特征子集的特征个数,同时达到了较高的建筑物识别精度、总精度和Kappa系数。

表2 本文算法与其他特征选择算法比较

3 结 论

现有的基于GA的面向对象目标识别特征选择算法通常只将特征子集编码到染色体中进行优化,而没有考虑同时优化SVM参数,并且在构建GA适应度函数时没有考虑到特征成本因素,因而存在目标识别精度不高、优化得到的特征子集较大等问题。本文提出了结合ReliefF、GA和SVM的高分辨率遥感影像面向对象目标识别特征选择算法,在使用ReliefF算法进行初步特征选择的基础上,把特征子集和SVM参数编码到染色体中,同时优化特征子集和SVM参数。在构建GA适应度函数时,同时考虑到识别精度、特征子集大小和特征成本3个因素。

将本文算法应用到建筑物目标识别中,并将识别结果与其他特征选择算法进行比较,实验结果表明,本文算法可以有效地缩短优化时间、减少优化得到的特征子集的特征个数,并且达到较高的建筑物目标识别精度,具有较大的实用价值。样本的质量对特征选择结果和目标识别精度具有直接的影响,如何获取更优质量的样本,为特征选择提供更科学的依据,将是后续的研究方向。

[1] 甘甜,李金平,李小强,等. 面向对象的高分辨率遥感影像建筑物震害信息提取[J]. 测绘工程,2015,24(4):11-15.

[2] 谭衢霖,高姣姣. 面向对象分类提取高分辨率多光谱影像建筑物[J].测绘工程,2010,19(4):30-33.

[3] 王贺,陈劲松,余晓敏. 面向对象分类特征优化选取方法及其应用[J].遥感学报,2013,17(4):816-829.

[4] 郑毅,武法东,刘艳芳. 一种面向对象分类的特征分析方法[J].地理与地理信息科学,2010,26(2):19-23.

[5] PENG Hanchuan,LONG Fuhui,DING C. Feature selection based on mutual information: criteria of max-dependency,max-relevance,and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.

[6] 吴波,朱勤东,高海燕,等. 面向对象影像分类中基于最大化互信息的特征选择[J]. 国土资源遥感,2009,81(3):29-34.

[7] 孙宁,陈秋晓,骆剑承,等. 面向遥感目标识别耦合GA 与SVM 的特征优选方法[J]. 遥感学报,2010,14(5): 928-943.

[8] 黄莉莉,汤进,孙登第,等. 基于多标签ReliefF的特征选择算法[J]. 计算机应用,2012,32(10):2888-2890.

[9] JIA J,YANG N,ZHANG C,et al. Object-oriented feature selection of high spatial resolution images using an improved Relief algorithm[J]. Mathematical & Computer Modelling,2013,58(3-4):619-626.

[10] 马永杰,云文霞. 遗传算法研究进展[J]. 计算机应用研究,2012,29(4):1201-1206.

[11] 臧淑英,张策,张丽娟,等. 遗传算法优化的支持向量机湿地遥感分类——以洪河国家级自然保护区为例[J]. 地理科学,2012,32(4):434-440.

[12] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报,2000,26(1):32-42.

[13] 金芬,孙春华,钟鸣. 遗传算法中适应度函数的改进[J]. 机械设计与制造,2010(3):218-219.

[14] CHANG Chih-Chung,LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. Acm Transactions on Intelligent Systems & Technology,2001,2(3):389-396.

[15] 吕志勇,张新利,高利鹏,等. 基于高分辨率遥感影像数据的FNEA分割算法研究与应用分析[J]. 测绘与空间地理信息,2012,35(10):13-16.

[16] 李智峰,朱谷昌,董泰锋. 基于灰度共生矩阵的图像纹理特征地物分类应用[J]. 地质与勘探,2011,47(3):456-461.

[17] 王兴玲,李占斌. 基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报,2005,35(5):859-862.

[责任编辑:刘文霞]

Feature selection method for object-oriented building targetsrecognition based on ReliefF, GA and SVM

XUE Zhangying, LIU Xingquan

(School of Geosciences and Info-Physics, Central South University, Changsha 410083, China)

This paper proposes a feature selection algorithm for building targets recognition from high resolution remote sensing images, which combines ReliefF algorithm, Genetic algorithm(GA) and Support Vector Machine(SVM). Firstly the algorithm uses ReliefF algorithm for preliminarily feature selection, then the parameters of SVM and feature subset are encoded to GA chromosome, finally the fitness function is constructed with recognition precision, white the feature subset and parameters of SVM are optimized simultaneously. The experiment demonstrates that the proposed algorithm can achieve higher recognition accuray with smaller feature subset and less optimizing time, thus it has great practical value in recognizing building targets.

ReliefF;genetic algorithm;support vector machine;feature selection;target recognition

10.19349/j.cnki.issn1006-7949.2017.02.012

2015-11-18

国家自然科学基金资助项目(41472302)

薛章鹰(1990-), 男, 硕士研究生.

TP75

A

1006-7949(2017)02-0052-05

引用著录:薛章鹰, 刘兴权.结合ReliefF、GA和SVM的面向对象建筑物目标识别特征选择方法[J].测绘工程,2017,26(2):52-56,61.

猜你喜欢
特征选择子集适应度
改进的自适应复制、交叉和突变遗传算法
拓扑空间中紧致子集的性质研究
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
一种基于改进适应度的多机器人协作策略
Kmeans 应用与特征选择
基于空调导风板成型工艺的Kriging模型适应度研究
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
每一次爱情都只是爱情的子集