基于模糊聚类SVM的混合像元分类方法

2014-03-06 05:40毛云舸赵成丽
吉林大学学报(理学版) 2014年4期
关键词:训练样本聚类精度

刘 颖,毛云舸,黄 娜,赵成丽,李 慧

(吉林财经大学 管理科学与信息工程学院,长春 130117)

遥感技术可有效反映地球表面地物的综合信息,但由于地物种类繁多且相关地物间存在一定的重叠性和模糊性,从而导致遥感影像混合像元难以达到像元级遥感分类和面积测量精度的实用要求[1].因此,人们提出了神经网络模型[2-3]、随机混合模型[4]、非线性逐步回归模型[5]和优化的搜索模型[6]等方法提高像元的分类精度.目前,支持向量机(support vector machines,SVM)分类方法是机器学习与模式识别领域的研究热点[7-8].SVM既能克服神经网络方法无法避免的局部极值不足,同时也解决了统计方法要求特征向量服从正态分布的问题,适合解决复杂的小样本、高/多维数据分类[9-11].但该方法受准确训练样本的制约,如果样本中存在混合像元,则分类器的精度会受到影响.

为了提高SVM的分类精度,目前主要采用K-means和FCMclust模糊聚类算法对样本进行筛选.传统K-means聚类算法具有实现简单、收敛速度快等优点[12],但K-means聚类算法是一种非此即彼的硬分类方法,它严格地把待识别对象划分到各类别中,因此很难解决混合像元划分问题.相对于K-means的硬分割方法,FCMclust算法保留了初始图像的更多信息,但较少考虑图像上下文空间信息,对人造图像和其他噪声非常敏感.此外,该方法采用平方误差和准则,更适合发现类似球形和球形分布的类别,而多光谱遥感图像的散点图多趋于椭球体分布[13].因此,研究者们提出了修改FCMclust算法的准则函数,实现了对不同形状分布样本的聚类[14-15],如更适合椭球形分布样本聚类的Gustafson-Kessel(GKclust)算法.

本文利用GKclust模糊聚类的SVM对遥感影像进行像元分类(简称GSVM),利用模糊隶属度函数将离聚类中心较近的点作为训练样本,进一步提高SVM在混合像元非线性分解中的分类精度,实验结果表明,与标准SVM混合像元分类结果相比,其分类性能更优.

1 GSVM算法分析

1.1 支持向量机理论

支持向量机的核心思想是以结构风险最小化原理为原则,通过非线性映射把待分类样本投影到高维特征空间,并在高维特征空间中构造VC维(vapnik-chervonenkis dimension),以尽可能低的最优分类超平面作为分类面,使分类风险上界最小化,从而使分类算法性能更优[7],其原理如图1所示.

图1 SVM理论描述Fig.1 Theory description of SVM

假设给定训练样本集{(xi,yi),i=1,2,…,n}由两类组成,其中:xi∈Rn为N维向量;yi∈{+1,-1}.考虑

其中:c是惩罚系数,用于控制对错误判别样本的惩罚程度,其取值与错误分类样本惩罚程度成正比;松弛变量ξi>0(i=1,2,…,n),解决样本集线性不可分;Lagrange乘子满足c≥ai≥0(i=1,2,…,n),ai非零所对应的数据样本为支持向量.SVM首先解决式(1)的优化问题,进而获得理想的分类超平面决策函数f(x)=(w·x)+b,其中w和b分别为权向量和偏移量.

在非线性情况下,分类超平面为ω·φ(x)+b=0,求最优分类超平面,即

1.2 确定样本点模糊隶属度函数

GKclust算法可有效地搜索线型、超椭球或平面的数据类,是距离自适应动态聚类算法(adaptive distance dynamic clustering algorithm)的模糊推广[16].在GKclust算法中,n维数据空间中点xk到聚类中心vi的距离是一个平方内积距离范数

其中Mi=det(Fi)1/nF-1i,Fi是第i个聚类中心的协方差矩阵,为正定对称矩阵.将数据集{x1,x2…,xN}划分为c个模糊类是通过最小化目标函数

uik即为模糊隶属度函数,且满足

完成的,其中U=(uik)是数据集的模糊划分矩阵.Lagrange乘子λk可将目标函数转化为新的目标函数

SVM分类模型的构建过程中,充足且准确的训练样本是影响模型分类性能的主要因素.训练样本二次筛选过程中,采用GKclust模糊聚类算法对训练样本聚类能产生相应的模糊隶属度函数,利用该函数的取值将距离样本最近的有效训练样本作为标注对象,以控制错误信息的输入.

1.3 聚类有效性分析

有效性分析是指评价聚类结果优劣的过程.通常类间距离最大化而类内距离极小化的聚类被认为是最优聚类.本文选取划分系数PC[17]、分类熵CE[17]和指标XB[18]3个参数判别不同算法的聚类性能.设c表示聚类个数;N表示数据个数;vi表示第i个聚类的中心点;ci表示第i个聚类;uij表示点xi属于cj的隶属度.

划分系数PC用于判别分类簇间的分离程度,相同分类簇数目情况下,PC取值越接近1,分类效果越好,但该指标随c的增加单调下降.其定义如下:

2 实验结果与分析

为了评价算法的有效性,本文用实例进行验证.先对研究区遥感影像进行数字化处理,构造遥感影像数字集合,再分别对数字集合和影像集合进行分类实验.

实验1 将GKclust聚类算法与其他相关算法(FCMclust算法和K-means算法)在聚类有效指数、聚类精度方面进行比较.

实验2 将基于GKclust模糊聚类SVM分类模型应用于研究区TM遥感影像的分类实验,并与传统SVM分类算法进行对比.

2.1 影像数字化

本文研究区域地理位置位于 N41°06′~44°05′,E127°39′~131°44′范围内,覆盖中国吉林、朝鲜咸镜北道及俄罗斯滨海边疆区.选取行列号115-30多光谱Landsat-5TM遥感影像(2009年9月30日获取)作为实验对象,该影像空间分辨率30m,UTM投影.研究区域属温带大陆性季风气候,夏季以东南风为主,冬季以西北风为主,植被覆盖面积大,类型丰富,森林植被以落叶针叶林、常绿针叶林和落叶阔叶林为主.

以植被的空间分布规律和光谱特征为分类基础,选取8个属性特征,包括植被指数(NDVI)、K-T变换的第一主分量、TM图像的6个波段(1~5,7)信息,其中热红外波段TM6由于包含植被分类信息较少而被排除.数字集采用随机像素选择原则,以确保每个类别数据的代表性和变化性.将待分影像数字集分成两个子集,分别用于训练和测试.分类类别及数量列于表1.

表1 类别及样本数量Table 1 Numbers of classes and samples

2.2 模糊聚类算法的比较

将K-means,FCMclust,GKclust 3种算法的聚类精度和有效性指数进行对比.图2(A)~(D)分别表示901个训练样本点的分布情况及3种模糊聚类算法的聚类结果.利用等高线图描述二维空间数据分布以达到更好的可视化效果,其中“o”表示错分样本点,类簇聚类中心用“*”标识,3个叠加的椭圆形集群分别表示3个地物类别.由图2可见,GKclust算法相比于FCMclust算法椭球形较长,错分类别的点集少于FCMclust和K-means方法.

图2 3种方法的聚类结果Fig.2 Results of three clustering methods

为了更好的比较聚类效果,表2列出了不同聚类算法产生的聚类精度(accuracy,ACC)及有效指数.由表2可见,对比3个聚类指数,GKclust算法产生的结果最好,对于硬聚类算法K-means,PC和CE值是无效的.由聚类精度可见,GKclust算法产生的聚类精度比K-means算法高5.43%,比FCMclust算法高2.54%.因此,本文选GKclust模糊聚类算法对训练样本进行优选以删除部分混合像元.

表2 聚类有效性指数Table 2 Numerical values of validity measures

2.3 GSVM算法与SVM算法的比较分析

通过对比实验可知,GKclust算法聚类性能较优,因此,本文实验利用GKclust对901个训练样本进行聚类,二次筛选出训练样本集,然后对949个测试样本进行测试,以SVM算法的径向基核函数为实验核函数,惩罚参数c和Gauss函数参数g通过Libsvm软件训练样本数据取值,确定为1.8和0.06.并将分类结果与传统SVM方法在Kappa系数、分类精度及混淆矩阵情况进行比较.GSVM算法分类精度与传统SVM 算法相比,由87.46%提高到90.94%,Kappa系数由0.808 8提高到0.861 9.由混淆矩阵也可见分类性能有所提高.最后,针对1 850个样本,利用GSVM算法和SVM算法对遥感图像进行分类,分类结果如图3所示.由图3可见,GSVM算法能有效提高影像的分类性能,较好地解决了针叶林和阔叶林混合像素的分类.

图3 GSVM和SVM对TM影像的分类结果Fig.3 Classification results by GSVM and SVM

综上所述,混合像元是遥感影像中普遍存在的现象,因此本文提出了一种基于模糊聚类SVM的混合像元分类方法,利用GKclust模糊聚类算法对训练样本产生的模糊隶属度函数对训练样本预先筛选,避免混合像元存在导致的分类精度低问题.该方法不仅具有非线性模型分解精度高的特点,还能有效提高标准支持向量机的分类性能,具有较强的适应性.

[1]Andrefouet S,Roux L,Chancerelle Y,et al.A Fuzzy-Possibilistic Scheme of Study for Objects with Indeterminate Boundaries:Application to French Polynesian Reefscapes[J].IEEE Transaction on Geoscience and Remote Sensing,2000,38(1):257-270.

[2]张彦,邵美珍.基于径向基函数神经网络的混合像元分解 [J].遥感学报,2002,6(4):285-289.(ZHANG Yan,SHAO Meizhen.Mixed Image Cell Decomposition Based on Radial-Basis Function Neural Networks[J].Journal of Remote Sensing,2002,6(4):285-289.)

[3]LIU Weiguo,Seto K C,Wu E Y,et al.ART-MMAP:A Neural Network Approach to Subpixel Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(9):1976-1983.

[4]Chang C I,Chiang S S,Smith J A.Linear Spectral Random Mixture Analysis for Hyperspectral Imagery[J].IEEE Transactions on Geosciences and Remote Sensing,2002,40(2):375-392.

[5]Huang C,Townshend J R G.A Stepwise Regression Tree for Nonlinear Approximation:Applications to Estimating Subpixel Land Cover[J].International Journal of Remote Sensing,2003,24(1):75-90.

[6]唐世浩,朱启疆,闫广建,等.遗传算法及其在遥感线性、非线性模型反演中的应用效果分析 [J].北京师范大学学报:自然科学版,2002,38(2):266-272.(TANG Shihao,ZHU Qijiang,YAN Guangjian,et al.Effects of GA on the Inversion of Linear and Nonliner Remote Sensing Models[J].Journal of Beijing Normal University:Natural Science,2002,38(2):266-272.)

[7]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.

[8]Foody G M,Mathur A.A Relative Evaluation of Multiclass Image Classification by Support Vector Machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(6):1335-1343.

[9]ZHANG Rui,MA Jianwen.Feature Selection for Hyperspectral Data Based on Recursive Support Vector Machines[J].International Journal of Remote Sensing,2009,30(14):3669-3677.

[10]WANG Liguo,JIA Xiuping.Integration of Soft and Hard Classifications Using Extended Support Vector Machines[J].IEEE Geoscience and Remote Sensing Letters,2009,6(3):543-547.

[11]刘颖,张柏,王爱莲,等.一种基于半监督集成SVM的土地覆盖分类模型 [J].计算机科学,2013,40(7):206-210.(LIU Ying,ZHANG Bai,WANG Ailian,et al.Ensemble Model with Semisupervised SVM for Remote Sensing Land Cover Classification[J].Computer Science,2013,40(7):206-210.)

[12]ZHONG Yanfei,ZHANG Liangpei,HUANG Bo,et al.An Unsupervised Artificial Immune Classifier for Multihyperspectral Remote Sensing Imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2006,44(2):420-431.

[13]Sweet J N.The Spectral Similarity Scale and Its Application to the Classification of Hyperspectral Remote Sensing Data[C]//IEEE Workshop on Advances in Techniques for Analysis of Remotely Sensed Data.Piscataway:IEEE Press,2003:92-99.

[14]黄金杰,李士勇,蔡云泽.一种建立粗糙数据模型的监督模糊聚类方法 [J].软件学报,2005,16(5):744-753.(HUANG Jinjie,LI Shiyong,CAI Yunze.An Approach to Building Rough Data Model through Supervised Fuzzy Clustering[J].Journal of Software,2005,16(5):744-753.)

[15]LIU Ying,ZHANG Bai,WANG Limin,et al.A Self-trained Semisupervised SVM Approach to the Remote Sensing Land Cover Classification[J].Computer and Geosciences,2013,59:98-107.

[16]Höpper F,Klawonn F,Kruse R,et al.Fuzzy Cluster Analysis[M].Chichester:John Wiley &Sons Ltd,1999.

[17]Bezdek J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum,1981.

[18]Xie X L,Beni G.A Validity Measure for Fuzzy Clustering[J].IEEE Transactions Pattern Analysis and Machine Intelligence,1991,13(8):841-847.

猜你喜欢
训练样本聚类精度
人工智能
基于DSPIC33F微处理器的采集精度的提高
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
GPS/GLONASS/BDS组合PPP精度分析
一种层次初始的聚类个数自适应的聚类方法研究
改进的Goldschmidt双精度浮点除法器