张 颖,余代俊,杨晓霞,戴晓爱
(1.成都理工大学 地球科学学院,四川 成都 610059)
基于改进的样本预选取的高光谱影像半监督分类
张 颖1,余代俊1,杨晓霞1,戴晓爱1
(1.成都理工大学 地球科学学院,四川 成都 610059)
针对高光谱影像中无标记样本对分类精度的影响问题,运用一种改进的KFCM聚类算法先对未标记样本聚类;然后根据聚类结果进行未标记样本选取,挑选出的未标记样本位于聚类边界上可能属于支持向量;最后使用已有的标记样本和挑选的未标记样本对支持向量机(SVM)进行训练,直到其分类精度到达预期效果。实验结果表明,将聚类和半监督SVM分类相结合并进行未标记选取,比省略此过程直接使用SVM进行高光谱影像分类的精度高,且该方法稳定、可靠。
高光谱影像;未标记样本预选取;KFCM聚类算法;SVM;半监督分类
高光谱遥感因其波段多、光谱分辨率高、能够获取丰富的地表光谱信息,广泛地应用于地物的精细分类中[1-2]。在高光谱影像分类时,若采用监督分类,由于高光谱影像具有高维的特征空间,需要大量的标记样本,但获取标记样本较为困难[3];若采用非监督分类,无需使用带标记的训练样本,分类过程较简单,但其分类难以控制,结果精度较低[4]。因此将监督分类和非监督分类结合起来的半监督分类成为新的研究热点[5-7]。目前常用的高光谱影像半监督分类算法有:基于图模型[8-9]、主动学习[10]、判别学习[11]、半监督SVM[12-16]等。半监督SVM是高光谱影像分类中应用较多的一种算法[17-19],当前对其研究主要集中在利用一些约束函数将未标记样本的信息加入到优化过程中,但这种模拟都存在不同程度的对噪声过于敏感和本身算法的优化问题[20]。本文将一种改进的KFCM聚类算法和半监督SVM算法相结合进行高光谱影像分类。首先运用改进的KFCM算法对相邻样本点加权,并利用计算出的空间关系降低算法对噪声的敏感度,改善聚类结果,从而选出有用的未标记样本;然后将选择的未标记样本加入半监督SVM算法进行分类。该方法比直接在半监督SVM算法中使用未标记样本进行分类更加准确。
KFCM算法是一种通过非线性映射,将低维特征空间的数据映射到高维特征空间,再通过迭代来优化目标函数,对数据进行模糊聚类的算法[21]。
原KFCM算法[22]中引入了一种空间函数将样本点的空间关系利用起来,但其并没有考虑相邻样本点间的权重关系,为了更好地进行聚类,对原KFCM算法进行改进,将其相邻的样本点按权重关系引入,此空间函数定义为:
式中,Dk为以xk为中心的8个样本点邻域;I为邻域Dk的非中心样本点;e为在中心样本点四周的4个点;f为在中心样本点对角线上的4个点;uie为样本点四周4个样本点对第 i类聚类中心的隶属度;uif为对角线上4个样本点对第i类聚类中心的隶属度。Rik为由邻域样本点决定的xk属于第i类聚类中心的可能性,假设xk所有的邻域样本点都属于第i类,这时Rik应取最大值;否则应取最小值。
在同类区域里,该加权空间函数仅加强了原有的隶属度函数,聚类结果不会变化;但对于不同类的噪声区域,该加权空间函数能够大大减少噪声点的权重,使噪声点得以抑制,纠正影像的错误分类,提高聚类的精度。
运用改进的KFCM算法聚类后,再对聚类结果进行预选取。计算每个样本到本类中心的距离,假设聚类类别按二维阵列排列,则每个聚类周围存在8个相邻聚类,第i个聚类Cluster i进行样本筛选的过程如下:
1)计算Cluster i所有样本到本聚类中心的距离,并从大到小进行排序,记为序列A。
2)计算Cluster i的每个样本到相邻聚类中心的距离,并从小到大进行排序,记为序列B。
3)设阈值为d,选择同时存在于A和B中的前d 个序列的样本作为选择的未标记样本。这些样本距离本聚类中心最远且离另一类聚类中心最近,说明这些样本点位于聚类Cluster i的边界附近,可能属于支持向量的样本。
4)若所有相邻聚类计算完毕,则算法结束;否则,重复步骤1)~3),计算Cluster i中样本到下一个相邻聚类中心的距离,确定选择的无标记样本。
实验利用Hypex 1024成像光谱仪进行高光谱数据采集,采集数据包含108个波段。图1为原始数据真彩色影像。本文通过水泥路(Class1)、水体(Class2)、大理石(Class3)、树木(Class4)和草地(Class5)5类地物进行算法验证。
图1 真彩色影像图
在运用改进的KFCM样本预选取方法对高光谱影像进行半监督分类时,参数设置为:聚类类别数c=5,模糊加权指数m=2,ε=0.1,最大迭代次数T=100,p=3,q=6,d=2;核函数采用高斯核函数,惩罚系数为σ=0.5。为了更好地证明该方法的分类精度,本文进行了4组对比实验,分类精度见表1,分类结果见图2。
表1 分类精度表
运用改进的KFCM算法聚类,得到新的隶属度矩阵以及每个样本的聚类特征。其中,初始聚类中心从实测的地面数据中获得,根据加权的相邻样本间的空间关系,得到更加精确的聚类结果。每个样本的聚类类别根据隶属度矩阵中最大的类别进行初始化,再根据聚类结果选取有用的未标记样本,加入SVM中进行半监督分类,其分类结果见图2d。直接对原始数据进行SVM半监督分类得到的结果见图2c,总体分类精度为86.68%,Kappa系数为0.843 2,虽然比使用MNF+SVM和PCA+SVM方法精度高,但是效果并不明显。
图2 分类结果
为了验证所选取的未标记样本对算法精度的影响和本文算法对标记样本数量的敏感性,分别进行两组实验对比。第一组实验均选取60个标记样本,而未标记样本则分别为聚类后直接选取的20、40、60个未标记样本,和经过选取后的3、6、9个样本,得到的分类精度见表2。由表2可知,虽然未经选取的未标记样本数量逐渐增加,但总体分类精度比经过选取后最少的3个样本的精度还低,且随着选取样本数量的增加,其精度逐渐增加,但当选取的未标记样本增加到一定程度时,其精度也基本稳定。
表2 未选取未标记样本与选取未标记样本分类精度比较/%
第二组实验选取6个未标记样本和15、30、45、60、75、90个标记样本,得到的分类精度见图3。由图3可知,随着标记样本的增加,分类精度逐渐提高,但是当标记样本增加到一定程度,精度基本稳定。标记样本数量为60时,本文方法的总体分类精度已达到88.96%,已超过了半监督SVM的最高分类精度(86.68%)和MNF+SVM的最高分类精度(83.33%)。
由表2和图3可知,本文算法不仅可以有效进行未标记样本的选取,同时也能利用较少的标记样本达到最佳分类精度。该算法将聚类和半监督分类相结合,既避免了单独使用聚类算法进行分类造成误分率过大的问题,又解决了半监督分类中未标记样本对精度的影响问题,通过实验证明其分类精度比直接使用SVM进行高光谱影像半监督分类的精度高。
图3 不同标记样本数目下各方法的分类精度
针对KFCM算法聚类和未标记样本的选取问题,本文将一种改进的KFCM聚类算法与SVM算法相结合进行高光谱影像半监督分类。该算法引入了加权的空间函数,能更好地利用相邻未标记样本的信息,聚类效果更好。从聚类结果中选取有用的X个未标记样本,将其和L个标记样本一起加入分类器中进行分类,这样训练出的分类器具有较好的推广性能。为证明该方法分类结果的精度,对成像光谱仪采集的数据进行对比实验。实验结果表明,运用改进的KFCM算法预选取样本后再使用SVM对高光谱影像进行半监督分类能够取得较好的分类结果。
[1] 高恒振.高光谱遥感图像分类技术研究[D].长沙∶国防科技大学,2011
[2] 潘佩芬,杨武年,戴晓爱,等.不同森林植被的高光谱特征分析[J].遥感技术与应用,2013,28(6)∶1 000-1 005
[3] 李二珠.半监督支持向量机高光谱遥感影像分类[D].徐州∶中国矿业大学,2014
[4] Alajlan N, Bazi Y, Melgani F, et al. Fusion of Supervised and Unsupervised Learning for Improved Classification of Hyperspectral Images[J]. Information Sciences, 2012,217(24)∶39-55
[5] 钟清流,蔡自兴.基于支持向量机的渐近式半监督式学习算法[J].计算机工程与应用,2006,42(25)∶19-21
[6] Carlson A, Betteridge J, WANG R C, et al. Coupled Semisupervised Learning for Information Extraction[C].Proceedings of the Third ACM International Conference on Web Search and Data Mining,ACM,2010∶101-110
[7] 陈荣,曹永峰,孙洪.基于主动学习和半监督学习的多类图像分类[J].自动化学报,2011,37(8)∶954-962
[8] Campus-Valls G, Bandos Marsheva T, ZHOU D Y. Semisupervised Graph-based Hyperspectral Image Classification [J].IEEE Transaction on Geoscience and Remote Sensing, 2007,45(10)∶3 044-3 054
[9] Bandos T V, ZHOU D Y, Campus-Valls G. Semi-supervised Hyperspectral Image Classification with Graphs[C].Proceedings of IEEE International Conference on Geoscience and Remote Sensing Symposium,IEEE,2006∶3 883-3 886
[10] Rajan S, Ghosh J, Crawford M M. An Active Learning Approach to Hyperspectral Data Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2008,46(4)∶1 231-1 242
[11] LI J, Bioucas-Dias J M ,Plaza A. Semi-supervised Hyperspectral Image Classification and Segmentation with Discriminative Learning[C].SPIE Europe Remote Sensing,Berlin,2009∶74-77
[12] Tuia D, Volpi M, Copa L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3)∶606-617
[13] 赵莹.半监督支持向量机学习算法研究[D].哈尔滨∶哈尔滨工程大学,2010
[14] Cortes C,Vanpik V. Support Vector Networks[J].Machine Learning,1995(20)∶273-297
[15]丁胜锋,孙劲光,陈东莉,等.基于模糊双支持向量机的遥感图像分类研究[J].遥感技术与应用,2012,27(3)∶353-358
[16] Fung G,Mangasarian O. Semi-supervised Support Vector Machines for Unlabeled Data Classification[J].Optimization Methods & Software,2001,15(1)∶29-44
[17] 李建民,张钹,林福宗.支持向量机的训练算法[J].清华大学学报(自然科学版),2003,43(1)∶120-124
[18] 张磊,邵振峰,周熙然,等.聚类特征和SVM组合的高光谱影像半监督协同分类[J].测绘学报,2014,43(8)∶855-861
[19] Bennett K P,Demiriz A.Semi-supervised Support Vector Machines[J].Advances in Neural Information Processing Systems,2001,9(2)∶368-374
[20] 曹盼东.基于图模型的半监督SVM分类算法研究与应用[D].哈尔滨∶哈尔滨工程大学,2012
[21] ZHANG D,CHEN S.Clustering Incomplete Data Using Kernel-based Fuzzy C-means Algorithm[J].Neural Processing Letters,2003,18(3)∶155-162
[22] 吴一全,沈毅,陶飞翔.基于局部空间信息KFCM的遥感图像聚类算法[J].地球信息科学学报,2014(5)∶769-775
P237
B
1672-4623(2016)09-0065-03
10.3969/j.issn.1672-4623.2016.09.021
张颖,硕士研究生,主要从事高光谱影像分类方面的研究。
2015-06-17。
项目来源:国家自然科学基金资助项目(41201440);四川省教育厅科研资助项目(15ZA0078)。