基于迁移AP聚类与稀疏表示的遥感图像分类

2018-03-16 06:33储岳中张学锋
计算机工程与设计 2018年2期
关键词:字典光谱聚类

储岳中,刘 恒,张学锋

(安徽工业大学 计算机科学与技术学院,安徽 马鞍山 243002)

0 引 言

稀疏表示已被证明非常适合遥感图像分类,国内外学者业已提出很多行之有效的基于稀疏表示的遥感图像分类算法。宋相法等[1]根据遥感图像像元的稀疏特征和光谱信息分别构造随机森林,通过投票机制进行图像分类,获得了较好的分类评价指标;何同弟等[2]设计自适应稀疏表示分类器并用于高光谱遥感图像分类,有效提高了高光谱影像的分类精度;A SOLTANI-FARANI等[3]根据高光谱遥感图像内部的空间关系提出一种结构化字典构建方法,并通过线性SVM实现图像分类;Ni等[4]采用光谱正切面的方法提取每类像元的特征空间,以此衡量之间的相似度,取得了较好的高光谱图像分类效果;刘璐等[5]基于联合域流形距离的快速AP聚类进行字典学习,提出一种基于空域和极化域的稀疏表示分类方法,有效保持极化SAR数据结构的同时降低了算法的时间复杂度;陈善学等[6]将马尔可夫随机场引入加权条件稀疏表示算法,在不增加算法计算开支的情况下,提取高光谱图像的空间信息,将条件稀疏模型与光谱信息散度模型结合,使算法能够有效提高高光谱图像分类精度。

针对稀疏表示在图像目标分类领域的研究,目前主要集中在字典学习和分类策略方面,相关算法对图像的几何特征、训练数据的规模和数据的时效性等过于依赖,有些算法的计算复杂度依然过高,稀疏字典的构建策略仍然很不成熟。近年来,迁移学习被广大学者关注和研究。通俗理解,迁移学习是指一种学习对另一种学习的影响。为此,本文将迁移学习的理念引入到图像分类算法设计中,将前一次已标记数据中的代表数据信息迁移到后续学习中,结合稀疏表示的方法,提出一种基于迁移AP聚类的遥感图像分类算法,实验结果表明,与现有相关算法相比,本文算法在分类成功率上具有一定的优越性。

1 算法原理

1.1 稀疏表示分类器

Wright等提出稀疏表示分类(sparse representation-based classification,SRC)方法[7],该方法首先利用训练数据建立一个过完备字典D,假设训练样本集X={x1,x2,…,xN}∈RM,则字典学习形式如下

(1)

(1)求测试样本y在字典D下的稀疏系数

(2)

(2)计算残差(重构误差)

(3)

(3)分类策略

(4)

则可判定测试样本y属于重构误差最小的第i*类。

1.2 近邻传播聚类

近邻传播(affinitypropagation,AP)聚类是近年来提出的一种聚类算法[8]。AP聚类相比其它经典聚类算法,优点如下:①无需初始化样本集的类别数;②聚类中心点是原始数据集中实际存在的数据点,而非构建点;③对初始参数不敏感,多次运行算法得到的结果完全一样;④聚类结果误差平方和低于大多聚类算法,算法鲁棒性强。因此,本文通过AP聚类方法来学习图像数据分类器。AP聚类是根据样本集数据点间的相似度矩阵(S={s(i,j)})进行聚类,为找出合适的聚类中心,AP算法在迭代过程中,传递并更新吸引度和归属度两类消息,这两类消息传递情况如图1所示,AP算法的迭代过程可参考文献[9]。

图1 数据点之间传递消息

1.3 迁移学习

数据标定是广大研究人员在机器学习、模式识别等领域要面临的问题,我们经常假设训练数据与测试数据服从同一分布,实际上很多情况下,这种假设并不满足。更多的情况是,由于数据获取有时间差,好不容易标定的数据要被丢弃,而另外又有一批新的数据要重新标定,但前面已标定数据仍然有一定的参考价值。在此背景下,迁移学习受到国内外学者广泛研究。迁移学习的基本思想是运用已有的知识来训练新的模型,这种方法一方面放宽了训练数据与测试数据服从同一分布的要求,另一方面也降低了分类模型对训练数据规模的要求。因此,可以通过迁移学习来解决一些目标领域中标签数据少甚至没有的学习问题[10]。

本文拟采用迁移学习方法,为AP聚类重新构建更具代表性的数据集。在数据迁移过程中,以前一次聚类学习所获得的聚类中心为据,从训练样本集中按近邻原则选择一定比例(迁移比例)的数据构建新的样本集,这些被选中的样本由于聚类中心的作用,要比原始数据代表性强,一定程度上减少了噪声数据的影响,在此基础上继续聚类,直到满足样本重构误差条件。

1.4 基于迁移AP聚类的图像稀疏分类算法(TAP-SRC)

面对图像分类任务,传统AP聚类算法的中心代表点的精准度易受噪声数据的影响。为此,本文利用迁移学习的思想,首先利用AP算法获取训练样本的初始划分,然后从源域为每个类中心迁移一批样本,对新形成的样本集再次聚类,在此基础上为每个类利用K-SVD算法学习一个超完备字典,随后再根据重构误差最小化原则更新样本类别标签。显然对初始样本集的第一次AP聚类,中心代表点的吸引度和归属度能量一定体现出噪声数据的作用,在随后的迁移过程中,只是选择了一部分离中心点近的样本重新组建更有代表性的样本集,对新组建样本重新聚类对应的中心代表点,由于剔除了噪声数据的影响,要比初始中心代表点更为精准。具体算法流程见表1。

表1 算法流程

2 实验结果

图2为华盛顿地区SAR图像中分割出来的12座桥梁目标。要识别12座桥梁目标,需要补充样本,为此,对原始SAR图像每隔6°旋转一次,采用双立方插值,以此模拟从不同角度成像得到的SAR图像。对每次旋转得到的SAR图像进行手工分割,共获取720幅桥梁图像,子图像大小为50×50,样本集中包括每座桥图像各60幅,再增加伪目标图像60幅,样本集合计780幅图像。在目标识别前,首先利用Radon变换对其进行特征提取,然后再对所提特征值进行奇异值分解,并从大到小取前25个奇异值作为各图像样本的特征向量,聚类前将特征向量归一化到[0,1]区间。这些预处理工作在验证本文算法前已经完成。

图2 12座桥梁目标图像

对利用特征向量所表示的SAR桥梁图像数据集,根据训练数据占比ξ的不同取值随机选择一些样本作为训练集,基于前文所提算法构建超完备字典,此时字典中就已包含了类别信息,再基于重构误差最小化原则对测试样本进行分类,最后利用测试数据的总体分类精度(OCA)和Kappa系数来评价分类精度。为了降低实验数据选择的偶然性,我们使用10次实验的平均总体分类精度和Kappa系数值。表2给出了本文算法在取不同参数时的分类结果。图3给出了迁移样本比例对总体分类精度的影响趋势。图3表明,一方面训练数据占比的提高会提高分类精度,但随着迁移样本比例的提高,总体分类精度反而下降,这主要是因为过高的迁移比例,会因噪声数据的引入而影响分类精度,从而说明按比例迁移部分代表数据构建超完备字典,是本文算法的关键所在。

表2 SAR桥梁图像分类结果

图3 迁移比例与总体分类精度的关系

为了比较本文算法同已有文献经典算法的性能差别,这里选择80%数据占比来构建训练数据集,以测试数据最高总体分类精度为指标,在同等实验环境下,基于稀疏表示的经典算法BoW-RF[11]、SC-RF[1]、ASP[2]、CDL-SRC[5]、SOMP[12]和本文算法(TAP-SRC)的最高分类精度和算法用时见表3。从表3数据可看出,针对SAR桥梁图像,本文算法取得最高总体分类精度。算法用时方面本文算法并不是最优的,但相对部分算法有些优势,在算法用时没有大幅增加的情况下,总体分类精度获得最高效果,说明这种改进还是值得的。

表3 不同算法最高分类精度和算法用时

3 结束语

本文在研究迁移学习和稀疏学习理论的基础上,提出了一种基于迁移AP聚类和稀疏学习相结合的遥感图像分类算法。算法对迁移AP聚类结果利用K-SVD算法学习超完备字典,然后按重构误差最小化原则更新类别标签,当总体误差性能指标不达标或学习次数未达阈值时,再重新聚类和学习字典,最后利用最终的超完备字典按重构误差最小化原则对测试数据集进行分类。实验结果表明,合适的迁移比例可以确保分类器获得更好的总体分类精度,与基于稀疏学习的经典算法比较结果,也体现出本文算法较好的分类性能。但本文算法中的迁移比例是通过手工设置的,针对不同图像数据集,如何合理设置或自动寻找迁移比例,将是下一步研究的主要工作。

[1]SONG Xiangfa,JIAO Licheng.Classification of hyperspectral remote sensing image based on sparse representation and spectral information[J].Journal of Electronics & Information Technology,2012,34(2):268-272(in Chinese).[宋相法,焦李成.基于稀疏表示及光谱信息的高光谱遥感图像分类[J].电子与信息学报,2012,34(2):268-272.]

[2]HE Tongdi,LI Jianwei.Hyperspectral remote sensing image classification based on adaptive sparse representation[J].Systems Engineering and Electronics,2013,35(9):1994-1998(in Chinese).[何同弟,李见为.基于自适应稀疏表示的高光谱遥感图像分类[J].系统工程与电子技术,2013,35(9):1994-1998.]

[3]SOLTANI-FARANI A,RABIEEH R,HOSSEINI SA.Spatial-aware dictionary learning for Hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sen-sing,2015,53(1):527-541.

[4]NiD,Ma H.Classification of Hyperspectral image based on sparse representation in tangent space[J].IEEE Transactions on Geoscience and Remote Sensing,2015,12(4):786-790.

[5]LIU Lu,LIU Shuai,JIAO Licheng,et al.Combined dictio-nary learning based sparse representation for PolSAR image classification[J].Journal Huazhong University of Science & Technology(Natural Science Edition),2016,44(2):81-85(in Chinese).[刘璐,刘帅,焦李成,等.采用联合域字典稀疏表示的极化SAR图像分类[J].华中科技大学学报(自然科学版),2016,44(2):81-85.]

[6]CHEN Shanxue,QU Longyao,HU Can.Spatial correlation constrained weighted conditional sparse representation for hyperspectral image classification[J].Systems Engineering and Electronics,2016,38(2):442-449(in Chinese).[陈善学,屈龙瑶,胡灿.基于空间约束加权条件稀疏表示高光谱图像分类[J].系统工程与电子技术,2016,38(2):442-449.]

[7]ZHANG Kang,GU Xingsheng.Affinity propagation based improved group search optimizer clustering algorithm[J].Journal of System Simulation,2015,27(9):266-274(in Chinese).[张康,顾幸生.基于近邻传播的改进组搜索优化聚类算法[J].系统仿真学报,2015,27(9):266-274.]

[8]Bai Tianxiang,Li Youfu,Zhou Xiaolong.Learning local appearance with sparse representation for robust and fast visual tracking[J].IEEE Transactions on Cyberneics,2014,45(4):663-675.

[9]CHU Yuezhong,XU Bo.RBF neural network classifier based on manifold analysis and AP algorithm[J].Journal Huazhong University of Science & Technology(Natural Science Edition),2012,40(8):93-97(in Chinese).[储岳中,徐波.基于流形分析与AP算法RBF神经网络分类器[J].华中科技大学学报(自然科学版),2012,40(8):93-97.]

[10]ZHUANG Fuzhen,LUO Ping,HE Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39(in Chinese).[庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.]

[11]VanGemert JC,Veenman CJ,Smeulders WM,et al.Visual word ambiguity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1271-1283.

[12]Yi C,Nasrabadi NM,Tran TD.Hyperspectral image classification using dictionary based sparse representation[J].IEEE Transactions on Geoscience and Remote Sensing,2011,49(10):3973-3985.

猜你喜欢
字典光谱聚类
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
基于K-means聚类的车-地无线通信场强研究
字典的由来
大头熊的字典
基于高斯混合聚类的阵列干涉SAR三维成像
正版字典
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
星载近红外高光谱CO2遥感进展