词袋模型在高分遥感影像地物分类中的应用研究

2020-09-21 08:48王小芹张志梅邵烨王常颖张小峰
现代电子技术 2020年17期
关键词:尺度聚类分类

王小芹 张志梅 邵烨 王常颖 张小峰

摘  要: 高分辨率遥感影像空间信息丰富,同时也给地物分类带来挑战。故提出一种基于词袋模型的地物分类方法,通过实验讨论词袋模型在这一问题中的适用性。首先在多尺度影像下随机选取场景,通过场景的底层特征聚类建立多尺度视觉词典;然后用视觉单词表达少量标记样本来训练支持向量机;最后用分类器提取典型地物。结果表明,在多尺度词袋模型表达下,研究区分类总体精度达到92.18%,Kappa系数为0.880 9。对比实验结果表明,词袋模型和多尺度词袋模型可以有效表达语义特征,从而在少量标记样本下提高分类精度。

关键词: 高分遥感影像; 词袋模型; 地物分类; 视觉词典; 地物特征提取; 样本表达

中图分类号: TN911.73?34; TP75; TP391             文献标识码: A               文章編号: 1004?373X(2020)17?0056?04

Abstract: High?resolution remote sensing images that contain rich spatial information bring about great challenges to classification of the ground feature. In this paper, a terrain classification method based on the bag of visual words (BOVW) is proposed. The multi?scale visual dictionary is built by clustering of the low?level features in a scene that are randomly selected in the multi?scale image. The visual words are used to express a few marked samples for training the support vector machine. Finally, a classifier is used to extract the typical object features. The results show that, with the expression of the multi?scale BOVW, the overall accuracy of the classification in the study area reaches 92.18%, and the Kappa coefficient is 0.880 9. The comparative experiment results indicate that the BOVW and the multi?scale BOVW can effectively express the semantic features, thus the accuracy of the classification can be improved with a few marked samples.

Keywords: high?resolution remote sensing image; BOVW; ground object classification; visual dictionary; ground object feature extraction; sample expression

0  引  言

2013年以来,我国相继发射了高分系列卫星影像,其中,高分二号的发射意味着我国进入“亚米级”高分时代,高分辨率的遥感影像虽然提供了丰富的地面细节信息,却很容易产生“同物异谱,同谱异物”的现象。传统面向像元的方法已无法解决地物分类问题,基于场景的分类方法成为研究热点。如文献[1]融合场景的像素一致性信息、空间信息和外观信息,采用K?means聚类进行量化并统计直方图,对场景的特征进行表达,实现了高分辨率遥感场景分类;文献[2]提出了一种基于场景的自动识别高铁沿线建筑物隐患目标的方法。其中,基于监督学习的方法可以有效地进行影像地物分类,但是这类方法需要大量标记样本进行训练,而获取大量标记样本需要耗费巨大的人力和物力。面对海量的高分辨率遥感数据,如何利用廉价、易得的大量未标记样本和小部分标记样本实现监督分类,是一个需要解决的问题。

文献[3]提出的视觉词袋模型(Bag of Visual Words,BOVW)通过挖掘未标记样本在底层特征上的语义信息,在标记样本和未标记样本之间建立联系,可以有效地缓解需要大量标记样本进行训练的问题,具有一定的泛化能力。

本文建立了一个面向高分遥感影像的地物分类模型,探究BOVW在高分辨率遥感影像地物分类问题上的适用性。具体来说,首先引入图像尺度金字塔,用多尺度下随机选取的未标记样本的光谱和纹理特征作为底层特征,通过改进的聚类算法建立多尺度视觉词典;进而结合在小样本分类问题中占有优势的支持向量机方法进行监督学习;然后对高分影像以滑动开窗的方式进行分类。

1  特征表达

BOVW用未标记样本创建视觉词典,再对标记样本进行视觉词袋表达,从而建立起未标记样本和标记样本之间的语义联系。具体包括底层特征计算、视觉词典构建和词袋特征直方图表达。

1.1  底层特征计算

高分辨率遥感影像的光谱波段较少,具有较低类间差异和较高类内差异的特点,而其纹理信息丰富,纹理能够在影像灰度模式下反映出不同地物类别的空间分布特征,因而利用纹理特征对高分影像进行地物分类能够显著提高分类精度[4]。因此,底层特征在使用光谱特征的同时,引入了纹理特征。

灰度共生矩阵(Gray Level Co?occurrence Matrix,GLCM)已经被广泛应用于遥感影像的地物分类中[5?7]。GLCM充分利用空间信息,可对影像的纹理分布均匀性、纹理的走向等进行准确描述[8]。基于GLCM的纹理提取方法通过统计纹理信息,研究像元灰度间的分布特性来描述纹理,从而反映影像中灰度分布的规律。利用GLCM提取纹理信息时,发现能量、相关性、对比度和逆差距4种统计量所含信息量最大,最终选取这4种统计量作为最佳纹理特征组合。将选取的纹理特征向量与高分影像的光谱特征向量组合作为底层特征。

1.2  视觉词典构建

在研究区影像中采用均匀网格的方法提取局部图像块,随机选取图像块作为场景,并提取这些场景的底层特征进行聚类,将所有聚类中心作为单词构建视觉词典。高分辨率遥感影像丰富的空间信息一方面体现出不同地物的纹理信息,另一方面细节太多容易引起分类精度的下降,为此引入图像空间金字塔到BOVW中,建立3个尺度的视觉词典。

传统的BOVW是用K?means进行聚类的,其中合适的聚类中心[K]的大小需要根据实验反复调整。SOINN是一个结合增长式神经云和自组织特征映射网优点并加以改进的神经网络模型,用于聚类时可以自动发现合适的类别数目,能更好地反映数据的特性[9]。

本文利用SOINN对提取的底层特征进行增量学习,将产生的初次聚类结果作为K?means的初始聚类中心,避免了K?means进行聚类时需要根据实验反复调整合适的[K]大小。

1.3  词袋特征直方图表达

已经用未标记样本建立了3个尺度的视觉词典,只需对标记样本进行视觉词袋表达,就可以建立起未标记样本和标记样本之间的语义联系。首先在每个尺度影像上分别提取标记样本,并将其进行特征量化,分别标记成与3个尺度的视觉词典欧氏距离最小的单词;然后利用频次直方图分别统计3个尺度下每个单词出现的频次;最后将3个尺度下的频次直方图加权合并得到标记样本的特征表达,其中权值设置相等。

2  分类器

支持向量机[10](Support Vector Machine,SVM)是基于小样本情况下统计理论的一种机器学习方法,在标记样本较少的情况下,亦能获得良好的统计规律。应用SVM对遥感影像进行地物分类的优点是不用对数据进行降维,在分类精度和训练速度等方面都具有较好的性能。遥感影像地物分类是一个多分类问题,本文利用LIBSVM工具包实现SVM多分类,采用径向基函数(Radial Basis Function,RBF)作为核函数。在遥感影像地物分类中,给定[N]个类,对[N]个类中的每两个类都训练一个分类器,共训练[N(N-1)2]个二分类器。对于一个已经进行多尺度视觉词袋表达的场景,需要经过所有分类器的预测,使用投票的方式决定该场景所属类别。

3  面向高分影像的地物分类模型

图1 给出了基于词袋模型的地物分类流程,其具体的算法描述如下:

Step1:利用高斯滤波和下采样(采样因子为0.5)的方法,对原始影像不断模糊和缩减,得到3个尺度的影像[L1],[L2]和[L3]。

Step2:在影像[L1],[L2]和[L3]中,采用均勻网格的方法提取局部图像块,在影像[L1]中随机选取[M]个场景,[L2]和[L3]中随机选取[M2]个场景,[L3]中随机选取[M4]个场景。

Step3:对3个尺度下的场景分别提取底层特征,得到特征描述集[F1],[F2]和[F3]。

Step4:利用SOINN对3个尺度下的特征描述集[F1],[F2]和[F3]进行聚类,产生初始的聚类结果[C1],[C2]和[C3]。

Step5:利用误差控制[ε]和K?means聚类方法,通过初始聚类结果[C1],[C2]和[C3]产生最终的3个尺度下的视觉词典[D1],[D2]和[D3]。

Step6:分别在[L1],[L2]和[L3]影像上提取样本,将其分别标记成与视觉词典[D1],[D2]和[D3]欧氏距离最小的单词,并分别用频次直方图统计3个尺度下每个单词出现的频次,最后将3个尺度下的频次直方图加权合并得到特征表达。

Step7:训练SVM分类器。

Step8:利用滑动窗口的方式在影像上提取场景图像,其中窗口大小为[W×W],滑动步长为1。

根据Step6中方法对场景图像进行特征量化,完成场景图像的多尺度视觉词袋表达。

Step9:将滑动窗口中场景图像的视觉词袋特征依次送入SVM分类器,完成整个研究区影像的地物分类。

4  实验与分析

4.1  实验数据

实验数据来自武汉大学遥感图像标注数据库2018年7月20日发布的用于土地利用分类的高分影像数据集(GID)[11]。选取了位于内蒙古自治区呼伦贝尔市牙克石市东兴街道附近区域的影像,该数据成像时间为2016年7月19日,影像大小为7 200×6 800,空间分辨率为4 m。该影像包含建成区、农田、森林、草甸、水域和未知区域6类,对应分别选取了场景大小为30×30的训练样本15,25,20,45,15和35个。在GID中,对建成区、农田、森林、草甸、水域典型地物和未知区域6类分别用红色、绿色、青色、黄色、蓝色和黑色表示。实验数据原始影像和专家解译的影像如图2a)、图2b)所示,可以明显地发现有多处未标注正确,尤其是草甸(黄色),故在专家解译的影像基础上又进行了补充,红色方框内是主要的补充区域 ,补充后的解译影像如图2c)所示。

4.2  地物分类结果

按照面向高分影像地物分类模型的算法流程,对研究区影像进行地物分类。[L1]尺度影像随机选取800个场景,[L2]尺度影像随机提取场景400个,[L3]尺度影像随机提取场景200个,场景大小皆为30×30。通过算法流程得到的最终聚类中心[D1]=258,[D2]=105,[D3]=54,即3个尺度下的视觉词典单词个数。

在多尺度视觉词典生成后,就可以对研究区影像进行特征量化。首先利用滑动开窗的方式提取场景图像,其中窗口大小设置为5×5,步长为1,然后提取场景的底层特征,将其分别标记成与视觉词典[D1],[D2]和[D3]中欧氏距离最小的单词,并用频次直方图统计每个单词出现的频次,最后将所有尺度下的直方图进行加权连接,完成场景的多尺度视觉词袋表达。

将得到的视觉词袋特征应用于训练好的SVM分类器中完成场景的分类,最终的地物分类结果如图3a)所示。在少量训练样本的情况下,能够得到和人工解译相近的结果。

4.3  精度评价

为了研究词袋模型在高分影像地物分类问题中的有效性,同样使用SVM分类器对研究区影像进行了基于不同特征表达的对比实验,具体包括:基于底层特征;基于BOVW;基于多尺度BOVW。其中,所有方法的训练样本都一致。不同方法下的分类结果如图3b),图3c)所示,参照补充后的解译影像,在此基础上进行精度评价,采用混淆矩阵的总体分类精度和Kappa系数进行评定,结果如表1所示。

通过影像的地物分类结果可以看出:基于底层特征的SVM分类存在少量的噪声,对于大面积地物能够较好的识别,但是对于纹理特征相似的森林、草甸和农田地物,仅依赖底层特征仍然不能很好的区分;基于BOVW的SVM分类改善了森林、草甸和农田地物的分类结果;基于多尺度的BOVW模型的分类精度相较最高,说明构建多尺度词典是有效的。

5  结  语

本文针对高分辨率遥感影像地物分类问题,提出了一个地物分类模型,探究了词袋模型的应用技巧和改进方法。实验结果表明,该模型取得了较好的分类结果,可得到以下结论:

1) 视觉词袋模型可以很好地刻画复杂场景的内容,获得更好的特征表达,适合不易获得大量标记样本的遥感图像,能有效提高分类精度。

2) 将图像尺度金字塔引入视觉词袋模型中,建立不同尺度下的视觉单词,通过加权组合形成多尺度视觉词袋模型,对场景进行视觉词袋表达,分类精度比仅基于视觉词袋模型的分类方法有所提高。

3) K?means构建词典时需要根据实验效果反复调整[K]的大小。将SOINN产生的初次聚类结果作为K?means方法的初始聚类中心进行聚类可有效避免该问题。

参考文献

[1] 徐培罡,张海青,王超,等.基于多重分割关联子的高分辨率遥感场景分类[J].地理科学,2018,38(2):293?299.

[2] 慎利,方灿明,王继成,等.場景解译框架下的高铁沿线建筑物自动识别[J].遥感信息,2018,33(3):80?87.

[3] CSURKA G, DANCE C R, FAN Lixin, et al. Visual categorization with bags of keypoints [EB/OL]. [2011?02?28]. https://wenku.baidu.com/view/5baf27c2d5bbfd0a7956736e.html.

[4] 郝剑南,王瑞红.纹理特征与面向对象结合的高分影像耕地提取应用[J].安徽农业科学,2018,46(19):72?75.

[5] 潘一凡,张显峰,于泓峰,等.联合快舟一号影像纹理信息的城市土地覆盖分类[J].遥感技术与应用,2016,31(1):194?202.

[6] 谢嘉丽,李永树,李何超,等.利用灰度共生矩阵纹理特征识别空心村损毁建筑物的方法[J].测绘通报,2017(12):90?93.

[7] 朱秀芳,李石波,肖国峰.基于无人机遥感影像的覆膜农田面积及分布提取方法[J].农业工程学报,2019,35(4):106?113.

[8] 叶鹏,王永芳,夏雨蒙,等.一种融合深度基于灰度共生矩阵的感知模型[J].计算机科学,2019,46(3):92?96.

[9] 邱天宇,申富饶,赵金熙.自组织增量学习神经网络综述[J].软件学报,2016,27(9):2230?2247.

[10] CORTES C, VAPNIK V. Support?vector networks [J]. Machine learning, 1995, 20(3): 273?297.

[11] TONG Xinyi, XIA Guisong, LU Qikai, et al. Learning transferable deep models for land?use classification with high?resolution remote sensing images [EB/OL]. [2018?08?11]. https://www.researchgate.net/publication/326437096.

猜你喜欢
尺度聚类分类
分类算一算
财产的五大尺度和五重应对
分类讨论求坐标
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
宇宙的尺度
一种层次初始的聚类个数自适应的聚类方法研究
9