基于空间特征重标定网络的遥感图像场景分类

2020-01-16 08:24刘燕芝陈立福崔先亮袁志辉邢学敏
计算机工程 2020年1期
关键词:正确率标定尺度

刘燕芝,陈立福,崔先亮,袁志辉,邢学敏

(长沙理工大学 a.电气与信息工程学院; b.交通运输工程学院,长沙 410114)

0 概述

卫星与飞机对地观测技术的飞速发展,使得遥感数据的获取变得越来越便捷。由于遥感影像具有丰富的空间结构特征,并且这些特征可以体现图像的场景语义信息,因此如何充分利用包含丰富信息的数据成为遥感图像场景分类问题中的研究热点和难点。多年来,国内外学者已提出多种场景分类方法,根据特征提取的层次大致可以分为两类,一类是提取图像低层次特征的Gist方法[1],另一类是基于中层语义特征建模的视觉词袋(Bag-of-Visual-Word,BoVW)模型[2]。上述方法的中、低层特征需要人工选取且不能很好地利用遥感图像的场景信息,例如支持向量机(Support Vector Machine,SVM)[3]缺乏对图像中层语义的表述,难以跨越低层到高层语义的鸿沟[4],而改进的同心圆多尺度结构视觉词袋(CCM-BOVW)[5]模型不适用于复杂场景,因而其特征表达能力和分类精度较差,不能很好地实现场景分类。

近年来,深度学习[6-7]方法发展迅猛,尤其是卷积神经网络(Convolutional Neural Network,CNN)[8],其凭借强大的学习能力被成功应用于各个领域,有研究者将其应用于遥感影像场景分类,同样取得了很好的分类效果。文献[9]提出一种学科交叉的思想,将神经计算和认知计算相结合,但其复杂度太高,文献[4]提出多尺度深度卷积神经网络(Multi-Scale Deep Convolutional Neural Network,MS-DCNN)场景分类法,该方法需要大量数据集,否则无法充分训练网络,文献[10]通过联合显著性采样和卷积神经网络进行场景分类,但其无法区分具有细微差异的类别。

本文提出一种基于空间特征重标定网络的遥感图像场景分类方法。通过多尺度全向高斯导数滤波器提取图像频谱上不同方向的空间结构特征,从多个观测尺度上体现图像的场景信息,使用可分离卷积[11]增加网络的宽度,以保证网络的深度和参数量,引入附加动量法的特征重标定网络,对图像的多尺度特征进行权重筛选,激励能充分体现样本信息的有效特征并抑制影响分类效果的冗余特征,从而提升网络的分类精度与泛化能力。

1 多尺度空间结构统计特征提取

遥感图像所呈现出的视觉特性是由视觉场景中所有同质局部碎片子块的随机分布特性所决定的[12],而遥感图像的全局视觉空间结构在统计上服从Weibull分布[13],因此,通过建立视觉图像全局空间结构的Weibull模型可以有效表征图像的视觉特性。视觉图像在任意像素点的局部空间结构可以利用图像函数I(x,y)在该点的泰勒展开式[14]获得,I(x,y)的近似泰勒展开式如下:

(1)

式(1)表明,视觉图像的观测值是在一定空间观测尺度上通过累积图像的空间结构信息而获得的,证明了图像中最重要的视觉特性由图像的空间结构决定,而微分项Ixmyn代表图像的空间结构特征,其可以通过构建高斯导数滤波器[15]进行计算,如式(2)所示。

Ixmyn(x,y)=I(x,y)Gk,σ(x,y,σ)

(2)

(3)

(4)

式(4)表明,最优高斯导数滤波基的数目M与Gk,σ(γ,ψ)的傅里叶级数中非零谐波的个数相等,即M等于an(γ)中不等于0的个数。因此,通过求解极坐标系下Gk,σ的傅里叶变换可以得到ki(θ),如式(5)所示。

(5)

图1 特定尺度参数下的高斯导数滤波结果

Fig.1 Gaussian derivative filtering results under scale-specific parameters

2 卷积神经网络分类模型

2.1 卷积神经网络

CNN属于人工神经网络中基于监督学习的层级网络,其基本结构如图2所示。CNN通过权值参数的共享来减少权重数量[16],并将遥感图像的局部像素范围作为网络的底层输入,每层通过一个参数可变的滤波器(卷积核)获取观测数据最显著的特征,前一层学习到的特征信息通过层级结构传输到级数更高的层。本文CNN主要包括卷积层、激活层和池化层。

图2 卷积神经网络结构

1)卷积层

卷积层是CNN的核心,该层的功能是对前一层的输入进行特征提取。假设输入图像为二维矩阵X,大小为m×n,卷积核的数量为K且大小为k×k,则进行卷积运算之后得到的输出矩阵Y,其大小为((m-k)/s+1)×((n-k)/s+1),s表示卷积核的步长,Y的计算公式如下:

(6)

其中,xi表示前一层的输入,wij为权重,bi表示偏置,卷积核的数量K为经过卷积层处理之后产生的特征图数量。

2)激活层

由于线性模型的表达能力不够,因此需要使用激活函数以引入非线性因素,激活之后的特征图为F,计算公式如下:

(7)

其中,τ为激活函数。常用的激活函数有Sigmoid、Tanh、ReLU等,由于ReLU能使部分神经元的输出为0,可增强网络的稀疏表达能力,防止网络出现过拟合,同时可解决因网络层数增加而造成的梯度消散问题,加快随机梯度下降的收敛速度,因此本文使用ReLU作为激活函数。

3)池化层

当输入层的图像尺寸较大时,在经过卷积层运算之后产生的特征图尺寸基本与输入图像一致。为了解决数据冗余的问题,本文使用池化层对特征图进行下采样,以降低数据维度,提高网络的运算速度。

2.2 可分离卷积

CNN已广泛应用于遥感图像解译领域,增加网络的深度可以提升CNN对数据的表征能力。然而,网络深度的增加意味着参数量增大,扩大后的网络易出现过拟合现象。针对该问题,本文在参数较多的高层卷积中采用可分离卷积模块(Inception_v2)[17]替代高层卷积层,在保证网络深度的同时,减少网络参数量,可分离卷积模块的结构如图3所示。

图3 Inception_v2卷积模块结构

Inception_v1网络将1×1、3×3、5×5的卷积核与2×2的池化层堆叠在一起,一方面可增加网络的宽度,另一方面改善了网络对不同尺度特征图的适应性。5×5卷积核的计算量太大,造成特征图较厚,为了避免这一现象,在3×3、5×5的卷积核之前以及2×2的池化层之后,分别加上1×1的卷积核,从而降低特征图厚度。此外,Inception_v2利用2个3×3的卷积核替代Inception_v1模块中的5×5卷积核,可以减少参数量,提高计算效率。针对大小为256像素×256像素的实验数据样本,小尺度的卷积核设计非常必要。

2.3 引入附加动量法的特征重标定网络

CNN的识别机制类似于人脑,人脑在完成识别任务的过程中,大脑皮层对不同目标的兴奋程度存在差异[18]。受此启发,计算机视觉的注意力机制在学习特征的同时,也要考虑特征对于整个识别任务的影响。注意力机制的思想在文本解译和语音识别方面已有广泛应用,在图像识别上的应用也逐渐增多,例如,文献[19]基于注意力机制建立Squeeze and Excitation Block(SE Block)。本文将基本CNN结构与可分离卷积进行嵌套,并引入附加动量法的SE Block(NSE Block),构建特征重标定网络,其基本结构如图4所示。

图4 特征重标定网络结构

由图4可知,在NSE Block的左分支中输入X,经过Inception_v2卷积层后产生大小为H×W、通道数为C的特征图。利用全局均值池化(Global Average Pooling,GAP)对C个大小为1×1的特征图进行池化,计算过程如式(8)所示。

(8)

通过2层全连接层(Fully Connected,FC)形成一个瓶颈结构,从而对各个通道之间的相关性进行建模。第2层FC输出一个维度为C的权重向量,利用Sigmoid对权重向量进行归一化处理,如式(9)所示。

(9)

其中,σ表示两层FC组成的瓶颈结构,sig表示将向量归一化至0~1。

由于左分支只考虑当前特征图通道之间的关系,而每一层特征图之间存在空间联系,因此本文引入附加动量的概念,将右分支3×3卷积核处理后的特征通道之间的权重关系添加到当前层的特征通道权重中,得到新的权重向量,如式(10)所示。

(10)

(11)

经过SE Block的权重筛选,高级特征图通过低级特征图的加权实现特征重标定功能。利用多尺度全向高斯导数滤波提取的空间结构统计特征和特征重标定网络可以自动对不同尺度的特征进行筛选,而加权方式能激励充分体现样本信息的有效特征,并抑制影响分类效果的冗余特征,实现多尺度特征重标定。

2.4 算法流程

本文空间统计特征重标定网络的基本流程如图5所示,大致可以分为以下4个步骤:

1)空间结构统计特征提取。通过多尺度全向高斯导数滤波提取原图像12个方向的纹理特征。

2)特征重标定网络构建。将NSE Block与基本卷积神经网络以及Inception_v2卷积相结合,形成特征重标定网络。

3)多尺度特征筛选。将多尺度特征与特征重标定网络进行数据连接,完成特征重标定。

4)网络训练分类。设置网络初始参数,包括学习率、batch_size和权重,然后进行网络训练并得到分类结果。

图5 本文算法流程

3 实验结果与分析

为了验证算法的有效性,本文分别采用美国加州的高分辨率卫星遥感图像数据集UCM_LandUse和陕西渭南地区的机载高分辨率SAR图像进行场景分类实验。

3.1 UCM_LandUse数据集上的分类结果对比

针对UCM_LandUse数据集,构建一个包含5个Conv2D卷积层、3个Inception_v2卷积层、5个池化层、2个NSE Block、3个FC层和1个Softmax层的卷积神经网络。将经过多尺度特征提取之后的数据直接作为网络的输入,其输出结果为归一化向量,维数与分类的类别数一致,经过Softmax层之后输出最终的分类结果,具体的网络配置如表1所示。

表1 分类网络结构的配置

UCM_LandUse数据集是美国加州土地的高分辨率卫星遥感图像数据集,其中包括飞机、河流、森林、住宅区等21个类别,图片尺寸为256像素×256像素,每类图片为100张。在本文实验中,每类随机选取80张图片作为训练样本,20张作为测试样本,21类目标的分类结果如图6所示。

图6 21类卫星遥感图像场景分类混淆矩阵

Fig.6 Confusion matrix of scene classification of 21 kinds of satellite remote sensing images

由图6的分类混淆矩阵可以看出,21类目标的分类正确率均保持在90%以上,其中5类目标的分类正确率达到100%。为进一步验证本文方法的有效性,在UCM_LandUse数据集上对多种方法进行比较,结果如表2所示。其中,Conv2D代表普通的卷积神经网络结构,MOGDF为多尺度全向高斯导数滤波器,In_v2(Inception_v2)为可分离卷积,NSE Block为引入附加动量法的SE Block,运算时间是指计算1个epoch的时间。

表2 5种方法的分类正确率与运算时间对比

Table 2 Comparison of classification accuracy rates and operation time of 5 methods

分类方法分类正确率/%运算时间/sConv2D87.4041MOGDF+Conv2D89.5250In_v2+SE Block+Conv2D90.9920In_v2+NSE Block+Conv2D92.1421In_v2+NSE Block+MOGDF+Conv2D94.7625

由表2可知,在分类正确率方面,直接使用原图和普通卷积神经网络(Conv2D)进行训练,分类正确率为87.40%。利用多尺度全向高斯导数滤波器对原图进行空间统计特征提取之后,其分类正确率在Conv2D的基础上提高2.12%,Conv2D与SE Block结合之后的分类正确率为90.99%,提高3.54%,将SE Block替换为NSE Block之后,分类正确率达到92.14%,说明附加动量系数之后的SE Block能充分利用当前层与后层之间的空间关系,使得到的权重系数更准确。将MOGDF与NSE Block结合后的分类正确率最高,达到94.76%。

在运算时间方面,MOGDF+Conv2D的输入数据由256×256×3的3通道矩阵变为256×256×12的12通道矩阵,因此,每个epoch的运算时间增加9 s,在引入Inception_v2后,每个epoch的运算时间缩短了近一半。

为了研究NSE Block的动量系数α对分类正确率的影响,本文分别采用In_v2+NSE Block+Conv2D和In_v2+NSE Block+MOGDF+Conv2D进行实验,结果如图7所示。可以看出,当α=0.8或0.9时,2种方法都能取得较好的分类结果,这是因为NSE Block的主分支为当前特征图的权重向量,而次分支为高层特征图的权重向量,次分支将卷积层之间的空间关系引入网络中,对当前特征图的权重向量进行了微调,因此分类效果较好。然而,次分支的比重不宜过大,即当α的取值较小时,不能取得理想的分类效果。

图7 动量系数对分类正确率的影响

Fig.7 Influence of the momentum coefficient on the classification accuracy rate

将本文方法与传统分类方法以及其他采用卷积神经网络的分类方法进行对比,结果如表3所示。由表3可知,本文方法能够有效增强卷积神经网络的学习效果。同时,基于卷积神经网络的分类算法(如MNCC、MS-DCNN、PCA-CNN和本文算法)的分类效果要优于基于学习中、低层特征的分类算法(如SVM和CCM-BOVW),进一步证明了卷积神经网络的优越性。

表3 本文算法与其他5种算法的分类结果对比

Table 3 Comparison of classification results of the proposed algorithm and other 5 algorithms

分类算法分类正确率/%网络层数运算时间/sSVM[3]78.57——CCM-BOVW[5]86.64——MNCC[9]88.261020MS-DCNN[4]91.34818PCA-CNN[10]92.86923本文算法94.761325

3.2 4类SAR数据的分类结果对比

SAR图像分类实验采用陕西渭南地区的机载高分辨率SAR图像进行场景分类,通过Matlab工具从尺寸为16 800像素×18 280像素的SAR图像中,截取出4类场景(农田、城镇、高架桥和道路)的SAR图像,每类包含250张大小为500像素×500像素的图像,4类SAR场景图像示例如图8所示。在每类样本中,选取80%的图片作为训练样本,20%的图片作为测试样本。

图8 4类SAR场景图像示例

SAR图像与卫星遥感图像在尺寸和质量上均存在差异[20-21]。由于高分辨率机载SAR图像的噪声较多,因此需在训练之前对图片进行滤波,本文采用BM3D[22]的滤波方法减少SAR图像的噪声。因为SAR图像的类别较少,所以在21类高分辨率卫星数据的分类框架上相应地减少每一层的特征图数量并调节学习率,得到的分类结果如表4所示。

表4 4类SAR目标场景的分类正确率对比

Table 4 Comparison of classification accuracy of 4 types of SAR target scenes

类别正确率/%农田94.5道路95.0城镇98.5高架桥93.5总体分类正确率95.4

将本文算法与MNCC、MS-DCNN、PCA-CNN 3种分类方法进行对比,结果如表5所示。从UCM_LandUse和4类SAR数据的场景分类结果可知,本文构建的分类网络在不同的数据集上只需调整基本的网络参数,就能取得理想的分类效果,证明本文算法具有良好的泛化能力。

表5 SAR数据的分类结果对比

4 结束语

本文提出一种基于空间特征重标定网络的分类算法。利用多尺度全向高斯导数滤波器提取多尺度特征,通过可分离卷积层减少网络参数,应用附加动量法的特征重标定网络进行权重筛选,以学习特征通道之间的相关性,从而充分激励能体现样本信息的有效特征,抑制影响分类效果的冗余特征。在UCM_LandUse与SAR数据集上的实验结果表明,与MNCC、MS-DCNN、PCA-CNN等方法相比,本文方法在分类精度和泛化能力上有明显优势。下一步将针对遥感场景分类构建深度神经网络模型,以提取空间特征,并充分利用多标签分类场景信息,提高分类正确率。

猜你喜欢
正确率标定尺度
门诊分诊服务态度与正确率对护患关系的影响
财产的五大尺度和五重应对
使用朗仁H6 Pro标定北汽绅宝转向角传感器
CT系统参数标定及成像—2
CT系统参数标定及成像—2
基于匀速率26位置法的iIMU-FSAS光纤陀螺仪标定
基于MATLAB 的CT 系统参数标定及成像研究
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意