基于深度卷积网络的SAR图像地物分类研究

2021-11-17 06:53董晓冬水文泽刘立露
计算机仿真 2021年7期
关键词:土地利用卷积精度

孙 盛,董晓冬,水文泽、刘立露

(广东工业大学计算机学院,广东 广州 510000)

1 引言

土地利用/土地覆盖(land use/land cover)为地表系统最直接的景观标志[1]。土地利用[2]研究一直是全球变化研究中的重要问题。通过土地利用分类,不仅可以了解各种土地类型的基本属性,并且可以作为对土地利用的分布结构、区域特征研究的基础。土地利用在国家、地区以及全球范围内关于经济、人口、环境问题等方面为政策的建立提供了重要的依据。

地表的最早描述采用土地利用分类系统和植被分类系统实现, 随着科技的不断发展,遥感技术[3]成为获取地表地物属性的主要方法。由于遥感技术具有探测范围广、采集数据快、获取信息手段多、信息量大等优点,现已被广泛应用于土地利用分类中[4]。当前土地分类研究中所用到数据源多光学遥感数据,通过利用地物在遥感影像上的光谱、形状、 纹理等信息的差别进行土地利用分类。由于中国 南方快速城市化地区常年多云雨的天气,增加了有效光学影像获取的难度,使得单一的光学遥感数据源很难满足城市土地利用信息提取以及变化研究的需求[5]。对于该情况,使用合成孔径雷达 (Synthetic Aperture Radar,SAR)成为目前较好的解决方法之一。合成孔径雷达不受外界天气因素的影响,可全天时、全天候不间断工作,获取云覆盖下的图像信息,获取的图像具有较好的纹理信息,可以弥补光学信息的不足[6]。根据国内外近期相关研究,张腊梅[7]等提出基于3D卷积神经网络的PolSAR图像地物精细分类方法,将传统卷积神经网络扩展为三维并将其应用于PolSAR图像分类中,张月[8]等提出了一种基于一致相似度网络融合的极化SAR图像非监督地物分类方法,苟水萍[9]等提出了一种基于稀疏表示的海岸带土地利用类型分类方法,Carolyne Danilla[10]等将卷积神经网络(CNN)与马尔可夫随机场(MRF)结合用于分析多时相系列的Sentinel-1图像,对荷兰弗莱福兰的农田进行了分类提取。

深度学习模型灵感来源于人类脑部结构[11],依靠多个神经元的联结,对输入数据进行底层到高层的逐 层抽象特征,从而可以在图像、文本和语音等领域展现其强大的能力,并转而被用于更多领域。深度神经网络依靠其强大的学习能力和泛化能力,逐渐替代了其它机器学习手段,成为了该领域最主要的技术并被越来越多的学者涉足和应用。现有的深度学习模型已经有了很多,但这些模型的基本框架主要有深度置信神经网络、卷积神经网络和自编码器等,其中在图像处理领域应用最广泛的就是卷积神经网络[12]。本文使用改进于卷积神经网络的深度模型Segnet,对SAR图像进行土地利用分类。根据文献[13],并且结合SAR图像特性,把研究域内土地分为包括水域、林地、建筑、草地、耕地、裸地、公路七个类别进行分类和研究。

2 模型原理和分析

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络是一种多层神经网络,擅长处理图像相关的机器学习问题。近些年,针对 CNN具有避免图像的复杂前期预处理的优势,该网络被广泛应用于图像的模式分类领域。其基本架构如图1所示。

图1 卷积神经网络

经典的CNN一般包括卷积层、池化层、全连接层和分类器在卷积层中,其目的是对图像进行特征提取。 即通过对上一层输出的特征图进行卷积,并在加入偏置后通过一个激活函数激活,得到当前层的输出 特征图,即得到当前层对应特征情况,如式1所示

(1)

其中,x表示特征图,Mj表示输入特征图的集合,k为卷积核,b为偏置,l是层序号,i是卷积核序号,j是特征图通道序号。对于池化层而言,该层 设置的目的是对图像进行下采样处理,而经典的池 化方法包括:最大池化、均值池化等。在全连接层 中可将上一层得到的特征图进行按顺序排列,得到 1维向量,对其进行典型神经网络连接。最后,对于不同神经元的输出进行分类器分类,一般采用 softmax或支持向量机(Support Vector Machine, SVM)分类器,得到分类标签。

Segnet[14]是Cambridge的Vijay Badrinarayanan提出的图像语义分割深度网络,是一种基于语义的图像分割模型。该模型具有空间资源占用少,训练参数较少,训练速度较快的优点,同时对图像分割结果有相对明显的提升。该模型是一种端到端的对称结构,包含编码,解码两个部分。Segnet基于卷积神经网络,是通过修改VGG-16网络得到的语义分割网络。可以在其基础上进行修改,使得网络能够适应SAR图像,从而使用Segnet进行SAR图像的分类。Segnet具有编码器网络和相应的解码器网络,以及进行最终像素分类的分类层。在编码器处,执行卷积和最大池化。在解码器处,使用最大池化的索引进行上采样和卷积。最后,每个像素送到softmax分类器,使用K类softmax分类器来预测每个像素的类别。Segnet与FCN[15](Fully Convolutional Networks)思路相似,不同处主要为编码部分和解码部分使用的技术不一致。编码过程中,通过卷积提取特征,该网络使用的卷积为same卷积(卷积后保持图像原尺寸)。在解码过程中,同样使用same卷积,此时卷积的作用是丰富因上采样而变大图像的信息,使得在池化过程丢失的信息可以通过学习在解码过程中得到。在Segnet中池化层多了一个池化索引功能(每次池化,都会保存滤波器选出的权值的位置),此功能可以有效地减少学习所需的参数,提高学习速度。在上采样过程中,池化层而丢失的权值是无法复原的,此时使用index信息,将剩余权值恢复到池化之前的位置,减少了学习的过程,是Segnet相对于FNC有明显提升的原因。图3中,左半部分的网络结构为编码器部分,通过卷积提取特征,通过池化层增大感受野,同时图片变小。右边是解码器部分,通过反卷积使得图像分类后特征得以重现,上采样还原到图像原始尺寸。最后通过softmax,输出不同分类的最大值,得到最终分割图。

3 数据源和方法

3.1 数据源

本文中使用的数据是TerraSAR-X卫星拍摄的3米分辨率的HH单极化数据,拍摄时间为2018年3月23日22时31分。卫星数据覆盖区域为珠江三角洲入海口(广州市南沙区),如图2所示。地球探测卫星TerraSAR-X是由德国发射的首颗多用途侦察卫星,于2007年6月15日发射。该卫星采用太阳同步轨道,其轨道高度约514公里,倾角97.4度,重访周期为11天,是目前世界上探测精度较高的卫星之一[16]。SAR卫星运行不依赖气象条件,云层覆盖和光照度,不会应为天气原因导致无法获得卫星数据,因此对于华南地区多云多雨的天气有较好的适应效果。

图2 Segnet网络结构

图2 研究区域范围

3.2 图像滤波

SAR图像中会有部分与图像内容无关的斑点,这是由于雷达目标回波信号的衰落现象引起的。表现在图像上,就产生了不可避免的斑点噪声现象。噪声会对SAR图像的质量产生影响,因此在处理数据之前,进行滤波,降低噪声是必要的工作。本文对原始SAR图像进行Gamma滤波算法处理,从而达到对原始图像进行降噪的目的。Gamma MAP滤波是一种几何滤波法,把图像的平面坐标加上灰度值考虑为一种三维模型,用形态学的方法去除噪声,这种滤波器的边缘保持能力较好。如下式2为Gamma MAP滤波的方法

(2)

3.3 地理编码

SAR系统观测到的是电磁波入射地球表面后反射(后向散射)的雷达脉冲的强度和相位信息。这个信息编码到雷达坐标系统下,即斜距坐标系,被记录下来。实验中,需要将SAR数据从斜距坐标系转到地理坐标系,即SAR数据的地理编码。同时,TerraSAR-X卫星的原始数据图像为左右倒置,在实验和应用中会产生标注镜像问题,故对SAR数据进行地理编码是必要的。本研究中采用WGS-84地理坐标系。WGS-84坐标系(World Geodetic System)是一种国际上采用的地心坐标系。坐标原点为地球质心,其地心空间直角坐标系的Z轴指向协议地极方向,X轴指向协议子午面和CTP赤道的交点,Y轴与Z轴、X轴垂直构成右手坐标系,称为1984年世界大地坐标系,是一个国际协议地球参考系统。

3.4 数据增强

数据增强深度学习中普遍用到的一种数据处理方法。通过数据增强,增加训练样本的数据量,提高模型的泛化能力。尤其在样本数据不是足够充分的条件下,使用数据增强的方法能对训练结果产生提升。本研究中,使用了翻转,平移,缩放的方法进行数据增强,使得原始样本由180个增加到1480个,扩充了较充分的数据。

4 实验及分析

为防止出现过拟合现象,Segnet模型训练20个Epoch。图3表明训练集精度和验证集精度在第12Epoch之前呈增长趋势,同时损失函数值呈下降趋势。但在第12至20个Epoch中,训练集损失函数、精度,验证集损失函数、精度,分别出现不同程度的波动。其中验证集损失函数的波动较大。是由于在此阶段出现过拟合现象,故应选用前12个Epoch中验证集精度最高的轮数时的模型。综合以上,实验选取第11个Epoch的训练模型作为最终结果。

图3 训练过程损失函数及精度变化图

使用该模型对广州市南沙区的TerraSAR影像进行土地利用分类,分类结果与原始图像和Ground-Truth对比如图4所示,其中a1,b1为选取的两个场景样例的图像,a2,b2为两个所选取场景的Ground Truth图像,a3,b3为使用本文方法所得的图像分类结果。

图4 原始图像、GroundTruth、分类结果对比图

使用Segnet的分类结果中各种地物区分较为完整,由于模型采用深度网络,在浅层的学习中提取到图像局部特征,在深层的学习中提取到全局特征,因而模型可以学习到充分的地物特征信息。模型对同一类地物的分割很少产生割裂的现象,错分现象也较少。但也存在少部分区域分割效果不好的情况,如图4中b区域右上方公路部分产生断裂以及类型错分的情况。同时由于SAR图像固有的噪声问题,也使得图像中分类结果会有部分斑点存在。

由于本文分类方法结合了SAR图像特征提取和Segnet深度神经网络,因此在分割结果中很好地分出不同地物类型之间的边界,同时能够得到较高的分类准确性,实验分类的总体精度和Kappa系数可以证明此结论。

Kappa系数用于一致性检验与衡量分类精度,Kappa系数是基于混淆矩阵的。

注:总体精度Overall Accuracy:0.791,Kappa系数:0.721

在混淆矩阵中,使用某一类别正确分类的样本个数除以该类的真实样本个数可得该类地物的分类精度。由图5混淆矩阵结合精度计算公式得出:对于水域,林地,建筑,本文所使用的方法分别有96%,96%,85%的分类精确度。本文方法对比其它深度学习方法与传统方法:使用基于VGG16的深度网络分类方法,水域、林地、建筑的分类精度分别为89%、83%、70%;使用基于Resnet的深度网络分类方法,水域、林地、建筑的分类精度分别为93%、89%、87%;使用Mahalanobis Distance分类方法水域、林地、建筑的分类精度分别为57%、49%、31%;使用Minimum Distance分类方法,三类精度分别为55%、28%、29%。比较可知,本文方法相较传统方法,分类精度有较大提高,同时相对深度学习的其它方法,在水域、林地的分类精度上也有一定程度的提升。

图5 分类结果混淆矩阵

使用Segnet模型对TerraSAR影像中的水域、林地的分类精度最高,一方面由于水体、林地的散射特性较其它地物类型有较大区别,另一方面说明使用Segnet模型对该两类地物特征提取较好,区分显著。建筑区域在研究中,范围较广,区分效果较好,但有部分被错分为林地。对于耕地区域,分类精度有略微下降,分析原因有耕地区域耕种作物类型多,散射特性不一致,并受季节影响较大,是导致该类精度有所下降的原因。公路分类精度相对较低,是由于公路在图像中像素占有率低,而使用影像的分辨率又较低,导致素点较少,从而使得三类地物在图像上的特征学习程度较低,导致对公路分类的结果精度也相对低。总结上述结果,在研究区域地物分类中,使用本文方法,将地物分为7中不同类别,对多数地物可以做到70%以上的精确度,但在道路这样的像素占有率较低的地物类别的分类结果还有待提高。

5 结束语

本文将广州市南沙区作为案例,研究该地区地物分类的方法。研究中以 TerraSAR-X HH极化影像为数据源,采用Gamma MAP滤波、地理定标、数据增强的方法减少图像噪声、校正图像地理定位、增加数据量。训练Segnet深度网络模型,再对图像进行分类预测,从而得到地物类型分类结果。水域、林地、建筑、草地、耕地、裸地均有高准确率的结果,其中水域、林地的分类结果最好。

值得注意的是,本方法对公路等一些地物类型的分类结果存在一定偏差,在SAR图像固有的噪声在分类结果上会有少量斑点的问题。因此在今后的研究中,会考虑使用不同的SAR图像结合极化分解的方法进行分类,并且使用不同的深度网络来进行训练,以提高对不同图像和地理区域的SAR图像分类效果。

猜你喜欢
土地利用卷积精度
城市土地利用变化模型研究进展与展望*
基于不同快速星历的GAMIT解算精度分析
数字化无模铸造五轴精密成形机精度检验项目分析与研究
五台县土地利用变化研究
基于全卷积神经网络的猪背膘厚快速准确测定
基于“风险—效应”的土地利用空间冲突识别与测度
土地利用变化与大气污染物的相关性研究
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现