一种基于深度学习的卫星遥感图像分割方法

2021-10-25 08:49刘冠群
关键词:语义卷积神经网络

刘冠群,刘 豪,王 新,王 威*

(1.湖南开放大学,长沙 410004;2.长沙理工大学 计算机与通信工程学院,长沙 410114)

遥感图像处理技术近年来发展迅速.基于人工智能神经网络的语义分割技术已成为卫星遥感图像语义分割领域的研究热点[1],并广泛应用于土地检测、植被分类、环境监测、城市规划和国防安全等领域.深度学习方法可以提取大数据中包含的复杂信息,对未知数据做出更准确的预测[2].因此,学术界开始通过深度神经网络进行高分辨率遥感图像的多层表达和深层特征提取,并用于高分辨率遥感影像分类[3].

近年来,随着人工智能的发展,深度学习方法在计算机视觉识别任务中展现出了优异性能.卷积神经网络在图像分类[4-7]和语义分割[8]等领域取得了巨大的成功.例如,Simon等[9]在语义分割模型中应用了密集块,提出用FC-DenseNet增强特征提取并进行特征重用,取得了较好的分割效果.Wang等[10]提出了一个改进的DFCN网络,在卫星遥感图像语义分割任务中展现了很好的性能.

图像语义分割是计算机视觉领域的一种重要方法.语义分割是指在同一类别的图像中划分相同对象的像素,并划分不同的对象以预测图像中每个像素的类别[11],其与图像超分辨率重建有相似之处[12].近些年,深度卷积神经网络在计算机视觉领域也取得了重大成果.因此,研究者们尝试将其用于语义分割.Wang等[5]对卷积神经网络的发展及其在图像分类中的应用进行了详细总结和分析.2015年,Long等[8]提出了一种用于图像语义分割的全卷积网络,通过调整普通卷积网络结构,可以在不带全连接层的情况下进行密集预测.

FCN(全卷积网络)模型实现了深度卷积神经网络从图像级别分类到像素级别分类的跨越.Ronneberger等[13]针对医学图像分割问题,基于FCN网络提出了Unet模型.Unet拥有U型网络结构,可同时获取上、下文信息和位置信息.该模型在2015年的ISBI cell tracking比赛中获得了多项第一.SegNet在上采样过程中利用池化层中丢弃的位置信息来减少网络参数量[14].Deeplab系列网络由Google公司提出,其中的DeeplabV1是一个基于VGG16进行改进语义分割网络[15];相比而言,DeeplabV2则提出了一个ASPP结构,取得了很好的效果[16];DeeplabV3利用空洞卷积加深网络,改进了ASPP结构[17];DeeplabV3+网络将Xception网络作为主干,并在网络内部使用了Encoder-Decoder结构[18-19].

针对卫星遥感图像语义分割任务,首先,本文拟改进上采样方法,在减少模型参数量的同时,提高模型的识别能力;其次,基于新的上采样模块提出一个全新的图像语义分割模型,并引入注意力机制;最后,为了验证方法的有效性,实验提供一个新的遥感影像数据集显示中国郴州的遥感林地(这些遥感影像来自GF-2卫星,其空间分辨率为0.8 m,展示了耕地、林地、水域和建筑等的各种空间信息),并根据当地的地貌特征标注原始图像,利用所提方法在此数据集上进行实验,同时与其他基于深度学习的语义分割方法进行对比分析.

1 通道注意力机制的卷积神经网络

1.1 网络结构

为了提高语义分割网络模型的特征提取能力,本文引入了一种通道特征权重提取模块(channel feature weight extraction module,CFWE)[7],其结构如图1所示.其中,“Conv3”和“Conv1”分别代表卷积核大小为3和1的卷积层;“GAP”表示全局平均池化层;“FC”表示全连接层.

图1 CFWE模块结构

CFWE结构共计5层,其中“Conv”表示一个包含了“卷积”、“批标准化”和“激活函数”的复合结构.CFWE模块还包含多种尺寸的卷积核.首先,该模块的短连接层由2个“Conv1”和1个“Conv3”组成.通过短连接可在一定程度上缓解网络退化的问题,第一个“Conv1”用来降低维度;第二个“Conv1”用来升高维度,其主要目的是减少参数数量.其次,串联的池化层和全连接层包含2个全连接(FC)层和1个全局平均池化(GAP)层.第一个“FC”层用来降低维度,可通过短连接将原始特征和提取出来的特征图通道权重系数分通道相乘以得到更好的特征图;第二个“FC”层用来恢复维度,GAP用来将通道上的特征图压缩为全局特征.通过这种方式,该模型可以学习到每个通道的权重系数,且在特征提取过程中,权重系数可以帮助该模型提取到更多重要的通道特征,抑制不重要的通道特征,增强网络的特征提取能力.

基于CFWE模块,本文提出了具有3种深度的卷积神经网络结构CA-Net,它们分别是CA-Net18,CA-Net34和CA-Net101.CA-Net的网络结构如表1所示.

表1 CA-Net结构

2 实验结果与分析

2.1 数据集

实验数据集来源于2016年GF-2卫星采集的郴州地区多个波段图像经融合后的RGB遥感图像.首先,对GF-2卫星原始图像进行预处理.原始卫星遥感图像像素尺寸大约为2 000×2 000,先将其进行标注,并将各种图像类型注释成具有不同颜色的地面真实图像.其次,通过裁剪将其分为若干个256×256的图像作为数据集,并舍弃图像多余尺寸.图像数据分为7类,即耕地、林地、水域、道路、建筑、犁沟和其他.该数据集共有12 000张图像,随机选取其中10 000张作为训练集,另外2 000张作为测试集.该数据集中的卫星遥感图像如图2所示.

图2 卫星遥感图像示意

2.2 预处理与实验设置

实验数据预处理步骤如下:

1)将数据集原始图像设置为特定大小;

2)进行随机窗口采样,生成采样坐标,得到固定大小为256×256的图像;

3)对处理好的图像数据进行数据增强,包括随机旋转、水平和垂直翻转、随机伽马变换、模糊、腐蚀、添加噪声以及双线性滤波等图像变换操作.

经过上述数据预处理及数据增强,训练集规模扩大了6倍,可在一定程度上减少网络过拟合的风险.

为验证本文所提方法的有效性,对比实验在相同的平台和环境下进行,以确保不同网络模型的实验数据可信度.实验操作系统为Windows 10,CPU为Intel I7,GPU为GeForce GTX 1080Ti;开发平台为PyCharm,编程语言为python,采用pytorch框架;训练集和测试集的batchsize大小均为4.

根据大多数语义分割模型所采用的评估标准,本文采用像素精度(PA),均交并比(MIoU)和频权交并比(FWIoU)作为性能指标[4].假设像素类别数为k+1,则PA,MIoU和FWIoU的计算公式为

其中,Pij代表属于i类却被分类为j类的像素数;Pii代表属于i类的正确分类的像素数.

2.3 实验流程

为了防止过拟合,实验结合数据扩充技术进行图像预处理.本文提出一种自动分割遥感图像的方法,其具体流程如图3所示.首先,将数据进行预处理,得到相应的数据集,将其分为训练集和测试集;其次,对模型进行训练,并利用网络进行标注,将图像输入到网络中,通过卷积层和池化层进行下采样提取图像特征,再使用反卷积层进行上采样获取和原图大小相同的图像,完成图像语义分割.

图3 实验处理流程

2.4 实验结果

将CA-Net与经典语义分割神经网络Deeplab,FCN,SegNet,Unet,Dilated以及最新的FCDenseNet进行比较.实验对比结果如表2所示.

由表2可知,CFWE模块使网络性能有了明显的提升.DeeplabV3使用并改进了ASPP模块,在本文数据集上有着不错的效果,但性能仍然低于CA-Net;FCN-8s通过弃用传统神经网络的全连接层将卷积神经网络用于语义分割任务,在本文数据集上达到了不错的性能;SegNet是基于FCN网络并改进了VGG16得到的语义分割网络,因其引入了Encoder-Decoder结构,在实验中取得了不错的效果;Unet可以用于解决医学图像语义分割问题,其U型的网络结构可以同时获取上、下文信息和位置信息,但在本实验中性能最差;FC-DenseNet将DenseNet引入到图像语义分割任务,实现了不错的效果.

表2 本文方法与其他方法的性能比较 %

根据表2中的实验结果还可知,CA-Net101网络模型的PA和MIoU最高,分别为91.36%和53.77%.将CA-Net和其他经典语义分割网络以及最新的语义分割网络进行对比,虽然其他网络都实现了不错的性能,但是普遍低于CA-Net,这表明了其整体性能优于其他方法.

同时,和其他方法相比,CA-Net的参数量相对更少.在几个参数量相近的模型中,CA-Net的性能也最优.这说明CA-Net性能更好,对卫星遥感图像语义分割任务更有针对性.

通过分析以上实验结果可知,在卫星遥感图像语义分割任务中,网络深度不能太浅.网络层数太少难以提取到充足的特征,网络层数太多则会导致出现梯度弥散问题或梯度爆炸问题.使用批标准化(batch normalization)可在一定程度上解决梯度弥散和梯度爆炸问题.此外,本文引入了注意力机制模块CFWE,并使用了跳跃连接,在一定程度上解决了网络的退化问题;同时,CFWE模块通过注意力机制学习得到通道权重系数,提高了网络的特征提取能力,取得了更好的图像分割效果.

3 结语

本文针对高分辨率遥感影像图像语义分割问题提出了一种基于卷积神经网络的新的语义分割模型,并在这个网络中使用了通道注意力模块CFWE以增强网络的特征提取能力.文中实验使用了2016年郴州地区GF-2卫星遥感图像数据,结果表明,CA-Net101的PA,MIoU和FWIoU分别为91.36%,53.77%和85.52%,实现了对GF-2图像分类任务中复杂目标的精确分割.本文所提方法旨在应用于检测中国郴州林地和水域面积的变化情况,为林业资源的开发和水域环境的保护提供帮助.在今后的研究中,可以通过获取更多同类型卫星遥感图像,制作出更高质量的分割数据集来进一步训练CA-Net,以提高其泛用性和分割性能.

猜你喜欢
语义卷积神经网络
真实场景水下语义分割方法及数据集
基于递归模糊神经网络的风电平滑控制策略
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
基于Q-Learning算法和神经网络的飞艇控制
“吃+NP”的语义生成机制研究