改进SegNet+CRF高分辨率遥感影像建筑物提取方法

2023-08-03 00:31赵昊罡崔红霞张芳菲顾海燕穆潇莹
计算机测量与控制 2023年7期
关键词:解码像素点语义

赵昊罡,崔红霞,张芳菲,顾海燕,穆潇莹

(1.渤海大学 信息科学技术学院,辽宁 锦州 121003;2.中电太极(集团)有限公司,北京 100083;3.中国测绘科学研究院,北京 100086)

0 引言

高分辨率遥感影像拥有丰富的地物信息,而建筑物一直都是其主要的地物目标,从高分辨率遥感影像中提取建筑物对于开展遥感领域各项任务都具有重要的意义[1]。由于建筑物几何形状、建筑物周边环境以及高分辨率遥感成像角度、分辨率等多种因素的复杂性,通过传统方法进行建筑物的提取不仅效率低下并且精度较低。传统的语义分割方法没有训练过程,分割效果并不理想[2]。计算机视觉领域技术在图像识别、目标检测等方面的快速应用和发展,深度学习深度卷积神经网络在语义分割方面的快速发展,都为遥感影像中自动化、高精度提取建筑物带来了机遇,其效果远远优于传统方法[3]。

卷积神经网络(CNN,convolutional neural networks)在处理图像任务上具有强大的特征提取能力,是传统方法所无法比拟的,为各类图像的语义分割任务提供了自动化、高精度的解决方案,也是本文所选择的解决方案。卷积神经网络具有极其强大的泛化能力,其成功依赖于两个固有的归纳偏置,即平移不变性与局部相关性,通过固定大小的卷积核可以从图片中捕获到许多空域间和通道间的信息,并且可以通过共享卷积核来提取图像特征,这大大减少了模型的计算复杂度并提升了效率,近年来卷积神经网络层出不穷,如AlexNet[4]、VGG[5]、GoogLeNet[6]、 ResNet[7]等都具有强有力的捕获丰富空间特征和多尺度信息的能力[8]。给语义分割领域带来了无穷的前景,许多基于深度卷积网络的语义分割网络相继发表:Jonathan Long等人[9]提出了全卷积神经网络,通过去掉全连接层适应不同尺寸的图片,通过跳级连接将不同池化层的结果上采样并融合,该网络结构的参数量大,训练效率低并且分割精度低;Ronneberger等人提出[10]U-net网络,通过使用跳跃连接实现编码部分的特征拼接,上采样的过程中减少了信息的丢失,此网络多用于医学图像分割领域;Badrinarayanan等人[11]提出SegNet网络,引入了最大池化索引进行上采样,该网络的性能相较U-net没有过多的提升,但是大大的减少了训练时间与内存的消耗;Hengshuang Zhao等人提出了PSPnet[12],通过引入金字塔池化模块(PPM,pyramid pooling module)融合多尺度特征细节,但其不足是会丢失目标边界细节;Liang-Chieh Chen等人提出了DeepLab系列网络[13-16],将条件随机场融入网络结构并参与训练,以及以空洞卷积为基础构造空洞金字塔池化模型(ASPP,atrous spatial pyramid pooling),通过提升特征图的感受野获取更多的图像细节,提高了物体边界分割的精准度,可是模型计算成本较高,并且像素位置信息的丢失会影响特征图的局部一致性。

相较于低、中分辨率遥感影像,高分辨率影像的几何结构和纹理特征更加丰富。然而,丰富的信息导致遥感影像“同谱异物”和“同物异谱”现象更为明显。由于卷积神经网络的优越性,近些年来许多学者将深度学习语义分割网络应用于遥感图像的语义分割:卢彻[17]等人为解决高分辨率遥感影像中存在同谱异物的问题,利用残差网络思想改进U-net网络;薛明[18]等人运用残差网络思想对SegNet网络进行修改,解决了梯度消失问题;李国清[19]等人在U-net网络加入多尺度损失函数、跳跃连接和注意力机制以提高网络精度;Ziran Ye[20]等人在FCN的基础上引入注意力机制,通过加权来融合不同阶段的特征。

建筑物是高分辨率遥感影像中最重要的地物,对该类地物的信息提取必须同时关注提取精度和边缘细节。然而,传统的语义分割网络在地物提取的识别精度以及边缘细节处理方面,还缺少普适性、实用性的方法。本文提出改进的SegNet语义分割网络并用于建筑物自动提取,以具有较强迁移性的VGG16作为网络的主干部分,引入ASPP模型加强编码阶段对建筑物特征的提取,解码阶段构建特征金字塔网络(FPN,feature pyramid networks)优化上采样结构,最后使用全连接条件随机场(CRF,fully connected/dense crf)进行建筑物分割图像的后处理,对网络分割图像进行进一步的边界优化。

1 传统语义分割网络

1.1 SegNet语义分割网络

SegNet网络结构如图1所示,在FCN的基础上加入了解码部分,形成了Encode(编码)-Decode(解码)结构,实现对图像端到端的像素级分类。本文编码部分使用VGG16作为编码器,去掉了其中的全连接层,使通过VGG16得到的特征图层直接与解码器相连接,解码部分对特征图层进行上采样得到原始图片大小,最后利用Softmax层对逐个像素进行预测。

图1 SegNet网络结构图

SegNet的创新之处在于编码部分的最大池化操作会记录像素点的坐标即“最大池化索引”,在解码部分则会使用到这些坐标值来进行上采样,在保留图像特征细节的同时增大图像的尺寸[21],最大池化索引的上采样过程如图2所示,在上采样过程中将像素点还原至其记录的索引位置,剩余位置则用0进行补充,这一过程无需参数的学习,大大的减少了网络的计算量,提高了训练效率也提高了网络预测的精度。

图2 SegNet中的上采样操作

1.2 空洞金字塔池化模型

如图3所示,展示了空洞卷积在不同扩张率下的感受野的大小。空洞卷积相较于普通卷积引入了扩张率(Dilation rate)的参数,通过改变扩张率来改变图像的感受野大小。空洞卷积可以在不改变图像分辨率的情况下,使其图像获得不同的感受野,从而获取更多的图像信息,并且此操作不会增加额外计算量[22]。本文使用的ASPP模型于DeepLabv3+语义分割网络中提出,在金字塔池化模型的基础上引入空洞卷积,ASPP模型中含有3个并行的膨胀率不同的空洞卷积,还有一个普通卷积以及一个全局平均池化层,通过ASPP模型将得到5个相同分辨率但是感受野不同的特征层,最后将其进行线性融合。

图3 不同膨胀率下感受野的变化

1.3 特征金字塔

FPN的结构如图4所示,利用了编码阶段卷积神经网络金字塔形状的层级特征,自顶向下通过对低分辨率特征进行上采样并与高分辨率特征横向融合,从而创建了形似金字塔的多尺度特征融合模型[23],FPN通过融合多尺度的特征信息来弥补网络在上采样过程中细节的丢失。

图4 特征金字塔

2 改进的SegNet+CRF模型

2.1 改进的SegNet网络

在1.1一节中所述的SegNet网络结构是基于Encode(编码)-Decode(解码)结构的语义分割网络,编码部分运用层级结构的卷积神经网络提取不同分辨率大小的图像特征,解码部分则利用得到的特征图逐步上采样,恢复到原图分辨率大小,然后进行逐像素点预测。如图1所示,原始SegNet网络的编码部分使用深度卷积神经网络得到进行上采样的最终特征层。由于深度卷积神经网络对图片特征提取的感受野的局限性,其特征范围根据卷积核大小而定[24],若想要通过增大卷积核来扩大感受野则会带来巨大的计算量,并且池化层对特征图分辨率大小的影响,会丢失过多图像的细节。此外,在SegNet原始结构的解码部分,虽然使用最大池化索引来进行上采样在一定程度上能够减少图像特征细节的丢失,但仅仅使用编码部分得到的最后一个特征层进行上采样,并恢复到原图大小进行逐像素点预测,这样仍是不够的,网络编码部分其他特征层的高分辨率特征信息都未进行利用,这也导致了最终网络性能并不理想。

基于以上问题,本文提出改进的SegNet网络,如图5所示,分别对编码部分和解码部分进行了改进(虚线框的“1”和“2”)。如图5中改进1部分所示,改进的SegNet网络中我们使用VGG16作为主干网络进行图像特征的提取,并引入带有空洞卷积的ASPP模型对VGG16得到的特征进行进一步的加强,ASPP是加入了空洞卷积的金字塔池化模型,其目的也是为了尽可能多的去提取图像特征横。如图5中改进2部分所示,改进的SegNet网络的解码部分通过构建FPN模型优化上采样结构,改进传统SegNet网络的多层特征融合的解码结构。

图5 改进SegNet结构

传统的VGG16它是由牛津大学的Visual Geometry Group[5]提出的,是目前常见且成熟的卷积神经网络,具有良好的迁移性,被广泛运用于图像领域的各项任务。VGG16网络的结构包含卷积层、最大池化层、全连接层和softmax层,通过堆叠卷积层、最大池化层来形成层级的特征提取模块,降低图像的分辨率并且提升其通道数。

在编码部分,去掉主干特征提取网络VGG16的全连接层以及softmax层,使其得到的特征层直接与ASPP相连接。首先,VGG16的结构可以分为5个子模块,每个子模块都是卷积层的堆叠与一个最大池化层,卷积层用来改变图像的通道数并且提取特征信息,并且由于池化层的存在,图像特征的分辨率是逐层递减的,在VGG16中卷积层卷积核的大小均为3*3,在此将5个子模块得到的特征层其记为f1、f2、f3、f4、f5,以原图大小H*W*3为例,5个特征层对应的分辨率大小分别为下采样2、4、8、16、32倍,每个特征层的通道数记为c1、c2、c3、c4、c5。其次,将VGG16与带有空洞卷积的ASPP模型相结合,输入图片通过编码部分的VGG16模型得到5个特征层,将大小为(H/32)*(W/32)*c5的特征层f5输入ASPP模型,并行地得到5个新的特征图,这5个特征图具有与f5相同的大小,然后将其进行通道数的叠加,并通过一个卷积层调整特征的通道数,此时将会得到所需要的最终特征层,其分辨率大小以及通道数仍保持与特征层f5相同。其中,ASPP中3个空洞卷积的扩张率分别调整为2、6、10,以适应不同几何尺寸的建筑物检测;其感受野大小则由式(1)导出:

K=k+(k-1)(r-1)

(1)

其中:K表示感受野的大小,k表示传统卷积核的大小,一般为3*3,r表示扩张率,根据公式计算扩张率分别为2、6、10的空洞卷积其感受野分别为5、13、21。

如图5所示,在解码部分,仅仅使用SegNet结构编码部分得到的最后一个特征层进行上采样,恢复到原图大小进行逐像素点预测,虽然使用最大池化索引进行上采样操作减少了参数量优化了内存消耗,但是不可避免的丢失了图像特征细节,也因此使得原本网络的预测效果并不理想。改进网络的编码部分通过VGG16与ASPP的结合,得到了拥有更多特征细节的最终特征层,解码部分则通过构建FPN模型优化上采样结构。

利用通过ASPP获得的最终特征图层进行上采样并用一个1*1大小的卷积层调整其通道数,使其与f4特征层的分辨率大小以及通道数相同,即(H/16)*(W/16)*c4,此目的是为了将不同的特征层的对应元素相加,以此来完成特征的融合,如果通道数以及分辨率大小不相同则无法进行此操作,通过特征融合后得到的特征层记为ff4,ff4由式(2)导出:

ff4=Add(Conv(UpSampling(f5)),f4)

(2)

为了消除两个特征图对应元素相加可能带来的融合不充分的问题,通过一个3*3大小的卷积层进行平滑处理。处理后的特征层记为ff3,对ff3进行上采样,使其与f#特征层的分辨率以及通道数相同,再进行融合操作;重复此步骤,直到将特征图恢复到原图的分辨率,实现FPN模型的构建。通过解码部分的上采样操作特征图恢复到原图大小,通过一个卷积层调整其通道数为所需分类的数量,例如本文使用数据集将图片的背景与建筑物分割,则分类数量为2,最后,通过Softmax层进行逐像素点的预测。本文构建的FPN结构融合了不同尺度的特征信息、实现各阶段特征图的特征融合,有利于不同几何尺寸的建筑物提取且减少了上采样中的信息丢失现象。

2.2 基于CRF模型的后处理方法

在上文中我们通过引入ASPP以及构建FPN来提高网络对特征的提取并减少上采样中信息的丢失,然而卷积神经网络存在一个普遍的问题,即卷积操作更多的是提取图像中的空间特征信息,而并未考虑像素点间上下文的关系,这也是导致最终网络预测目标边界不清晰的重要原因,为了优化建筑物提取的边缘,本文引入CRF模型进行后处理。CRF是一种判别式模型,对初步的网络预测结果进行概率建模,并优化预测结果[25],这是全连接条件随机场模型在图像语义分割领域上的运用,可以充分考虑像素点之间的关系,从而提高语义分割的精度并且平滑分割区域的边缘。

在此以本文SegNet为例,其网络的分割结果为一组变量(X1, ,XN)上的随机场X,其每一个变量的范围为标签L={l1,l2, ,lk};另有一定义在变量{I1, ,IN}上的随机场I,I的范围为可能输入的N个图片并且X的范围为像素可能的标签,Ij为像素j的颜色信息,Xj为像素j的在标签中所属类别。(I,X)即组成一个随机场,遵循Gibbs分布:

(3)

在式(2)中,G表示X上的一个图,CG为G中的最大子图集,c为CG中的一个最大子图,Φc则是这个最大子图的势函数,P(X|I)则表示在I的前提下计算所有像素点属于某一类别的条件概率[26]。全连接条件随机场的Gibbs能量函数为:

(4)

在式(3)中,ψu(xi)为一元势函数,表示观测场与标签像素独立推断的结果,在本文中即为网络的预测结果;ψp为二元势函数,即考虑像素之间成对关系的推断结果,通过考虑像素点间各项因素,进一步对像素点所属类别进行判别。由于需要考虑距离、颜色等因素的关系,因此能够起到了在边界处分割的效果,从而进一步优化分割物体的边界。

3 实验分析

3.1 数据集

本文使用公开数据集Inria Aerial Image Labeling Dataset,数据集中包含180张大小为5 000*5 000的城市航空影像,进行预处理将每一张图片裁剪为有像素重叠的大小为512*512的图像,如图6所示,然后按照8:1:1的比列将裁剪后得到的数据集划分为训练集、验证集、测试集,最终得到训练集24 336张,验证集与测试集均为3 042张。网络与模型由Tensorflow与Python进行构建,采用迁移学习思想初始化网络权重,网络初始学习率为1×10-4,优化函数选用Adam,损失函数选用交叉熵损失函数(categorical crossentropy loss)。

图6 数据集预处理

在深度学习任务中,在数据集并不壮大的情况下,使用迁移学习可以很好地进行网络训练,由于其强大的泛化能力可以捕捉数据间的关联性,并且可以减少训练时间、防止过拟合现象的发生[27]。本文运用迁移学习的思想(Transfer learning)[28]在网络的编码阶段对VGG16加载ImageNet预训练权重。

3.2 定量分析

本文将原始SegNet模型,称为Model1;改进SegNet模型,称为Model2;改进SegNet+CRF模型,称为Model3,并与经典语义分割模型Unet网络以及Deeplabv3+网络进行结果对比;采用像素准确率(PA,pixel accuracy),召回率(Recall),平均交并比(MIoU,mean intersection over union)定量分析不同模型建筑物提取的精度、稳健性。3种评价标准的计算参数如表1所示,由表1中的参数可得到3种评价标准的公式,像素准确率表示分类正确的像素在总像素个数中的占比,如式(5)所示;召回率表示预测值为1、真实值也为1的像素在真实值为1的像素中的占比,如式(6)所示;平均交并比表示真实值和预测值两个集合的交集和并集之比,如式(7)所示。

表1 真值表

(5)

(6)

(7)

将不同模型在训练集与验证集上完成训练后,在测试集上进行图像的预测,随后将各模型预测结果进行语义分割评价指标的对比,如表2所示。

表2 不同网络性能量化数据对比

由表2可知,本文提出的模型2以及加入CRF后处理的模型3相较于Unet以及Deeplabv3+各项指标均有明显提升,模型3的PA指数相较于Unet、Deeplabv3+增加2.12%、0.17;Recall指标增加4.09%、1.18%;MIoU指数增加3.84%、1.89%。模型2相比模型1的PA指数提升0.33%、Recall指数提升0.85%、MIoU指数提升1.45%。模型3相比模型1的PA指数提升0.48%、Recall指数提升1.29%、MIoU指数提升2.36%,其中,Recall指数与MIoU指数增长较多。

为检测本文改进方法中各个模块对网络性能提升的有效性,对网络进行消融实验,在去除不同模块的条件下比对网络预测结果的MIoU指标,如表3所示。从表中不难看出,移除任意一个模块都可能导致网络性能的下降,在分别单独使用ASPP模块和FPN模块后的MIoU指数,相比原始的SegNet网络具有明显的增长;并且在同时使用3种模块后MIoU指数相比原始网络增长了2.36%。

在进行网络预测结果的定量分析后,随机选择三张图片及其预测结果,从图片上直观地对比不同训练模型的预测差异。由图7和图8的圆圈标记的区域可视化显示,可以看出,SegNet的预测图相比原数据集的标注图,建筑物分割区域有明显的膨胀,并且建筑物之间存在粘连现象,主要存在于尺度较小的并排建筑物之间,并且建筑物边缘并不平滑且具有锯齿现象;Unet以及Deeplabv3+的预测结果中并排小建筑间的间隙相较于SegNet的预测结果有些许改善,分割较为清晰,但仍有很多并排小建筑物间的粘连现象,并且个别较大建筑识别不完全;反观本文使用的方法,总体上较传统方法提取的建筑物边界更加清晰可见、更加平滑,锯齿现象以及区域膨胀现象明显改善,更加接近标注图的识别效果;如图9所示,图中包含几个较大的建筑物,CRF对边缘的改进效果非常明显,而原始SegNet得到的预测图中建筑物的边缘锯齿状较为严重,通过本文改进网络以及CRF的后处理边缘更加平滑,大大减少了锯齿现象,并且识别效果更加接近标注图像;反观Unet以及Deeplabv3+的预测图,不难看出这两个模型在较大建筑物的识别上效果稍差,不仅边缘非常的粗糙,周围还带有识别错误的错分像素,大建筑更是有较为明显的识别不完全现象。

表3 消融实验

图7 原图,标签以及各模型预测结果

图8 原图,标签以及各模型预测结果

图9 原图,标签以及各模型预测结果

4 结束语

传统的语义分割网络模型存在上采样阶段丢失过多的特征细节,忽略了像素点间的上下文关系问题。以传统语义分割网络直接用于高分辨率遥感影像建筑物信息提取,存在提取精度低、边缘细节丢失的问题。本文提出改进的SegNet网络与CRF后处理结合的方法来改善以上问题。首先,在改进的网络中通过引入空洞卷积来获取更多的图像特征细节,并构建FPN融合多尺度的特征信息,减少特征细节的丢失;其次,引入CRF的后处理,通过构建像素点间的成对关系,来考量像素间的上下文关系,从而对分割图像进一步的细化,纠正错分的像素点,细化原本粗糙的物体边界。此外,通过加载预训练权重来训练网络,一方面减少训练时间,另一方面弥补数据集有限的问题。实验表明,本文提出的高分辨率遥感影像建筑物提取方法是可行的,且可以拓展到其它类似的网络。但是,对于密集建筑物的分割,分割精度有待进一步提高;结合建筑物的几何特点,进一步优化SegNet的编、解码网络是今后需要研究的问题。

猜你喜欢
解码像素点语义
《解码万吨站》
基于局部相似性的特征匹配筛选算法
语言与语义
解码eUCP2.0
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
“上”与“下”语义的不对称性及其认知阐释