结合ASPP与改进HRNet的多尺度图像语义分割方法研究

2021-11-12 00:47史健锋高志明王阿川
液晶与显示 2021年11期
关键词:空洞尺度语义

史健锋,高志明,王阿川*

(1. 东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨 150040;2. 东北林业大学 机电工程学院,黑龙江 哈尔滨 150040)

1 引 言

在计算机视觉识别任务中,分类任务占据主导地位[1],其中语义分割更是分类任务中的核心,主要工作是在语义层次上依次分类和标记图像的每个像素。不同于一般的图像级分类任务,像素分类通常更加困难[2],需要稠密的像素级别的预测能力和大量的计算成本。随着地质检测、场景理解等问题的研究不断深入,图像语义分割问题,尤其是对于拥有复杂多尺度目标图像的理解,仍然是低级计算机视觉领域尚未解决的重要问题。因此,对于高效、可以准确分割各种尺度物体的语义分割模型的研究也愈发重要。

最近,新兴的深度学习避免了人工进行复杂和繁琐的特征设计,可以通过前向传播和反向传播来自主学习更加丰富的细节特征,在多个人工智能领域获得了最先进的成果。2015年,Long等人首次提出了可以输入任意大小的图像以提取特征的完全卷积网络(Fully Convolutional Networks,FCN)[3],模型通过反卷积方式增加特征图的分辨率以进行像素级的稠密估计,成功地将图像分类网络转化成为图像分割网络,促进了图像语义分割的研究。但其仍存在一些不足:上采样过程粗糙,细节丢失严重;未能有效地计算像素之间的联系,语义分类不准确;固定大小的常规卷积难以充分提取多尺度目标的特征。

为了解决FCN存在的问题,学者们在其基础上提出了一系列优化的算法:基于编码器-解码器方法,如U-net[4]等,这类网络采用对称的编码解码结构,逐步恢复物体细节和图像分辨率,但是连续的上采样并不能恢复多次最大值池化损失的物体细节信息,精度有限。基于优化卷积方法,如DeepLab系列等,通过空洞卷积等优化卷积技术,在不增加参数数量的同时成倍扩大感受野[5],获得多尺度特征信息从而提高分割精度。基于循环神经网络或概率图模型的方法,如CRFasRNN等,在卷积神经网络基础上,以像素点为节点,像素点之间的概率相关关系为边,获取图像全局信息和像素级语义信息,为语义分割过程提供丰富的上下文内容[6],但是复杂的全连接概率图模型增加了参数数量和计算时间,分割速度缓慢。

2019年,KeSun等人共同提出了HRNet。其以一个高分辨率子网作为第一个阶段,逐渐增加高分辨率到低分辨率的子网以形成更多的阶段,多个阶段的子网并行连接[7]。网络通过不断地交换信息和多尺度的特征融合从而在整个过程保持高分辨率,得到的特征表示不仅很强,在空间上也很精确,大为改善了目前已有算法存在的细节丢失、精度不够等问题。但是多个阶段之间大量重复的相互融合也会产生数倍的计算复杂度和参数量,密集的特征融合也会计算大量冗余和相同的信息。

为了高效解决多尺度目标分割问题,本文对HRNet进行了改进,进一步提升模型的整体性能。通过使用深度可分离卷积结合批量归一化层的方式减少参数、加速模型训练、优化DeadRelu问题。其次利用混合扩张卷积框架(Hybrid Dilated Convoluti-on,HDC)改进了空洞空间金字塔池化模块(Atrous Spatial Pyramid Pooling, ASPP),将其添加进网络之中,利用并行的双通道上采样融合机制,获得最终的语义分割模型Re-ASPP-HRNet。实验表明,本文改进的Re-ASPP-HRNet网络相比于HRNet,参数数量下降了1/2,内存占用降低了1/3,并且平均交并比(Mean Inteisection Over Union,MIoU)也有所提升。

2 改进的Re-ASPP-HRNet

2.1 网络模型结构

目前现有的方法基本是通过下采样操作降低分辨率,然后通过上采样恢复分辨率以获得输出。这些网络通常是线性的,例如依赖于对称的编码-解码结构,代表网络有Seg-Net[8]等。编码网络之后利用跳跃链接和特征融合进行上采样的融合结构。重量级的编码结构之后采用简单的上采样方式快速恢复特征图分辨率的结构,代表网络有FCN等。串行网络结构如图1所示。

不同于目前流行的串行连接的网络,KeSun等人共同提出的HRNet是一种全新的并行体系结构。其通过4个阶段不断地相互融合全程保持分辨率,避免了下采样带来的信息丢失。这样的并行网络有两个优点:(1)并行结构能够保持高分辨率,而不是通过从低到高的过程恢复分辨率,因此预测的热图在空间上更加精确[9]。(2)大多数的融合方案利用的是串行模型在低级和高级上的特征表示。相反,并行结构在相同深度和相似级别的低分辨率的特征表示的帮助下,执行重复的多尺度融合来增强高分辨率的特征表示[10],输出的语义分割热图更加准确。HRNet模型结构如图2所示。

图1 串行网络模型结构图Fig.1 Serial network model structure

为了高效地实现多尺度目标分割算法,本文设计了如图3所示的Re-ASPP-HRNet。首先将数据批次输入到改进的HRNet中进行特征提取,通过4个阶段最终获得4份分辨率分别为原图像1/4、1/8、1/16、1/32的特征图。由于高分辨率网反复融合多尺度特征的特性,所获得的特征图并没有因为连续下采样而损失大量细节信息。解码部分通过结合两种办法来获得预测输出:(1)将4种尺寸的特征图分别上采样至原图像1/4大小后进行连接,得到一组细节丰富且在空间上更加精准的特征图表示。(2)将4种尺寸的特征图通过改进的Re-ASPP模块,得到一组多尺度特征信息丰富的特征图表示。两方面的输出分别通过1*1卷积进行连接,上采样恢复至原图像分辨率,最终通过3*3卷积和softmax激活函数获得空间精准、尺度丰富、细节准确的语义分割预测图。

图2 HRNet模型结构图Fig.2 HRNet model structure

图3 Re-ASPP-HRNet结构图Fig.3 Structure of Re-ASPP-HRNet

2.2 改进的高分辨率网络

HRNet复杂的并行子网和反复的特征融合导致了庞大的参数数量和计算复杂度,而且难免存在着大量重复计算、过拟合和占用大量内存等问题。因此本文对HRNet进行了以下改进。残差模块是HRNet的基础模块,其结构如图4(a)所示。

图4 残差模块结构图Fig.4 Structure of residual block

大量的残差模块带来了庞大的参数数量,为此本文选择使用深度可分离卷积结合1*1卷积的方式替换常规卷积[11],改进了残差模块,结构如图4(b)所示。深度可分离卷积中一个卷积核只负责一个通道,一次卷积运算之后输出相同通道数量的特征图。而这种运算对输入的每个通道独立地进行卷积运算,没有有效地利用不同通道在相同空间位置上的特征信息[12],因此通常结合1*1卷积运算来改变通道数量,组合生成新的特征图。以三通道的7×7像素的输入为例,想要获得5×5×128的输出结果需要进行的常规卷积操作如图5所示。其参数数量为128×3×3×3=3 456。而换成深度可分离卷积结合1*1卷积方式的话,卷积过程如图6所示。其参数数量为3×3×3=27,1×1×3×128=384。二者之和为411。

图5 常规卷积运算示意图Fig.5 Conventional convolution

图6 深度可分离卷积运算示意图Fig.6 Depth separable convolution

由此可见在相同的情况下,深度可分离卷积结合1*1卷积的参数数量远小于常规卷积操作。当输出通道数量较大时,差距会更加明显。因此同样的参数数量使用深度可分离卷积可以搭建更深的神经网络,通常来说意味着更强的性能。但是大量减少参数数量对于一般大小的模型而言,会显著下降模型的能力,得到的结果是次优的。因此本文综合考虑以上原因,选择保留一层常规卷积,另一层以深度可分离卷积结合相同通道数量的1*1卷积来代替,减少了大约1/2的模型参数,并且没有损失精度。

由于relu存在着致命的DeadRelu问题,本文将批归一化层应用于全部的relu激活函数之前。批归一化层可以将输入的分布拉回到均值为0、方差为1的正态分布上,使梯度更新的幅度均匀,从而解决DeadRelu问题。SergeyIoffe等人指出,通过将规范化作为模型体系结构的一部分并为每个训练小批量执行规范化可以获得训练优势[13]。在深度网络中,过高的学习率可能导致梯度爆炸或消失,以及陷入局部极小值,而批次归一化不仅允许我们使用更高的学习率,还可以大幅减少训练次数并实现相同精度。因此本文基于以上分析,将批归一化层引入至HRNet中全部的卷积层之后,relu激活函数之前以优化训练,二者结合使用可以达到最佳的性能。

综上,本文通过引入深度可分离卷积结合1*1卷积的方式来降低网络的复杂度,减少模型参数,并通过在全部卷积层之后、relu激活函数之前,增加批次归一化层,以加速网络训练,改善DeadRelu问题。

2.3 ASPP模块的改进

虽然HRNet复杂的并行结构可以进行反复的特征融合,但是普通的卷积结构仍然无法充分地提取多尺度的特征。因此本文选择使用ASPP模块对改进HRNet输出的4种尺寸的特征图进行处理,加强模型分割不同尺度物体的能力。

Chen等人首次在DeepLab系列中提出了由一组并行的不同空洞率的空洞卷积组成的Aspp模块,在不使用下采样操作的情况下增大卷积核的感受野进而有效地提取多尺度物体的特征[14],其结构如图7所示。

图7 空洞空间金字塔池化模块Fig.7 Atrous spatial pyramid pooling module

虽然空洞卷积能够有效增加感受野,但是其存在着“网格问题”。在叠加使用多个不适合空洞率的空洞卷积时网格问题更加严重。从图8(a)可以看出,当使用一组空洞率为2、2、2的空洞卷积时仅有部分像素参与了运算。从图8(b)可以看出,当空洞率为1、2、3时感受野覆盖较为完整。

图8 网格问题示意图Fig.8 Girdding issue diagram

因此Panqu Wang等人[15]设计了混合扩张卷积框架以减轻叠加使用空洞卷积时产生的网格问题,扩大接收野聚合全局信息。基于以上分析,本文利用混合扩张卷积框架重新构建了ASPP模块,提出了Re-ASPP结构。

考虑到N个尺寸为K*K的扩张卷积,对应的扩张率为[r1,…,ri,…,rn],HDC的目标是让最后的接收野全覆盖整个区域(没有任何空洞或丢失边缘),我们定义两个非零点之间最大距离为:

Mi=max [Mi+1-2ri,Mi+1-
2(Mi+1-ri),ri],

(1)

其中Mn=rn,设计的目标是让M2≤K。需要注意的是,一个组内的卷积不应该有一个固定的变换因子,即不要有大于1的公约数(例如2、4、8的公约数为2>1),否则依旧无法减小网格效应。因此设计了空洞率分别为2、3、7、13的一组空洞卷积,显然不存在公约数,且

M2=max[M3-2r2,-M3+2r2,r2]=3≤3(2),

(2)

图9 改进的Re-ASPP模块Fig.9 Improved Re-ASPP module

4种尺度的感受野可以覆盖整个区域,改善网格问题的同时有效提取不同尺度的物体特征。本文定义了6层的Re-ASPP结构,如图9所示:首先利用原特征图作为第一层以补充空间信息;其次利用4种不同空洞率的空洞卷积提升模型提取不同尺度目标特征的能力形成2到5层;最后使用平均池化获得图像级别的全局特征形成第六层,并且增加了可以提高训练速度和加快网络训练和收敛的批归一化层。并行的6种方式有效增加了HRNet提取多尺度的物体特征的能力。

2.4 解码部分结构设计

HRNet的并行网络结构输出了4种分别为原图像大小1/4、1/8、1/16、1/32的特征图,第一张1/4的特征图复制备用,将后3种分别上采样至原图像的1/4大小,四者连接起来并以1*1卷积改变通道数量,得到第一份特征输出。将之前保存的1/4大小的特征图通过改进后的Re-ASPP模块,通过1*1卷积改变通道数量,获得第二份特征输出,并且与第一份特征输出连接起来,上采样4倍之后,通过3*3卷积和softmax激活函数获得最终的语义分割结果。

双通道并行设计的解码结构结合了两方面信息,一方面全程保持高分辨率的输出可以更好地保留物体细节和空间定位信息,另一方面改进的空间金字塔池化模块使用了多种尺度的空洞卷积和全局平均池化,可以更好地提取多尺度目标的特征。二者综合起来可以结合各自的优势从而取得更好的结果。

3 实验与分析

3.1 数据集

本文使用PASCAL VOC2012和CityScapes公开数据集进行实验。前者包含了日常生活中较为常见的人、鸟、沙发等20个语义类别和1个背景类别,分为包含1 464张图片的训练集,包含1 449张图片的验证集以及包含1 456张图片的测试集。后者记录了欧洲多个城市的城市景观,拥有30个类别,分为包含2 975张图片的训练集,包含500张图片的验证集以及包含1 525张图片的测试集[16]。

3.2 评价标准

本文使用平均交并比MIoU来评价Re-ASPP-HRNet分割效果。平均交并比的计算公式如式(3)所示。其中k代表物体类别数量,k+1为物体加背景的类别数,pij表示实际类别为i类且预测为j类的像素数目。

(3)

3.3 模型训练

本实验基于英特尔i5-10400F CPU,NVIDIA GeForce RTX 2070SUPER 8 GB显卡,编程语言python,使用tensorflow和keras进行实验。受到GPU显存大小的限制,训练时需要分别调整图片大小至320×320像素和512×512像素并将训练样本分批次输入模型中。使用交叉熵损失函数和adam优化器,adam可以自适应学习率的同时对其加以约束。批次大小分别设置为12和6,训练次数设置为300。

3.4 实验设计

为了验证本文提出的Re-ASPP-HRNet的实际效果,选择与当前主流语义分割算法(FCN-2S,BlitzNet,PSPNet,DeepLabv3,HRNet)进行了两组对比实验。(1)不同模型对于PASCAL VOC2012中的多种物体的分割情况和平均交并比如表1所示。由表1可知,Re-ASPP-HRNet模型在PASCAL VOC2012数据集上的平均交并比均高于主流模型,验证了本文算法的优势。不同模型分割效果如图10所示。(2)对于CityScapes数据集的实验结果如图11所示。可以看出改进的HRNet对于物体细节更加敏感,验证了本文方法对于不同数据集的普适性。

表1 PASCAL VOC2012结果对比Tab.1 Comparison ofPASCAL VOC2012 result (%)

续 表 (%)

图10 不同模型分割结果Fig.10 Segmentation results of different models

图11 CityScapes数据集分割效果Fig.11 Segmentation results of CityScapes

下面将从参数数量、平均交并比两个方面来比较深度可分离卷积代替常规卷积带来的影响。表2中列出了不同模型参数数量和在两种数据集上的平均交并比,Ours-w100中的w100表示替换了残差模块中全部的传统卷积层,同理w50表示仅替代了1/2的传统卷积层。

表2 不同模型参数数量和MIoU对比

从表2可以看出,原HRNet网络的参数量巨大,在改进其基础模块并增加本文设计的Re-ASPP模块后,可以在减少大量参数的基础上,获得同级别的分割精度。究其原因,HRNet复杂的并行结构可以获得更精确的结果。然而,庞大的参数数量限制了模型进一步提高性能。因此本文通过使用深度可分离卷积结合1*1卷积大幅减少了参数数量,且以改进的Re-ASPP模块,提高网络对不同尺度物体的检测能力,最终获得的Re-ASPP-HRNet-w50模型,以一半于Unet++、PSPNet、HRNet的参数数量提升了精度,可见本文方法的有效性。

4 结 论

本文针对已有模型对于小尺度目标分割困难等问题,对高分辨率网络进行了改进,提出了Re-ASPP-HRNet:(1)通过引入深度可分离卷积以及批归一化层,减少网络参数的同时增强泛化性;(2)引入了消除网格问题且能充分提取多尺度目标特征的改进ASPP模块;(3)使用并行的上采样通道融合二者的优势,获得了空间精准的分割结果。实验表明,本文设计的Re-ASPP-HRNet实现了0.8%和0.5% MIoU的精度提升,对比HRNet减少了1/2的参数数量以及1/3占用内存,而且能够准确分割小尺度目标。

猜你喜欢
空洞尺度语义
锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为
财产的五大尺度和五重应对
语言与语义
空洞的眼神
宇宙的尺度
“上”与“下”语义的不对称性及其认知阐释
用事实说话胜过空洞的说教——以教育类报道为例
认知范畴模糊与语义模糊
9
语义分析与汉俄副名组合