多尺度视觉感知融合的显著性目标检测

2023-12-16 10:29刘仲任
计算机工程 2023年12期
关键词:尺度卷积显著性

刘仲任,彭 力

(江南大学 物联网技术应用教育部工程研究中心,江苏 无锡 214000)

0 概述

显著性目标检测能够从复杂场景中检测出人类视觉注意力最为集中的显著性对象,目前有许多计算机视觉领域的科研人员提出了基于手工特征的显著度算法和基于深度学习的神经网络模型以识别显著性对象。显著性目标检测技术已经应用于图片摘要、信息发现、图片检索[1]、目标跟踪、目标检测[2]等领域,通过显著性目标检测预先获得图像的显著性区域,有利于促进计算机视觉等众多领域的研究与发展。

传统的显著性目标检测方法[3]使用单一低级手工特征来计算显著性特征值,如图像的颜色分布、纹理结构和对比度。依赖图像手工特征和显著度算法的传统检测方法难以捕获显著性目标的空间结构信息。文献[4]在高维颜色空间中使用颜色的线性组合来创建图像的显著性映射,结合颜色对比度和超像素之间的相对位置来计算显著度。文献[5]利用显著度算法获得显著性先验信息,再通过高斯马尔可夫随机场增强显著性区域的一致性,从而实现显著性检测。对于显著性对象和背景环境较为统一且场景复杂的自然图像,低级手工特征缺乏深度语义信息的指导,准确检测显著性目标的能力受到限制。

近年来,随着深度学习技术的不断发展和计算机硬件的更新迭代,基于深度网络的显著性目标检测算法表现出优异性能。利用高层级语义信息的全卷积神经网络算法已经能够准确检测出人类视觉感兴趣的显著性目标,检测方法大致分为以下3 类:

1)基于边界感知的显著性目标检测方法。文献[6]针对显著性目标检测的边缘模糊现象,提出注意力反馈网络,通过使用注意力反馈模块来产生更锐化的推理结果,其通过引入边界增强损失函数作为辅助,增强了边缘细节。文献[7]提出新的全卷积网络框架,在目标边界信息的引导下循环地集成多层卷积特征,实现了精确的边界推理和语义增强。文献[8]提出一种非局部深度特征网络,同时实现一个边缘感知的损失函数,该网络通过多分辨率网格结构整合局部信息与全局信息以进行显著性目标检测。该类方法优化了显著性目标的边界,但是难以检测小目标。

2)基于深度特征融合的显著性目标检测方法。文献[9]提出Amulet 网络,并设计一种聚合多层次卷积特征的网络框架,引入聚合不同分辨率信息的特征集成模块来自适应地推理显著性目标,该网络提高了检测准确率。文献[10]提出的多尺度注意力引导模块能够有效提取多尺度特征,同时更加关注具有更多显著性特征的映射图,衰减显著性鉴别度较弱的特征图。文献[11]提出一种利用矛盾信息的显著性目标和伪装目标检测方法,引入一个相似性度量模块对相互矛盾的属性进行建模,实现了鲁棒性更健壮的检测对抗网络。该类方法检测性能优异,但是由于网络参数量和计算量较大,导致推理速度较慢。

3)基于实时的显著性目标检测方法。文献[12]在U 型架构的基础上,提出一个基于池化的实时显著性目标检测方法,充分发挥池化在卷积神经网络中的作用,通过全局引导模块对产生的特征图进行逐级优化,最终生成细节丰富的显著图,由于采用了大量的池化模块,因此大幅提高了模型的推理速度。文献[13]通过在整体嵌套边缘检测器的跳层结构中引入短连接,增强了网络每层的特征表示,缩短了检测时间。文献[14]针对检测网络规模和计算开销较大的问题,引入多尺度立体注意力模块,通过立体注意力机制搭建编解码网络以自适应融合各种尺度特征,在加快推理速度的同时保证了较高的检测精度。该类方法大幅减少了计算开销和网络规模,虽然牺牲了一定的检测精度,但是能够实时检测显著性目标。

虽然深度学习在显著性目标检测中已经取得了一定成果,但是复杂场景下的显著性目标检测仍然存在以下挑战:自然图像往往背景复杂,现有显著性目标检测方法通常采用单一特征检测,导致显著图边缘不清晰和内部不均匀,难以从复杂场景中提取出符合要求的显著性目标;部分现有检测方法缺乏浅层特征的空间位置信息,难以抑制背景噪声,导致显著图边缘轮廓不连续且背景模糊。虽然可以通过融合多种显著图来改善由单一特征检测引起的不足,但是不合理的融合策略可能进一步降低算法的检测性能。为了解决以上问题,本文提出一种多尺度视觉感知融合的显著性目标检测方法。

1 本文方法设计与实现

本文模型基于U 型结构设计2 个新的模块,即多尺度视觉感知模块(Multi-scale Visual Perception Module,MVPM)和多尺度特征融合模块(Multi-scale Feature Fusion Module,MFFM)。MVPM 的设计灵感来源于灵长类动物的视觉系统分层处理视觉信号的机制[15],使用不同膨胀率的空洞卷积[16]构建感受野并模拟灵长类视觉皮层进行学习,在主干网络中从浅层到深层逐级提取显著性目标的全局空间信息,该模块输出的多尺度视觉感知管道(Multi-scale Visual Perception Pipes,MVPPs)为解码网络提供不同特征层次的潜在显著性目标的空间位置信息。MFFM 基于特征金字塔结构,将主干网络的输出通过特征金字塔映射到不同尺度以挖掘更多的语义信息,再通过空间注意力机制自适应融合不同尺度的特征。

本文所提网络基于U 型网络架构,包含多尺度视觉感知模块MVPM 和多尺度特征融合模块MFFM。多尺度视觉感知模块能够有效提取全局上下文信息和细节信息,用于指导特征融合。多尺度特征融合模块可以将主干网络输出的特征图扩展到不同尺度空间,再与多尺度视觉感知模块的输出融合得到每一阶段的显著图,并且各个阶段都进行监督优化。最后将各阶段的预测图进行跨通道级联,通过得分层获得最终的显著图。

1.1 网络结构

本文显著性目标检测网络框架如图1所示。主干网络(backbone)采用ResNet-50[17],该网络广泛应用于计算机视觉领域,是计算机视觉任务的经典主干神经网络之一。ResNet-50 利用残差学习块优化深度网络训练,通过加深网络层数获取更加丰富的深层特征信息。本文将主干网络最后的全局平均池化层和全连接层全部删除,使用其中的5 层特征图E(i)(i∊{0,1,2,3,4})作为主干特征。将主干所有特征图E(i)作为多尺度视觉感知模块MVPM 的输入,通过MVPM 提取显著性目标的空间位置信息,输出4 条多尺度视觉 感知管道,用m(i()i∊{0,1,2,3})表示。在网络自下而上的支路上设计多尺度特征融合模块M(i()i∊{0,1,2,3,4}),第i个多尺 度特征 融合模块M(i)可以表示为:

图1 显著性目标检测网络框架Fig.1 Framework of salient object detection network

其中:φ(*)函数表示多尺度特征融合操作;⊕运算表示对特征图进行跨通道级联操作。各阶段的M(i)通过上采样恢复到原图尺寸,再通过1×1 大小的卷积进行通道对齐,可以表示为:

其中:μ(*)是双线性插值上采样函数;F1×1(*)是1×1大小的卷积操作。最终的显著图P可以表示为:

其中:η(*)函数表示得分层预测概率的计算操作。上式实际上是通过3×3 卷积运算使得通道降维,再通过激活函数映射成预测结果图。

1.2 多尺度视觉感知模块

本文网络基于经典U 型架构,当较高层次的特征信息被传播至较低层次时,空间位置的语义信息也将逐步地被稀释,尤其是在更深层次上,卷积神经网络的经验感知野比理论感受野要小得多,因此,整个网络的感知野不够大,无法捕获输入图像的全局信息,只有显著性目标的突出部分可以被网络发现,背景噪声过大,显著图缺乏完整性。本文设计的多尺度视觉感知模块MVPM 由改进的空洞空间卷积池化金字塔(ASPP)和一系列多尺度视觉感知管道MVPPs 组成,为多尺度特征融合模块提供显著性目标的位置和细节特征信息。MVPM 模块结构如图2所示,其中表示卷积核大小为k、膨胀率为r的空洞卷积层。

MVPM 采用空洞卷积来模拟不同的视觉皮层区域,这些区域具有不同的感受野,其大小和偏心率与空洞卷积核的大小和扩张率有相似的关系。MVPM的输入为主干网络的所有特征层输出E(i),其中,第0~第3 个特征层对应膨胀率分别为7、5、3、1 的3×3膨胀卷积处理,再经过3×3 大小的卷积层和ReLU激活函数处理后得到和输入尺寸相同的特征图。针对最后一层特征图E(4),采用改进的ASPP 进行深层特征挖掘,改进ASPP 模块的输出通过双线性插值进行0、2、4、8 倍的上采样,输出4 条MVPPs 通路。本文的MVPM 独立于U 型结构,可以很方便地将高级语义信息输入至不同级别的特征图,并且增加了MVPPs 的权重,确保显著性目标的空间位置信息不会被稀释。

MVPM 的核心是发挥了空洞卷积在神经网络中的作用。在图形采样的过程中存在分辨率损失和信息丢失等问题,虽然通过增大卷积核、池化、步长可以提高感知野,但是会增加模型的参数计算量。空洞卷积可以改变超参数膨胀率r来获取更大的感知野,同时保证输出的特征图大小不变。膨胀率r表示卷积核中的采样间隔,数值越大,进行卷积操作时扫描的图像区域就越大。空洞卷积的优势在于:一方面,不同扩张率的空洞卷积带来了多种尺度的感知野,能够提供丰富的全局上下文感知信息,有助于指导特征融合并预测显著性目标的空间位置;另一方面,能够保证输出图像的尺寸不变,图像信息保存相对完整,且不产生额外的计算量。

1.3 多尺度特征融合模块

在网络自上而下的支路上引入多尺度特征融合模块MFFM,利用该模块充分聚合多尺度信息,将主干网络的输出通过特征金字塔映射到不同空间尺度,并对MVPM 输出的空间位置信息和浅层细节特征信息进行有效整合,生成混合特征图。该模块结构如图3 所示。

MFFM 首先通过平均池化操作对特征图进行8、4、2 倍下采样,将输入特征图转换到不同的尺度空间,再进行3×3 大小的卷积操作以挖掘特征信息;然后对不同分支的特征图进行上采样并加和,再进行一个3×3 大小的卷积操作,有效减少在上下采样过程中出现的混叠效应,提高特征聚合性能;最后加入一个空间注意力模块(Spatial Attention Module,SAM),衡量融合特征的贡献度同时捕获更深的显著性目标空间信息。

注意力机制[18]是一种增强深度卷积神经网络性能的方式,部分研究已经验证了注意力机制对显著性目标检测任务的有效性。本文采用SAM 提高MFFM 的融合性能。SAM 是卷积块注意力模块[19]的一部分,空间注意力聚焦在特征图最具信息量的部分,通过权重衡量每个空间位置信息的重要程度。SAM 结构如图4 所示。

SAM 首先沿着通道方向应用平均池化和最大池化操作,然后通过跨通道级联将两者输出连接起来,生成一个有效的特征描述,最后通过一个卷积核大小为3×3、padding 填充为1 的卷积将通道压缩为单通道,生成与输入尺寸一致的空间注意力图Ms(E′),可以表示为:

其中:Avg(*)为平均池化操作;Max(*)为最大池化操作均为大小为1×H×W的特征描述矩阵;ξ(*)为Sigmoid 函数;f3×3(*)是卷积核大小为3×3的卷积运算。

MFFM 具备两大优势:该模块能够从不同的尺度空间观察局部环境,进而拓展整个网络的感受野,有助于捕捉显著性目标的具体空间位置;空间注意力模块增加了特征权重,能够有效衡量空间特征的重要程度。

1.4 损失函数

本文引入三重联合损失函数[20],由BCE(Binary Cross Entropy)、IoU(Intersection over Union)和SSIM(Structural Similarity)损失组成,计算公式如下:

BCE 二进制交叉熵损失函数是二值分类和分割中使用最广泛的损失函数,计算公式如下:

其中:G(r,c)∊{0,1}是像素(r,c)在真实图中的像素坐标;S(r,c)∊[0,1]是显著性目标像素的预测概率。

IoU 交并比损失函数对尺度不敏感且具有尺度不变性,通过预检测锚框与真实检测锚框的重叠区域反映检测效果,在图像任务中有很好的表现,计算公式如下:

SSIM 损失函数类比图片的3 个特征(亮度、对比度和结构性)来判断两张图是否相似,计算公式如下:

其中:µx、µy表示N个像素点的平均亮度;σx、σy表示图片明暗变化的剧烈程度,σxy是它们的协方差,表示图片的结构相似性。为了防止分母为0,C1一般取值为0.012,C2一般取值为0.032。

2 实验结果与分析

2.1 数据集

本文训练集采用DUTS 数据集。为了评估本文算法的有效性,在5 个公开数据集上进行测试,分别是HKU-IS、ECSSD、DUTS、DUT-OMRON、SOD[21]图像数据集。其中,DUTS 数据集总共包含15 572 张图像,在这5 个数据集中图像数量最多,大部分显著性目标检测算法都会使用该数据集进行训练测试。DUT-OMRON 是一个包含5 168 张图像的数据集,其中部分图像中包含多个显著性目标,大多数前景对象在结构上很复杂,这对于显著性目标检测算法有很大的挑战性。

2.2 实验设置

本文选择PyTorch1.3.1 深度学习框架来实现显著性目标检测网络。使用ResNet-50 预训练模型初始化部分网络参数,使用默认值初始化其余网络参数。所有实验都使用Adam 优化器[22]来优化损失函数,权重衰减设置为5×10-4,初始学习率设置为5×10-5,在第15 轮训练结束后学习率设置为原来的1/10。网络总共训练21 轮,在不使用验证集的情况下训练网络,训练损失函数在第15 轮后收敛。在测试过程中,预测图使用Sigmoid 函数将像素预测概率值映射为[0,1]区间内的值,然后再乘以灰度范围255恢复成灰度图。训练网络使用的设备为浪潮英信服务器NP3020M4 和单卡GPU NVIDIA GTX 1080ti。

2.3 评价指标

本文采用F-Measure(Fβ)[23]、平均绝对误差(Mean Absolute Error,MAE)作为评 价指标。其 中,F-Measure 是衡量模型的整体指标,由精确率P和召回率R共同计算得出。首先遍历灰度阈值,将大于阈值的区域定义为显著性目标,低于阈值的区域定义为背景。精确率与召回率的计算公式如下:

其中:TP、FP和FN分别代表真阳性、假阳性和假阴性。Fβ由精确率和召回率加权平均生成,计算公式如下:

为了强化精确率[24]的重要性,其中β2通常被设置为0.3。本文选取精确率-召回率(Precision-Recall,PR)曲线计算的平均值作为Fβ指标,记为Fm。

MAE 指标定义为计算归一化的显著图和真实图之间的平均绝对误差,计算公式如下:

其中:S和G分别指显著图和对应的真实图;H表示显著图的高;W表示显著图的宽;(r,c)表示对应的像素点坐标。MAE 值越小,代表检测的预测图与真实图越接近,检测方法性能越好。

2.4 消融实验

本文进行相关的结构消融实验来验证本文算法的有效性,所有实验都在DUTS 数据集上进行。表1列出了基准网络U-Net、多尺度特征融合模块MFFM和多尺度视觉感知模块MVPM 的定量比较结果。从表1 可以看出:本文提出的MFFM 单独使用时在Fm和MAE 这2 个指标上相比基准网络分别提升0.127、0.048;同时使 用MFFM 和MVPM 时 在Fm和MAE 这2 个指标上相比基准网络分别提升0.142、0.054。MVPM 对MFFM 的增益 在Fm和MAE 这2 个指标上分别为0.015、0.006,虽然增益不高,但是MVPM 的加入使得显著图的边缘轮廓更加清晰连续,有效抑制了背景噪声。

表1 算法使用不同模块时的性能比较Table 1 Performance comparison of algorithms using different modules

如图5 所示,未加入MFFM 模块的网络产生的显著图模糊,边缘轮廓不清晰,背景出现大量噪声,加入了MFFM 的网络能够有效改善以上问题。当加入MVPM 时,整个显著图边缘轮廓的检测效果和背景的抑制能力得到了一定的增强。

图5 不同模块的显著性检测结果比较Fig.5 Comparison of salient detection results of different modules

2.5 MVPM 参数优化实验

MVPM 的核心部分是如何设计空洞卷积,使其能够有效模拟灵长类视觉系统中的感受野,其中的通路设计和空洞卷积膨胀率r选择是MVPM 能否有效捕获显著性目标空间位置信息和抑制背景噪声的关键。为了获得性能更好的参数和通路结构,本文设计多个实验进行ASPP参数选择,实验结果如表2所示,其中,M(4)表示加入主干网络的最后一层输出通路,rate表示采用空洞卷积的膨胀率参数,pool 表示加入全局平均池化通路。从表2 可以看出,当第1 个通路采用主干网络的最后一层输出、其余4个通路采用扩张率r分别为3、5、7、9 的空洞卷积时,MVPM 对检测网络的增益最高,Fm和MAE 这2个指标分别达到0.884和0.035。

表2 本文算法使用不同膨胀率和通路的性能比较Table 2 Performance comparison of this algorithm using different expansion rates and passages

2.6 与其他算法的对比

2.6.1 定量比较

将本文所提算法与7 种先进算法进行比较,包括RANet[25]、PiCANet[26]、BMPM[27]、DGRL[28]、CARCCNet[29]、MLMSNet[30]和LEGS[31]。图6 所 示为本文算法与其他显著性目标检测算法的PR 曲线比较结果(彩色效果见《计算机工程》官网HTML版)。表3 列出了各算法在5 个公开数据集上的Fm和MAE 性能指标比较结果。

表3 8 种算法在5 个数据集上的性能比较结果Table 3 Performance comparison results of eight algorithms on five datasets

图6 8 种算法在5 个数据集上的PR 曲线比较结果Fig.6 Comparison results of PR curves of eight algorithms on five datasets

实验结果表明:对于评价指标Fm,在5 个数据集上本文算法相比RANet 和CARCCNet 平均分别提高0.015 和0.025;对于评价指标MAE,在5 个数据集上本文算法相比RANet、CARCCNet 平均分别降低0.011 和0.016;在图片数量最多的DUTS 数据集和背景更加复杂的SOD 数据集上,相比DGRL 算法,本文算法在Fm指标上提高0.034,在MAE 指标上降低0.009。

2.6.2 定性比较

显著性目标检测旨在从复杂场景中检测出人类视觉注意力最为集中的对象区域,检测结果的优劣依赖于视觉体验,图7 展示了本文算法对显著性目标边缘轮廓和背景噪声的优化结果。图7 的第1 行、第3 行和第4 行分别展示了本文算法检测出显著性目标细节的效果,算法能检测出纤细的海鸥肢体和狗的尾巴,保留了显著性目标的细节结构。图7 的第2 行、第5 行和第6 行分别展示了本文算法对背景噪声的抑制效果。第2 行图片中帆船的背景比较复杂且包含其他船只,部分检测算法受背景影响,显著图边缘轮廓不清晰且背景出现模糊,本文算法能够有效抑制背景噪声;第5 行由于人和排球都是显著性目标,本文算法能检测出整体目标,且排球目标的内部均匀,无灰色阴影孔洞;第6 行的小鹿肢体与复杂自然环境相融,本文算法能够检测出细节信息并抑制复杂的背景噪声。综上,本文算法能够有效增强前景区域,抑制背景噪声区域,保留显著性目标的细节结构信息,检测出的显著性目标边缘清晰且背景干净。

图7 不同算法的显著性目标检测效果对比Fig.7 Comparison of salient target detection effects of different algorithms

3 结束语

本文针对显著性目标检测中显著图边缘不清晰和背景噪声抑制效果差的问题,基于全卷积神经网络提出一种多尺度视觉感知融合的显著性目标检测算法。受灵长类动物视觉系统对视觉信号分层处理的启发,利用空洞卷积模拟具有不同感受野的视觉皮层区域,设计多尺度视觉感知模块进行分层感知学习,有效增强显著性目标前景区域,抑制背景区域。通过特征金字塔将特征映射到不同尺度,结合空间注意力机制将高级语义信息与细节特征混合,在抑制噪声传递的同时有效恢复显著性目标的空间结构信息。实验结果表明,相较于RANet、PiCANet等显著性目标检测算法,本文算法检测出的显著性目标边缘轮廓更加清晰,背景更加干净,各项性能指标都有一定提升。下一步将针对网络轻量化问题进行研究,以在实际应用中进行网络部署。

猜你喜欢
尺度卷积显著性
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
基于傅里叶域卷积表示的目标跟踪算法
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
宇宙的尺度
9