孙 楠
(1.苏州大学计算机科学与技术学院,江苏 苏州 215006;2.江苏省计算机信息处理技术重点实验室)
目标检测是计算机视觉重要的研究领域之一,其主要针对图像中目标位置的定位与目标分类的识别,是众多高层次视觉语义任务的基础。近年来,由于卷积神经网络(CNN)的蓬勃发展,诸多先进的算法与模型已经被应用到目标检测领域[1,2]。
本文在单阶段检测模型SSD 的基础上进行优化。SSD 模型利用VGG-16 作为主干网络,抽取若干特征层构建特征金字塔,采用先验框的方式,对不同尺度的目标分别进行预测。其具有检测速度快,对目标的尺度变化具有鲁棒性,检测精度高等特点。但是SSD依然存在不少问题,首先,尽管SSD 通过引入多尺度特征金字塔,使得其能检测不同尺度下的目标,但却不能很好地捕获单一尺度下的语义信息,对于单一的某层特征,其往往具有非常局限的感受野。此外,SSD并没有对目标定位与目标分类这两种截然不同的特征进行区分,从而降低了模型对特定特征的敏感性,进一步降低检测精度。
提高目标检测精度有着重要的研究意义与应用价值[3]。为此,SSD 作者本人提出了DSSD[4],使用去卷积层的方式来加强浅层特征图表征能力,对整个SSD模型精度有不小的提升,但由于加入大量反卷积操作,使得模型的检测速率有所下降。
为了缓解SSD 模型的缺陷,本文做出如下改进:①将主干网络换成表征能力更强的ResNet-50;②引入扩展融合卷积,改造特征金字塔,增强感受野;③增强预测器对目标的位置信息与类别信息的辨别能力。
本文对其进行如图1 所示的改进。使用ResNet-50 作为主干网络,以提高模型的表征能力。提取ResNet-50 中的三个特征层作为主干网络对特征的提取结果,并添加四个被本文称之为扩展融合卷积的模块,以构建完整的特征金字塔。此外在分类器与回归器之前引入残差结构以增强预测器对目标的位置信息与类别信息的辨别能力。
图1 FASSD模型结构图
值得注意的是仅仅将VGG 替换成ResNet 并不能提升SSD 的准确度。经过相关消融实验后发现,只是增强主干网络的表征能力,SSD 仍然无法准确定位和识别这些特定的语义信息,导致SSD 的整体性能反而出现下降的现象。
本文引入一种新的方式去增强特征层的表达能力,称为扩展融合卷积(Fusion Atrous Convolution,简称FAC),其改变了原有构建特征金字塔的方式。如图1所示,该模块是个三路结构,分别对输入的特征进行最大池化,多组空洞卷积和普通卷积,卷积核的大小设置为3,直到最终特征图尺寸为原先的一半,对三路特征进行拼接,最终使用1x1 的卷积对三路特征进行融合。该模块在使用空洞卷积增强感受野的同时,使用普通卷积来弥补空洞卷积带来的信息丢失,同时利用了最大池化的特性,增强主要特征。其有效增强SSD对单一尺度下的语义信息的提取。
原始SSD 中,送入分类器与回归器的特征是相同的,但这两者需要的语义信息却截然不同,且随着主干网络的表征能力的增强,其语义信息也更加复杂,为了让两者能更有效的定位和识别特定的语义信息,本文对最后的预测模块进行了改进。
本文在预测器前面增加了新的双路残差结构。如图1 所示,特征被送入分类器(Cls)和回归器(Loc)之前,会分别经过三个残差块,由于分类器需要的是目标的类别信息,而回归器需要的是目标位置信息,因此本文修改了原始SSD 对两种特征不加以区分的做法,将之拆分后,每组残差块只专注于对应的语义信息。其中残差块,由两组3x3卷积加上BatchNorm与gelu激活函数组成,且保持前后通道数不变,尺寸不变。
整个损失函数是由置信度损失函数和位置损失函数组成,分别对应目标的分类与目标位置的回归。整个损失函数表达式为:
其中,置信度损失函数为Lconf,位置损失函数为Lloc。c 代表类别置信度预测值,l 为预测框位置参数,g 为真实框参数。α 是权重参数,本文取值为1。x 代表预测框是否匹配真实框(ground truth),取值为1 或0,代表匹配或不匹配。
本文采用交叉熵置信度损失函数,其公式为:
由于正负样本相差巨大,本文采用Hard negative mining 的方式选取负样本,以确保正、负样本的比例维持1:3[5]。
在对预测框的回归中,使用参数化坐标进行回归,其公式为:
为了增强模型的鲁棒性,本文对原始数据集进行了数据增强(Data Augment)。采用类似的在线增强方法,对一组batch采用部分抽样的方式进行随机缩放与变形,并对色彩三通道进行轻微的抖动后,同时对大目标随机引入高斯噪声,该方法对防止过拟合比较有效。
本文实验使用的图像处理器驱动为CUDA11.2与Cudnn8.1,并在单张Tesla V100 SXM2(32GB)上进行。采用PASCAL VOC 数据集来训练和评估模型性能,使用AP(Average Precision,即平均精度)作为评价指标。
在VOC 数据集上,采用mAP 的方式评估性能模型,mAP 是所有类别AP 值的平均值,并选择交并比(Intersection over Union)为0.5 作为阈值,测量各个类别的AP值,计算mAP。表1展示了各种检测模型和本模型在VOC07+12上的对比。
表1 不同SSD模型对比
其中SSD300*和SSD512*是SSD 采用了新的数据增强技巧所获得的结果。在输入大小同为512的情况下,本文模型的mAP 值超过SSD 模型7.6%,超过ISSD4%,相较于RSSD 和DSSD 也分别提高了1.7%和1%,且检测速度也优于后者。
本文针对SSD 模型单层感受野局限,对不同特征的分辨能力不强的缺陷,提出了FASSD 模型,通过两个优化策略来提高SSD 模型的精度,并在基准数据集上证明它的有效性。从实验结果可以看出,本文模型对不同尺度的目标的检测有着较大的提升,在检测精度和检测速度上都超越了很多以往的SSD 框架下的模型。