融合多尺度特征与全局上下文信息的X光违禁物品检测

2022-10-21 01:56李晨张辉张邹铨车爱博王耀南
中国图象图形学报 2022年10期
关键词:全局尺度卷积

李晨,张辉, *,张邹铨,车爱博,王耀南

1.长沙理工大学,长沙 410114;2.湖南大学,长沙 410082

0 引 言

X光图像是通过使用X射线照射物体表面,并根据它们的光谱吸收速率用伪颜色渲染成像得到的(Whittig和Allardice,1986)。不同于可见光,X射线本身具有穿透性,可以对一些物体内部信息进行成像显示。因此,X光图像也常用于内部检查任务,如人体胸内损伤检查(陈胜和张茗屋,2016;张智睿 等,2020)、铸件内部缺陷检查(谈绍熙和黄茜,2008)以及安检违禁物品检查等。在早期的安全检查中,由于交通设施普及率低、人流量少,使用X图像无伤检测辅助人工视查的方式足以达到检测速度及效率的要求(郑金州和鲁绍栋,2012)。然而随着全球化和交通运输行业的快速发展以及生活水平的提高,人们的出行次数越来越频繁,旅客运输量和客货运输量不断增多,使得安检人员工作负荷大,检查过程中更易造成漏检及误检(McCarley等,2004),进而造成交通、人流进一步堵塞。

为了提高对违禁物品的检测精度、减轻安检人员的压力以及加快安检速度,人们开始使用传统图像处理技术来处理X光图像中的违禁物品(宋修竹,2014;张宁和朱金福,2015),并用以辅助人工检测。根据侧重方向不同又可以将传统检测方法分为基于图像特征增强和基于图像特征匹配的两种方式。特征增强以手工设计特征为主,如Toyofuku和Schatzki(2005)提出一种基于图像特征(image feature based, IFB)方法,通过直接寻找与违禁品相关的特定曲线图案或纹理特征代替寻找特定的违禁品。韩萍等人(2011)提出了一种两级X光图像增强方法,利用离散小波变换和自适应正弦灰度变换两种变换操作实现两级特征增强,有效地解决了低对比度X光图像在机场安检中的高虚警或高漏警问题。特征匹配则是对现有特征更好的利用,如Mery等人(2015)通过提出一种自适应稀疏表示(adaptive sparse representation, ASR)方法来检测手枪和爆炸物等违禁物品。它包括训练和测试两个阶段,通过在训练阶段构建具有代表性的字典,利用稀疏表示分类(sparse representation classification, SRC)方法对每个测试补丁进行分类,然后利用补丁投票对包含违禁物品的X光图像进行分类。自适应稀疏表示使得模型能够处理较少的约束条件,在一些对比度变异性、类内变异性问题上取得了不错的效果。王宇等人(2017)将两种方法结合在一起,提出了基于Tamura纹理特征和随机森林的X射线异物分类方法。首先使用Contourlet变换得到Taruma纹理特征向量,然后采用随机森林分类器对违禁品图像进行分类判断,完成对X光异物图像进行自动识别。但是由于手工设计的特征提取器捕捉特征能力差,只能捕捉到一些浅层纹理信息,对于一些背景噪声干扰强、目标纹理特征不明显的区域很难提取到有用信息,对尺度变化大和存在透视遮挡的目标违禁物品检测效果不理想。

随着深度学习越来越受到人们关注,越来越强大的深度学习模型(Krizhevsky等,2012;He等,2016)被提出。卷积神经网络因为具有强大的特征提取能力和良好的特征表达能力,在X光违禁物品检测领域得到了广泛的关注和应用(Akçay等,2016;Miao等,2019)。与传统的X光违禁物品检测方法相比,更深的卷积神经网络能够提取更丰富的图像特征信息,大量的非线性变换提高了网络的特征表达能力。同时神经网络的自主学习能力使得检测人员无需设计专门的特征算子,人工成本大幅降低,更利于实现端到端的自动化检测。Liu等人(2019)首次利用颜色信息的前景背景分割方法对从X射线行李安全影像中待测物体进行轮廓分析。然后提出一种深度卷积神经网络(deep convolutional neural networks, DCNN)的对象检测框架Faster R-CNN(Ren等,2015)对X射线图像中不同类型的对象进行分类和定位,对于一些纹理特征和颜色信息丰富的违禁物品取得了较高的检测精度。Gaus等人(2019)首次将细粒度信息引入X光违禁物品检测,提出了用于复杂安全X射线图像内自动异常检测的双卷积神经网络体系结构。利用基于R-CNN(region convolutional neural network)(Girshick等,2014)和Mask R-CNN(He等,2017)的检测架构,为感兴趣的特定对象类别提供对象定位变体,通过建立卷积神经网络(convolutional neural network,CNN)对象和细粒度类别分类方法完成对X光违禁物品的检测。细粒度类别分类又称为子类任务分类,由于子类目标之间特征差异不明显,因此需要更精细的特征信息。常规的特征提取网络很难关注到有局部细微差异的特征信息,导致分类错误。双卷积神经网络可以从X光安检图像中提取更丰富的特征信息,通过可辨识的细粒度特征在对违禁物品子类目标分类问题上取得了不错的效果。但是由于使用两种卷积网络进行检测,导致模型复杂度较高,训练难度大,且模型检测实时性差,难以满足实际应用需求。

上述检测模型提高了对部分违禁物品的检测精度,但是却忽略了不同违禁物品之间可能出现多尺度变化、视觉遮挡等实际问题,导致整体检测精度偏低。Xu等人(2018)提出了一种自上而下的注意机制来增强CNN分类器,以进一步定位违禁物品。通过引入高级语义反馈循环,将目标语义信号映射到输入的X射线图像空间,生成关于特定任务的注意力图来输入图像中禁止物品的位置和大致轮廓。注意力图使模型关注于感兴趣区域,从中提取更丰富的特征信息,降低背景信息干扰,缓解了因背景噪声造成的遮挡现象。但是针对前景遮挡现象,遮挡物体与被遮挡物体都为感兴趣目标,模型缺少全局信息指导,造成漏检现象严重。苏志刚和姚少卿(2020)提出了一种基于语义分割技术的多目标违禁品识别算法。在编码阶段使用空洞空间金字塔卷积模块(atrous spatial pyramid convention block,ASPC)和注意力机制对X光图像进行特征编码,通过逐级上采样操作输出预测掩码,实现对多目标违禁物品的检测。张友康等人(2020)在一阶段目标检测网络SSD框架的基础上,提出了适用于X光安检图像多尺度违禁品的非对称卷积多视野神经网络(asymmetrical convolution multi-view neural network, ACMNet)。通过使用小卷积非对称模块、空洞多视野卷积模块和多尺度特征图融合策略提高对小尺度违禁品的识别能力并解决可能出现的遮挡问题。上述两种方法以空洞卷积为基础,分别通过空洞空间金字塔卷积模块和空洞多视野卷积模块提高网络感受野,获取全局上下文特征信息,缓解视觉遮挡问题。ACMNet还通过将全局信息与局部信息相结合的方式进一步增强特征表达能力来应对物体遮挡问题。然而空洞卷积获取全局上下文特征信息能力有限,较大的空洞率会产生退化现象和网格效应,使得基于空洞卷积模型获取的全局上下文信息存在不连续、特征稀疏性等问题,对全局信息利用率不足。

针对X光违禁物品检测中出现的小目标检测、复杂背景噪声干扰和视觉遮挡问题,提出一种融合多尺度特征与全局上下文信息的特征增强融合网络(feature enhancement fusion network, FEFNet),抑制背景噪声干扰,解决视觉遮挡问题,提高对违禁物品的检测精度。本文主要贡献包括:

1)提出特征增强融合策略,使用坐标注意力增强主干网络特征提取能力,提高显著性区域特征,降低背景噪声干扰。利用自监督二阶融合生成密集空间像素相关性矩阵获取连续的全局上下文特征信息,提高对全局信息的利用率,解决视觉遮挡问题。

2)使用多尺度检测与跨尺度融合策略,解决违禁物品尺度不一的问题,提高对小尺度目标的检测能力。同时跨尺度连接方式使得全局上下文特征信息与不同感受野的局部区域特征信息相结合,提高特征表达能力,缓解违禁物品之间的视觉遮挡现象。

3)本文在SIXray-Lite违禁物品数据集上进行验证,并与SSD(single shot detection),RetinaNet,Faster R-CNN,YOLOv5(you only look once)等目标检测网络和ACMNet违禁物品检测网络进行了对比。实验结果显示,本文方法增强了对多尺度及小目标违禁物品的检测能力,缓解了视觉遮挡现象,提高了模型整体检测精度。

1 FEFNet网络

FEFNet以YOLOv3目标检测网络为基础,增加特征增强融合模块(feature enhancement fusion module,FEFM)和多尺度融合特征金字塔模块(multi-scale fusion future pyramid module,MFFP),提高多尺度目标检测能力,获取完整的全局上下文特征信息,缓解视觉遮挡问题。特征增强融合网络的整体框图如图1所示,其中CBL(convolution bn leaky-rule)表示由卷积层、归一化层、激活层组成的卷积单元。FEFM模块由坐标注意力(coordinate attention, CA)(Hou等,2021)和自监督二阶融合(self-supervised second-order fusion, SOF)两部分组成。坐标注意力应用在YOLOv3(Redmon和Farhadi,2018)的特征提取主干网络darknet53中,将空间坐标位置信息通过两个1维卷积分别从X方向和Y方向嵌入到通道信息,增强特征通道的表达能力,提高主干网络对前景目标区域的特征提取能力,降低背景噪声干扰。同时,将2维卷积分解为两个不同方向的1维卷积,降低卷积复杂度,提高卷积运算效率。自监督二阶融合模块受自注意力机制与同源双线性融合(闫子旭 等,2021)的启发,对特征提取主干网络输出的增强特征进一步融合。首先使用1×1卷积压缩通道特征,降低运算量,然后使用二阶融合获取特征像素之间的密集映射相关性矩阵,通过相关性矩阵获取特征像素之间的全局上下文特征信息,利用全局上下文特征信息缓解违禁物品之间的视觉遮挡问题。MFFP模块在原有特征金字塔网络的基础上增加一层大尺度预测特征提高对小物体违禁目标的检测能力,同时4种不同尺度的预测特征和不同尺寸的先验框可以很好地应对违禁物品形状差异大、尺度规模不一的问题。MFFP模块中的跨尺度融合策略可以将融合得到的全局上下文特征信息直接与不同尺度的预测特征进行特征融合,不同尺度的预测特征提供了不同感受野大小的局部特征信息。通过将全局上下文特征信息和局部特征信息相结合的方式,以全局信息为指导,结合局部细节特征,进一步缓解了不同尺度下违禁物品之间的视觉遮挡问题。

图1 FEFNet网络整体框架

1.1 特征增强融合模块

特征增强融合模块共包括两部分,分别为坐标注意力和自监督二阶融合。坐标注意力通过在特征提取主干网络加入注意力机制,增强主干网络的特征提取能力。将目标空间坐标位置信息编码在通道维度,利用不同通道之间的激活映射提高局部显著目标区域的关注能力,抑制背景噪声干扰。由于空洞卷积自身的退化效应和网格效应,以及不同膨胀率带来的卷积核稀疏映射,导致基于堆叠的空洞卷积模块难以获取完整的全局上下文信息。自监督二阶融合模块通过对特征信息进行二阶线性融合获取特征空间像素相关性矩阵,相关性矩阵包含了所有空间特征像素之间的密集映射关系。这种一一对应的映射关系保留了空间特征的长距离上下文依赖关系,提供了更丰富、更密集的全局上下文信息。对存在遮挡区域,由于只能提取到违禁物品的部分特征,难以确定违禁物品所属类别。特征增强融合模块使用坐标注意力增强局部细节特征提取能力的同时利用自监督二阶融合获取全局的上下文信息,从全局视野的角度对遮挡区域进行信息补充,缓解了视觉遮挡现象。

1.1.1 坐标注意力

坐标注意力模块(coordinate attention module,CAM)位于原始特征提取主干网络darknet53的最后4个残差阶段中。与直接利用全局池化操作将特征张量转换为单个特征向量的通道注意力(convolutional block attention module, CBAM)(Woo等,2018)不同,CAM对特征张量进行2维编码,分别沿2个空间方向聚合特征,在沿一个空间方向捕获远程依赖关系同时沿另一空间方向保留精确的位置信息。最后,将生成的特征图分别编码为一对方向感知和位置敏感的注意力图,互补地应用于输入特征,以增强关注对象的表示。其中CAM流程框图如图2所示。

图2 坐标注意力流程框图

1)将残差阶段的输出特征图x∈RC×H×W在W和H两个方向上分别进行全局池化。输出特征zh∈RC×H×1,zw∈RC×1×W,公式为

(1)

式中,H为特征图x的长度,W为特征图x的宽度。

2)对于式(1)输出的特征zh和zw,首先在空间维度上进行融合,然后经过卷积F和激活δ操作得到聚合后的特征f∈RC/r×1×(H+W),卷积F利用通道因子r对通道维度进行降维至C/r维来减少计算量。

f=δ(F([zh,zw]))

(2)

式中,[·,·]为拼接操作,F为卷积操作,δ为非线性激活函数,即图2中的Sigmoid。

3)沿着空间维度把f分解成两个单独的张量fh∈RC/r×H×1和fw∈RC/r×1×W,对fh和fw分别使用卷积Fh,Fw和激活δ操作,得到W和H两个方向上的注意力向量gh∈RC×H×1和gw∈RC×1×W

(3)

4)最后,将得到的注意力向量应用在输入特征上,得到最终的特征表示y∈RC×H×W

y(i,j)=x(i,j)×gh(i)×gw(j)

(4)

式(4)使用广播机制将W方向特征gw(j)和H方向特征gh(i)叠加在输入特征x上,并保持输出特征图y(i,j)和输出特征图x(i,j)的尺寸大小一致。

1.1.2 自监督二阶融合

自监督二阶融合模块以特征提取主干网络的最高维输出特征图作为输入,该特征图经过多次降采样操作,拥有更大的感受野,可以提供更丰富的语义信息和全局信息。在此基础上通过对高维空间特征向量进行二阶线性融合,重新整合不同空间位置的依赖关系,获取密集的空间位置信息相关性矩阵。最后通过这种一一对应的空间位置相关性输出包含全局上下文信息的融合特征,融合模块具体结构如图3所示。

图3 自监督二阶融合结构图

具体地,该模块以特征提取主干网络输出的特征图F∈RC×H×W作为输入,分别经过两个1×1的卷积对输入特征F的通道维度进行降维1/r用于降低网络计算量以及模型复杂度,得到两个特征图F1∈RC/r×H×W和F2∈RC/r×H×W。然后将两个特征分别在空间维度上拉伸得到两个空间向量V1∈RC/r×N和V2∈RC/r×N,其中N=H×W。最后利用双线性池化(矩阵乘法)对特征向量V1和V2进行二阶融合得到空间融合矩阵,空间融合矩阵编码了不同特征像素位置之间的全局表示,并使用Softmax激活函数对空间位置的激活响应进行归一化处理。

(5)

式中,Sji表示空间像素上第i个位置对第j个位置的编码,Vij表示特征向量Vi的第j个元素。

同时,对原特征图F∈RC×H×W做V1,V2相同操作得到空间向量V3∈RC/r×N,将空间融合矩阵应用在空间向量V3上并于原始特征进行残差连接后得到输出特征E∈RC/r×H×W,即

(6)

式中,N为空间融合矩阵S的维度,C/r表示特征图的通道维度。

最后,将特征图E经过一个1×1卷积将通道映射回原始输入通道大小,最后将融合后的空间特征相关性矩阵以残差结构的形式应用在输出特征上,获取特征的全局上下文关系表示。

1.2 多尺度融合特征金字塔模块

在安检领域的X光违禁物品检测中,由于乘客携带的物品种类繁多,包含的违禁物品之间也形状各异,尺度不一。YOLOv3网络借鉴FPN(feature pyramid networks)的思想,使用不同降采样率的特征图对不同尺度大小的违禁物品进行检测。降采样率越高,特征感受野信息越大,对大尺度目标检测能力越强,反之,小感受野特征图对小目标有较强的检测能力。对于一些小型违禁物品,过大的降采样率使得小尺度目标的特征信息丢失或者被忽略,导致网络在预测阶段因缺乏足够的特征信息而造成漏检误检,降低了模型的整体检测精度。因此,在原有特征金字塔结构的基础上增加一层降采样率为1/4的特征图(104×104像素),保留更多小尺度目标的特征信息,提高模型对小尺度目标的召回率。坐标注意力提取可辨识的显著特征,并将这种特征编码在通道维度上,不同的通道位置代表不同显著特征的激活映射。在金字塔特征融合时,应尽可能保留来自提取层的特征激活映射响应,而不是重新进行特征选择。因此,在特征提取层和金字塔特征融合阶段,使用元素加和操作替代原有的通道拼接操作,将来自坐标注意力的激活响应特征值直接加和在多尺度的金字塔特征上。加和操作可以保留更多的原始特征信息,同时拥有更少的计算量和参数量。最后,将全局上下文特征信息通过特征金字塔与不同尺度的预测特征相结合,全局的语义信息对质地相近的违禁品轮廓信息进行判断,局部信息可以提供更多的细节补充,共同完成在全局视野下遮挡违禁物品的特征学习。MFFP的具体结构如图4所示。

图4 多尺度融合金字塔结构图

具体地,MFFP模块共包括3大改进:1)在特征提取主干网络的第2个残差阶段后增加一层104×104像素的小感受野特征图,提高对小尺度物体的检测能力;2)将特征层拼接操作改为元素加和操作,保留了特征提取主干网络中坐标注意力编码的注意力特征激活映射,同时元素加和操作降低了模型计算量;3)将特征增强融合输出的全局上下文特征信息与包含多个不同局部感受野信息的特征金字塔层进行特征并建立直接残差连接,利用全局和局部信息相结合的方式缓解视觉遮挡问题。

2 实验与分析

2.1 X光违禁物品数据集

2.1.1 实验数据介绍

X光违禁物品数据集SIXray共包括1059 231幅X光图像,其中包含违禁物品类别的图像8 929幅,共分为5类。分别为包含枪的图像3 131幅、刀1 943幅、扳手2 199幅、钳子3 961 幅和剪刀983幅,5类违禁物品展示如图5所示。

图5 违禁物品类别样例展示

在SIXRay数据集中,根据遮挡物的不同,存在的视觉遮挡现象可以分为背景遮挡和前景遮挡两种,如图6所示。背景遮挡(图6(b))是待检测物体被无关背景噪声覆盖,而前景遮挡(图6(c))意味着被遮挡物体和遮挡物体都是待检测目标。

图6 违禁物品遮挡情况示例

SIXray数据集样本中包含大量不含违禁物品的未标注样本,只有小部分为带有正确标注的可用样本。因此本文对SIXray数据集进行重新整理,将带有标注信息的8 908幅样本子集作为本次实验数据集。8 908幅数据样本中,7 408幅图像作为训练集用于模型训练,1 500幅图像作为测试集用于模型评估,最后将划分好的数据集转换为PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)统一标注格式用于训练和测试。将整理后的数据集命名为SIXray-Lite,训练集和测试集中包含不同违禁物品数量如表1所示。

表1 SIXray-Lite数据集违禁物品数量统计

2.1.2 先验框设计

在基于先验框(anchor)的目标检测框架中,由于先验框的存在,使得回归问题被替换为选择问题,只需从有限的预测框中挑选出包含物体的框并进行分类,而不是从无限的范围内直接回归出框的坐标。预测框由先验框生成,因此先验框的选择对网络模型的性能起着重要作用。先验框由待检测物体本身的形状和尺寸决定,不同的数据集会对应不同的先验框。对于SIXray违禁物品数据集,使用K-means维度聚类的方法对包含的违禁物品进行聚类分析,使得先验框尺寸和违禁物品尺寸更匹配,设计更适合SIXray-Lite数据集的先验框参数。具体地,将416×416像素的X光图像作为输入图像,对数据集中所有的正样本标记框进行维度聚类,并计算不同聚类数目下的平均交并比,如图7所示。

图7 锚框的不同聚类数目和平均交并比

聚类过程中使用处理后的交并比(intersection-over-union, IoU)作为欧氏距离,这是因为在聚类过程中,认为正样本框和聚类中心重合度越高代表距离越短,而与正样本框本身的大小没有关系,IoU距离计算为

dis(box,center)=1-fIoU(box,center)

(7)

式中,box表示正样本框,center表示聚类中心。fIoU(box,center)为聚类中心框和正样本框的交并比,表示预测框的准确程度,计算为

(8)

式中,下标pre表示预测结果,gt表示真实样本,S为框的面积,∩计算两个框之间的交集面积,∪计算两个框之间的并集面积。

最终,综合考虑模型的检测效率和准确率,选择12个anchor作为先验框,平均分配到特征金字塔的4个输出特征图上。具体的分配如表2所示。

表2 先验框的分配结果

2.2 实验细节与评价指标

2.2.1 实验参数

实验中所用到的开发环境为:1)Ubuntu 16.04操作系统;2)CPU为Inter core i7-6700K;3)GPU为NVIDIA GeForce GTX 1080Ti 16 GB;4)模型和对比实验均在开源框架Pytorch下完成。模型训练过程中采用了多尺度训练策略,其余部分实验参数如表3所示,其中SGD(stochastic gradient descent)为随机梯度下降优化器。

表3 部分实验参数设置

2.2.2 评估指标

为了验证模型在SIXray-Lite数据集上的检测性能以及更好地对比实验,实验选取的评估方式如下:

1)精度(precision,P)和召回率(recall,R)。精确度(P)是真实正样本(true positive, TP)的数量除以真实正样本和错误正样本(false positive, FP)数量的和。召回率(R)是真实正样本(TP)的数量除以真实正样本(TP)和错误负样本(false negative, FN)数量的和。具体计算为

(9)

2)平均精度(average precision, AP)和平均精度均值(mean average precision, mAP):通过式(9)可以得到一组精度(precision)和召回率(recall),通过改变置信度阈值,可以得到多组精确度和召回率,将这些值按照横轴为召回率,纵轴为精度进行绘制,得到精度—召回率曲线(precision-recall curve,P-R Curve)。P-R曲线展示精度和召回率之间的权衡,曲线下面积代表该类别的平均精度AP,平均精度均值mAP是所有类别AP的均值,计算为

(10)

式中,n为置信度阈值取值个数,N为违禁物品类别个数,R为召回率,P为精度。

3)每秒帧数(frames per second, FPS)。安检领域的违禁物品检测需要满足实时性要求,因此需要在很短的时间内确认乘客是否携带了违禁物品,检测速度评估尤为重要。FPS用于描述检测模型每秒能够检测的图像数量,FPS值越大,模型检测速度越快。本文的FPS测试指标均在Ubuntu16.04,NVIDIA GPU 1080Ti下完成。

4)计算量(floating point operations, FLOPs)。即浮点运算数,表示前向传播时所需的计算能力,用来衡量不同模型之间的复杂度。

2.3 FEFNet网络对比实验

为了验证特征增强融合网络FEFNet在X光违禁物品检测上的性能,进行多组对比实验并对不同的实验结果进行分析。对比实验包含两部分,第1部分为消融实验,对所提两种模块进行验证并分析实验结果。第2部分为对不同检测模型之间的性能指标进行对比,对比模型包括SSD(Liu等,2016),Faster R-CNN,RetinaNet(Lin等,2017),YOLOv5和ACMNet(张友康 等,2020)。

2.3.1 消融实验

为了定量分析特征增强融合模块和多尺度融合特征金字塔模块在X光违禁物品上的检测性能,设计了模型消融实验。在YOLOv3模型的基础上分别添加改进模块并与改进前进行实验对比。实验内容以及检测结果如表4所示,不同的检测模型在不同违禁物品类别上的检测精度如图8所示。

助力城市经济发展,将文化资源有效转变为文化资产。传统的城市经济发展模式和产业结构往往有高投入、高耗能、高排放、低效益的特点,亟待转变原有经济发展模式,调整产业结构,走资源节约型、环境优化型道路。在这样的背景下,文化作为重要的经济活动体现,其本身具有独特的优势。在市场经济条件下,文化不单是一种意识形态,也是一种资产。文化营销具有极强的传导性、扩散性,不但能帮助产业结构调整,还有助于提升城市影响力,并大大改善城市投资环境,为城市经济可持续发展提供强劲的支撑和有力保障。文化营销,已经成为促进城市发展的有效动力。

表4 消融实验结果对比

图8 不同模型在不同类别上的检测平均精度对比

关于消融实验的具体结果分析如下:

1)模型1(YOLOv3+FEFM)的检测平均精度均值mAP相较于改进前提高了6.78%,在刀和剪刀的平均精度AP提升最多,分别为10.34%和11.68%。在SIXray-Lite违禁物品数据集中,刀和剪刀类别存在大量视觉遮挡现象,特征增强融合中的自监督二阶融合策略通过特征空间像素相关性矩阵获取全局上下文信息,缓解视觉遮挡现象,提高对遮挡区域目标的检测能力。此外,剪刀类别在5类物品中数据样本占比最小,常规的特征提取网络提取的特征有限,不能从少量样本中提取出足够的特征信息。加入坐标注意力的特征提取网络能够提高对目标显著性区域的关注,降低背景干扰信息,在只有少量训练数据情况下也能较好地完成对剪刀类别的特征提取,进一步提高了模型的整体检测精度。

2)模型2(YOLOv3+MFFP)的检测平均精度均值mAP相比于YOLOv3提高了5.39%,其中刀和剪刀的平均精度AP提升最多,分别为9.02%和7.49%。MFFP模块带来的性能提升主要在多尺度检测和小目标检测。在SIXRay-Lite数据集中,5种类别的违禁物品尺度大小不一,且属于同一类的违禁物品之间也包含不同尺度和形状的子类,增大了检测难度。MFFP通过4个感受野大小不同的特征层来预测不同尺度的违禁目标,解决了违禁物品之间的多尺度变化问题。此外,针对剪刀类别在5种违禁物品中多为小尺寸,增加的一层小感受野特征层(104×104像素)有效地提高了模型对剪刀类别的检测能力。

3)FEFNet模型融合了上述2种改进算法,检测效果相较于单独的每一项改进都有提升,实验结果表明FEFNet模型的检测平均精度均值mAP为85.64%,较原始的YOLOv3提高了11.24%,在5类违禁物品上都有不同程度的提升。FEFNet在特征增强融合模块和多尺度融合特征金字塔模块带来性能提升的同时,将特征增强融合模块中的全局上下文信息与多尺度融合特征金字塔模块中不同感受野大小的预测层进行残差融合。通过将全局上下文信息和局部特征细节信息相结合的方式,以全局信息为指导,结合局部细节特征缓解视觉遮挡现象,在提升多尺度检测能力的同时也解决了多尺度场景下的不同违禁物品视觉遮挡问题。

2.3.2 不同检测模型对比实验

为了进一步验证所提检测模型FEFNet的有效性,设计了不同检测模型之间的对比实验。同时为了更好地对比模型本身差异带来的性能影响,在训练阶段选用相同的超参数设置,包括模型配置参数和数据增强策略,保持输入图像尺寸为模型本身建议输入尺寸。本文列出了不同模型在SIXray-Lite数据集上的性能指标,包括每类的平均精度(AP),所有类别的平均精度均值(mAP),预测每幅图像所用的推理时间(ms),每秒帧数(FPS)和模型的计算量(FLOPs),如表5所示。绘制了不同对比模型在不同类别下的P-R曲线,曲线与X轴(precision)和Y轴(recall)所围成的面积记为平均精度,面积越大代表模型性能越好,具体指标结果如图9所示。最后,可视化不同对比模型在SIXray-Lite数据集上的检测结果,如图10所示。

图9 不同类别违禁物品的P-R曲线

表5 不同模型实验结果对比

关于不同模型对比的结果分析具体如下:

1)SSD是单阶段的目标检测模型,其优势在于模型参数少、计算量小、检测速度快,如表5所示。SSD的平均每幅图像的检测时间为19.33 ms,FPS高达51.73 帧/s,是对比模型中检测速度最快的,但是SSD的检测精度是较低的,平均精度均值mAP只有71.67%。SSD使用VGG(Visual Geometry Group)作为特征提取主干网络,相比于ResNet和darknet53,VGG网络深度不够,缺少残差连接,特征提取能力弱。SSD模型虽然采用多尺度特征预测,但是没有FPN层上采样融合操作,对多尺度信息融合不足。对于存在视觉遮挡区域,如图10中图像2—4,缺乏全局上下文信息,漏检现象严重,导致整体检测精度较低。

2)YOLOv3的平均精度均值mAP为74.40%,平均每幅图像检测时间为22.00 ms,FPS为45.45 帧/s。相比于SSD,YOLOv3使用了特征提取能力更强的主干网络darknet53,因此参数更多、计算量更大。在特征金字塔层,由于缺少小感受野信息的预测特征层,使得模型无法获取小尺度目标的完整信息,造成大量漏检现象,如图10中图像2左下角的小手枪和图10中图像5左下角的小剪刀。对于存在视觉遮挡现象的违禁物品,如图10中图像2—4,YOLOv3缺少全局上下文特征信息指导,仅使用局部特征信息对遮挡目标进行直接检测,导致出现大量漏检,整体检测精度偏低。

3)RetinaNet的平均精度均值mAP为78.24%,平均每幅图像检测时间为30.67 ms,FPS为32.61帧/s,相比于YOLOv3,mAP 提高了3.84%。RetinaNet采用一步预测法,在预测时采用密集框预测,为了提高模型的召回率,尽可能保留更多的预测结果,最后使用NMS(non-maximum suppression)抑制不合适的框,保留正确的预测框。这种策略使得RetinaNet具有更高的召回率,间接地提高对重叠目标的检出率,如图10中图像2和3。但是RetinaNet模型对局部细节特征提取能力较弱,缺少全局上下文信息指导,对视觉遮挡目标容易出现漏检,如图10中中图像5和6。即使被密集预测机制正确检出遮挡目标,其类别预测精度通常也不高,图10中图像3中刀的类别预测精度仅为0.45。基于密集框预测的结果在NMS抑制效果不足的情况下会出现大量冗余预测框,如图10中图像1所示,降低了模型整体的检测精度。

图10 SIXRay-Lite数据集上不同模型测试结果

4)Faster R-CNN是经典的两阶段目标检测模型,模型中间的RPN(region proposal network)层可以很好地去除负样本,有效解决了正负样本分配不均衡的问题。由于Faster R-CNN的结构复杂、计算量大,在提高检测精度的同时,检测速度也会随之降低。Faster R-CNN的平均精度均值mAP为80.16%,平均每幅图像检测时间为38.67 ms,FPS为25.86帧/s。Faster R-CNN 首先通过RPN筛选了一部分负样本,避免了这些无效负样本对后续网络的影响。因此,Faster R-CNN相较于RetinaNet在保证正确预测的同时减少了包含同一物体的重复框个数,如图10中图像1和5。Faster R-CNN网络中同样缺少对特征的全局上下文信息获取能力,同时RPN阶段的负样本过滤机制使得在存在视觉遮挡目标上检测效果甚至不如RetinaNet,如图10中图像2和3。但是两阶段的检测策略使得Faster R-CNN在无遮挡区域或者少遮挡区域,如图10中图像1和5,具有较好的检测效果,因此整体检测性能高于RetinaNet。

5)YOLOv5的平均精度均值mAP为82.03%,平均每幅图像检测时间为29.26 ms,FPS为34.18帧/s。YOLOv5将特征提取网络darknet53替换为CSPDarknet53(cross stage partial darknet53),利用CSP残差结构增强特征提取能力,同时在FPN加入路径增强(path aggregation feature pyramid networks, PAFPN)融合,对多尺度特征进行增强融合。路径增强融合操作将CSPDarknet53输出的高维语义信息与局部多尺度特征信息充分融合,提供了解决视觉遮挡问题的可能性,如图10中图像2和4。但是在图10中图像4中,由于融合的高维语义信息有限,缺少足够的全局上下文信息,对其中一支手枪的预测概率值只有0.38,且预测框匹配程度也不如FEFNet。此外,对于一些复杂视觉遮挡中,如图10中图像3和6,YOLOv5模型出现大量漏检,影响了模型整体检测精度。

6)本文提出的检测模型FEFNet的平均精度均值mAP为85.64%,较改进前的YOLOv3提高了11.24%。平均每幅图像检测时间为32.00 ms,FPS为31.25帧/s,在刀、钳子和剪刀类别上均达到了最优的检测结果。FEFNet通过坐标注意力提高特征提取主干网络的特征提取能力,抑制背景噪声干扰。自监督二阶融合策略获取密集的特征空间像素相关性矩阵,进而获取完整的全局上下文信息。同时利用多尺度融合金字塔结构,将全局上下文信息与金字塔预测层的局部特征信息相结合,提高了模型对视觉遮挡目标的检测能力,缓解了视觉遮挡现象。在图10中图像1—4中,均存在不同程度的视觉遮挡现象,FEFNet都能较好地将违禁物品检测出来。不同于RetinaNet和YOLOv5,FEFNet模型检测出的违禁物品类别预测概率值都很高。如图10中图像3对两把刀的类别预测率分别为0.94和1.00,优于RetinaNet的0.45和0.95;图10中图像4中对两把手枪的类别预测率分别为0.80和1.00,优于YOLOv5的0.38和0.99。多尺度融合特征金字塔通过一层小感受野预测层(104×104像素)提高对小尺度目标的检测能力。在无遮挡环境下,如图10中图像2和5,原始YOLOv3对图10中图像2中左下角的小手枪和图10中图像5中左下角的小剪刀均出现了漏检,而FEFNet则更准确地完成了对小尺度目标的检测。对多目标遮挡严重的情况,如图10中图像6,FEFNet还有很大的提升空间。FEFNet虽然可以在全局上下文特征信息的指导下成功将5支手枪检出,但是对于密集遮挡区域的局部特征信息提取还不充分,导致最后的回归框存在预测偏差,不能较好地覆盖检测目标。

在模型对比实验中,ACMNet和FEFNet在X光违禁物品检测上取得了较好的检测结果,证明了通过全局上下文特征信息和局部细节特征信息相结合的方式有助于解决违禁物品之间的视觉遮挡问题。与ACMNet相比,FEFNet在单个剪刀类别上提高了3.70%。这是由于剪刀类别多为小尺度目标,额外增加的一层小感受野特征图有效地提高了对小尺度目标的检测能力。实验结果验证了多尺度特征加小感受野检测方法在对小尺度目标的检测上优于非对称卷积多视野神经网络。在多为复杂背景的扳手类别,FEFNet的检测效果较ACMNet下降了1.95%,说明了在复杂背景检测下,坐标注意力抑制背景噪声的能力仍有不足,使用多尺度特征图融合策略在复杂背景噪声干扰问题上要略优于坐标注意力方法。总之,与ACMNet相比,FEFNet模型在平均精度均值mAP上提高了1.34%,在刀、钳子和剪刀类别上均取得了较优的检测效果。实验结果表明通过使用二阶融合策略可以获取更完整的全局上下文信息,相较于空洞卷积的稀疏性,自监督二阶融合模块获得的全局上下文信息更密集,能够提供更丰富的全局监督信息,解决了违禁物品之间的视觉遮挡问题,提升了模型整体检测精度。

3 结 论

针对安检领域的X光违禁物品检测,本文提出一种融合多尺度特征与全局上下文信息的特征增强融合网络,实现对尺度特征变化大、存在视觉重叠遮挡的违禁物品目标进行准确检测,提高多类违禁物品的检测精度。特征增强融合模块通过坐标注意力增强特征提取主干网络的特征提取能力,抑制背景噪声干扰。将提取的特征通过自监督二阶融合获取全局上下文特征信息,解决背景遮挡问题。多尺度检测和跨尺度融合有助于提高对多尺度违禁目标的检测能力,通过将全局信息和不同感受野的局部特征相结合的方式,缓解前景目标之间相互遮挡带来的漏检问题。实验结果表明,本文提出的特征增强融合模型对SIXray-Lite数据集的检测精度mAP为85.64%,检测速度为31.25 帧/s。相较于其他检测模型,可以在不影响检测效率的前提下达到较高的检测精度,提升了对不同尺度目标物体的检测能力,解决了违禁物品之间的视觉遮挡问题。

虽然特征增强融合网络缓解了视觉遮挡现象,但是对于一些少量的密集复杂背景遮挡区域,由于遮挡区域面积较高,导致局部特征严重重叠,特征提取网络很难从中捕获差异信息,造成漏检误检现象。因此如何提高对密集遮挡区域目标的召回率是下一步研究的问题。此外,SIXray数据集中同时也包含了大量未标记样本,如何进一步结合半监督学习,利用已标记样本和未标记样本同时学习的方式提高模型的泛化能力也是下一步的研究工作。

猜你喜欢
全局尺度卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于改进空间通道信息的全局烟雾注意网络
环境史衰败论叙事的正误及其评判尺度
领导者的全局观
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
落子山东,意在全局
以长时间尺度看世界
统筹全局的艺术