吴素雪
(广东第二师范学院物理与信息工程学院,广州 510303)
随着经济发展和贸易往来的日益频繁,我国在重要交通枢纽和人员密集的公共场所对旅客及其行李实施安全检查,维护公共场所的安全和秩序,保证国民人身安全和财产安全。目前,行李安全检查主要是依赖安检员对经过X光安检机生成的伪彩色图像进行判读和识别。面对客流高峰和高速通行矛盾问题,容易导致疲劳和注意力下降等各种因素干扰,会造成可能存在的漏检情况,使得安检质量难以得到保证。因此,寻求智能化、高效化的安检X射线图像违禁品检测方法,实现违禁品的自动识别和预警,更好地辅助安检人员完成安检工作,具有较高、较实用的研究意义[1-2]。
X射线图像违禁品检测主要任务是主动识别违禁品的种类,同时在生成的伪彩色图像中定位违禁品的位置。由于应用场所的特殊性,X射线图像违禁品检测系统生成的伪彩色图像有其自身特点,在安检过程中待检测物品随机性和物品摆放随意性,导致X射线图像成像背景复杂,物品间存在严重重叠、遮挡现象和违禁品多尺度等问题,给违禁品检测带来了诸多挑战。传统的X射线图像违禁品检测算法大多存在处理步骤繁琐,检测的类目单一或较少,泛化能力较差,针对特定的场景等问题,难以满足目前安检检测的任务需求。与传统检测算法相比,基于卷积神经网络的X射线安检图像违禁品检测算法具有更高的准确率和强大的泛化能力[3]。卷积神经网络自动提取特征能力和平移不变性,解决了人为设计特征提取器的繁琐和复杂背景中目标特征提取困难的问题,同时可以对区域特征进行分类和边框回归,实现了对X射线安检图像违禁品目标的端到端检测。因此,基于卷积神经网络的X射线安检图像违禁品检测是目前安检领域的研究热点和方向[4]。张友康等[5]在SSD框架的基础上,提出了适用于X光安检图像非对称卷积多视野神经网络ACMNet,在公开的数据集与自建的数据集上,精确度取得了令人满意的效果。穆思奇等[6]提出一种空洞密集卷积模块来增强特征表达能力和卷积视野,加入注意力机制来增强有效特征和抑制无效特征,得到较好了检测效果。
安检是一个兼顾检测精度和效率的过程,本文基于一阶段YOLOv5网络的结构特点,对其进行改进以进一步适用于安检图像违禁品目标检测场景中。实验结果表明,本文算法得到较好的检测效果,同时兼顾了检测精度和检测速度。
卷积神经网络的目标检测算法主要分为两大类:一类是基于候选区域的两阶段算法;另一类是一阶段的目标检测算法。一阶段的目标检测直接对输入图像进行一次处理就能够得到目标物体的类别与位置信息,不使用区域生成算法生成候选框,兼顾了较高的检测精度的同时,极大地提高了检测速度。YOLOv5属于一阶段YOLO系列[7]中较新的目标检测算法,其具有轻量级模型大小及精度高等优点,如图1所示。
图1 YOLOv5网络结构
由图1可知,YOLOv5网络结构主要由主干网络、瓶颈层和预测层构成。主干网络主要用于对输入图像进行特征提取,与YOLOv1-4相比,YOLOv5对输入的图片进行了Focus切片操作,可以看作是一个特殊的下采样操作,减少参数计算。每个CBS模块由一个卷积层、标准化层和激活函数组成,其中激活函数引入了SiLU激活函数,其在深层模型上的效果优于ReLU激活函数。在主干网络中获取了三个有效特征层进行下一步网络的构建。
瓶颈层主要用于对来自主干网络的特征进行加强处理。瓶颈层主要包括了特征金字塔网络结构(Feature Pyramid Network,FPN)和路径聚合网络结构(Path Aggregation Network,PAN)两部分。FPN结构采用自上而下的方式对获得的有效特征层进行特征信息融合,而PAN结构采用自底向上路径增强的方式进行特征信息融合。瓶颈层对主干网络中的有效特征进行不同尺度的特征融合,使其同时具有深层的语义信息和浅层的纹理信息,有利于下一步对目标的分类和定位预测。
预测层主要用于对目标的分类与回归。通过主干网络和瓶颈层,已获得三个加强过的有效特征层,每一个特征层都有宽、高和通道数,预测层判断每一个特征层是否有目标与其对应,分类和回归在一个1×1卷积里实现。
相对众多目标检测算法,YOLOv5算法在检测速度和精度上都达到了较高的水平,但在遮挡目标和小目标检测方面还有待改进,因此本文选择使用YOLOv5作为基础算法,嵌入即插即用的模块,从而得到更加适用于X射线安检图像目标检测算法。
针对X射线安检图像存在重叠遮挡和小尺度违禁品易造成漏检误检的问题,本文引入了一种掩码自注意力机制模块[8],增强网络对全局特征关系的捕捉能力,在瓶颈层的有效特征层的输出后和预测层输入前嵌入掩码自注意力机制模块,如图2所示。该模块分别对大、中、小三种尺寸的特征图进行掩码自注意力操作,完成多尺度违禁品的检测,提高算法的检测精度。此外,改进了YOLOv5的类别损失函数,引用Quality Focal Loss(QFL)损失函数,有效地缓解了一阶段目标检测问题中类别不均衡问题。
图2 嵌入掩码自注意力
掩码自注意力机制利用并行查询从输入特征向量中提取到不同子空间进行相关程度的获取,其结构如图3所示。
图3 掩码自注意力机制结构
在图3中,输入特征图X与卷积核WQ、WK、WV相乘分别生成查询向量矩阵Q、键向量矩阵K、值向量矩阵V,即Q=XWQ,K=XWK,V=XWV。通过缩放点积对查询向量矩阵Q与键向量矩阵K做内积运算,然后用Softmax激活函数做归一化得到注意力得分,其数学表达式定义如式(1),对获取的注意力得分进行掩码计算,最后再与值向量矩阵V相乘得到自注意力的输出。掩码自注意力模块的输出由公式(1)给出:
在一阶段的目标检测算法中,输入X射线安检图像产生的候选框中,只有很少一部分包含着待检测的目标,正负样本数据不均衡,造成了类别不均衡问题。此外,由于待检测物品的随机摆放性和X射线安检伪彩色图像的特点,当待检测违禁品目标集中时,它们的候选框之间的交叉和重叠现象会有所增加,训练和推理之间的误差缺口也会相应变大,分类和定位精度容易受到影响。因此,本文使用QFL损失函数替代YOLOv5中的类别损失函数,可降低大量简单负样本在训练中所占权重。QFL损失函数的数学表达式定义如下:
其中,y是平滑后的0~1标签,σ为预测结果。β选取1.5。
本实验使用的硬件环境为:Intel(R)Core(TM)i7-8750H CPU@2.20GHz处理器,Nvidia GeForce GTX 1070 8GB显卡,16 G内存。软件环境为:操作系统Windows10,加速环境CUDA10.1,编程语言Python3.7,深度学习框架Pytorch1.7。
网络模型训练阶段,将总迭代周期设置为300,采用mosaic数据增强,输入图像尺寸大小为640×640,迭代批次大小值为8,初始化学习率为0.001,动量因子为0.9。
为了验证本文算法的有效性,选择在公开SIXray数据集上进行算法验证[9]。该数据集含有枪、刀、钳子、扳手、剪刀共5种违禁品类别,该数据集由实际安检场所拍摄,集中目标物体堆放随机性相当大,图像中背景复杂且其中物体存在严重的重叠和遮挡,能较好地反映安检实际情况。图像数据集按照7∶3的比例划分为训练集和测试集。
本文采用目标检测算法中常用的评价体系进行算法评估,包括召回率R(recall)、精准率P(precision)、平均精准度AP(average precision)和均 值 平 均精 度mAP(mean average precision),FPS定义为模型1 s内检测的图像数,该指标反映模型在平台上的检测速度,FPS越高,检测速度越快。各标准的具体公式如下:
其中,TP、FP、FN分别表示检测中真正例、假正例、假反例的数量,Psmooth(r)表示平滑的P-R曲线,K表示类别数。
为了验证本文算法的性能,在X射线安检图像测试集上进行了实验,结果显示mAP和FPS性能结果分别为82.23%和19 ms,验证了本文算法的有效性。进一步将本文算法在X射线安检图像测试集上进行检测可视化,部分检测可视化结果如图4所示。
图4可视化了本文算法X射线安检图像检测结果,其中数字为目标的置信度。由图4可以看出,在X射线安检图像场景中本文算法具有较高的检测精度和较好的检测效果,能够准确检测多个相互遮挡违禁品目标,在复杂背景纹理与违禁品目标纹理相互重叠的情况下也能检测出违禁品目标,同时对分辨率较低且特征信息不明显的小目标也有较好的检测效果。
为提高X射线安检图像中不同违禁品检测的性能,本文在YOLOv5基础上引入掩码自注意力机制模块和QFL损失函数。通过在瓶颈层输出后和预测层输入前嵌入即插即用的掩码自注意力机制模块,增强了网络对全局特征关系的捕捉能力;加入QFL损失函数有效地降低了因正负样本数据不均衡造成的较低检测精准度。实验证明了改进后的网络模型在SIXray数据集上的mAP达到了82.23%,单帧检测速度为19 ms,能够满足安检环境中的检测需求。