令狐蓉
(山西工程职业学院交通工程系,山西 太原 030001)
随着社会的不断发展,城市轨道交通在人们生活中占据着越来越重要的作用。据统计,广州地铁客运量排在全国首位,2022 年达到231 874 万人。面对如此巨大的客运量,安检的自动化、实时性、高准确率是很有必要的[1]。
传统的目标检测算法面对背景庞杂、行李乱放、违禁品多种多样等情况,能力不足,难以满足客运的要求。2012 年,Alex Krizhevsky 等[2]设计的AlexNet 在ImageNet 挑战赛上夺得冠军,大幅提升了图像分类的准确度,深度学习重新迎来春天,开始在各个领域开花结果,但在安检领域的应用相对较少。YOLO 系列[3]是目标检测领域知名度最高的算法,其凭借出色的实时检测性,在不同的领域均有广泛应用。YOLO 系列算法将问题概括为一个回归问题,一次完成,是一种端对端的卷积神经网络。本文选择YOLOv5m 算法来进行安检违禁品识别,并增加置换注意力(Shuffle Attention,SA)模块[4],以提高检测准确率。
YOLOv5 算法主要包含Input(输入端)、Backbone(主干网络)、Neck(多尺度特征融合网络)和Prediction(检测头)[5]。Input 部分是行李经过X 射线安检后采集到的图像;Backbone 部分包含多种卷积、池化、归一化、激活函数等操作,主要是进行图像的特征提取;Neck 部分主要是进行多尺度特征融合,增加主干特征的可接受性,丰富上下文信息;Prediction 部分采用分类、定位、置信度共3 个分支,用于获取目标的类别、位置和置信度。
YOLOv5m 算法结构见图1。Backbone 主要由CBS(Conv+BatchNorm+SiLU)、跨阶段局部(Cross Stage Partial,CSP)、共享压缩分析森林(Shared Packed Parse Forest,SPPF)结构组成,CBS 由卷积、归一化、SiLU 激活函数构成。Backbone 采用的是带有残差(Res)组件的CSP1 结构。Neck 包括特征金字塔网络(Feature Pyramid Networks,FPN)和路径聚合网络(Path Aggregation Network,PAN)结构设计,采用的是不带Res 组件的CSP2结构。目标检测任务的损失函数由分类损失、定位损失和置信度损失的加权得到。在训练过程中,输入图像采用Mosaic 数据增强、自适应锚框计算、自适应图片缩放等方式,提高了模型的泛化能力,减少了计算量。
图1 YOLOv5m 算法结构图
南京大学杨育彬教授等提出SA 模块[4],高效地结合这两种注意力机制,并引入了特征分组与通道置换,得到了一种超轻量型的注意力机制。
SA 模块结构见图2,它采用置换单元,高效组合上述两种类型的注意力机制。首先将输入沿着通道维度拆分为多组,然后对每一组特征词用置换单元刻画特征在空间和通道两个维度上的依赖性,最后所有特征进行集成并通过通道置换操作进行组件特征合并[6]。
图2 SA 模块结构图
本文将SA 模块嵌入到Prediction 部分之前,即在CSP2 和Conv 之间添加,改进后的YOLOv5m 算法的Prediction 部分结构见图3。
图3 改进后的YOLOv5m 算法的Prediction 部分结构图
本文采用赵才荣教授公开的刀具和液体容器X射线(Cutters and Liquid Containers X-ray,CLCXray)数据集[7]。CLCXray 数据集包含9 565 张X 射线安检图像,包括5 种刀具和7 种液体容器,共有12个类别。5 种刀具包括刀片、匕首、刀、剪刀、瑞士军刀,7 种液体容器包括易拉罐、纸盒饮料、玻璃瓶、塑料瓶、真空杯、喷罐、锡罐。
本文采用mAP50∶95和mAP50作为算法模型的评价指标,平均精度均值(mean Average Precision,mAP)是准确率-召回率(Precision-Recall,P-R)曲线下的面积。
1)mAP50∶95。在不同阈值(从0.5 到0.95,步长0.05)下的mAP。
2)mAP50。计算每一类别的交并比(Intersection over Union,IoU)设为0.5 时的平均精度(Average Precision,AP),对所有类别的AP 求平均值。
YOLOv5m 算法模型的性能及其加入SA 模块后的YOLOv5m 算法模型的性能实验结果见表1,同时与赵才荣教授团队提出的ATSS 模型的性能进行对比。
表1 不同算法模型的性能对比
从表1 中可以看出,YOLOv5m 算法模型比ATSS+LAreg 算法模型和ATSS+LAcls 算法模型在mAP50∶95上分别提升了2 个百分点和1.2 个百分点;而YOLOv5m 算法模型在添加SA 模块后,mAP50∶95和mAP50分别提升了0.8 个百分点和1.2 个百分点。结果表明,基于SA 模块改进的YOLOv5m 算法模型在CLCXray 数据集中的违禁品检测识别中有一定的优越性。图4 为检测识别效果图。
图4 检测识别效果图
针对城市轨道交通X 射线安检违禁品的检测识别,本文在YOLOv5m 算法基础上,增加了SA 模块,分别对空间和通道的特征进行操作,经过在CLCXray 数据集上进行实验验证,结果表明改进后的算法能显著提高检测识别精度。但是改进后的算法在易拉罐、玻璃瓶、喷罐等类别上的检测识别效果不理想,下一步研究可以围绕易拉罐、玻璃瓶、喷罐3 个类别的图像进行改进。