基于深度学习的轻量级口罩检测算法研究

2022-08-19 00:54张寿明
电视技术 2022年7期
关键词:网络结构注意力口罩

刘 凯,张寿明*

(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.云南省计算机人工智能重点实验室,云南 昆明 650500)

0 引 言

新型冠状病毒给人们的日常生活乃至生命安全都造成了巨大威胁[1]。卫生防疫专家强调,新型冠状病毒的传播途径主要为直接传播[2-3]。相关研究表明,医用外科口罩能阻挡大部分病毒进入人的呼吸道。当前,各种人流量较大的场合都安排工作人员督促人们合理佩戴好口罩并测量体温,防止病毒传播,如图1 所示。

图1 工作人员督促示意图

然而,人工监督方式很可能会由于检测效率低而造成人群聚集,进一步增加了在场人员的感染风险。

为此,许多研究者致力于将基于深度学习的目标检测算法应用于各种场景下对人脸口罩的检测中。文献[4]提出了Haar 检测器与YOLOv3 算法相结合的算法模型,实验结果表明该模型的mAP0.5值突破了90%,但仍在小尺寸目标检测上存在一定问题。文献[5]提出了基于SSD 的轻量化改进,该策略有效地降低了模型参数量,一定程度上提高了网络的检测速度,但在实际测试中还是难以满足实时性的要求。文献[6]设计了基于YOLOv3 网络引入SPPNet[7]结构的口罩检测算法,以空间金字塔的网络结构更好地融合特征信息,实验测试效果mAP0.5达到90%但牺牲了模型的检测速度。文献[8]设计了一种基于RetinaFace[9]的口罩佩戴检测算法模型,该策略有效降低了目标周围的无效特征的影响,检测精度也得到了一定程度的提高,但模型实时性并没有得到提升。

1 相关工作

本文对YOLO 系列中经典的目标检测算法YOLOv3 进行轻量化改进。YOLOv3 的骨干网络为DarkNet-53 网络,其结构如图2 所示。

图2 DarkNet-53 网络结构图

YOLOv3 使用DarkNet-53 作为骨干网络,通过连续5 次下采样对输入的图像进行特征提取,将后3 次下采样的结果作为网络输出。通过这3 个不同尺度的有效特征层以及特征金字塔结构实现网络的特征信息融合,最后利用多尺度检测进行目标预测,如图3 所示。

图3 YOLOv3 网络结构示意图

然而,骨干网络DarkNet-53 网络参数量大,网络结构复杂,导致YOLOv3 虽然有较高的检测精度但实时性较差。

2 本文方法

2.1 EfficientNet 网络

EfficientNet[10]网 络 是 以EfficientNet-B0 作 为基准网络,在宽度、深度以及输入图片分辨率3 个维度上搜索出EfficientNetB1-B7 共7 种网络结构。EfficientNet-B1 的网络深度为基准网络的1.1 倍。其网络结构如表1 所示。

表1 EfficientNet-B1 网络结构

EfficientNet-B1 网络主要由MBconv 结构堆叠而成。与DarkNet-53 相同的是,Efficient-B1 网络将输入图片传入网络时进行了5 次步距为2 的下采样处理,因此实验将后3 次特征图的压缩结果替代为原YOLOv3 骨干网络的输出部分传入后续的网络中,得到Efficient-YOLOv3 网络。

2.2 混合域注意力机制

注意力机制作为机器学习常见的数据处理方法,已经被广泛应用在不同的深度学习任务中。CBAM 就是常见的混合域注意力机制。其结构如图4 所示。

图4 CBAM 结构示意图

由图4 可以看出,CBAM 结合了通道注意力机制和空间注意力机制。通道注意力机制模块的工作原理如图5 所示。该模块对输入进来的特征图基于宽和高分别进行全局最大池化和全局平均池化,获得两个特征长条,其长度与输入的通道数相同,之后利用共享全连接层(MLP)进行处理,对处理的两个结果进行Concat 操作,最后用Sigmoid 函数将值固定在0 和1 之间,生成通道注意力权值。

图5 通道注意力机制结构图

其可以用公式表达为:

Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]} (1)

式中:AvgPool,MaxPool分别代表平均池化和最大池化,F表示输入特征图,σ代表Sigmoid 函数生成0-1 的权值。

空间注意力模块是将经通道注意力加权后的特征图基于通道数进行全局平均池化和全局最大池化,将得到的结果基于通道数进行堆叠,得到一个通道数为2 的特征层并对其进行卷积操作,将通道数降为1,再使用Sigmoid 函数生成空间注意力机制的权值。其结构如图6 所示。

图6 空间注意力机制结构图

其操作可以用式(2)表示:

Ms(F)=σ{f7×7[AvgPool(F);MaxPool(F)]} (2)式中:f7×7表示空间注意力机制进行卷积操作时卷积核的大小。

为进一步提升模型性能,实验将骨干网络输出的不同尺度的特征图添加混合域注意力机制CBAM作为特征融合网络的输入,并将特征金字塔结构与CBAM 结合,通过自上而下的特征信息融合以及混合域注意力机制使网络聚焦于需要关注的部分,得到的Efficient-YOLOv3-CBAM 网络结构如图7 所示。

图7 Efficient-YOLOv3-CBAM 网络结构

2.3 Mosaic 数据增强

Mosaic 数据增强是在线数据增强的方式之一,其原理是以随机的4 张图片经过增强后重新拼接形成新的样本进行数据增强。其原理如图8 所示。

图8 Mosaic 数据增强示意图

Mosaic 数据增强主要有以下两个优点:

(1)对图片处理后形成的新的样本可极大地丰富样本的背景信息,进一步增强网络训练出的模型的泛化能力;

(2)新样本在形成时会生成更多的小目标样本,很好地平衡了数据集中不同尺度的分布,可在一定程度上提高对小目标的检测效果。

3 实验结果及分析

3.1 数据集建立和环境搭建

本文的数据集通过网络爬取的方式经过清洗、筛选后共获得复杂场景下共7 607 张口罩数据集。采用Labelimg 进行数据标注,在Ubuntu18.04 操作系统中进行训练,GPU 为Nvidia RTX 3060,显存为12 GB,CUDA 版本为11.4,深度学习框架为Pytorch 1.90。

3.2 网络评价指标

本实验采取平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)以及单张图片检测速度(Time)作为网络模型的评价指标。其中,mAP0.5表示IOU 阈值为0.5 时计算的mAP,单张图片预测时间是模型遍历1 500 张数据集所得到的检测平均时间,平均精度可以通过P-R曲线,体现对应类别的查准率(Precision)和查全率(Recall)。计算方法分别如下:

式中:N为实验的类别数,TP表示正样本被模型预测为正样本的数量,FN表示正样本被预测为负样本的数量,FP表示负样本被模型预测为正样本的数量。

3.3 实验结果及分析

本文的改进算法Efficient-YOLOv3-CBAMMosaic网络模型生成的P-R曲线如图10、图11所示。实验共分为两个检测类别,nomask 表示的是未佩戴口罩的目标,mask 表示佩戴口罩的目标。

图10 nomask 的P-R 曲线图

为进一步验证改进的有效性,本文对上述改进采用消融实验进行实际性能对比,得到的结果如表2 所示。

由表2可以看出,本文算法的参数量为原YOLOv3模型参数量的22%,单张图片的检测速度也提升了3.93 倍,且mAP0.5仅降低了2.73%。本文改进的最终算法模型也具有良好的检测性能,部分样本检测效果如图11 所示。

图11 mask 的P-R 曲线图

表2 算法评估结果

图11 算法检测效果图

4 结 语

针对目前大多数目标检测算法由于网络结构复杂、网络参数量大导致实时性较差的问题,本文提出了基于YOLOv3 的轻量化口罩检测算法研究,采用轻量化网络替换原骨干网络,并引入混合域注意力机制与特征金字塔结构融合,将网络聚焦于样本中的有效区域,进一步提升模型性能,并采用数据增强技术提高了模型的泛化能力。所提的方法在降低了一定精度的条件下,有效减少了参数量,实时性得到了明显提升。

猜你喜欢
网络结构注意力口罩
让注意力“飞”回来
快递网络结构研究进展
戴口罩的苦与乐
因为一个口罩,我决定离婚了
如何培养一年级学生的注意力
基于AutoML的保护区物种识别①
雾霾口罩
A Beautiful Way Of Looking At Things
基于时效网络的空间信息网络结构脆弱性分析方法研究
基于互信息的贝叶斯网络结构学习