陈昭俊,储 珺,曾伦杰
基于动态加权类别平衡损失的多类别口罩佩戴检测
陈昭俊,储 珺,曾伦杰
(南昌航空大学软件学院,江西 南昌 330063)
公共场合佩戴口罩已经成为重要的防疫措施。现有口罩检测方法通常只检测是否佩戴口罩,忽略检测未规范佩戴口罩这一极易发生交叉感染的场景,目前的口罩数据集缺少未规范佩戴口罩数据。针对以上问题,在现有口罩数据集的基础上,通过线下采集和从互联网收集更多未规范佩戴口罩图像,并根据佩戴口罩的人脸图像特点,改进Mosaic数据增强算法扩充数据,改进后Mosaic数据增强算法能够将基准网络YOLOv4的平均精度均值(mAP)提升2.08%;针对扩增后数据集出现的类别不平衡问题,提出动态加权平衡损失函数,在重加权二分类交叉熵损失(weight binary cross entropy loss)基础上,以有效样本数量的倒数作为辅助类别权重,并对训练的每一个批次进行动态调整,解决直接使用重加权方法稳定性弱、检测精度震荡和效果不理想的问题。实验表明,改进后模型mAP达到91.25%,未规范佩戴口罩平均精度(AP)达到91.69%,与单阶段方法RetinaNet,Centernet,Effcientdet和两阶段方法YOLOv3-MobileNetV2,YOLOv4-MobileNetV2相比,改进后算法具有更高的检测精度和速度。
口罩检测;类别不平衡;Mosaic数据增强;YOLOv4;重加权
自2019年全球范围内爆发新冠病毒以来,佩戴口罩成为防疫的重要措施。随着疫情常态化发展和公众自我保护意识逐渐懈怠,常常出现未规范佩戴口罩的现象。现有口罩检测方法通常只检测是否佩戴口罩,忽略检测未规范佩戴口罩,需额外配备大量人员进行人工检测,检测效率低,面临近距离感染和漏检的风险。
基于深度学习的目标检测技术已经在多个领域得到了很好地应用。叶泽聪等[1]提出一种基于模型压缩的YOLOv3实时枪支识别算法,使用“通道+层”剪枝进行压缩,实现了对枪支类危险物的实时和高精度检测。卞景帅等[2]基于Faster R-CNN的结核杆菌检测方法,采用分块采样、迭代标注和重叠子图划分策略,解决了结核杆菌标注图像困难和目标尺度小检测难问题。赵海英和杨婷[3]提出一种宫廷服饰龙纹分割算法,通过R-FCN检测算法得到一系列候选框,然后使用GrabCut算法对候选框中龙纹进行分割,实现较好地分割效果。李宗民等[4]则基于相似性度量行人的检测方法,以Faster R-CNN生成的高置信度候选框区域特征模板,使用特征相似性为依据进行判别,成功提高了行人检测的准确率。越来越多的行业应用基于深度学习的目标检测算法,与传统方法相比,其优势在于自动学习包含大量参数的特征表示,有着更高的效率、鲁棒性和泛化能力[5]。
近两年由于新冠疫情的出现,有研究者开始将通用目标检测技术应用到口罩检测任务,取得一定地进展,如牛作东等[6]基于Retina Face算法进行优化,在ResNet-152骨干网络加入自注意力机制,但其检测速度较低,满足不了实时性检测需求。曹城硕和袁杰[7]提出了一种基于YOLOv3的口罩佩戴检测算法,在骨干网络Darknet-53中引入通道注意力机制,采用路径聚合策略与特征金字塔进行特征融合,加强利用不同层次的特征,有效提升模型对小目标和遮挡目标的检测能力。管军霖和智鑫[8]使用对数总变分模型,将图像的低频与高频成分分解、重建及融合,减少剧烈光线变化对检测的影响。
但上述研究存在以下问题:
(1) 现有口罩人脸数据集,如AIZOO[9],RMFD[10]及文献[11-12]中所使用的口罩检测数据集等,主要包含未佩戴和佩戴口罩人脸样本,缺少未规范佩戴口罩人脸样本,忽略检测未规范佩戴口罩这一常见且极易造成飞沫传播的情况,并且检测环境简单、单一,多数图像只有一个人脸目标,与真实世界复杂多变的检测场景有很大的差距。因此,有必要在现有口罩检测数据集基础上,收集更多的未规范佩戴口罩的人脸图像,并且统一进行标注,训练相关网络实现对未规范口罩佩戴情况的检测。
(2) 未规范佩戴口罩图像采集困难、造成目前的口罩检测数据集类别不平衡。即数据集中一些类别的样本数量远大于其他类别,其中样本数量大的类被称为多数类,其他类别称为少数类。类别不平衡会使得分类器倾向将所有样本判定为多数类别,少数类别分类效果差,严重影响整体分类性能[13]。
解决类别不平衡通常有2种方法:重采样和重加权[14]。重采样方法,通过对多数类进行欠采样,即删除部分样本;或对少数类进行过采样,即添加重复样本;或两者同时进行,直接改变训练样本数量。卷积神经网络(convolutional neural networks,CNN)进行特征学习时,重采样方法可能会引入大量重复样本,增加训练时间,且过采样容易发生过拟合,欠采样可能会丢失有助于特征学习的样本数据[15]。
重加权方法则是从损失函数入手,给予少数类别损失相对较高的权重,平衡各类别损失。重加权系列方法逐渐成为解决类别不平衡的主流方法,在近几年发展迅速。如LIN等[16]提出Focal Loss算法,解决单阶段目标检测中前后背景类别不平衡问题。其通过添加2个权重参数,一个平衡正负样本的失衡,一个平衡难易分类样本失衡。CHEN等[17]所在团队通过大量实验表明在区域建议网络(region proposal network,RPN)使用Focal Loss可以缓和类别不平衡产生的过拟合问题。CUI等[18]认为,样本之间存在信息重叠,提出类别的有效样本数量,进而提出类别平衡损失(class- balanced loss,CB Loss)。TAN等[19]从反传梯度出发,提出均衡损失(equalization loss,EQL Loss),为每个样本引进权重,减少负样本对少数类别的影响,从而保护少数类别的学习不受影响。然而,经过实验验证,上述重加权方法直接应用在本文自制口罩数据集,检测效果并不理想。原因在于本文数据集中类别之间差异小及数据增强后存在重叠信息,因此,设计一个更适用于口罩数据集的损失函数是本文重点研究内容。
针对上述问题,在现有口罩人脸数据集的基础上,通过志愿者采集和从互联网收集图像,并针对人脸口罩图像特性,本文采用改进的Mosaic数据增强算法,构建一个包含未佩戴口罩人脸、未规范佩戴口罩人脸和规范佩戴口罩人脸三类标签的数据集。针对目前解决类别不平衡的重加权系列损失函数存在稳定性弱、精度动荡严重、检测效果不理想问题,以YOLOv4[20]为基准网络,在重加权损失(weight binary cross entrory loss,WBCE Loss)基础上,提出动态加权类别损失(dynamic weighted class balanced loss,DWCB Loss)。在每一个批次训练中动态调整各个类别的权重以适应数据变化,更加关注少数类别,缓解网络在训练时出现的过拟合现象。实验表明,本文方法可有效缓解类别不平衡问题,模型的平均精度均值(mean average precision,mAP)有明显地提升,特别是少数类别(未规范佩戴口罩)的检测精度得到提高。
为适应口罩人脸检测任务,综合考虑检测精度、速度和训练模型所需图形处理器(graphies processing unit,GPU)的算力,使用通用目标检测网络YOLOv4作为基准网络,根据口罩人脸图像的特点,改进Mosaic数据增强算法,采用改进后算法扩展数据,丰富检测背景。针对构建的数据集类别不平衡问题,在交叉熵损失和类别平衡损失基础上,提出动态加权平衡损失去平衡各类别损失。
Mosaic数据增强在MS COCO数据集使用了旋转、缩放和色域变化3种基本数据增强。SHORTEN和KHOSHGOFTAAR[21]对主流数据增强算法进行实验并指出,色域变化不适用人脸相关数据集,因为色域变化会扩增出大量的不同颜色样本,破坏数据中关键颜色信息。如黄色、黑色和白色是人脸识别的关键信息,色域变化会生成大量红、蓝、绿等其他颜色样本。训练中会导致模型学习不到人脸图像的关键颜色信息。
如图1所示,色域变化后出现不存在的紫色人脸,在密集复杂的背景下使得遮挡人脸特征被大块连续颜色块“污染”。因此本文在Mosaic数据增强算法中取消色域变化,保证不破坏人脸颜色信息。
图1 色域变化增强前后的样本图像((a)增强前;(b)增强后)
自制口罩人脸数据集是由widerFace数据集[22]、MAFA数据集[23]、RMFD数据集[10]和线下采集图像组成。widerFace图像样本占本文数据集的31.80%,widerFace图像取材于现实世界,其人脸目标各异、背景复杂、模糊和遮挡。widerFace将模糊和遮挡划分为3个等级,模糊0,1和2,分别代表清晰、一般模糊和特别模糊;遮挡0,1,2分别代表人脸未遮挡、遮挡在1%~30%和遮挡超过30%以上,具体分布情况如图2所示。
图2 widerFace数据集模糊和遮挡比例
由图2可知,widerFace数据集中86%样本存在模糊,近40%样本存在不同程度的遮挡。MAFA和RMFD数据集未对模糊和遮挡情况进行统计,通过肉眼观察发现其部分样本也存在模糊和遮挡的情况。因此,本文构建的数据集存在模糊和遮挡情况。为了提高模糊和遮挡情况下的检测能力,本文使用随机模糊和Cutout算法[24]生成更多模糊和遮挡样本,促进网络对模糊和遮挡特征学习。
总之,本文对Mosaic数据增强算法进行了优化,取消了原有的色域变化,解决色域变化会破坏人脸关键颜色的问题;针对数据集中含有部分模糊和遮挡的人脸情况,引入随机模糊和Cutout算法以生成更多的遮挡、模糊样本。
由2.2节可知,本文构建的数据集中未规范佩戴口罩类别数量远小于其他类别,处于严重的类别不平衡状态。在训练过程中,少数类别梯度被多数类别梯度所淹没,基准网络YOLOv4使用的二值交叉熵损失很容易抑制少数类别的学习,造成少数类别的检测效果差。
解决该问题的主流方法之一是重加权损失[25],其基本思想是分配不同权重给训练样本,然而根据2.4.2节可知,现有的重加权系列损失函数在本文自制口罩数据集上解决类别不平衡问题上效果有限。为此,本文在WBCE Loss基础上,提出DWCB Loss。
类别不平衡是一个被广泛研究的问题,一种直观的方法是根据基于类别数量确定样本权重,如类频率的倒数[26],这一类方法可划分为WBCE Loss,即
其中,为类别数量;N为第类别样本数量;第类别权重计算函数为
二分类交叉熵损失为
其中,y为真实类别;p为预测类别。
WBCE Loss对每个类别使用不同的权重,权重根据该类别样本在数据集所占的比例设定。但在本文数据集中使用WBCE Loss后精度震荡、稳定性差,这是由于本文使用数据增强产生大量相似样本,特征存在重叠,简单使用样本数量计算的权重并不合适。
与WBCE Loss不同,本文提出的DWCB Loss,引入了2种计算权重方法,并将2种权重线性组合得到新权重,最后使用新权重值平衡各类别损失,即
其中,(N),(N)分别为2种计算权重的方式;为两者的平衡参数,经过多次实验,设为0.55。
(N)和WBCE Loss一致,计算方式如式(1),那么
其中,超参数依照文献[18]设定为0.9。
(N)权重计算受CB Loss[18]启发。由CB Loss可知,有效样本数量能够较好反应重叠情况。设第类的有效样本数量E,可通过第类样本数量N推出
CB Loss对每一个类别引入一个权重因子,这个因子与有效样本数量成反比,即
因此,本文提出的DWCB Loss,在WBCE Loss的基础上,以有效样本数量的倒数作为辅助权重,用以缓解数据增强带来的重复特征导致的精度震荡、稳定性问题,在训练的每一个批次动态计算以适应各类别实例数量变化。通过2.4.2节的对比实验发现,本文提出的DWCB Loss与其他损失相比,在口罩人脸数据集上取得的mAP更高,更适用于处理类别不平衡的口罩人脸检测任务。
实验环境:显卡为Nvidia GeForce RTX 3090,2张共48 G显存,操作系统版本为Ubuntu 18.04.5,处理器为Inter Xeon Silver。深度学习框架为Pytorch,版本为1.6.1。
现有口罩检测数据集按照来源分为2种:①基于公开人脸数据集收集,如AIZOO数据集,采集widerFace人脸数据集和MAFA人脸数据集部分图像;②企业私有保密数据集,如张修宝等[27]在全天候自然场景下的人脸佩戴口罩识别技术中使用的口罩数据集。但这些数据集缺乏未规范佩戴口罩的人脸样本。
对AIZOO,MAFA和RMFD数据集进行未佩规范佩戴口罩人脸图像统计,见表1。
表1 主流口罩人脸数据集统计分析表
从表1可以看出,主流口罩人脸数据集中未规范佩戴口罩占比分别为2.13%,0.09%和0.39%,数量非常少。因此,采集更多的未规范佩戴口罩人脸的图像是必要的。本文从widerFace,MAFA和RMFD数据集选择了4 512,3 638和2 817张图像,线下通过爬虫网络图像、截取公开视频图像和采集志愿者得到3 190张口罩人脸图像,构建人脸口罩检测数据集。数据集类别分为未佩戴口罩人脸,规范佩戴口罩人脸和未规范佩戴口罩人脸。并且随机划分为训练集、验证集和测试集,比例为8∶1∶1。数据集标注格式为PASCAL VOC2007,标注软件为LabelImg。
本文数据集类别划分为nomask,goodmask和poormask 3类,实例数目分别为13 716,8 768和1 802,比例分别为56%∶36%∶7%,因现有口罩检测数据集缺乏未规范佩戴口罩人脸图像和收集难度大,导致poormask类样本数量远小于其他两类,数据集出现类别不平衡,因此在多分类口罩人脸检测任务时,如何解决类别不平衡问题是本文研究的主要内容。
综合考虑使用AP,mAP,能兼顾召回率(Recall)和精确率(Precision),其中AP的计算是不同召回率下的精确率值组成P-R曲线面积;mAP是对所有类别AP求均值。mAP是衡量目标检测算法性能最重要的指标之一,能够反应各类别的平均检测水平,较好地综合评估解决类别不平衡下的算法检测性能。
本文实验分3部分:Mosaic算法改进实验、损失函数改进对比实验、主流目标检测算法对比实验。采用目标检测指标mAP来验证实验效果和评估本文方法有效性。
本文采用YOLOv4作为基准网络,图片尺寸调整为416×416,训练过程分为2阶段:①冻结骨干网络,batch_size设置为64,epoch设置为50;②解冻骨干网络,batch_size设置为8,epoch设置为100,采用Adam优化器,初始学习率为0.001,采用StepLR调整,step_size设置为1,gamma设置为0.92。
2.4.1 Mosaic算法改进实验结果及分析
为了验证本文对Mosaic改进的有效性,设计8个实验,结果见表2。
其中,BL为原始Mosaic算法。结果表明取消色域变化、加入随机模糊和Cutout性能明显提升。取消色域变化能保留人脸颜色作为关键信息;根据口罩人脸数据集的特点,利用随机模糊和Cutout生成更多模糊、遮挡样本促进网络学习模糊、遮挡下特征。改进后Mosaic算法mAP比原始Mosaic算法提高0.86%,证明了改进的有效性。
2.4.2 改进损失函数对比实验结果及分析
为验证本文对损失函数改进的有效性,设计以下实验,以基准网络YOLOv4使用的BCE Loss作为基准,使用不同Loss进行实验,以各类别AP和模型mAP评估改进前后Loss的实际效果,结果见表3。
表2 色域变化、随机模糊和Cutout对Mosaic数据增强的影响结果(%)
注:加粗数据为最优值
表3 不同Loss的实验结果(%)
注:加粗数据为最优值
与第一行基准BCE Loss相比,CB Loss,WBCE Loss和DWCB Loss在少数类poormask分别提高2.04%,4.75%和5.92%,使用重加权系列损失函数后,少数类poormask AP和mAP均有明显提升。本文提出的DWCB Loss,在使用类频率的倒数作为权重基础上,用每个类别的有效样本数的倒数作为辅助权重,能够较好地衡量数据集中相似样本的重叠特征,同时在训练每一个批次中可动态计算参加训练的各类别实例数量,更能精准“指导”网络关注少数类别。采用动态计算的DWCB Loss比非动态计算的WCB Loss的mAP有0.5%的提升。
Focal Loss作为解决目标检测类别不均衡的一个经典损失函数,在本文实验表现不理想,这与YOLOv4在 MS COCO数据集以训练权重作为预训练权重有关,训练初期网络就具有很好地定位和分类能力,分类置信度较高,同时也与YOLOv4划分正负样本策略设置忽略样本有关,使得正负样本比例基本在同一量级。
在处于严重的类别不平衡的自制口罩数据集中,直接使用主流的重加权系列损失函数存在稳定性差、精度动荡和效果不佳等问题,WBCE Loss,CB Loss,WCB Loss和DWCB Loss在测试集中最后50个epoch中模型mAP趋势变化如图3。DWCB Loss由于采用动态计算训练每一批次中各类别的权重,相较于WCB Loss中使用固定的类别权重,模型mAP明显提高。WBCE Loss的mAP比CB Loss高,但在稳定性方面不如后者,呈现出严重的动荡走势,而CB Loss从稳定性方面看,是逐步提升的。本文提出的DWCB Loss的mAP趋势上同时结合前两者优点,不但mAP达到较高水平,而且走势平缓,稳定性较好。
图3 WBCE Loss,CB Loss,WCB Loss和DWCB Loss在最后50个epoch上mAP变化趋势
2.4.3 消融实验结果及分析
消融实验常用于探索特定网络结构或训练策略及参数对模型的影响,能够有效提高神经网络的设计效率。本文使用改进后的Mosaic数据增强算法进行扩展,使用DWCB Loss代替原有BCE Loss进行训练。为验证各部分改进的有效性,设计多组消融实验,见表4。
表4 消融实验结果(%)
注:加粗数据为最优值
表4第一行是基准网络YOLOv4的训练结果,由于数据集存在严重的类别不平衡,少数类别poormask的AP只有85.48%;nomask类别样本来源于公开人脸数据集,存在模糊、遮挡和尺度变化大等情况,检测难度较大,AP只有87.69%。根据口罩人脸图像的特点,对Mosaic算法进行优化(Improved Mosaic),mAP提升2.08%。本文DWCB能够有效缓解类别不平衡,将少数类别poormask由85.48%提升至91.40%。最后,使用优化后Mosaic算法和DWCB Loss的mAP比基准网络提高3.26%。
2.4.4 主流算法对比结果及分析
出于常态化疫情口罩检测的速度和精度需求考虑,本文选择6个精度与速度兼备的主流检测算法进行比较,其中前4种是单阶段检测算法,后2种是两阶段检测算法。使用目标检测各类别性能指标的AP和mAP以及检测速度指标FPS来验证实验效果和对比评估改进前后Loss的有效性。
单阶段检测方法选择了具有代表性的RetinaNet[16],Centernet[28],EfficientDet[29]和YOLOv4[20];两阶段算法首先进行人脸预检测,生成大量感兴趣区域(region of interest,RoI),其次将RoI送进分类器,确定口罩人脸类别。从算法性能和检测速度方面综合考虑,选择两阶段算法YOLOv3-MobileNetV2[30]进行实验,其使用YOLOv3作为人脸预检测模型,轻量化网络MobileNetV2作为分类网络。
为了公平,采用检测网络YOLOv4代替检测网络YOLOv3作为人脸预检测模型,构建YOLOv4- MobileNetV2,并与本文方法对比。
实验结果由表5可知,本文方法取得更高mAP,得益于缓解了类别不平衡,即DWCB Loss的AP明显高于poormask,同时改进后的Mosaic算法能提高各类别AP的表现。
本文方法mAP比单阶段目标检测算法RetinaNet,Centernet,EfficientDet和YOLOv4分别提高了4.58%,4.18%,3.23%和3.26%,FPS达到46.1。
本文方法mAP比两阶段算法YOLOv3- MobileNetV2[30]和YOLOv4-MobileNetV2分别提高了7.30%和3.81%,FPS分别提高8.6和6.3。
上述对比实验结果充分证明了本文方法更适用于现有口罩检测数据集缺乏未规范佩戴口罩人脸图像造成类别不平衡的口罩佩戴检测任务,能够明显提升少数类别的检测精度。
同时可以看出,与直接使用通用目标检测算法YOLOv4相比,使用两阶段方法YOLOv4- MobileNetV2使得少数类别poormask的AP下降1.43%,多数类别goodmask的AP上升0.53%,这是因为算法第一阶段会产生更多多数类别goodmask的感兴趣区域RoI,造成类别不平衡问题更严重,使得人脸分类网络MobileNetV2更倾向于多数类别goodmask,少数类别poormask的分类效果更差。单阶段算法YOLOv4和两阶段算法YOLOv4-MobileNetV2对比实验结果,进一步说明本文算法更适用于现有数据集缺乏未规范佩戴口罩人脸图像造成类别不平衡的口罩佩戴检测任务。
表5 不同检测算法性能指标对比
注:加粗数据为最优值
随机选择测试集中多张图片进行测试,如图4所示。图中改进后网络在实现口罩多分类检测的基础上,既能区分是否规范佩戴口罩且置信度较高,又能在密集、遮挡情况下仍有较好的效果,还考虑到对日常异常遮挡场景的识别,适用于当下常态化疫情下的口罩佩戴检测。
图4 公共场合口罩人脸图像检测效果(红色、紫色和绿色检测框分别代表未佩戴口罩、未规范佩戴口罩和规范佩戴口罩)
针对现有口罩人脸检测方法忽略检测未规范佩戴口罩这一常见场景问题,本文提出了一种基于动态加权类别平衡损失的多类别口罩佩戴检测算法。在AIZOO,MAFA和RMFD数据集基础上,收集更多未规范佩戴口罩的人脸图像,构建了一个多分类口罩数据集。结合人脸口罩图像的特点,取消色域变化、引入随机模糊和cutout算法改进Mosaic数据增强算法用以数据扩充,改进后模型在测试集mAP提升明显。为解决数据集类别不平衡问题,在现有重加权损失WBCE Loss基础上,提出DWCB Loss,在测试集上mAP显著提升,尤其是少数类别(未规范佩戴口罩)AP提高了6.21%。
但现有口罩检测场景分布广泛,多数是车站、商场等公共场合,是不太可能提供充足的计算机资源来保证目标检测算法YOLOv4满足实时检测需求,在后续工作中将考虑优化网络结构以适应当下防疫下的硬件环境。
[1] 叶泽聪, 高志强, 崔翛龙, 等. 基于模型压缩的YOLOV3实时枪支识别方法[J]. 图学学报, 2021, 42(2): 198-205.
YE Z C, GAO Z Q, CUI X L, et al. Real-time gun detection method based on compressed YOLOV3[J]. Journal of Graphics, 2021, 42(2): 198-205 (in Chinese).
[2] 卞景帅, 卢家品, 罗月童, 等. 基于Faster-RCNN的结核杆菌自动检测方法研究与应用[J]. 图学学报, 2019, 40(3): 608-615.
BIAN J S, LU J P, LUO Y T, et al. Research and application of faster-RCNN based M. tuberculosis detection method[J]. Journal of Graphics, 2019, 40(3): 608-615 (in Chinese).
[3] 赵海英, 杨婷. 基于双层模型的宫廷服饰龙纹自动分割算法研究[J]. 图学学报, 2019, 40(1): 150-157.
ZHAO H Y, YANG T. Automatic segmentation of dragon design based on Bi-level model in Chinese imperial costume images[J]. Journal of Graphics, 2019, 40(1): 150-157 (in Chinese).
[4] 李宗民, 邢敏敏, 刘玉杰, 等. 结合Faster RCNN和相似性度量的行人目标检测[J]. 图学学报, 2018, 39(5): 901-908.
LI Z M, XING M M, LIU Y J, et al. Pedestrian object detection based on faster RCNN and similarity measurement[J]. Journal of Graphics, 2018, 39(5): 901-908 (in Chinese).
[5] 张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 计算机学报, 2019, 42(3): 453-482.
ZHANG S, GONG Y H, WANG J J. The development of deep convolution neural network and its applications on computer vision[J]. Chinese Journal of Computers, 2019, 42(3): 453-482 (in Chinese).
[6] 牛作东, 覃涛, 李捍东, 等. 改进RetinaFace的自然场景口罩佩戴检测算法[J]. 计算机工程与应用, 2020, 56(12): 1-7.
NIU Z D, QIN T, LI H D, et al. Improved algorithm of RetinaFace for natural scene mask wear detection[J]. Computer Engineering and Applications, 2020, 56(12): 1-7 (in Chinese).
[7] 曹城硕, 袁杰. 基于YOLO-Mask算法的口罩佩戴检测方法[J]. 激光与光电子学进展, 2021, 58(8): 211-218.
CAO C S, YUAN J. Mask-wearing detection method based on YOLO-mask[J]. Laser & Optoelectronics Progress, 2021, 58(8): 211-218 (in Chinese).
[8] 管军霖, 智鑫. 基于YOLOv4卷积神经网络的口罩佩戴检测方法[J]. 现代信息科技, 2020, 4(11): 9-12.
GUAN J L, ZHI X. Mask wearing detection method based on YOLOv4 convolutional neural network[J]. Modern Information Technology, 2020, 4(11): 9-12 (in Chinese).
[9] 元峰. AIZOO口罩检测数据集[EB/OL]. (2021-03-24)[2021-12-31]. https://github.com/AIZOOTech/FaceMaskDetection.
YUAN F. AIZOO face mask detection dataset[EB/OL]. (2021-03-24)[2021-12-31]. https://github.com/AIZOOTech/FaceMask Detection (in Chinsese).
[10] WANG Z, WANG G, HUANG B, et al. Masked face recognition dataset and application[EB/OL]. (2020-03-20)[2021-12-31]. https://arxiv.org/pdf/1708.04552.pdf.
[11] 程可欣, 王玉德. 基于改进YOLOv3的自然场景人员口罩佩戴检测算法[J]. 计算机系统应用, 2021, 30(2): 231-236.
CHENG K X, WANG Y D. Algorithm of mask wearing detection in natural scenes based on improved YOLOv3[J]. Computer Systems & Applications, 2021, 30(2): 231-236 (in Chinese).
[12] 叶子勋, 张红英. YOLOv4口罩检测算法的轻量化改进[J]. 计算机工程与应用, 2021, 57(17): 157-168.
YE Z X, ZHANG H Y. Lightweight improvement of YOLOv4 mask detection algorithm[J]. Computer Engineering and Applications, 2021, 57(17): 157-168 (in Chinese).
[13] 张永清,卢荣钊,乔少杰, 等. 一种基于样本空间的类别不平衡数据采样方法[J]. 自动化学报, 2020, 2(1): 1-14.
ZHANG Y Q, LU R Z, QIAO S J, et al. A sampling method of imbalanced data based on sample space[J]. Acta Automatica Sinica, 2020, 2(1): 1-14(in Chinese).
[14] 赵楠, 张小芳, 张利军. 不平衡数据分类研究综述[J]. 计算机科学, 2018, 45(S1): 22-27, 57.
ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification[J]. Computer Science, 2018, 45(S1): 22-27, 57 (in Chinese).
[15] 林舒杨, 李翠华, 江弋, 等. 不平衡数据的降采样方法研究[J]. 计算机研究与发展, 2011, 48(S3): 47-53.
LIN S Y, LI C H, JIANG Y, et al. Under-sampling method research in class-imbalanced data[J]. Journal of Computer Research and Development, 2011, 48(S3): 47-53 (in Chinese).
[16] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[17] CHEN C P, SONG X H, JIANG S Q. Focal loss for region proposal network[M]//Pattern Recognition and Computer Vision. Cham: Springer International Publishing, 2018: 368-380.
[18] CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 9260-9269.
[19] TAN J R, WANG C B, LI B Y, et al. Equalization loss for long-tailed object recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 11659-11668.
[20] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: optimal speed and accuracy of object detection[EB/OL].[2021-12-13]. https://arxiv.org/abs/2004.10934.
[21] SHORTEN C, KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6: 60.
[22] YANG S, LUO P, LOY C C, et al. WIDER FACE: a face detection benchmark[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5525-5533.
[23] GE S M, LI J, YE Q T, et al. Detecting masked faces in the wild with LLE-CNNs[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 426-434.
[24] DEVRIES T, TAYLOR G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. (2017-08-15)[2021-12-31]. https://arxiv.org/pdf/1708.04552.pdf.
[25] 李艳霞, 柴毅, 胡友强, 等. 不平衡数据分类方法综述[J]. 控制与决策, 2019, 34(4): 673-688.
LI Y X, CHAI Y, HU Y Q, et al. Review of imbalanced data classification methods[J]. Control and Decision, 2019, 34(4): 673-688 (in Chinese).
[26] HUANG C, LI Y N, LOY C C, et al. Learning deep representation for imbalanced classification[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5375-5384.
[27] 张修宝, 林子原, 田万鑫, 等. 全天候自然场景下的人脸佩戴口罩识别技术[J]. 中国科学: 信息科学, 2020, 50(7): 1110-1120.
ZHANG X B, LIN Z Y, TIAN W X, et al. Mask-wearing recognition in the wild[J]. Scientia Sinica: Informationis, 2020, 50(7): 1110-1120 (in Chinese).
[28] DUAN K W, BAI S, XIE L X, et al. CenterNet: keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 6568-6577.
[29] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10778-10787.
[30] HUSSAIN S, YU Y, AYOUB M, et al. IoT and deep learning based approach for rapid screening and face mask detection for infection spread control of COVID-19[J]. Applied Sciences, 2021, 11(8): 3495.
Multi category mask wearing detection based on dynamic weighted category balance loss
CHEN Zhao-jun, CHU Jun, ZENG Lun-jie
(School of Software Engineering, Nanchang Hangkong University, Nanchang Jiangxi 330063, China)
Mask wearing in public has become an important measure to control the spread of Coronavirus Disease 2019 (COVID-19). With the prolonged development of the COVID-19 epidemic, the public’s awareness of self-protection has been gradually declining, leading to the increasing tendency of wearing masks incorrectly in public. The existing mask wearing detection methods usually only detect whether the mask is worn, without the detection of non-standard mask wearing scenarios, which is likely to cause cross infection. The current mask datasets lack the image data of non-standard mask wearing. To solve the above problems, on the basis of the existing mask datasets, more non-standard mask wearing images were collected through the Internet and offline, and the Mosaic data enhancement algorithm was improved to expand the data according to the features of face images in the cases of wearing masks. The improved Mosaic data enhancement algorithm could improve the mean average precision (mAP) of the benchmark network YOLOv4 by 2.08%. To address the problem of category imbalance in the dataset after data enhancement, the dynamic weighted balance loss function was proposed. Based on the weight binary cross entropy loss function, the reciprocal of the number of effective samples served as the auxiliary category weight, and dynamic adjustment was performed in each batch under training, thus solving the problems of weak stability, precision oscillation, and unsatisfactory effect when the re-weighting method was directly put to use. The experiment showed that mAP of the improved model reached 91.25%, and the average precision (AP) of non-standard mask wearing reached 91.69%. Compared with such single-stage methods as RetinaNet, Centernet, and Effcientdet, and such two-stage methods as YOLOv3-MobileNetV2 and YOLOv4-MobileNetV2, the improved algorithm exhibits higher detection accuracy and speed.
mask detection; category imbalance; Mosaic data enhancement; YOLOv4; re-weight
20 January,2022;
National Natural Science Foundation of China (62162045); Research and Development Projects of Jiangxi Province (20192BBE50073)
CHEN Zhao-jun (1996-), master student. His main research interests conver deep learning and object detection. E-mail:czjczj1996@163.com
TP 391
10.11996/JG.j.2095-302X.2022040590
A
2095-302X(2022)04-0590-09
2022-01-20;
2022-04-20
20 April,2022
国家自然科学基金项目(62162045);江西省重点研发计划项目(20192BBE50073)
陈昭俊(1996-),男,硕士研究生。主要研究方向为深度学习与目标检测。E-mail:czjczj1996@163.com
储 珺(1967-),女,教授,博士。主要研究方向为复杂场景的目标检测和跟踪。E-mail:chuj@nchu.edu.cn
CHU Jun (1967-), professor, Ph.D. Her main research interests conver object detection and tracking in complex scenes. E-mail:chuj@nchu.edu.cn