赵红成 田秀霞 杨泽森 白万荣
摘要:针对现有施工场所下工人安全帽佩戴检测模型推理耗时长、对硬件要求高,且复杂多变环境下的训 练数据集单一、数量少导致模型鲁棒性较差等问题,提出了一种轻量化的安全帽佩戴检测模型YOLO-S. 首先,针对数据集类别不平衡问题,设计混合场景数据增强方法,使类别均衡化,提高模型在复杂施工环境 下的鲁棒性;将原始YOLOv5s主干网络更改为MobileNetV2,降低了网络计算复杂度.其次,对模型进行 压缩,通过在BN层引入缩放因子进行稀疏化训练,判定各通道重要性,对冗余通道剪枝,进一步减少模型 推理计算量,提高模型检测速度.最后,通过知识蒸馏辅助模型进行微调得到YOLO-S.实验结果表明, YOLO-S的召回率及mAP较YOLOv5s分别提高1.9%、1.4%,模型参数量压缩为YOLOv5s的1/3,模型体 积压缩为YOLOv5s的1/4, FLOPs为YOLOv5s的1/3,推理速度快于其他模型,可移植性较高.
关键词:安全帽佩戴检测;数据增强;模型压缩;知识蒸馏
中图分类号:TP391 文献标志码:A DOI: 10.3969/j.issn.1000-5641.2021.05.012
YOLO-S: A new lightweight helmet wearing detection model
ZHAO Hongcheng1, TIAN Xiuxia1, YANG Zesen1, BAI Wanrong2 (1. College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China; 2. S^ate Grid Gansu Electric Power Research Institute, Lanzhou 730070, China)
Abstract: Traditional worker helmet wearing detection models commonly used at construction sites suffer from long processing times and high hardware requirements; the limited number of available training data sets for complex and changing environments, moreover, contributes to poor model robustness. In this paper, we propose a lightweight helmet wearing detection model _named YOLO-S—to address these challenges. First, for the case of unbalanced data set categories, a hybrid scene data augmentation method is used to balance the categories and improve the robustness of the model for complex construction environments; the original YOLOv5s backbone network is changed to MobileNetV2, which reduces the network computational complexity. Second, the model is compressed, and a scaling factor is introduced in the BN layer for sparse training. The importance of each channel is judged, redundant channels are pruned, and the volume of model inference calculations is further reduced; these changes help increase the overall model detection speed. Finally, YOLO-S is achieved by fine-tuning the auxiliary model for knowledge distillation. The experimental results show that the recall rate of YOLO-S is increased by 1.9% compared with YOLOv5s, the mAP of YOLO-S is increased by 1.4% compared with YOLOv5s, the model parameter is compressed to 1/3 of YOLOv5s, the model volume is compressed to 1/4 of YOLOv5s,
收稿日期:2021-08-24
基金項目:国家自然科学基金(61772327);国网甘肃省电力公司电力科学研究院横向项目(H2019-27(5)
通信作者:田秀霞,女,教授,硕士生导师,研究方向为机器学习与人工智能、数据安全与隐私保护.
E-mail: xxtian@shiep.edu.cn
FLOPs are compressed to 1/3 of YOLOv5s, the reasoning speed is faster than other models, and the portability is higher.
Keywords: helmet-wearing detection; data augmentation; model compression; knowledge distillation
0引 言
近年来,施工场所频繁出现工人未按规章佩戴安全帽所引发的伤亡事故,使得人力、财产造成 了巨大损失.随着智能监控下安全帽佩戴检测技术的不断发展,施工场所工人作业过程得以监督,形 成保卫工人生命安全的一道防线.然而,面对复杂多变的施工环境,现有的安全帽佩戴检测模型逐渐 显现出较多问题,如在数据量较少情况下检测精度低,推理耗时长导致无法实时反馈报警等.同时,大 部分安全帽检测模型对算力要求高,即所需硬件成本高.在工程建设期间,项目投资的实际效果决定 了企业的获益水平%企业的经济发展与金融业的发展相辅相成,因此,从工人人身安全与安全建设成 本两个角度出发,研究轻量级的安全帽佩戴检测模型,能够保障施工人员安全作业,有效减少对监控 平台硬件成本的固定投资,增加其他如安全建设、环保建设等投资,从而预防人力、财产损失,对企业 安全生产及经济发展具有重要意义,促进企业与金融业协调发展.
目前,深度学习目标检测算法大致分为两类:一是两阶段目标检测算法,由区域选择算法生成候 选区,输入至卷积神经网络分类.代表性的工作有R-CNN、Fast R-CNN以及Faster R-CNN等[3-5].二 是基于回归的一阶段目标检测算法,如YOLO算法等,其主要思想是将图片分为S x S个单元格, 每个单元格负责检测中心点落在该单元格内的目标,并预测出边界框及目标类别信息.此后,针对YOLO 算法识别精度低的问题,SSD、YOLOv2、RetinaNet、YOLOv3、YOLOv4及YOLOv5等相继提出_, 一阶段算法的检测精度得以提高.对比上述两种算法,两阶段算法检测精度较高,但一阶段算法的检 测速度明显优于前者,对于工业场景下检测任务的高实时性要求,一阶段目标检测算法的应用是较为 广泛的.因此,许多研究者提出了将YOLO算法应用到安全帽佩戴检测的多种改进方法,如施辉等[12] 构造图像金字塔获取安全帽多尺度特征,采用维度聚类确定目标框参数训练模型;方明等1131将密集连 接方法集成到YOLOv2模型上完成安全帽检测任务;乌民雨等[14]加入反卷积模块来增强模型在安全 帽小目标上的表达能力.同样也有一些工作对两阶段算法做出改进,徐守坤等1151将多层卷积融入原始 Faster R-CNN网络,提高了安全帽佩戴检测精度.
尽管如此,上述模型的改进都是立足于提高模型的检测精度,存在一些问题:现有数据集并不能 较好反映施工现场的复杂多样性,上述改进工作并没有从数据本身考虑,模型在复杂场景下的鲁棒性 不是很好,特别是文献[12]的简单模型;鉴于一些小型嵌入式平台算力有限,上述大部分模型较为复 杂,对硬件要求较高,可移植性较差,不利于后期部署.同时,考虑到监控的实时性要求,文献[12]增加 了多尺度特征提取层,文献[15]在两阶段模型增加了特征融合层,网络中存在冗余结构,文献[14]反 卷积层增加了计算量,因此上述模型的检测速度仍有提升空间.
综上所述,针对现有安全帽佩戴檢测模型存在的问题,首先,本文结合在线困难样本挖掘策略,设 计了混合场景数据增强方法,模拟并增加复杂场景工人佩戴安全帽数据集,提高模型的鲁棒性;其次, 提出了一种轻量级的安全帽佩戴检测模型YOLO-S,将YOLOv5s主干网络替换为MobileNetV2,由深 度可分离卷积代替原始卷积层提取特征,大幅减少网络计算量;再次,为进一步精简模型大小,在BN 层引入关于缩放系数的正则化项进行稀疏训练,筛选出重要性较低的通道,做出剪枝处理;最后,为使 剪枝后的模型保持较高的检测精度,采用知识蒸馏方法,以教师网络辅助剪枝后的模型微调得到 YOLO-S.通过实验验证了 YOLO-S模型的有效性,降低了硬件成本,同时在低算力平台便于部署.
1预备知识
i.i深度可分离卷积
MobileNet系列网络是轻量级网络的代表,被广泛应用于移动终端中,其特点是引入了深度可分 离的卷积形式.标准卷积由一个与输入数据具有相同通道数目的卷积核在整个特征图通道上进行乘 法累加运算,而深度可分离卷积则通过因式分解的方式将标准卷积分成了深度与逐点卷积(1 X 1卷 积).图1显示了标准卷积分解为深度卷积与逐点卷积的过程.其中Dfc x 为卷积核的尺寸,M表 示输入通道数,N表示输出通道数.
设Dp X 为输入特征图的尺寸,那么W个卷积核在某个全卷积层上的计算成本为
Dk × Dk × N × M × DF × DF . (1)
逐点 1 × 1 卷积计算成本为
N × M × DF × DF , (2)
则深度可分离卷积的总计算量为
Dk x Dk x M x Dp x Dp + N x M x Dp x Dp. (3)
由式(1)、(3),深度可分离卷积计算成本与标准全卷积比值为
因此,当卷积核大小为3 x 3时,随着卷积核个数不断增加,深度可分离卷积计算量最多可缩小为 标准卷积的1/9,同时也能保持较好的检测精度.
1.2 MobileNetV2
MobileNetV2[16]在采用深度可分离卷积基础上,使用线性瓶颈的反向残差模块提高特征提取能力. 如图2所示,卷积分为步长1、2两种模式,其中,Conv 1 x 1表示使用1 x 1的卷积核进行卷积, Dwise 3 X 3表示使用3 X 3的卷积核进行深度可分离卷积,Linear表示线性激活,Stride = 2表示卷 积步长为2.当卷积步长为1时,输入经过跳跃相加至模块输出,卷积步长为2时模块输入不经过相加 而输出.反向残差模块与残差结构不同的是:首先经过1 x 1卷积操作,对通道升维,缓解Relu6激活 函数导致的信息丢失,再由Relu6激活函数稀疏模型,最后经过1 x 1卷积以及线性激活函数降低为 输入通道数.
⑷步长为1
1.3 YOLOv5s 模型
YOLOv5继承了 YOLOv3、YOLOv4的优点,其中YOLOv5s是YOLOv5中较为轻量的网络,整 体结构如图3所示,由CBL、CSP、Focus以及SPP等组件共同构成.其中,CBL包括卷积(Conv)、批 标准化(Batch Normalization,BN)及Leaky Relu激活;残差单兀(Resunit)由两个CBL以及输入相 加而成;CSP由CBL、Resunit等组成;Focus组件采用了多个切片(slice)拼接后再经过CBL; SPP组 件经过CBL后,由多级最大池化以及输入4个部分拼接构成.YOLOv5s输出3个不同尺度的锚框,分 别预测大、中、小目标.
2YOLO-S安全帽佩戴检测模型
2.1混合场景数据增强
在复杂施工场景中,施工人员往往集中作业,由于受设备、天气等影响,模型的检测效果较差.因 此,本文结合在线困难样本挖掘[17],设计一种混合场景数据增强方法.分析采集的安全帽佩戴检测数 据集,共有两个类别:未佩戴安全帽的工人(类别id为0),佩戴安全帽的工人(类别id为(1).如图4(a) 所示,发现佩戴安全帽的工人作业数据集较少;图4(b)显示了目标大小情况,集中在红色区域,小目 标较多;图4(c)显示目标位置分布情况.针对类别不平衡问题,同时提高模型在复杂场景提取特征能 力,将遮挡严重、小目标多的数据集混合拼接作为每批次训练数据,增强过程如图4(d)所示.
(d)混合场景数据增强
数据集增强具体步骤如下:
(1) 在640 x 640图片中随机生成参考点:r (Xp,%),将其分为左上、右上、左下和右下4个部分.
(2)通过在线困难样本挖掘方法选取前兄个loss较大、类别为佩戴安全帽作业的工人数据集.
(3)在K个困难样本中随机选取4张,进行翻转、缩放等基本数据增强.
(4)将4张图片置于640 x 640的4个部分,当图片大于分割部分时进行裁剪,反之采用零填充, 使4张图片充满边角.
(5)增强后的数据集按批次训练,每批次重复第3步操作,平衡了数据集类别,同时场景多样性对 于提高模型鲁棒性也有一定帮助.
2.2稀疏训练
数据集处理后,修改YOLOv5s的主干网络为MobileNetV2,其计算量相较于原始网络已大幅降 低.但考虑到算法部署,训练后的模型体积仍然较大.由于训练数据集类别及数量较少,卷积运算后会存在一些冗余结构,导致计算效率下降,推理耗时较长.为了进一步压缩模型体积,筛选不重要通道、 采取模型剪枝操作是有必要的.剪枝方法通常分为权重剪枝与结构剪枝.权重剪枝修剪的是网络中较 小的权重连接,往往会破坏网络结构,对硬件要求高.结构剪枝是通过稀疏训练与结构稀疏正则化寻 找并删除不重要的通道层,从而减少计算量.为了保持网络完整性以及减少硬件成本,本文采用结构 剪枝方式对模型进行压缩.
批标准化(BN)[18]被广泛应用于神经网络训练优化中,能够提高训练效率、防止梯度爆炸等,其原理为
式 (5) 中: 与 为每批次的均值与方差, 为修正常数, 为归一化结果, 与 分别为缩放与平移因子, 为输出结果.
将 MobileNetV2 每个卷积层后的 BN 层的γ作为缩放因子, 作为判别通道重要性的指标, 根据式(6) 第一项将缩放因子添加到损失函数训练.
式 (6) 中: 为原始损失函数, 为输入, 为目标, 为训练参数; 为缩放因子惩罚项;为稀疏比例因子; 为 BN 层中缩放因子全集. 由式 (6) 第二项对缩放因子进行 L1 正则化操作[19], 与通道的输出相乘, 接着联合权重与缩放因子训练网络.
2.3通道剪枝
在经过稀疏训练后,对BN层的所有缩放因子Y的绝对值排序,同时设定剪枝比例为50%,按照Y 从小到大50%位置处,再设定一个阈值^对于所有小于^的缩放因子对应的通道剪除,若当前所有缩 放因子均小于^则保留最大的两个通道,以保持网络结构的完整性,从而不影响和主干网络维度匹 配.剪枝过程如图5所示,阈值^设为0.2.
2.4模型蒸馏
知识蒸馏是利用迁移学习的思想将高精度的大模型学习到的知识指导小模型训练[20],加速较小模 型的收敛.考虑到MobileNetV2为轻量级网络,可能存在剪枝过度导致模型精度下降问题.因此对剪 枝后的模型采用知识蒸馏微调,以保持较高的检测精度.
原YOLO的损失函数包括目标、分类以及坐标框损失,总体损失函数为
式 (7) 中: 、 、 为学生模型对应的目标、类别概率、坐标框, 、 、 为各自的真实值, 、 、 分别为目标、分类以及坐标框的损失函数.
考虑到 YOLO 为单级检测器, 包含了对背景边界框的预测, 标准蒸馏方法会将教师模型对背景框的预测转移给学生模型[21], 影响后者对目标框的训练. 因此, 将蒸馏损失转化为目标尺度函数, 蒸馏时只有当教师模型预测出的目标值较高时, 才去學习类别概率及坐标框, 修改目标损失函数如式 (8).
式 (8) 中: 第一项为目标损失, 第二项为蒸馏损失, 为权重系数, 为教师模型预测目标.
学生模型的分类损失函数如式 (9) 所示, 同样地, 坐标框损失函数如式 (10) 所示. 最终蒸馏总体损失函数如式 (11) 所示, 包含了对坐标框、分类以及目标的损失, 蒸馏基础函数采用 L2 loss.
式 (9) 中: 第一项对应原始分类损失, 第二项为蒸馏分类损失, 为权重系数, 为更新后的教师模型预测目标.
综上所述,如图6所示,YOLO-S分为数据增强、稀疏训练、剪枝以及蒸馏4个阶段.以YOLOv5s作为 教师模型,将MobileNetV2作为YOLOv5s主干网络,加载混合场景增强后的数据进行稀疏训练,根 据2.3节剪枝策略对模型通道裁剪,将其作为学生模型,采用上述损失函数蒸馏,随后微调训练得到最 终模型.
3实 验
3.1实验环境及数据集
本文实验环境:Ubuntu18.04 LTS,内存32 GB, GeForce RTX 2080TI显卡,深度学习框架为Pytorch. 实验数据集包含7581张图片,对其进行缩放、裁剪等预处理,同时对色度、饱和度、曝光率做了
调整,通过Labellmg工具进行标注,以9 : 1的比例划分训练集与测试集.
3.2训练参数设置
图片分辨率大小为640 x 640,训练批次设置为16,初始学习率为0.001, IoU阈值设置为0.5,所 有参照模型均按照此参数训练100个epoch.
3.3评价指标
实验将参数量、召回率、模型大小、平均精度(mAP@.(5)、FLOPs以及推理时间作为各模型评估 指标,验证本文提出的YOLO-S安全帽佩戴检测模型的有效性.其中,召回率计算公式为
式(12)中:R为召回率,nTP为模型检测结果为正值的正样本数,nFN为检测结果为负值的正样本数.
3.4稀疏训练过程
图7⑷为模型稀疏训练前BN层7值分布情况,可以发现7值大小分布在1附近.图7(b)为模型 稀疏训练后7值分布情况,部分层的7值已经趋近于0,表明这些7值对应的通道权重较小,可以考虑 被裁剪.此外,图8⑷为YOLO-S模型稀疏训练前50个epoch的损失函数曲线,图8(b)为平均精度 曲线.
3.5实验结果与分析
3.5.1纵向对比实验
保持各训练参数一致的前提下,比较YOLO-S与SSD、RetinaNet、Faster R-CNN的召回率、平 均精度及推理时间.其中推理时间根据一段现场施工测试视频获得,包含252帧图片,取推理每帧图 片平均花费的时间,如表1所示.
由表1得,在一阶段算法中,YOLO-S的平均精度最高,并且推理速度最快.相较于Faster R- CNN, YOLO-S的召回率和平均精度与之相差不大,但是在推理速度方面,YOLO-S推理每帧视频的 平均时间比Faster R-CNN快143 ms,达到了实时性检测要求.
3.5.2横向对比实验
为了进一步验证本文所提方法的有效性,对YOLO-S做了横向对比实验,即比较其与其他YOLO 模型在平均精度、召回率、模型大小、推理时间、模型参数量及FLOPs这些客观指标的表现.如表2 所示.其中,YOLO-S (without DA)表示YOLO-S模型不采用混合场景数据增强,YOLO-S (without Dist)表示不采用知识蒸馏,YOLO-S (without SP)表示不采用稀疏训练及剪枝,YOLO-S (without PR)表示采用稀疏训练而不采用剪枝,YOLO-S (PR 80%)表示设置剪枝率为80% (默认剪枝率为 50%),作为消融实验对比.
由表2得,YOLO-S综合性能表现最佳,召回率及平均精度这两个指标均比YOLOv5m低1%左 右,保持了较高的检测精度,平均每张图片的推理时间为17 ms,分别比YOLOv3、YOLOv3-SPP、 YOLOv5m 及 MobileNetV2-YOLOv3 快 10 ms、7 ms、5 ms、2 ms. 从模型大小上来看,米用80%剪枝 率的YOLO-S模型体积最小,但其平均精度与召回率偏低.通过知识蒸馏微调后的模型虽然模型体积 及FLOPs有了一定增长,但召回率及平均精度分别提高了 3.5%与2.4%,推理时间不变.此外,使用 混合场景数据增强方法后,增加了佩戴安全帽的工人作业数据,同时将不同困难样本的场景融合到一 起训练,提高了模型在复杂环境下的鲁棒性,召回率及平均精度提升了 2.3%与1.9%.采用稀疏训练 而不进行剪枝,模型的体积和FLOPs较YOLO-S大;采用30%剪枝率后,模型的召回率和平均精度 较YOLO-S有较小提升,模型大小、推理时间较YOLO-S分别增长1 MB、2 ms,FLOPs增长0.87个 BFLOPs; YOLO-S采用稀疏训练及50%剪枝率后,模型召回率和平均精度比不采用稀疏训练及剪枝 时稍有下降,模型大小减少1.5 M,推理时间快2 ms,FLOPs减少0.95个BFLOPs;从模型体积上看, YOLO-S 的模型体积为 13.9 M,约为 YOLOv5s 的 1/4, YOLOv3 的 1/17, YOLO-SPP 的 1/19, YOLOv5m 的 1/12,其 FLOPs 约为 YOLOv3 与 YOLOv3-SPP 的 1/32, YOLOv5m 的 1/10, YOLOv5s 的 1/3.这 对于小型嵌入式设备的模型植入是可行的,同时降低了存储成本.
图9为YOLO-S与其他YOLO模型参数量的对比,采用模型压缩后的YOLO-S参数量最少,计 算开销得以减少,降低了硬件成本.因此,綜合施工场所安全帽检测精度与检测实时性要求,同时考虑 后期算法的移植,YOLO-S的表现较好.
3.5.3低算力平台部署
为验证YOLO-S模型的可移植性,在低算力平台开发安全帽佩戴检测系统,将YOLO-S模型作为 后端算法嵌入,为避免模型误检为单独闲置的安全帽,训练时融入工人标签,即模型只检测出佩戴安 全帽的工人类别及未佩戴安全帽的工人类别.如表3所示,分别比较了以下轻量级模型在两个不同低 算力平台推理视频每帧图片的耗时,YOLO-S推理每张图片的速度快于其他模型.
测试效果如图10所示.紫色框为工人类别,绿色框为佩戴安全帽的工人,黄色框为未佩戴安全帽 的工人,侧面说明本文提出的YOLO-S在低算力移动端的部署是可行的.但YOLO-S在复杂场景下视 频流中目标过小被严重遮挡时存在漏检情况,图10中远处小目标未检出.
4结论
本文主要针对现有安全帽佩戴检测模型推理速度慢、对硬件要求高、可移植性差,以及数据集类 别不均衡、数量少等问题,采用混合场景数据增强方法,使类别均衡,提出了一种轻量级安全帽佩戴检 测模型YOLO-S.实验结果表明,改进后的YOLO-S模型既保持了较高的检测精度,同时拥有较快的 检测速度,在低算力平台检测效果较好,可移植性高.但是由于施工场景多变,现有数据仅靠数据增强 提升不大,复杂场景仍存在漏检情况,未来将采集各种场景下的工人佩戴安全帽作业数据,提高模型 的鲁棒性并部署到小型机器人移动端,实现自动巡检.
[参考文献]
[1]边星,晋良海,陈雁高,等.施工作业人员佩戴安全帽行为意向研宄[J].中国安全科学学报,2016, 26(1(1): 43-48.
[2]李海元.浅析工程建设项目投资管理与决策[J].商讯,2020(18): 154-155.
[3 ] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[4]GIRSHICK R. Fast R-CNN [C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440-1448.
[5]REN S,HE K,GIRSHICK R,et al. Faster R-CNN: Towards real-time object detection with region proposal networks [C] //Advances
in Neural Information Processing Systems. 2015: 91-99.
[6 ] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once: Unified,real-time object detection [C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[7 ] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single shot multibox detector [C]//European Conference on Computer Visio. 2016: 21-37.
[8 ] REDMON J,FARHADI A. YOLO9000: Better,faster,stronger [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7263-7271.
[9 ] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2020,42(2): 318-327.
[10]REDMON J,FARHADI A. YOLOv3: An incremental improvement [EB/OL]. (2018-04-08) [2021-06-12]. https://arxiv.org/abs/1804. 02767.
[11]BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. (2020-042(3) [2021-06-12]. https://arxiv.org/abs/2004.10934.
[12]施辉,陈先桥,杨英.改进YOLOv3的安全帽佩戴检测方法[J].计算机工程与应用,2019, 55(1(1): 213-220.
[13]方明,孙腾腾,邵桢.基于改进YOLOv2的快速安全帽佩戴情况检测[J].光学精密工程,2019, 27(5): 1196-1205.
[14]乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测方法[J].信息通信,2020(6): 12-14.
[15]徐守坤,王雅如,顾玉宛,等.基于改进区域卷积神经网络的安全帽佩戴检测[J].计算机工程与设计,2020, 41(5): 1385-1389.
[16]SANDLER M,HOWARD A,ZHU M,et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks [C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4510-4520.
[17]CHU J, GUO Z, LENG L. Object detection based on multi-layer convolution feature fusion and online hard example mining [J] . IEEE Access, 2018: 19959-19967.
[18]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]//Proceedings of the 32nd International Conference on Machine Learning. 2015: 448-456.
[19]LIU Z, LI J G, SHEN Z Q, et al. Learning efficient convolutional networks through network slimming [C]//Proceedings of 2017 IEEE International Conference on Computer Vision. 2017: 2755-2763.
[20]GOU J P, YU B S, MAYBANK S J, et al. Knowledge distillation: A survey [EB/OL]. (2020-06-09) [2021-06-12]. https://arxiv.org/ abs/2006.05525.
[21]MEHTA R, OZTURK C. Object detection at 200 frames per second [EB/OL]. (2018-05-16) [2021-06-12]. https://arxiv.org/abs/1805. 06361.
(責任编辑:李万会)