谈小峰 王直杰
摘 要:传统的基于颜色分割的乒乓球识别方法易受光线、清晰度影响,鲁棒性较低。为解决这一问题,对YOLOv4进行改进,用K-means聚类设计先验框,增强尺度适应性。针对乒乓球尺寸,裁剪网络分支并压缩卷积层,加快特征提取速度。针对采集数据正负样本不均衡,改进损失函数,提高预测框边界准确度。使用快速NMS算法加速预测过程,提高模型的计算速度。实验结果表明,基于YOLOv4的改进模型在乒乓球识别任务中精度达到94.12%,帧处理速率达到39.34fps。
关键词:YOLOv4;乒乓球识别;K-means聚类;快速NMS算法
中图分类号:TP391.4 文献标志码:A 文章编号:2095-2945(2020)27-0074-03
Abstract: The traditional table tennis recognition method based on color segmentation is easily affected by light and clarity, and its robustness is low. In order to solve this problem, YOLOv4 is improved and a priori frame is designed by K-means clustering to enhance the scale adaptability. Aiming at the size of table tennis, the network branches are cut and the convolution layer is compressed to speed up the speed of feature extraction. In view of the imbalance between positive and negative samples of collected data, the loss function is improved to enhance the accuracy of the boundary of the prediction box. The fast NMS algorithm is used to accelerate the prediction process and increase the calculation speed of the model. The experimental results show that the accuracy of the improved model based on YOLOv4 in table tennis recognition task is 94.12%, and the frame processing rate is up to 39.34fps.
Keywords: YOLOv4; table tennis recognition; K-means clustering; fast NMS algorithm
1 概述
乒乓球識别技术属于目标检测范畴,传统的基于颜色分割的方法容易受到光线、球的清晰度以及复杂背景影响,识别鲁棒性差。深度卷积神经网络由于能够自主完成对目标特征的学习,提取关键信息,因而具有较强的鲁棒性。近年来,基于卷积神经网络的目标检测算法主要依托两种思路,一种是基于目标候选框思想的two-stage,另一种是基于回归思想的one-stage。Two-stage先提取目标候选框,再在其基础上训练检测模型,如Fast R-CNN, Faster R-CNN等[1-2]。而one-stage则没有了目标候选框提取操作,直接利用检测网络产生目标的类别和位置信息,拥有了更高的检测速度,如SSD,YOLOv3,YOLOv4等[3-4]。
针对乒乓球的尺寸特点和运动特性,本文对YOLOv4算法进行改进,在结构上精简网络,在方法上引入一些调优手段,实现算法的精度速度最优平衡。首先对多尺度分支图上的先验框进行K-means聚类,根据聚类结果恰当地剪掉原始网络中的大尺度分支。剩下的两个尺度分支在经过降采样之后分别与高层语义信息融合,构建两个尺度的目标检测层。由于乒乓球的轮廓细节并不如其他目标复杂,为避免随着网络加深导致特征消失问题出现,分别在剩下的两个目标检测分支中减少两层卷积层,简化特征提取步骤,以获得表征目标信息的不变特征。其次,在训练过程中,由于采集的数据存在正负样本不均衡的问题,对损失函数做了一些改进,同时利用高斯分布特性增加对边界框可靠性的判断。最后,使用NMS算法[5]加速预测过程,提高模型的计算速度。实验结果表明,基于YOLOv4的改进模型在乒乓球识别中有很好的效果。
2 YOLOv4目标检测框架
2.1 YoLOv4算法原理
YOLOv4算法在原有YOLOv3目标检测架构基础上,从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面引入一些优化方法,使得模型在检测速度和精度上达到了目前为止的最优匹配[4]。YOLOv4首先通过特征提取网络(也称主干网络)提取输入图像的特征,然后将输入图像划分成S*S的网格,目标中心所在的网格负责完成对目标的检测。为了完成对C类目标的检测,每个网格需要预测B个边界框以及分别属于C个类别的条件概率,并输出表征边界框中是否包含目标及输出边界框准确度的置信度信息Conf(Object)。
Pr(Object)用来表示是否有目标物落入该候选网格中,如果有则为1,没有则为0。IoU代表预测框与真实框之间的交并比,其中box(Pred)代表预测框,box(Truth)代表真实框。每个预测边界框包含五个参数,分别是x,y,w,h,Conf(Object),其中(x,y)代表预测框中心与真实框中心的偏移,(w,h)代表预测框的宽和高。根据每个网格的输出,模型最终输出的参数为S×S×(5×5×B+C)。
2.2 YOLOv4算法核心
YOLOv4的主干网络CSPDarknet53是算法的核心,用来提取目标特征。借鉴CSPNet能够在轻量化的同时保持准确性、降低计算瓶颈、降低内存成本[6]的经验,YOLOv4在Darknet53的每个大残差块上加上CSP,将基础层的特征映射划分为两部分,再通过跨阶段层次结构合并,在减少计算量的同时保证准确率。CSPDarknet53的激活函数使用的是Mish激活函数,后面网络沿用leaky_relu函数,实验证明这样设置在目标检测中准确率更高。
与YOLOv3算法采用FPN进行上采样不同,YOLOv4借鉴PANet网络中信息流通思想,先通过上采样方式将高层特征的语义信息传播到低层网络然后与底层特征的高分辨率信息相融合,提高小目标检测物的检测效果。再增加从最底层到最上层的信息传输路径,通过下采样加强特征金字塔。最后用不同层的特征图融合来做预测。
3 改进的YOLOv4算法
3.1 K-means聚类
先验框的引入将目标检测问题转化为固定格子内是否有目标物的问题以及预测框与真实框距离的问题,而且还摒弃了以往的多尺度滑动窗口遍历环节,使得目标检测的速度和精确度大大提升。YOLOv4的先验框是在VOC数据集的标注上进行聚类得到的。由于VOC数据集包含的物种多样,物体长宽比例差别很大,所以先验框的差别也很大。然而在乒乓球识别任务中,乒乓球的形状基本在不同帧中呈现的基本一致,因而直接使用原模型的先验框获取方式显然是行不通的。鉴于K-means算法对于数据集标注框聚类效果颇佳,本文用它来获取与乒乓球尺寸及比例相匹配的基准框。对数据集中的标签分布情况进行统计,从1开始不断增加聚类中心的个数,经过迭代,分别获得聚类中心。由于使用欧式距离衡量标签相似性会导致大尺寸标签产生更大的误差,影响聚类结果,所以将聚类中心与标签的交并比(IoU(1,c))作为K-means聚类的相似度参数。聚类距离计算公式如下所示[3-4]:
3.2 面向小尺寸乒乓球的网络结构优化
通常卷积神经网络层数越深,模型提取到的目标语义信息就越丰富。然而随着卷积层的加深,一方面会使得计算量大大增加,推理速度变缓,另一方面会导致特征消失问题出现。尤其如乒乓球这类语义信息本就不是很丰富的目标。因此本文根据K-means聚类分析的结果,简化网络的特征提取过程。YOLOv4模型的原三个分支分别用来识别图像中的大中小三类目标。为了适合乒乓球尺寸特性,本文减去其用来识别大目标的分支,保留剩下两个分支,并分别将8倍降采样层、16倍降采样层与高层语义信息层进行融合,在两个尺度上建立乒乓球特征检测层。同时对于每个目标检测层的深度进行逐步压缩,以充分利用低层特征图提取的细节信息。考虑到网络的输入分辨率对模型的检测精度和速度影响,首先将数据集图像统一缩放到3通道分辨率为608×608像素的形式,输入到CSPDarknet53,经过卷积层提取目标特征,交替使用3×3和1×1大小的卷积核进行运算,基于改进的YOLOv4网络结构,融合中等特征图的细节信息和小特征图的语义信息,在剩余两个尺度上训练出最终的乒乓球识别模型。
3.3 损失函数改进
YOLOv4的提出者认为损失函数的设计是能够提高精度而不增加推断时间的优化技术之一。传统的目标检测器通常使用均方误差直接对边界框的中心点坐标和高度、宽度进行回归,而基于anchor的方法是估计相应的偏移量,这都没有考虑对象本身的完整。原模型损失函数设计时就已经考虑了边界框坐标预测误差、边界框的置信度误差以及识别物体所属类别预测误差。为解决采集数据样本不均衡的问题,本文借鉴Focal Loss[7]的思路,给交叉熵函数添加一个调制系数?琢,变成
同时受Gaussian YOLOv3[8]的启发,为了提高乒乓球检测精度,利用高斯分布特性来改进损失函数,增加对乒乓球识别的边界框可靠性判断,以边界框中心点x方向坐标为例,修改后的边界框x坐标预测误差计算方法如下公式所示:
式中tx表示边界框的中心坐标相对于网格左上角x坐标的偏移量。?滋■为边框的坐标,?撞为各坐标的不确定性。
3.4 快速NMS算法
传统NMS算法按照检测出来的目标框的置信分数进行降序排列,并设置一个IoU阈值,去除大于该阈值的边界框,直到遍历完所有的预测框,剩下的边界框即作为最终目标检测结果。由于是顺序遍历需要对每一个类别进行排序筛选,会导致算法速度上的损失。本文采用并行处理方式,并行地对每个边界框进行筛选和保留。首先输入所有未经过筛选的网络预测框,按照置信分数降序排列,每个类别仅选取前N个检测结果,然后对每一类的结果计算两两交并比,得到IoU矩阵。其對角线元素和下三角为自交并比和重复计算,将其置为0。计算IoU矩阵最大值,滤除阈值界限外的框,最后剩余的筛选结果便是最终的识别结果。
4 实验与分析
4.1 数据预处理
本文训练和测试用数据一部分通过双目相机在实验室拍摄采集,另一部分来源于网络乒乓球比赛视频,共组成5102张图片。为获得更好的训练效果,本文借鉴YOLOv4作者的观点,采用Mosaic数据增强的方式,对数据集随机选取四张图片,随机缩放,再随机分布进行拼接。这样不仅大大扩充了原始采集的数据集,而且还丰富了图片的背景。当进行随机裁剪的时候,如果裁剪了样本当中的标签框的部分区域,则将其舍弃,保留裁剪之后还完整的标签框。因为在随机缩放过程中增加了很多小目标,平衡了原始数据集目标尺度问题,网络的鲁棒性更好。Mosaic数据增强还有一个好处是在训练时可以直接计算4张图片的数据,变相提高batch-size,使得训练设置的Mini-batch大小并不需要很大,降低模型训练难度。
4.2 评价指标
在目標检测领域,为了准确评估模型检测效果,往往需要计算被检目标的精准率P(Precision)和召回率R(Recall)。
式中,TP代表模型正确检测出来的目标数量;FP代表模型误检的目标数量;FN代表模型漏检的目标数量。PR曲线是一条分别以P和R为横纵坐标的曲线。平均精准度指标(Average Precision,AP)反映的是PR曲线下的面积,综合了精确率和召回率的结果,用于评估模型在单个检测类别上的表现。
4.3 实验设置
使用具有8G内存、1050TI独立显卡并且cuda10.1加速框架的计算机,在Ubuntu18.04操作系统下对原始YOLOv4网络和本文改进YOLOv4网络分别进行训练。训练开始阶段,衰减系数设置为0.0005,学习率设置为 0.001,并且选择step模式更新学习率,在训练迭代次数达到15000和20000次时,将学习率分别降低至初始学习率的10%和1%。
4.4 实验结果与分析
实验发现,随着聚类中心的个数k逐渐增加,聚类距离d越小。但当k大于4时,d减小的程度非常缓慢。为了避免冗余,选择k=4时的四个聚类中心(15,11),(30,25)(48,35),(58,47)。考虑到Mosaic数据增强过程中,不排除有一些乒乓球尺寸被放大,所以加入一组稍大的(62,70)来匹配。
针对采集数据集数量有限的问题,先用目标检测通用数据集VOC2007在同等环境下分别对YOLOv4网络和本文改进的YOLOv4网络预训练,将预训练参数作为模型初始参数。实验发现,模型在经过较少迭代次数之后,训练损失快速下降并且最终达到一个较低值水平,迭代次数达到30000次基本可以停止迭代,过程中每100次迭代进行依次验证。本文改进的YOLOv4模型和原始YOLOv4网络在乒乓球识别任务中的检测结果对比如表1所示。
5 结束语
本文基于目标检测模型YOLOv4进行改进,用于对运动过程中的乒乓球识别。针对采集数据集特点,采用K-means方法对数据标签聚类。面向小尺寸乒乓球优化网络结构,减去大目标分支并压缩特征提取层。通过改进损失函数提高了位置定位能力,使用快速 NMS 算法提高网络实时性。实验结果表明,本文改进的算法比原始YOLOv4在精度和速度性能方面都有一定的提升,可以应用于乒乓球机器人视觉系统,对球进行位置跟踪和轨迹预测,也可以应用于其他涉及目标检测、目标跟踪和轨迹预测的球类运动场景中。
参考文献:
[1]Jun M R, Luo H B, Wang Z B, et al. Improved yolov3 algorithm and its application in small target detection[J]. Acta Optica Sinica, 2019, 39(12):1210002.
[2]Zhi Tian, Chunhua Shen, Hao Chen, Tong He. FCOS: fully convolutional one-stage object detection[EB/OL]:https://arxiv.org/abs/1904.01355,[2019-04-02].
[3]Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[J].2018.arXiv preprint arXiv:1804.02767,20.
[4]Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020.
[5]Neubeck A, Van Gool L. Efficient Non-Maximum Suppression[C]. international conference on pattern recognition, 2006: 850-855.
[6]Wang C, Liao H M, Yeh I, et al. CSPNet: A New Backbone that can Enhance Learning Capability of CNN[J]. arXiv: Computer Vision and Pattern Recognition, 2019.
[7]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. Transactions on Pattern Analysis & Machine Intelligence, IEEE, 2017, 99: 2999-3007.
[8]Jiwoong Choi, Dayoung Chun, Hyun Kim, et al. Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty[EB/OL].(2019-04-09)[2019-08-12].