改进目标检测网络的仰卧起坐测试计数

2022-07-29 06:54包梓群

智能计算机与应用 2022年8期

包梓群

（浙江理工大学信息学院，杭州 310018）

0 引言

仰卧起坐是国内各个阶段学生体育测试中的一项重要运动。在日常测试过程中，需要人工对其动作是否规范进行评判并计数。随着深度学习中目标检测技术被广泛应用于生产生活中，同时也为机器检测的实现提供了技术基础。目标检测为当今计算机视觉的热门研究方向。其主要工作就是预测目标在视频或者图片中的具体位置，现已在安防、自动驾驶、行为分析等应用领域起着至关重要的作用。

目标检测，旨在从数字图像中检测出特定类别的实例，这是计算机视觉中一项基本且具有挑战性的任务。但近年来，随着卷积神经网络（Convolutional Neural Network，CNN）不断发展与演进，使得目标检测算法越来越成熟。采用CNN 的目标检测算法因其在特征提取上具有良好的泛化性，逐渐取代了基于人工特征的目标检测算法。基于CNN 的目标检测算法在不同的场景中产生多种类型：

（1）基于区域候选目标检测算法，如Faster-RCNN。

（2）基于端到端回归的算法模型，如YOLO、RetinaNet。

2 种模型的特点较为明显：基于区域候选的模型可以得到较好的检测准确率，但检测速度较慢；基于回归的模型目标检测速度快，但准确率较低。为了使模型能在实时检测的同时又不有损精度，本文提出了一种改进的RetinaNet 网络目标检测算法。

1 网络模型

RetinaNet 网络模型主要由主干网络、颈部网络、分类子网络和回归自网络组成。其中，主干网络即为卷积池化层的堆叠网络，一般为ResNet网络和VGG网络；颈部网络则用于特征的堆叠和融合，一般使用特征金字塔网络（Feature Pyramid Network，FPN）。FPN 将多尺度特征加以融合，使得最后的预测结果包含各帧图片内各个尺度的信息，模型的性能也得以提升；分类子网络利用全卷积层对颈部网络的输出进行处理，再对图像中的目标对象去做类别预测；回归子网络利用全卷积层对颈部网络的输出进行处理，并对图像中的目标对象实现定位。RetinaNet 网络模型结构如图1 所示。

图1 一般RetinaNet 网络模型图Fig.1 General RetinaNet network model diagram

2 改进的RetinaNet 网络目标检测算法

针对原始网络对于视频中目标检测精度不高的问题，采用2 个RetinaNet 网络模型级联，即将第一个RetinaNet 网络的输出作为第二个RetinaNet 网络的输入，用来对待检测图像进行目标检测，增加模型的泛化能力。但是网络模型的级联会增加资源消耗和参数数量。为了解决此问题，引入深度可分离卷积（Depth Separable Convolution，DSC）取代原始的卷积模块，以降低网络级联带来的资源消耗和计算量。使用深度卷积模块，虽然简化了模型的骨干网络，但会弱化模型的特征提取能力，导致模型精度下降。为此，提出了一种新的函数，用来计算定位框的损失，弥补丢失的精度。

2.1 深度可分离卷积

深度可分离卷积（Depth Separable Convolution，DSC）是把常规卷积分为深度卷积（Depthwise Convolution，DW）和点卷积（Pointwise Convolution，PW）两个阶段。其中，DW 阶段实质上起到一个滤波的作用，通过使用和输入图像通道数相同的卷积核，提取每一个单独通道的特征信息。PW 阶段可以看作是对DW 阶段的输出进行组合的过程，使用一个11 × C ×C（这里，C为输入通道数，C为输出通道数）的卷积核对DW 的输出进行整合，其结构如图2 所示。

图2 深度可分离卷积Fig.2 Depth Separable Convolution

深度可分离卷积的计算量和参数量都比一般卷积要小，可以极大地增加模型检测的速度，满足仰卧起坐实时检测的需求。但因其简化了特征提取模块，因此就需要改进预测回归的损失函数，来弥补准确率的丢失。

2.2 损失函数的改进

在目标检测中，常常利用预测框（Prediction Box，）与真实框（Ground Truth，）之间的交并比（Intersection over Union，）作为衡量两者之间关系的重要度量，的计算公式如下：

相对于其它预测回归的损失函数，具有更好的效果，但也存在一定的局限性。研究给出了几种预测框与真实框间的关系如图3 所示。由图3（b）、图3（c）可知，当预测框与真实框没有重叠时，2 种情况的损失值相同，但图3（b）的效果略好于图3（c）。另一方面，当损失函数的值为0 时，在反向传播中其梯度为0，无法对网络进行优化。当初始值选择不佳时，会使训练出来的模型拟合效果极差。

图3 几种预测框与真实框之间的关系Fig.3 Relationship between several prediction frames and real frames

为了解决上述问题，对回归损失函数进一步优化。对此可表示为：

其中，表示真实框与预测框之间的偏差。

将其求导得到：

从式（4）中可以看出，Smooth在较小时，对的梯度也较小；当变大时，也只能在1 之内，限制了梯度跌涨自由，不会破坏网络参数，解决了当值比较大时导致训练损失值出现明显变化而引起的训练不稳定问题。

比较F和函数，引入正则项，改变了I的正负号，使得其与正则项有一样的梯度朝向。构建预测回归的损失函数L公式如下：

由式（5）可知，若出现被测试人员半卧起、卧起姿态的特殊情况时，虽然2 种情况具有相同的IoU值，即与公式（5）中的F值相同。但得益于Smooth正则项，边框损失函数L的梯度仍然可以得到反向传播。实验测得3 时，在仰卧起坐测试上有着较好的效果。

3 人体姿态估计

人体姿态估计、即关键点检测，目的是检测人体身上个关键点的位置（头部、手肘、膝盖等），抽象出人体的当前行为。目前，最先进的方法是把该问题转变为估计热图。需要一提的是，每个热图的值，表示第个关键点的位置置信度。

在网络设计方面，当前大多数方法都是将高分辨率到低分辨率的子网络串联起来，且每个子网络形成一个阶段，相邻子网络之间存在一个下采样层，将分辨率缩小一半。本文采用HRNet 并行地连接高到低的子网，保持了高分辨率的表示，生成了整个过程的空间精确热图估计。通过重复融合高到低子网产生的高分辨率，生成可靠的高分辨率表示。

本文将HRNet 引入到模型中，测试时被测试人员各个姿态的关键点效果如图4 所示。

具体地，图4（a）表示被测试人员平躺姿态的骨架图；图4（b）表示被测试人员半卧起姿态的骨架图；图4（c）表示被测试人员卧起姿态的骨架图。

图4 被测试人员各个姿态的关键点提取Fig.4 Key points extraction of each pose of the tested target

4 实验结果分析

实验所用的计算机系统配置：CPU 为Intel（R）Xeon（R）Silver 4110 CPU ＠ 2.10 GHz；GPU 为24 G RTX3090 显卡；主频为4.00 GHZ；系统为CentOS 7.7。采用Python3.6 语言编写实验代码，深度学习框架选取Pytorch1.4.0。

4.1 性能评价指标

由于将网络用于仰卧起坐的实时检测具有一定的特殊性，无法使用召回率、等常用指标来进行评价。因此，本文设计了一些合理的评价指标，用于实验检测，对此拟做阐释分述如下。

（1）平均测得仰卧起坐数量可由如下公式计算求出：

（2）平均实际仰卧起坐数量。可由如下公式计算求出：

（3）平均反应时间。可由如下公式计算求出：

（4）平均测试准确率。可由如下公式计算求出：

4.2 实验结果以及分析

为了验证本文提出的改进目标检测网络相对于原始效果有所提升，使用4.1 节中采集的数据集展开对比试验，并使用上述指标进行评价。实验结果见表1。为了得出式（5）中最好的超参数，在［0，10］的区间内，设置步长为1 进行调参。实验结果如图5 所示。

表1 改进前后网络各个指标具体数值表Tab.1 Specific values of network indicators before and after improvement

图5 获取最佳超参数λ 的实验结果图Fig.5 Experimental results of getting the best super parameters λ

由图5、表1 可以看出，改进后的网络相对于原网络在速度和精度上有了质的飞跃。模型反应时间由原来的1 570 ms 降低到了50 ms，达到了实时检测的效果。得益于速度的增长和损失函数的改进，模型的准确率提高了0.498。以上结论验证了改进网络的有效性。

5 结束语

本文提出了一种改进的RetinaNet 网络目标检测算法。为了提高检测效果，将2 个RetinaNet 网络级联，采用深度可分离卷积代替了原网络中的骨干模块，以减小级联网络带来的额外计算量；而后对边框损失函数加以改进，引入了Smooth正则项，在给出了重合度信息的基础上，Smooth又提供了预测框与真实框的位置信息，使得网络效果得到提升，并且训练也更加稳定。由实验结果可知，改进后的网络针对仰卧起坐测试计数具有良好的效果，满足正确检测的实时要求。