鲁杰伟 盘轩 彭雯蝶 谌爱文
关键词:手势识别;YOLOv5S;改进YOLOv5s模型;目标检测;动态稀疏注意力
0 引言
随着人工智能技术的不断发展,手势识别作为一种基于人机交互的智能技术逐渐受到广泛关注和应用。手势识别技术可以通过感应设备对人的肢体动作进行识别和分析,并将其转化为电子信号,从而实现与计算机、智能设备的自然交互。手势识别技术在智能城市、智能家居、智能医疗、智能交通等领域都有广泛的应用,为人们提供了更加自然、便捷、高效的交互方式,从而提高了生活质量和工作效率。
深度学习技术的进步极大地推动了手势识别领域的发展。在理论研究方面,学者们不仅探索了手势的识别和处理机制,还深入分析了手势交互的基本动作及其参数。国际上,例如CMU、Stanford、MIT 和Google等研究机构,在手势识别技术的硬件、算法和应用方面取得了显著成果[1]。这些进展为手势识别的实际应用提供了新视角和解决方案。特别是结合深度学习技术,如YOLOv5[2],对提高识别算法的准确性和效率的研究,成为了重点。YOLOv5s的应用优化了手势识别中的准确度和速度,尤其在处理复杂背景和动态手势方面显示出了优势。
YOLOv5s作为一种高效的目标检测模型,在手势识别领域得到了广泛的关注和应用。其在手势识别方面的主要优势体现在其快速和准确的识别能力,特别适用于需要实时处理的动态手势场景。通过对YOLOv5s模型的调整和优化,该模型能够更有效地识别各种复杂度的手势,进而提高手势识别系统的整体性能。
然而,现有的基于YOLOv5s手势识别算法在目标检测准确率和效率方面存在一定的问题,限制了其在实际应用中的性能[3]。其中一个原因是现有的基于YOLOv5s手势识别算法在目标检测阶段存在相似手势区分能力较弱以及检测结果的重叠和重复问题。因此,我们希望通过改进YOLOv5s算法来提高手势识别的准确率和效率。本文将从目标检测预测阶段对YOLOv5s算法进行改进,以解决现有算法在目标检测和速度方面的不足,从而使其在手势检测领域更加快速和准确。
1 相关工作
YOLOv5是YOLO(You Only Look Once) 系列目标检测模型的一个版本,由Ultralytics 团队开发。YO?LOv5s模型的整体架构可以分为几个主要部分,包括骨干网络、特征提取器、检测头和损失函数[2]。YO?LOv5s 模型的骨干网络采用了CSPDarknet53,CSP?Darknet 是Darknet 系列中的一种变体,引入了CSP(Cross Stage Partial) 结构,以提高网络的效率和性能。CSP结构通过将特征图分成两部分,一部分进行卷积计算,另一部分保持不变,从而减少了计算量和参数数量。在骨干网络之后,YOLOv5s模型使用了一系列的卷积层、上采样层和残差连接来提取图像的特征。这些层逐渐减小特征图的尺寸,并增加特征图的深度,以捕获图像中不同尺度的信息。YOLOv5s模型的检测头负责预测边界框的位置和类别。检测头由一系列的卷积层和最终的输出层组成,其中输出层负责生成目标的位置坐标、置信度分数和类别概率[3-4]。
YOLOv5s 模型在YOLOv5 的基础上对目标检测中常见的问题都做了一定的优化改进,在性能上同时兼顾检测速度和检测精度,具有较好的工程实用性。YOLOv5s模型采用了一种简单而有效的设计,具有较低的计算和参数量,同时能够实现较高的检测精度和速度。这使得它成为一种适用于移动设备和嵌入式系统的理想选择。
然而,通过分析,发现YOLOv5s在手势识别上依然存在部分问题。为了满足手势检测的需求,本文对YOLOv5s模型进行了进一步优化,以提升检测精度和效率。本文通过引入动态稀疏注意力BiFormer模块,更好地处理长序列数据和具有变长结构的数据[5],例如文本和视频,从而可以更好地捕捉目标在时间和空间上的关系。因此,改进的YOLOv5s在处理物体尺度和形状的变化、长序列数据和具有变长结构的数据以及目标重叠和形状信息方面有了很大的提升,使得其在手势识别上更加强大和精准。
2 基于改进YOLOv5s 的手势识别算法
在视觉变换器中,注意力机制作为核心构件,擅长捕捉长距离依赖关系。然而,这种能力的代价是巨大的计算负荷和内存占用。为解决这个问题,提出了动态稀疏注意力机制(Dynamic Sparse Attention,DSA) 。DSA通过对自注意力(Self-Attention) 矩阵进行二值化处理,仅计算选定特征,有效减少了计算量和内存使用。
BiFormer 模块融合了Transformer 网络中的自注意力(Self-Attention) 和交叉注意力(Cross-Attention) 机制[5],以更有效捕捉序列数据的依赖关系。在该模块中,输入序列先后通过自注意力和交叉注意力计算,然后通过前馈网络处理,以产生最终输出。其结构如图1所示,详细信息如表1所示,这种方法优化了信息处理流程,提高了处理效率。
具体来说,DSA引入了一个自适应阈值Tau,用以将自注意力矩阵A 二值化成一个二值矩阵B。在这个过程中,只有那些自注意力矩阵中的值大于阈值Tau元素才会在二值矩阵中被设为1。然后,使用这个二值矩阵B 替代原始的自注意力矩阵A 来进行注意力计算,要注意的是,在计算过程中仅需要计算那些在二值矩阵中被选中的位置上的特征。DSA的具体计算公式如下:
其中,Q、K 和V 分别是查询、键和值矩阵,dk 是键的维度。
BiFormer模块中,除了自注意力机制,还引入了交叉注意力机制。交叉注意力机制将序列中的每个位置视为一个节点,通过计算节点之间的注意力权重来进行特征的交互,可以更好地捕捉序列数据中的长距离依赖关系。具体地,对于一个序列X ={ x1,x2…xn },交叉注意力机制的计算公式如下:
其中,Y 是输出序列,Attention(X,X,X )表示交叉注意力计算,LayerNorm 表示归一化操作。BiFormer模块中,交叉注意力计算是在自注意力计算之后进行的。
3 实验与分析
3.1 数据集
实验采用了Microsoft Kinect and Leap Motion数据集[6-7],该数据集记录了14名不同的人执行的10种不同手势,每种手势重复10次,共计1 400个手势。数据集中不仅包括了Kinect和Leap Motion的动作数据,还提供了Kinect的校准参数。此外,Leap Motion的数据包括了所有Leap SDK提供的参数。
3.2 评估指标
本文将均值平均精度(mAP) 作为衡量模型在手势识别准确性的主要指标,该指标综合考虑了精确率(P) 和召回率(R) 。此外,模型的大小通过参数量(Pa?rameters) 来评估,而模型的计算量则通过每次卷积所需的浮点运算量(BFlops) 来衡量。模型的检测速度则通过每秒处理的图片数量(FPS) 来评定。这些评价指标全面反映了模型的性能和效率[8]。各评价指标的计算公式如下:
其中,TP表示模型预测为正类且实际标签也为正类的样本数量,FP表示模型预测为正类但实际上标签为负类的样本数量,TN表示模型预测为负类且实际标签也为负类的样本数量,FN表示模型预测为负类但实际上标签为正类的样本数量[9]。
3.3 实验结果与分析
为验证改进模型的性能,本研究选择了与之类似的轻量级模型进行比较,包括YOLOv3s、YOLOv4-tiny[10] 以及MobilenetV3-YOLOv5s[11]。其中,Mobile?netV3-YOLOv5s是通过将YOLOv5s的backbone 部分替换为MobilenetV3的backbone而构建的。这样的对比实验有助于展示改进模型在相似类别中的优势和特点。将模型按照第2节的配置进行训练,将训练好的模型放在测试集上测试模型的性能,测试集包含800张图片。实验均不采用预训练模型,训练过程中参数配置相同。实验结果如表2所示:
通过对比实验结果可以发现,不同模型的mAP(0.5)和Recall(0.5)略有差异,但整体上在80%以上,说明这些模型在目标检测任务中都具有较高的准确性和全面性。YOLOv3s的模型参数和计算复杂度都远远高于其他模型,而YOLOv4-tiny和MobilenetV3-YO?LOv5s在这两个指标上都有较小的数值,说明它们是相对轻量级的模型。YOLOv4-tiny 在FPS 上表现最好,达到了72帧/秒,而YOLOv3s则最低,仅为27帧/ 秒。MobilenetV3-YOLOv5s虽然模型参数和计算复杂度更低,但性能和推理速度都略逊于YOLOv4-tiny。不过通过引入动态稀疏注意力BiFormer模块,对关键特征的动态聚焦,加强了模型对复杂场景的识别能力,进而在提升mAP的同时,略微牺牲了召回率,表明了在优化模型对特定特征的关注度时,可能影响到模型对较为细微手势的检测能力。综上所述,这项改进措施促进了手势识别算法在准确性、效率和速度方面的提升。
4 结束语
本研究通过改进YOLOv5s算法,有效提升了手势识别的准确性和效率。实验结果表明,这些改进对于提高手势识别在实际应用中的可行性和实用性具有重要意义。未来的工作将集中在进一步优化算法性能,并探索其在更广泛应用场景下的潜力。此外,本研究也为深度学习在图像识别领域的其他应用提供了有价值的参考和启示。我们期待着手势识别技术在未来的发展,以及它在人机交互、增强现实等领域的更广泛应用。