基于3D卷积神经网络的手语动作识别*

2021-03-21 04:33赵金龙陈春雨于德海孟天禹
通信技术 2021年2期
关键词:手势残差准确率

赵金龙,陈春雨,于德海,孟天禹

(哈尔滨工程大学,黑龙江 哈尔滨 150000)

0 引言

近些年随着电子硬件水平的提升,计算机智能技术发展迅猛,已经逐渐影响人们的日常生活并成为学习工作的重要部分。例如,人脸识别等人机交互技术,已在安全认证等领域大放异彩。而人体手势作为一种新型的人机交互手段,凭借其便捷、高效的特点逐渐成为新的研究热点。手势识别的最终目的是让计算机能够读懂人体手势,对人类控制智能机器和实现聋哑人手语翻译具有重大意义。使用计算机技术来识别人物手势的课题最早开始于1980年代,由于受到计算机计算能力的限制,大多使用手工提取手势特征的方式,使用机器学习技术如Dynamic Time Warping、隐马尔可夫模型(Hidden Markov Model,HMM)[1]来进行手势的识别任务。经过多年发展,这类传统的手势识别方法的效果依然不尽人意。

如今计算机的运算能力大大提高,依托计算能力的深度学习技术掀起了人工智能的热潮。在计算机视觉领域中,利用深度神经网络处理图片、视频等数据的方法已经获得了越来越多学者的青睐。由于常用的2D卷积神经网络在处理连续视频帧的时候会丢失目标在时间维度上的特征信息,因此降低了识别准确率。Ji等人[2]针对该缺陷提出利用3D CNN网络来进行视频动作的识别,核心思想是通过3D卷积操作,从时间维度和空间维度构建视频特征,取得了良好的结果。Tran等人[3]提出了一种新型的C3D模型,经过多次实验最终确定了最佳时间卷积核长度,完成了对视频的分类识别任务。张国山等人[4]在CNN网络中加入了扁平卷积模块,能够对手势动作进行准确分类。

1 深度学习理论

1.1 3D卷积神经网络

3D卷积操作基于2D卷积操作发展得到,被广泛应用于视频识别等领域。3D CNN具备提取视频中时序信息的能力。图1和图2分别为2D卷积操作应用于单通道图像和多通道图像(多张图像)的情况。每一次卷积操作得到一张二维特征图,压缩了多张图像的信息,从而完全丢失了时间维度上的特征信息。图3中的连续视频帧经过3D卷积操作得到由多个特征图组成的特征卷,因此能够有效提取到输入的连续视频帧的时间特征信息和空间特征信息。

图1 2D卷积操作

图2 2D卷积操作应用在连续视频帧

图3 3D卷积操作

3D卷积的具体方法为同时将由多个连续视频帧图像组成的数据与一个3D卷积核(正方体)进行运算。如图4所示,卷积得到的每一张特征图都与上一层的3个相邻的帧有关,包括了时间维度上的特征信息。

图4 2D卷积操作与3D卷积操作

1.2 残差结构

随着任务难度的不断提高,神经网络越来越深,导致梯度消失和爆炸、训练过程十分艰难以及网络深度加深准确率却降低的性能退化现象。ResNet残差网络[5]利用残差的思想,巧妙化解了网络退化现象,同时解决了因梯度消失和爆炸而使训练网络变得容易的问题。如图5所示,残差单元的核心思路为高速路网络跨层链接,使用短链接(Shortcuts Connections)方法将输入数据直接传递到输出端。

图5 ResNet残差单元

当F(x)=0时,则有H(x)=x,从而实现一种恒等映射。此时,网络只需要学习H(x)和x的差F(x)。

本文中的双通道卷积神经网络就是基于ResNet-50基本框架提出的,不仅有助于增加网络深度,而且能保证网络良好的性能。

2 网络结构

2.1 双通道卷积神经网络主干

为了更好地捕捉连续视频帧中人物动作在时间维度上的特征信息,提高对动态手势的识别准确率,本文设计了一种新型的双通道卷积神经网络。该网络的核心思想为将同一个视频动作输入至两个平行的卷积神经网络,低采样频率网络,关注视频中变化缓慢的信息,捕获语义信息;一个高采样频率网络,关注视频中快速变化的内容,捕获运动信息。两个通道都参考3D ResNet-50网络结构进行时空信息的提取,具体的网络结构如表2所示。卷积核的信息为{T×S2,C},其中T、S、C对应temporal、spatial、channel的大小。

表1 双通道卷积神经网络主干信息

如表1所示,为了保持模型的轻量化,高采样频率通道的卷积宽度设置为低采样频率通道的1/4。低采样频率通道使用较大的时间采样间隔,在输入视频为每秒30帧的情况下,设置为16则表示每秒采集2帧。高采样频率通道使用小的时间采样间隔,设置为2代表每秒采集15帧,即时间上的采样间隔比为8。

2.2 普通特征融合方式

对于众多双分支卷积神经网络结构,它的特征融合的方式通常很固定,即在网络的终端进行特征向量的拼接,然后将拼接完成的特征数据输入至分类器进行最终的分类。如图6所示,本文将两个网络分支的最终输出进行拼接,即将1×512维度特征向量与1×2 048维度特征向量进行拼接得到1×2 560维度的特征向量,然后将其送入全连接层完成分类。

图6 网络终端特征融合

2.3 多次侧向连接融合

另一种融合方式为将来自高采样频率通道的数据通过侧向连接被送入低采样频率通道,使得低采样频率通道可以在不同阶段了解到高采样频率通道的处理结果[6]。而单一数据样本的格式在两个通道间是不同的(高采样频率通道{8T,S2,C},低采样频率通道{T,S2,4C}),因此要对高采样频率通道的特征数据进行格式变换,然后融合至低采样频率通道。融合方式为使用一个尺寸为{5×12,2C}的3D卷积核进行卷积操作。如图7所示,用于不同通道特征数据转换的卷积层2、卷积层3、卷积层4的具体细节将会以表2的形式给出,包含卷积的输入通道数、输出通道数、卷积核大小、步长以及填充的尺寸。

表2 用于侧向链接的卷积层信息

图7是数据在网络中流通时的具体特征格式,输入为连续的32帧图像,图像为RGB三通道大小为112×112。图7中的数据格式为{B,C,T,H,W}。其中B为Batch size大小,为了说明方便,图7中设置为1;C为数据的通道数;T为时序上特征图厚度;H为数据的高度;W为数据宽度。可以从图7看到数据的流通过程,输入图像经过不同的采样频率采样后,输入两个平行的三维卷积神经网络:

(1)左侧为高采样频率通道,32帧输入该通道,在残差块2、残差块3、残差块4模块的输出分别并联上卷积层2、卷积层3、卷积层4,得到需要融合至低采样频率通道的特征数据,将残差块5的输出输入自适应池化层并进行拉平后得到1×512维的数据;

(2)右侧通道为低采样频率通道,4帧输入该通道,并在残差块2、残差块3、残差块4的输出数据上拼接上来自另一通道的数据后输入下一阶段,最终得到1×2 048维的数据;

(3)将两个通道的输出进行拼接后接入全连接层,得到N个类别的得分。

图7 网络侧向特征融合

3 数据集

3.1 UCF-101

UCF-101是一个包含了5大类人体动作的数据集,分别为人与物、人体肢体动作、人与人、乐器以及体育,共包含13 320个视频片段,全部来源于YouTube视频网站。UCF-101又可细分为101个动作类别,如射箭、俯卧撑、跳水、弹吉他和保龄球等动作,如图8所示。每个视频片段长短不一、背景杂乱多变且摄像角度随机,是非常具有挑战性的数据集。

3.2 自建手势数据集

该手势数据集是本文自制的中国聋哑人日常生活中常用的手语手势动作数据集,包含了3个表演者在RGB摄像头的可视范围内(距离摄像头1M)的左、中、右3个角度做出预设好的聋哑人日常手语手势动作。每人采集每个手势动作20次,RGB摄像头每秒采集25帧,帧大小为480×320。由于数据量过小,通过随机裁剪、抖动以及镜像翻转等数据增强方法获得更多数据。如图9所示,最终数据集包含39种手势2 000余个手势动作视频。

图8 UCF-101数据集

图9 手势数据集

4 实验结果分析

本次实验的平台在Ubuntu18.04系统下,通过Anaconda、Pycharm等软件构建实验环境。实验所用的网络模型使用Pytorch深度学习框架搭建完成。硬件配置为处理器为8核Intel(R)Core(TM)i7-9700K CPU @ 3.60GHz,GPU为英伟达GTX 1080 Ti 11 GB显存。

为了说明提出的网络模型的有效性与通用性进行了以下实验。将提出的双通道卷积神经网络(两种特征融合方式)与3D ResNet-50网络进行实验验证,实验的数据集为UCF-101和自建孤立词动态手势数据集,数据集均以3:1的比例划分训练集与验证集。

实验中每一次从训练集数据中随机选取16个样本作为一组数据进行网络参数更新。学习率设置为0.000 1,选取Adam优化算法进行网络参数的学习,使用Cross Entropy Error Function完成损失计算。

提出的具有双通道结构的卷积神经网络(包括终端融合与侧向融合两种),如表3所示。在UCF-101人体动作数据集上取得了77.78%和80.43%的准确率。对于动作识别的效果优于其中任意单独分支的识别效果,其中高采样率分支准确率为52.55%,低采样率分支即3D Resnet-50网络结构准确率为71.13%。如表4所示,在手势数据集上取得的实验结果同样如此,双通道网络终端融合策略、双通道网络侧向融合策略分别取得了93.96%和95.78%的准确率,均优于任意单独分支的识别准确率。

表3 UCF-101数据集实验结果

表4 手势数据集实验结果

在验证特征融合方式对识别效果的影响实验中,从图10与图12(或图11与图13)中可以明显看出,两个单独分支的特征向量通过侧向连接融合的方式相比于在终端融合的方式,其损失曲线更优,验证集上的准确率更高,因此侧向连接融合特征信息的方式要比在终端融合的方式更有效,对模型的性能提升更大。

图10 UCF-101数据集训练损失曲线下降情况

图11 UCF-101验证集top1准确率实验情况

图12 手势数据集训练过程损失曲线下降情况

图13 手势数据集验证集top1准确率情况

因此,无论是进行人体肢体的识别分类,还是人体手势动作的识别分类,提出的双通道卷积神经网络识别的准确率都优于3D ResNet-50模型,证明了该网络结构能够更好地捕捉连续视频帧中人物动作在时间维度上的特征信息,提高对动态动作的识别准确率,展示了该网络的有效性和通用性。

5 结语

本文基于3D ResNet网络结构,搭建了一种双通道卷积神经网络,使其在不同通道中时序上的感受野不同,能够更好地捕捉到时间空间特征。实验结果表明,提出的网络结构在视频识别领域性能良好,但仍然存在不足,需在模型训练与使用过程中有强大的硬件计算力支撑,因此还需要加速优化网络结构。同时,对于连续手势动作的检测识别也非常具有挑战性,在后续的研究中将会把3D卷积技术应用到连续手势动作检测与识别的任务中。

猜你喜欢
手势残差准确率
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
挑战!神秘手势
胜利的手势