三维循环密集卷积神经网络在视频手势识别的应用

2019-10-08 06:27马乾力魏伟航赵锦成
软件 2019年6期
关键词:手势识别

马乾力 魏伟航 赵锦成

摘  要: 手势识别是当前计算机视觉的一个重要研究课题,由于手势旋转,角度等因素的影响,视频手势识别仍是一项具有挑战性的任务。该文提出了一种基于三维密集卷积神经网络和门限循环单元的双通道手势识别算法,通过三维密集卷积神经网络获取手势的空间信息,使用门限循环单元学习视频中手势的时序信息,最后融合RGB图像和深度图像的深度学习模型特征以此对手势进行识别。在ISOGD数据集上的实验表明,该手势识别算法能够有效提高了视频手势识别的准确率。

关键词: 手势识别;三维密集卷积神经网络;门限循环单元

中图分类号: TP183;TP391.4   文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.06.024

本文著录格式:马乾力,魏伟航,赵锦成,等. 三维循环密集卷积神经网络在视频手势识别的应用[J]. 软件,2019,40(6):109112

【Abstract】: Recent vedio gesture recognition is an important research topic in computer vision,which is an still a challenging task due to the influence of gesture rotation, angle and other factors. In this paper, a two-channel gesture recognition algorithm based on 3-D dense convolution neural network and threshold cycle module is proposed. We acquire the spatial information of gesture by 3-D dense convolution neural network,get the temporal information of gesture in video by gated recurrent unit, and the deep learning model features of RGB image and depth image are fused to recognize gesture.The experiments on ISOGD datasets show that this gesture recognition algorithm can effectively improve the accuracy of video gesture recognition.

【Key words】: Gesture recognition; 3-D dense convolution neural network; Gated recurrent unit

0  引言

手势作为人类的一种常用身体语言,在日常生活中具有非常重要的作用,在现实中也有很多应用场景,如人机交互、手语识别和虚拟现实等。传统的手势识别方案主要通过穿戴设备采集使用者的手势信息,由计算机分析这些手势信息作出手势判别。这一类方案识别准确度高,算法复杂度低,但使用时需要辅助设备,用户体验差以至于难以推广。随着计算机视觉和深度学习的发展,基于图像与视频的手势识别成为了目前手势识别研究领域的重点研究方向。

基于视觉的手势识别通过提取图像或者视频中的特征由分类器给出对应的手势标签。最早的基于视觉的手势识别方法主要分三个阶段:手势形态分割、手势特征提取和分类。其中手势形态分割主要通过肤色特征进行手势分割[1],手势特征提取阶段使用SIFT特征、HOG特征或者各类统计量特征,分类阶段常采用传统的机器学习方法,如隐马尔可夫模型、支持向量机、有限状态机和神经网络等。在2016年大型手势识别挑战中,基于神经网络的方法[2,3]在手势检测方面有了显著提升,所以当前比较流行的手势识别方法大多采用深度学习算法。馬等人[4]结合了二维密集卷积网络与空间转换网络,空间转换网络能够动态地对输入图像进行空间变换和对齐。不同于一般的图像分类任务,手势通常是一个连续性的动作,从一幅静态图像很难识别完整的手势。因此,具有时间序列的手势视频具有更强的鲁棒性,同时学习时序信息为手势识别提供更多的有效特征。Zhu等人[5,6]使用三维卷积神经网络对视频进行检测,这种策略使得网络能够从视频中识别出人类的手势。

本文提出了一种基于三维密集卷积神经网络[7,8]和门限循环单元[9]的双通道手势识别算法,如图1所示,32帧RGB和深度视频输入经过不同的预处理后,三维密集CNN用于从输入视频中提取短期空间特征,门限循环单元进一步学习手势的长期时序特征,最后将基于RGB和深度视频的网络输出进行特征融合,通过全连接层得到最终预测结果。实验结果表明,该算法在视频手势识别上取得了很好的效果。

1  三维循环残差卷积神经网络

1.1  预处理

深度网络模型能通过大量的训练数据优化出一个强分类器,但训练数据的噪声、对比度小或图像背景暗会降低模型的准确性和鲁棒性。在手势识别任务中,也经常对待测图像使用一些图像预处理方法。由图1可知,本文对RGB和深度图像采用了不同的预处理方法。

对RGB图像进行检测时,相同的手势在不同的光照条件下会发生很大的变化,在可见度不高的情况下甚至会使一些手势无法识别,由此对RGB视频采用了同态滤波进行图像增强,同态滤波能够在不损失图象细节的前提下消除不均匀光照的影响。而深度数据是通过发射和接收红外线得到,图像表现接近于灰度图像,图像中的像素值代表了红外传感器与被测物体的实际距离。由于红外传感器会受光源或热源等外部环境所影响,图像中会产生噪声和空洞,且边缘深度值不稳定。因此本文中对输入的深度视频采用中值滤波进行预处理,中值滤波能够有效抑制图像中的椒盐噪声,减小甚至去除一些图像空洞,并对图像边缘部分有一定的增强作用。

猜你喜欢
手势识别
基于手势识别的工业机器人操作控制方法