一种基于图像特征融合的动态手势识别方法*

2023-09-29 05:52李蔚清
计算机与数字工程 2023年6期
关键词:手势手部卷积

陈 茜 李蔚清

(南京理工大学计算机科学与工程学院 南京 210094)

1 引言

近年来,随着人机交互技术的不断发展,基于人类其他感官的交互方式开始出现,比如语音交互,脑机交互和手势交互等。但在一些特定场合中,手势交互更为简单直接[1~2]。同时基于视觉的手势交互摆脱了数据手套、肌电传感器等外部设备的束缚,使得手势能够更自然的表达。

基于视觉的手势识别主要包括手势分割、特征提取、手势识别,其中特征提取是识别过程中最为关键的一步。翁汉良等[3]将指尖个数和方向作为手势特征,结合手部的几何特征进行手势识别;文献[4]中提出了一种基于Hu 矩特征和指尖点检测的手势识别方法,但这些方法在光照条件不好时对手势识别准确度较低。近年来,各种深度相机也逐步应用到手势识别领域,该设备不仅可以获取图像的彩色信息,还可以直接获取手势的深度图像信息,避免了立体视觉算法产生的复杂计算量[5~9]。Almeida 等[10]利用RGB-D 相机获取手势的方向、位置和深度信息,并从RGBD图像中得到7个视觉特征,对34 个手语的平均识别率达到80%。Tiwari 等[11]利用Kinect 捕捉了10 个数字的手势图像,并将手部图像的DCT信号送入神经网络进行识别,在样本集的识别率为98%,但是在整个数据集上的平均识别率为83.5%。文献[12]利用CNN 对运动中的静态手势进行训练识别,在包含12 种不同手势的自建数据库上进行测试,并与不同算法进行比较,结果表明CNN 在复杂环境中对静态手势识别具有鲁棒性和有效性,但是在旋转角度下的手势识别准确率较低。

在增强现实电子沙盘中,根据特定的手势指令,本文提出一种融合CNN 提取特征和Hu 矩特征的动态手势识别方法。通过Realsense 深度相机获取手部运动信息,利用深度图像进行手势分割,将一系列的手部动作图像进行特征提取和融合,并结合LSTM模块识别动态手势。

2 动态手势提取与分割

一般地,基于视觉的手势识别系统主要包括以下5 个模块:图像采集、手势跟踪、手势分割、手势识别和人机交互。图1 为本文方法的动态手势识别系统结构。为了提高在增强现实电子沙盘中动态手势识别的准确度,本文在特征提取以及网络模型进行了多种方法的实验。

图1 本文动态手势识别系统结构

2.1 基于深度摄像头的手势数据

Intel RealSense SR300 是Intel 公司推出的第2代前置摄像头。类似于微软Kinect 与Leap Motion等摄像头,它能够被看作一个独立设备,连接到PC、PAD 以及手机智能设备,从而扩展了深度相机的使用领域[13~14]。

本文方法使用RealSense SR300 相机,获取视频中的彩色和深度信息,如图2。

图2 SR300获取的视频流

动态手势序列是一组静态手势图像构成的序列集合,并且涉及时间、空间概念。由于动态手势具有连续性以及复杂多样性,在进行实时识别动态手势时,确定动态手势的开始与结束,分割出手势的起止状态序列,是动态手势识别的基础。由于Realsense 深度相机识别范围是0.2m~1.2m,本方法设计实验中,人手运动在1.2m 之内,通过是否有深度流的判断来截取包含动态手势运动的视频帧。

2.2 手部分割

在识别动态手势时,相机拍摄的视频中有很多噪声,事实上只需要完整包含手部的图像,故在Realsense 相机拍摄后,深度网络实时识别前,需要对每一帧的图像进行基本的图像处理。

先将彩色图像转为灰度图像,采用全局自适应阈值再变换成二值图像,去除掉部分的噪声。接着使用5*5 的像素运算,对图像先腐蚀后膨胀,在不明显的改变其面积的前提下,消除多余的小物体、分离只有纤细点相连物体以及平滑较大物体的边界。计算初步处理后图像的最大轮廓,得到最大轮廓的最小外接矩阵。若求得的矩阵面积小于50*50,将其视为噪声,不进行处理,反之能求出包含运动中包含手部的矩形框。为了便于后续处理,统一将图像调整为64*64大小。图3为部分存储的分割后的RGB图像和深度图像。

图3 手部分割后的视频帧

3 基于特征融合和LSTM 的动态手势识别

3.1 Hu不变矩特征提取

一幅图像中计算出来的矩集,可以描述该图像形状的全局特征。矩阵值能体现大量的关于该图像的几何特征,比如位置、大小、形状及方向等。在计算出的矩集中包含零阶矩、一阶矩、二阶矩、三阶矩……手势图像的p+q阶普通矩、中心矩以及归一化中心矩公式如下:

其中,f(x,y)是点(x,y)处的灰度值,M和N分别是代表图像的宽度和高度(x0,y0)为手势图像的重心坐标。

Hu 利用二阶和三阶中心矩构造了七个Hu 不变矩,它们在连续图像条件下可保持平移、旋转和尺度不变性[15]。对于不同的实验者,做出的手势都会有不同的倾斜角度,以及在合理范围内与相机的距离不同。并且同时相较于SIFT 特征、SURF 特征等传统特征,Hu 矩的计算速度快。故选取Hu 矩与接下来卷积网络模块提取的特征进行融合。实验中计算发现,由手部图像计算得到的Hu 不变矩特征值通常很小,本文使用-lg(|xi|)对Hu 不变矩中的值进行处理。表1 为“five”张开手掌动态手势中的一帧图像的7阶Hu矩特征。

表1 手势张开的HU矩特征

表2 9种手势语义

3.2 卷积网络特征提取

本文的CNN 提取特征网络包含4 个卷积模块和3 个全连接层。卷积模块内有卷积层、池化层、激励层和归一化层。卷积层使用3*3 卷积核进行特征提取,池化层把数据降维,可以有效地避免过拟合。图4(a)为手势“OK”的RGB 图像,经过第一个卷积模块后产生的特征图的可视化结果;图4(b)为手势“OK”的RGB图像,经过最后一个卷积模块后产生特征图的可视化结果。可以发现越是开始的模块提取的特征图,捕捉的底层次像素信息越多,特征图中手的轮廓也越清晰。越到高的模块,网络提取的特征图越抽象。

图4 部分特征图可视化

3.3 基于特征融合动态手势识别模块

CNN 一般用于处理图像信息,大多数情况下,LSTM 用于处理与时间序列相关的数据。 Jeff Donahue 等[16]在2015 年提出了一种结合传统CNN 网络和LSTM 的新网络结构LRCN,该网络既可以处理带有时序信息的视频流也可以处理单帧图片,网络也具备输出预测的能力。这使得LRCN 成为处理包含图像的序列输出输入信息的首选网络结构。

Jeff Donahue在文章中通过实验提出,相较与光流输入,如果视频流中包含着目标,并且目标是识别的关键,那么使用RGB 输入网络的效果更好。图5是本文基于LRCN 搭建的动态手势识别网络模块。卷积网络模块对视频帧进行特征提取,此时输出的特征是离散的,即每一帧是每一帧的特征。输出的离散的单帧特征被LSTM按照时间序列重新联系在一起,最终输出完整的动态手势识别结果。

图5 动态手势识别网络模块

每一帧图像在本文设计的网络中,经过几次卷积后得到特征信息。感受野越大,网络提取出的特征越就抽象,是一种高层特征。同时计算此帧图像的Hu 不变矩,将两种特征在分别标准化后进行组合,形成71维的向量。

4 实验

4.1 实验结果分析

本系统将包含手部的RGB 图像以及对应的深度图像压缩成序列保存。本文训练的数据库的录制工作有5 位录制者参与,每位录制者对本文定义的九类动态手势录制20 次,则总共得到5(参与录制人数)*9(手势总数)*20(录制次数/每人)=900份动态手势数据。

本文在设计的网络结构基础上,设置了4 种实验方案。将数据集的70%作为训练集,30%作为测试集。每50 个batch 全测试集检测,用于准确度曲线。图6(a)为输入三通道RGB 图像未融合Hu 特征和融合Hu 征训练时在测试集上的准确率,图6(b)为输入四通道RGBD 图像未融合Hu 特征和融合Hu特征训练时在测试集上的准确率。

图6 训练模型在测试集上的准确度

由此可见,当输入为RGB 图像时,融合Hu 矩特征使得测试集上准确率升高,对于网络模型的训练有较大提升;当输入为RGBD 图像时,多了深度这一通道信息,网络的训练也有较大提升,但此时融合Hu 矩特征对网络模型的训练没有明显的加强。

4.2 系统验证

本文基于影创AR眼镜设计并实现了增强现实电子沙盘手势交互系统,验证文中动态手势识别方法应用效果。在该系统中,指挥员通过穿戴AR 智能眼镜,查看电子沙盘,通过动态手势对电子沙盘中的对象进行操作,达到自然交互的目的。本系统包括以下的9种手势语义。

以战斗机模型的移动操作任务为例。指挥员通过手势“1”操作,将编号为1 的战斗机模型选中为操作对象,如图7(a)所示。通过向外挥手的手势操作,操控战斗机模型向右移动,交互效果如图7(b)所示。

图7 移动战斗机模型效果图

表3 为多种方案下的实验结果。由实验数据表明,实时识别以及不同光线下,动态手势识别的准确度均有下降。

表3 多种方案的的实验结果

方案1 和方案2 的实验结果显示,当输入多一个深度通道或者融合Hu 矩特征时,准确度都有较大提升,并且加入深度信息会减少光照对实时识别动态手势的影响;方案3 的实验结果显示,当输入多一个深度通道的同时融合Hu 矩特征,在动态手势实时识别时准确度最高并且具有一定的鲁棒性。

5 结语

本文通过CNN 模块来提取高层特征同时融合Hu不变矩,再使用LSTM模块对每一帧的输出进行时序建模,从而识别动态手势。尝试了RGB 特征和深度图像特征以及Hu 不变矩特征的融合,在增强现实电子沙盘在进行了验证。实验表明这三种特征之间相互融合会提高动态手势识别的准确度,后续工作将会针对实时识别中导致准确度下降的原因进行研究。

猜你喜欢
手势手部卷积
手部皮肤软组织缺损修复的皮瓣选择
基于3D-Winograd的快速卷积算法设计及FPGA实现
挑战!神秘手势
从滤波器理解卷积
V字手势的由来
基于傅里叶域卷积表示的目标跟踪算法
胜利的手势
两种皮瓣修复手部软组织缺损的比较
发生于手部的硬下疳一例
复明胶囊疑致手部肿痛1例