俞洋 厉丹 马一丁 姚瑶 张丽娜
摘要:与普通的神经网络非常相似,CNN卷积神经网络也由具有可学习的权重和偏置常量的神经元组成。每个神经元都接收一些输入并做一些点积计算,输出是每个分类的分数,普通神经网络里的一些计算技巧依旧适用。该文介绍了基于CNN卷积神经网络的手势识别系统,首先对不同的手势图片进行采集,将采集结果作为训练集和测试集,系统将会对其进行识别。
关键词:卷积神经;手势识别;深度学习
中图分类号:TP183 文献标识码:A
文章编号:1009-3044(2020)10-0210-03
1概述
随着科学技术的不断发展,图像识别技术的应用领域不断扩大,现如今已经成为一个热门话题。不仅可以方便人们的生活,更为用户提供了更加直观灵活的操作方式。
手势识别是人机交互中一种简单直接的方式,对图像进行手势分割,综合手势形状和位置状态信息,将静态手势划分为五种,提取基于图像属性的静态手势特征,而后将手势特征向量输入到系统进行训练并得到识别模型。通过多种多样的手势,可以有效捕捉、分析和识别不同的手势信息,在多个领域都有着重要意义。
2卷积神经网络
2.1卷积神经网络结构
如图1,卷积神经网络其实是起到一个分类器的作用。卷积层的作用是提取特征,采样层的作用是特征选择,全连接层的作用是分类。
卷积神经网络的核心思想是局部感受野、权值共享和pool-ing层,具有表征学习的能力,能够按照其阶层结构对所输入的信息进行平移不变分类,采用梯度下降法最小化损失函数,对网络中的权重参数逐层进行反向调节,通过高频的迭代训练来提高网络的精度。
卷积核是可以用来提取图像特征和卷积核卷积,就可以得到特征值,卷积核放在神经网络里,代表对应的权重。卷积核和图像进行点乘,代表卷积核里的权重单独对相应位置的Pixel进行作用。
例如三个分量的pixels对应三个卷积核,数字即相当于它的权重。假设已知对应分量以及卷积核,根据神经网络公式:
卷积层在卷积神经网络中尤为重要,它的功能是对输入数据进行特征提取,每一个神经元都进行局部的特征提取,在更高层将其整理合并。
通过卷积操作所得到的特征图,来自不同特征图的每个位置单元将得到各自不同类型的特征。一个卷积层中通常包含多个具有不同权值向量的特征图。
池化层对卷积层提取出来的特征图进行磁化处理,可以在减少数据处理量的同时保留有用信息,即对图像由高分辨率向低分辨的转换。通常卷积层池化层交替分布,使得特征图数目逐渐增多,分辨率逐渐降低。
全连接层在卷积神经网络中可以看作是一个“组合器”,它把卷积层提取的局部特征重新通過权值矩阵组装起来,形成完整的图。
3基于卷积神经网络的手势识别系统
手势识别是一种十分直观且简单自然的人机交互方式。本系统的手势识别内容包含石头、剪刀、布、OK、Good五种手势信息采集、手势分割、特征提取、自动识别。
系统初始界面如图3所示。
用户点击捕捉手势功能时,将自己的手势对准电脑的摄像头镜头,按下键盘的B字母键,系统就会对手势进行捕捉。捕捉成功之后系统将会生成图片(为JPG格式),将图片放入已经训练的参数模型中进行识别,成功后系统会显示结果。用户想要查看自己的系统手势识别率为多少,可以点击训练手势模块,系统将会弹出对话框告知用户。
如果用户对此系统并不熟悉,可以点击操作提示,按系统提示进行手势识别操作。
3.1实验过程
该手势识别系统总共可以分为四个步骤:
1)数据集的收集,即对不同样式的手势进行采样整理或者收集,做成数据集。在初始化背景中,在手势目标未进入摄像镜头区域前,由摄像机采集图像作为背景图像,计算n帧图像的所有像素的平均值ui及平均差值σi,则初始背景模型由(ui,σi)构成:
在上式中,ui表示n帧图像中第i个像素点的均值,uti表示第t帧图像中第i个像素点的像素值,σi表示n帧图像中第i个像素点的平均差值。
进行手势的图像采集,如下图所示。
2)进行识别:将数据集里的手势捕捉,基于卷积神经网络识别系统对于样本进行识别可以生成手势模型。
3)系统训练、识别率计算:将数据集里的图像进行输入并训练,若用户需要识别率,则进行计算。测试集越往后学习,准确率越高。因为在全部训练集上的误差是每个训练样本的误差的总和,所以仅先考虑对于一个样本的BP。对于第n个样本的误差,表示为:
传统的全连接神经网络中,需要根据BP规则计算代价函数E关于网络每一个权值的偏导数。用l来表示当前层,那么当前层的输出可表示为:
在这里的输出激活函数一般是sigmoid函数或者双曲线正切函数。sigmoid将输出压缩到[0,1],所以最后的输出平均值一般趋于0。所以如果将训练数据归一化为零均值和方差为1,可以在梯度下降的过程中增加收敛性。
4)显示结果:将识别系统将结果输出,如图6所示。整个卷积神经的手势识别系统过程如图7所示。
4总结
更加直接有效地捕捉、分析、处理及识别各类手势信息,并快速获得正确的响应,是实现人机交互功能的关键技术之一。在利用卷积神经网络相关公式实现手势分割基础上,根据手势位置、形状等信息将其划分为不同的类型,再利用CNN卷积神经网络的学习性对数据集进行分析,使得识别的正确率达到了96%。证明卷积神经网络是一种可以进行深入学习与不断更新的网络,其在计算机应用等许多领域仍然需要进行大力的研究。