基于特征融合的手势识别

2021-12-07 13:38陈忠辉王等准万广方洪波黄以卫谢本亮
智能计算机与应用 2021年7期

陈忠辉 王等准 万广 方洪波 黄以卫 谢本亮

摘 要: 在手势识别的过程中,手势的多样性和复杂性会对识别的可靠性和准确性带来较大影响。基于视觉的手势识别通常采取单一特征用于手势分类,但是单一特征无法较好地描述整个图像。因此本文提出多种特征融合的方法,分别提取改进后的梯度方向直方图(HOG)特征和MB-LBP特征,并进行特征融合,结合支持向量机(SVM)分类器完成手势图像的识别。实验结果表明,提取的融合特征包含手势图像的局部区域梯度信息和图像的纹理信息,可以更加全面地描述图像的手势特征。相较于单一特征识别方法而言,基于特征融合的方法有着更高的识别率。

关键词: 手势识别; MB-LBP; 改进HOG特征

文章编号: 2095-2163(2021)07-0212-05中图分类号:TP391.4文献标志码: A

Gesture recognition based on feature fusion

CHEN Zhonghui1, WANG Dengzhun1, WAN Guang1, FANG Hongbo1, HUANG Yiwei2, XIE Benliang1

(1 College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China;

2 West China  Modernization Research Center, Guizhou University of Finance and Economics, Guiyang 550025, China)

【Abstract】In the process of gesture recognition, the diversity and complexity of gestures will have a greater impact on the reliability and accuracy of recognition. Vision-based gesture recognition usually adopts a single feature for gesture classification, but a single feature cannot describe the entire image well. Therefore, this paper proposes a variety of feature fusion methods, respectively extracting the improved histogram of gradient (HOG) features and MB-LBP features, and performing feature fusion, combined with SVM classifier to complete the recognition of gesture images. Experimental results show that the extracted fusion features include the local area gradient information of the gesture image and the texture information of the image, which can describe the gesture features of the image more comprehensively. Compared with the single feature recognition method, the method based on feature fusion has a higher recognition rate.

【Key words】gesture recognition; MB-LBP; improved HOG features

0 引 言

手势是一种十分重要的沟通交流方式,若能对手势进行成功识别就必将为人类与机器、设备和计算机的交互开创出崭新局面。随着计算机技术、尤其是增强现实[1],辅助驾驶[2]等技术的飞速发展,通过手势识别进行人机交互[3]的需求越来越广泛。手势识别已然成为当前的热点研究方向之一,因此手势识别技术的研究具有十分重要的现实意义。

研究可知,基于视觉的手势识别包括着3个基本步骤:手势分割[4]、手势特征提取[4]、手势识别[5]。其中,特征提取对手势识别的准确率有着至关重要的作用。当前,常见的手势特征通常包括了形状特征和纹理特征。具体来说,形狀特征主要有:梯度直方图[6](HOG)和Haar-like[7]特征;纹理特征有局部二值图[8](LBP)和Gabor[9]特征。这些特征均已被应用于基于视觉的手势识别中。

翁汉良等人[10]将指尖个数和方向作为手势特征,结合轮廓长度和面积等几何特征完成手势识别。杨学文等人[11]根据手势主方向建立二维手势直角坐标系势特征,利用空间手势坐标点分布特征方法对手势进行初步识别,再利用类-Hausdorff距离模板[12]匹配的思想识别最终的手势。肖宇[13]采用方向梯度直方图(HOG)来获得手势特征,然后使用随机森林作为分类器实现对手势的识别。卢梦圆等人[14]分别提取手势图像的梯度方向直方图(HOG)和局部二值模式(LBP)两种特征,并进行特征融合,结合支持向量机算法完成手势识别。赵倩楠等人[15]采用串行融合方法将手势指尖特征和手部HOG特征相结合,并采用支持向量机(SVM)[16]作为分类器,获得了较高的识别准确率。

由于单一特征描述手势图像信息存在局限性,本文提出一种基于特征融合的手势识别方法。对预处理后的手势图像分别提取改进后的梯度方向直方图(HOG)特征和MB-LBP[17]特征并进行特征融合,基于SVM分类器完成手势图像的识别。实验结果表明,相较于单一特征识别,本文算法对手势图像有着更高的识别准确率。

1 特征融合的手势识别

1.1 算法流程

基于特征融合的手势识别步骤可表述为:对采集的手势图像进行预处理操作,归一化尺寸并去除背景区域对分类结果的影响;分别提取手势图像的改进后的HOG特征和MB-LBP特征并进行特征融合;结合支持向量机(SVM)分类器进行分类和识别。算法流程如图1所示。

1.2 图像预处理

图像预处理是图像识别中的重要过程。经过预处理后的图像质量会得到很大提高,从而得到更好的分类效果。本文对手势图像预处理过程如图2所示。

步骤1 为提高图像特征提取、训练和预测速度,将图像尺寸设置为128像素×128像素,并将图像由彩色RGB格式转换为HSV格式图像,部分手势的RGB图像如图2(a)所示。

步驟2 为去除背景区域对手势图像识别的影响,利用HSV颜色直方图(见图2(b))将手势区域与背景区域进行分割,分割阈值为:

若手势图像某点像素的像素值处于阈值之内,则将其像素值设为0,否则将其设为255。由此可以获取背景区域已去除的二进制图像。将二值图像用作掩模,并对灰度图像进行形态“与”运算,得到去除背景区域的手势图像如图2(c)所示。经过图像预处理后,手势图像去除了背景区域,同时保留了手势的外观和形状等信息,避免识别结果受手势变形的影响。

1.3 改进梯度特征提取

HOG是一种描述图像本身梯度方向的特征,其主要思想是通过计算图像局部区域的梯度直方图来表示图像局部的纹理信息和形状大小。当图像是用频域表示时,低频区域表示图像的能量,中频区域表示图像的纹理细节,高频区域表示图像的边缘和噪声。传统HOG特征提取算法使用Sobel算子提取图像水平和垂直方向梯度信息。Sobel算子使用整数阶微分可以完成图像高频边缘区域检测,但同时也会造成中频区域信息模糊化,增加图像噪声强度。相较于传统整数阶微分的边缘检测算子,分数阶微分[18]的边缘检测算子检测图像高频边缘区域同时可保留图像中频信号,达到增强图像纹理信息的目的,使提取的特征信息更加丰富。

由传统整数阶微分运算法则,推导出一元函数分数阶微分差分表达式为:

其中,a∈(0,1)表示微分步长;  t为分数阶微分上限;Γ(n)为Gamma函数。

由于图像是二维空间,所以一元函数分数阶微分差分表达式推广到二维空间,得到二维分数阶微分在水平和垂直方向上差分表达式分别为:

根据式(2)、式(3),可以在x,y方向上构造的分数阶微分算子分别为:[[SX(]a2-a[]2[SX)],-a,1], 「[SX(]a2-a[]2[SX)],-a,1T。其中,a∈(0,1)表示微分变量,a<0时表示积分,a>0时表示微分,a=0时既不是积分、也不是微分。改进的HOG特征值的提取方法主要是把分数阶微分应用到边缘检测算子中,通过梯度优化算子获取更多特征信息。改进后的HOG特征提取包括以下步骤:

(1)采用分数阶微分算子提取图像在水平方向和垂直方向上的梯度。

(2)将梯度方向等间隔量化到k个区间,并将图像均匀划分为m×m个元胞。统计每个元胞内k个方向的投影,生成梯度方向直方图。本文设置k=9,像素的梯度方向为0°,20°,特征向量为9维。

(3)把相邻2×2元胞单元组合成一个区域块(block),区域块内归一化梯度直方图。

(4)串联区域块内(block)获取的梯度直方图特征,得到改进后的HOG特征向量。

1.4 MB-LBP特征提取

LBP特征是一种用来描述图像局部纹理特征的算子,传统LBP算子采取的是将中心点像素与领域采样的像素值进行比较,这是将单个像素与单个像素之间做出比较,因此LBP对噪声较为敏感。且当拍摄时不够明亮、亮度不够均匀,图像传感器长期工作,温度过高等因素都会导致图像富含噪声,此时LBP特征存在明显不足。为提高特征描述子的抗噪能力,采用对噪声不敏感的MB-LBP提取手势图像的纹理特征。

传统LBP和MB-LBP的特征提取原理如图3所示。图3(a)为传统LBP特征提取编码图,图3(b)为MB-LBP特征提取编码图。MB-LBP特征提取尺寸为3×3个块(block),每个块中含有3×3个像素,每块取对应3×3区域块内像素平均值。假设MB-LBP特征提取的第一个区域块正好对应LBP特征提取的3×3区域块。由图3可以看出,当LBP特征提取的区域块内某些像素点受噪声影响像素值发生改变时,LBP特征提取编码发生改变,但MB-LBP特征提取编码没有受到噪声影响。且当MB-LBP的区域块取值为1×1时,MB-LBP相当于传统非统一模式的LBP。因此MB-LBP不仅关注单个像素点,而且关注块与块之间的像素。

将预处理后的手势图像进行MB-LBP特征提取,将获得的MB-LBP特征图分为互不重叠的L×L个区域块(block),计算每个区域块(block)的直方图并串联成一个直方图特征。该直方图特征向量即为手势图像的纹理特征向量。

将预处理后的手势图像进行基于分数阶微分的HOG特征和MB-LBP纹理特征提取,采用简单的串联连接对2种特征进行融合,将获得的2种特征联合作为手势图像融合特征。

1.5 分类器建立

支持向量机(SVM)是一种基于结构风险最小化原则的分类方法,在解决小样本、非线性的数据及高维数据方面有着显著优势。因此,研究中采用支持向量机算法(SVM)作为本文分类算法。选取稳定性和准确性均较好的Liner核函数作为SVM核函数。采用网格搜索法对模型参数进行寻优,确定SVM的惩罚因子C=1。

2 实验结果与分析

2.1 实验环境

实验计算机配置信息是Intel core CPU i5-7500处理器,8 GB 内存,NIVDIA GTX1060显卡,操作系统为Win7。为了减少实验误差,本文对比的算法识别率为10次实验下的平均识别率avr,具体为:

其中,Pi代表第i次实验正确预测样本数,S为预测样本总数。

采用百度AI Studio手势数据集进行训练与测试,该数据集中手势分为10类、共计2 602张手势图像,对应数字0~9,部分手势图像如图4所示。采用分层采样方法,并按7∶3比例划分训练集和测试集。

2.2 实验参数

2.2.1 微分变量大小选择

微分变量的大小选择对改进后的HOG特征提取和手势图像识别准确率有着较大影响。不同微分变量下识别率如图5所示。图5中,识别率均为不同块尺寸和分块方式下最优识别率。从图5可以看出,当微分大小为0.5时可以取得较好的实验结果。

2.2.2 块的尺寸选择和分块方式

MB-LBP块的尺寸选择和MB-LBP特征图分块方式对手势图像的纹理特征有较大影响。MB-LBP块的尺寸和分块方式与识别率关系的仿真结果如图6所示。由图6可以看出当MB-LBP特征图分块数目确定时,不同尺寸块的MB-LBP下的识别率不同。根据图6可得,本文MB-LBP块的尺寸设置为2×2,分块数目设置为4×4。

2.3 识别结果与分析

为验证本文算法对手势图像的识别性能,将本文算法与单一特征的HOG特征匹配算法、LBP特征匹配算法的分类准确率进行比较,不同算法的识别结果如图7所示。10种手势平均识别准确率见表1。

由表1分析可知,使用单一特征的HOG特征匹配算法和LBP特征匹配算法的识别准确率分别为86.59%和82.88%相对较低,且HOG特征匹配算法识别率高于LBP特征匹配算法识别率。相较于使用单一特征的HOG特征匹配和LBP特征匹配算法,本文算法在识别准确率上分别提高5.66%和9.37%,达到92.25%,满足工业应用对手势图像识别率的要求。

3 结束语

针对单一特征描述手势图像存在局限性问题,提出一种基于特征融合的手势识别方法。先后提取手势图像改进的分数阶微分的HOG特征和MB-LBP纹理特征,将2种特征融合后结合SVM分类器进行分类识别。实验结果表明本文算法可以对手势图像实现精确识别,识别准确率达到92.25%,优于其他特征识别方法。但是由于手势的多样性,在未来的工作中将会对遮挡引起的不可识别的手势做进一步研究,增强手势识别的多样性。

参考文献

[1]袁庆曙,王若楠,潘志庚,等. 空间增强现实中的人机交互技术综述[J]. 计算机辅助设计与图形学学报,2021,33(3):321-332.

[2]周天彤,徐飞林,张旖帆,等. 基于unity和kinect的交警手势识别仿真系统的设计和实现[J]. 计算机测量与控制,2016,24(5):156-159.

[3]SRIDEVI K, SUNDARAMBAL M, DHARAN K M, et al. Hand gesture recognition system using radial basis function Neural Networks[J]. Journal of Innovation in Electronics and Communication Engineering, 2017, 7(2):38-41.

[4]李逸琳,陶静,霍艺文,等. 手势特征提取与图像分割的优化研究[J]. 计算机应用与软件,2020,37(2):161-165,206.

[5]程冉,史健芳. 基于卷积神经网络的手势识别算法研究[J]. 电子设计工程,2021,29(2):179-184.

[6]LI Yalan,LU Ruhua,HUANG Rui,et al. Research on face recognition algorithm based on HOG feature[J]. Journal of Physics: Conference Series,2021,1757(1):012076.

[7]JUNAIDY D,WULANDARI M, TANUDJAJA H. Real time face detection using haar-like feature method and local binary pattern method[J]. IOP Conference Series: Materials Science and Engineering,2019,508(1):012099.

[8]EMADI M, EMADI M. Human face detection in color images using fusion of Ada Boost and LBP feature[J]. Majlesi Journal of Telecommunication Devices,2020,9(1).

[9]STERGIOPOULOU E, SGOUROPOULOS K, NIKOLAOU N, et al. Real time hand detection in a complex background[J]. Engineering Applications of Artificial Intelligence,2014,35:54-70.

[10]翁汉良,战荫伟. 基于视觉的多特征手势识别[J]. 计算机工程与科学,2012,34(2):123-127.

[11]杨学文,冯志全,黄忠柱,等. 结合手势主方向和类-Hausdorff距离的手势识别[J]. 计算机辅助设计与图形学学报,2016,28(1):75-81.

[12]秦育罗,郭冰,孙小荣. 改进Hausdorff距离及其在多尺度道路网匹配中的应用[J]. 测绘科学技术学报,2020,37(3):313-318.

[13]肖宇. 基于序列图像的手势检测与识别算法研究[D]. 成都:电子科技大学,2014.

[14]卢梦圆,官巍,马力. 基于多特征融合的手势识别研究[J]. 计算机与数字工程,2020,48(9):2157-2161.

[15]赵倩楠,胡延平. 一种基于特征融合的手势识别方法[J]. 物联网技术,2020,10(9):33-36.

[16]ANDREW A M. An Introduction to Support Vector Machines and other kernel-based learning methods[J]. Robotica,2000,18(6):687-689.

[17]刘斌,米强,徐岩. LBP和MB-LBP加权融合的人脸识别[J]. 计算机工程与设计,2018,39(2):551-556.

[18]黄果,许黎,蒲亦非. 分数阶微积分在图像处理中的研究综述[J]. 计算机应用研究,2012,29(2):414-420,426.

基金项目: 国家自然科学基金(61562009);贵州大学人才引进项目(2015-29);半导体功率器件教育部工程研究中心开放基金项目(ERCMEKFJJ2019-(06); 贵州财经大学人才引进项目(校聘发[2020]4号)。

作者简介: 陈忠辉(1995-),男,硕士研究生,主要研究方向:圖像处理、目标检测; 谢本亮(1978-),男,博士,副教授,主要研究方向:图像处理、计算机视觉、目标检测。

收稿日期: 2021-04-06