王 萍, 胡 炎
(天津大学 电气与自动化学院,天津 300072)
基于欧氏骨架的手势识别系统*
王 萍, 胡 炎
(天津大学 电气与自动化学院,天津 300072)
引进最新骨架提取算法,设计并实现了一种以手势的欧氏骨架为基准的手势识别系统,系统由通用视频采集模块和ARM开发板硬件组成。利用动态前景检测算法结合YCbCr肤色识别模型,分割出手势区域;借助欧氏距离变换和Delta—中轴骨架提取算法获得手势区域的欧氏骨架,并提取骨架的关键点和欧氏距离等几何参数,以此建立手势识别的几何模型。实验测试正确识别率高达94 %,每帧图片处理时间小于25 ms,表明该系统实时、有效。
欧氏骨架; 手势识别; 关键点; 实时
手势识别是人机交互领域内一项重要的研究课题,旨在将人手作为直接的信息输入设备,通过预先定义的手势模型,对计算机下达相应的指令。根据感知设备的不同,手势识别系统可以分为:基于数据手套[1](硬件传感器)和基于计算机视觉[2]两种类型。其中,数据手套的成本较高,在一定程度上也影响人机交互的友好性。
基于计算机视觉的手势识别系统的建模方法主要有:隐马尔可夫模型[3]、神经网络[4]和几何特征[5]。其中,隐马尔可夫模型对于时间序列有较强的分析处理能力,适用于动态手势识别。但所需计算量较大,难以满足快速实时应用的需求;神经网络具有较快的计算速度,兼具较强的鲁棒性和学习能力,但处理时间序列的能力较差,适用于静态手势识别;基于几何特征的手势识别方法是利用手掌、手指区域和轮廓的几何特征,借助模板匹配技术[6]进行手势的匹配识别。基于几何特征的手势识别方法更接近人类视觉上对手势的理解,且不需要借助复杂分类器,稳定性和实时性较好。
本文引进最新骨架提取算法,设计并实现了一种以手势的欧氏骨架为基准的手势识别系统。Delta—中轴[7]骨架提取算法是目前骨架提取最新研究成果,其主要优势是快速、鲁棒性强,适合于骨架提取的实时计算。实际测试表明,利用骨架信息结合欧氏距离变换的关键点构建的手势识别模型,具有识别率高、实时性较好的优点。
手势识别系统的设计如图1所示,包括5个部分:视频采集、动态检测、骨架提取、手势识别和结果显示。其中,每帧图像大小为240像素×240像素,格式为YUV,识别系统采用Qt框架为主进程。线程1主要用来执行图像序列采集和手势分割,分割结果上传到缓存队列,缓存队列设定长度为10。线程2从队列中读取手势二值图像,执行骨架提取和手势识别。
图1 手势识别系统设计框架
2.1 动态分割算法
肤色分割所依赖的颜色空间通常有RGB,HSV和YCbCr。由于RGB三通道均含有亮度信息,用于肤色识别时亮度的适应性较差。HSV空间将亮度、色度和饱和度分开,但肤色在HSV空间中分布紧密性不好,因此环境适应性较差。YCbCr空间在人脸识别中[8,9]应用较为广泛,它将亮度和色度分开,利用色度分割肤色,分割效果相对较好。在YCbCr空间中,肤色满足
133≤Cr≤173,77≤Cb≤127
(1)
为了满足准确提取手部的二值区域,本文采用了Vibe算法[10]结合式(1)来检测运动的手部区域。Vibe算法是一种基于像素级别的背景建模、前景检测算法。该算法对硬件内存占用少,运算速度快,但当目标存在大面积同色区域时,内部容易出现空洞。
本文动态手势分割操作如下:在Vibe算法更新过程中,如果当前点被检测为前景点,则利用式(1)检验该点的8邻域像素点是否满足肤色条件;如果满足肤色条件点的个数大于3个,则将其8邻域内所有像素点全部标记为肤色点,并在对当前帧的更新操作中直接判别为前景点。该操作可以有效填补手势区域内的空洞。在背景稳定不变的前提下,通过以上方法可以有效地分割出手势区域,如图2所示。
图2 动态手势分割
2.2 Delta—中轴骨架提取算法
MAδ(X)={x∈X|δx≥δ}
(2)
δx=max{d(z),z∈Lpxy}
(3)
图3 不同情况下x处的最大形变圆
2.3 欧氏距离局部极大值点
欧氏距离变换[11]的局部极大值点是3×3邻域距离变换的最大值点。本文在下文中提到的极值点,均指距离变换的局部极大值点。文献[12]指出,局部极大值点只分布于骨架上距离值变化稳定的区域。因此,在骨架线末端开叉的位置,不会出现局部极值点。由于本文使用的是精准欧氏距离变换,因此,可以使用骨架线上局部极值点的距离值估算物体的局部宽度
物体的局部宽度≈局部极值点距离值×2倍
(4)
3.1 模型参数
本文提出的以欧氏骨架为基准的手势识别模型如图4所示,包括掌心、骨架端点、距离端点最近的欧氏距离极大值点(以下称极值点)、内(外)掌心圆、以及各极值点的欧氏距离值(也即最大内切圆半径)等参数。
图4 本文提出的手势识别模型
各特征参数说明如下:
1)掌心:本文定义掌心为手部区域欧氏距离变换的最大值点,记掌心点为C0,C0处的距离变换值为VC0。
2)端点:端点即骨架线的端点,通过端点检测即可获得骨架线的所有端点。
3)极值点:由于端点处距离值无法估算手指、手腕等宽度,本文使用距离各端点最近的局部极大值点的距离值来估算手指、手腕等宽度。
4)内掌心圆以C0为圆心,0.5VC0为半径的圆。如果端点的最近局部极值点位于内掌心圆内,则判定该端点无效。
5)外掌心圆以C0为圆心,1.2VC0为半径的圆。如果端点位于外掌心圆内,则判定该端点无效。
6)关键点模型的关键是利用以上各参数从判定为有效的端点中,识别出手指端点和手腕端点,亦即模型的关键点。在此基础上,可以根据手指宽度信息识别出单指和多指的情况。
3.2 匹配规则
一般人体手掌的宽度约等于除大拇指外的4根手指的宽度,而手腕的宽度大约为手掌宽度的2/3。根据式(4),手掌宽度为2VC0,手指和手腕的宽度用最近局部极值点的距离值来估算,计算方法同掌宽。假设最近局部极值点处距离值为h,令l=2VC0/4。由于本文提出的模型是接近手指末端的宽度,因此,手指的平均宽度应小于l,则单根手指的指端极值点处距离值应满足h<1.2l,手腕极值点处距离值满足h>2.5l,如果不存在并指的情况,可直接根据h值的范围判断手指和手腕。
图5 合并邻近的极值点
判别规则:
单指:若hi<1.2l且ai=1,则pi为手指端点,单指情况;
手腕:hi/2>1.25l且ai=2,则pi为手腕端点;
多指并拢:hi/ai< 1.2l,ai≥2,则pi为手指端点,多指并拢。
4.1 实验测试
本文实验环境为Cortex—A9,1G内存,4核×1.6GHz,Linux操作系统,视频采集设备为500W像素OV5640摄像头模块。实验测试针对如图6所示的10种手势。实验方式为:线程1实时动态检测,当手部区域移动到采集区中心位置时,线程2执行一次手势识别,打印识别结果并保存结果图像;每种手势以不同方向进入采集区域10次,统计识别结果。其中,前6种手势识别率达到98 %,后4种并指的情况识别率为88 %,总体识别率达到94 %。
图6 10种手势的识别模型
由于手势10中包含单指和并指的情况,本文仅以手势10为代表给出手势10详细的模型参数,如表1所示(其中,l=30.2×2/4=15.1像素)。从表1可以看出,手腕的宽度与手指的宽度差异较大。
表1 手势10实测模型参数
4.2 算法复杂度分析
本文重点分析了基于欧氏骨架的手势识别部分(也即线程2内运行的程序)的算法复杂度,该部分主要分为Delta—中轴骨架提取算法、欧氏距离变换和手势模型参数的计算三个部分。假设图像前景点数目为N,骨架点的数量为N1,则Delta—中轴骨架提取算法和欧氏距离变换的复杂度为O(N),手势模型参数的计算主要是以骨架为基准,因此,该部分算法的复杂度为O(N1)。考虑到N1 由于Delta—中轴骨架提取算法实时、高效和鲁棒性强的特点,用于手势识别具有稳定可靠的优势。从实验中可以看出,在无并指的情况下,本文提出的手势识别模型准确识别率达到了98 %,每帧耗时不超过25 ms,因此,可以满足实时应用的需求。该模型与传统的手势识别模型相比,不需要做手腕分割,具有更强的适应性和稳定性。 [1] Chaudhary A,Raheja J,Das K,et al.Intelligent approaches to interact with machines using hand gesture recognition in natural way:A survey[J].International Journal of Computer Science & Engineering Survey,2011,2(2):122-133. [2] Luzanin O,Plancak M.Hand gesture recognition using low-budget data glove and cluster-trained probabilistic neural network[J].Assembly Automation,2014,34(34):94-105. [3] 江 超,艾矫燕.基于OpenCV的摄像头动态手势轨迹识别及其应用[J].计算机应用,2012,32(z1):128-133. [4] Kim H,Lee J,Park J.Dynamic hand gesture recognition using a CNN model with 3D receptive fields[C]∥International Confe-rence on Neural Networks & Signal Processing,Nanjing:IEEE,2008:14-19. [5] Chen Z,Kim J,Liang J.Real-time hand gesture recognition using finger segmentation[J].The Scientific World Journal,2014,2014(2):267872. [6] 田 娟,郑郁正.模板匹配技术在图像识别中的应用[J].传感器与微系统,2008,27(1):112-117. [7] Marie R,Labbani-lgbida O,Mouaddib E M.The delta medial axis:A fast and robust algorithm for filtered skeleton extraction[J].Pattern Recognition,2016,56:26-39. [8] 张云龙,谢泽奇,张会敏.一种复杂背景下的人脸检测方法[J].传感器与微系统,2011,30(6):42-48. [9] 冯辉宗,谢 静,蒋建春.针对机动车驾驶员的人脸检测方法[J].传感器与微系统,2012,31(9):112-115. [10] Barnich O,Van M.Vibe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing & Publication of the IEEE Signal Processing Society,2011,20(6):1709-1724. [11] 刘相滨,邹北骥,孙家广.基于边界跟踪的快速欧氏距离变换算法[J].计算机学报,2006,29(2):317-323. [12] 刘俊涛,刘文予,吴彩华.一种提取物体线形骨架的新方法[J].自动化学报,2008,36(6):617-622. Gesture recognition system based on Euclidean skeleton* WANG Ping, HU Yan (School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China) A gesture recognition system is developed based on the lasted skeleton extracting algorithm and Euclidean distance transform.The system consists of generic video acquisition module and ARM.Firstly,gestures region are segmented by dynamic forescene detection algorithm combined with skin color detection model of YCbCr;secondly,the Delta-medial axis skeleton extraction algorithm and Euclidean distance transform are applied to obtain Eudidean skeleton so as to extract geometric parameters,and key points on the skeleton.Then a gesture recognition model is built by these geometric parameters.Test results show that the overall recognition rate reaches 94 %,processing time of each frame image is less than 25 ms,which shows that the system is real-time and effective. Euclidean skeleton; gesture recognition; key points; real-time 10.13873/J.1000—9787(2017)08—0111—03 2016—08—12 天津市自然科学基金资助项目(14JCYBJC21800) TP 216 A 1000—9787(2017)08—0111—03 王 萍(1955-),女,教授,博导,主要从事图像识别、运动对象跟踪、图像理解。5 结束语