魏志莲,汪剑鸣,窦汝振,冷 宇
(1.天津工业大学 信息与通信工程学院,天津 300160;2.中国汽车技术研究中心,天津 300162;3.苏州出入境检验检疫局,江苏苏州 215021)
一种新的室内机器人手势指令识别系统
魏志莲1,汪剑鸣1,窦汝振2,冷 宇3
(1.天津工业大学 信息与通信工程学院,天津 300160;2.中国汽车技术研究中心,天津 300162;3.苏州出入境检验检疫局,江苏苏州 215021)
针对室内机器人手势指令识别系统识别率低、算法复杂等问题,提出一种新的设计方案.利用固定在室内某一位置的图像采集设备获取手势图像,采用YCbCr皮肤颜色模型进行手势分割,再通过八邻域边界追踪及傅里叶变换得到特征向量,最后通过最小距离法进行识别,并以此为基础,给出了手势指令识别的基本框架.实验表明,该系统的识别率较高,在90%以上,是一种简单合理的识别系统.
智能人机接口;室内机器人;手势指令识别
人机交互技术[1-2],主要研究用户与计算机之间的交互方式.随着模式识别、计算机视觉等智能技术的发展,智能人机交互技术逐渐成为当前研究的一个热点问题.手势识别就是要把手势这种自然、直观的交流方式引入人机接口中,实现更符合人类行为习惯的人机交互,这是实现新一代智能人机交互所不可缺少的一项关键技术.本文主要研究利用手势识别来实现对室内机器人控制的问题.对于室内机器人来说,视觉传感器安装在机器人身上,随同机器人一起运动.由于机器人的运动使得视觉传感拍摄的图像中背景物体也在运动,对图像的内容分析复杂,对手势的正确识别率低,限制了手势识别在机器人指令系统中的实际应用.鉴于上述原因,本文提出一种新的室内机器人手势指令识别系统,该系统将视觉传感器固定到室内某一位置,并研究手势指令识别的框架结构,最后利用实验证明该指令识别系统的识别率较高,且易于实现.
本文利用手势对机器人的控制过程如图1所示.首先将摄像头安装在某一固定位置,当实验者对摄像头做出手势时,摄像头将采集的手势传给手势识别模块,该模块对图像进行分割、边界追踪、特征提取及手势的识别.通过无线模块向机器人控制器发送控制指令,控制器接收到指令后,向机器人发送相应的指令,使其产生动作.
图1 手势对机器人的控制过程Fig.1 Control process of gesture according to robot
为了对室内机器人进行实时有效的指令控制,本文设计了一种简单有效的手势识别算法.主要包括:基于YCbCr皮肤颜色模型的手势分割、八邻域边界追踪、傅里叶系数的特征提取及基于最小距离的手势识别这4个部分.
2.1 手势分割
YCbCr空间具有将色度与亮度分离的特点,其中Y是亮度,而Cb和Cr是色度信息.在YCbCr色彩空间中肤色的聚类特性比较好,受亮度变化的影响小,而且是两维独立分布,能较好地限制肤色分布区域,并且受人种的影响不大.本文选择YCbCr色彩空间模式进行手势区域分割[3-6].YCbCr格式与RGB格式线性变化关系如(1)所示:
通过对大量皮肤像素的统计分析发现肤色聚类在色度空间中的一个很小的范围内.传统的肤色分割方法就是在二维的Cb-Cr子平面中寻求肤色的聚类区域,根据统计结果设定阈值从而将肤色区域与非肤色区域分离.
因为YCbCr色彩格式直接由RGB色彩格式通过线性变换得到,所以其亮度分量Y并不是完全独立于色度信息而存在的,所以肤色的聚类区域也是随Y的不同而呈非线性变化的趋势.
经研究发现,肤色聚类是呈两头尖的纺锤形状,也就是在Y值较大和较小的部分,肤色聚类区域也随之缩减.由此得到结论,简单的排除Y分类,按照传统的做法在二维的Cb-Cr子平面中寻求肤色的聚类区域是不可行的,必须考虑Y值不同造成的影响,从而对YCbCr色彩格式进行非线性分段色彩变换.
Anil K Jain等的研究表明,在肤色聚类的边界上,Cb和Cr两分量随Y变化的情况可以用4个边界来限制肤色聚类区域.这样可以很好地适应亮度过明或过暗的区域,从而使肤色模型的鲁棒性大大提高.
经过了非线形分段色彩变换得到的色彩空间用YCb′Cr′来表示.YCbCr坐标空间到YCb′Cr′坐标空间的转换公式如(2)~(5)所示:
式中:Kl=125,Kh=188(非线性分段色彩变换的分段值域);Ymin=16,Ymax=235(肤色聚类区域中Y分量的最小和最大值);WCb=46.97,WLCb=23,WHCb=14,WCr= 38.76,WLCr=20,WHCr=10是试验得到的常数.
根据肤色在Cb′~Cr′子空间上的投影建立肤色椭圆模型[7],由公式(6)和(7)给出:
式中:cx=109.38,cy=152.02,θ=2.53(rad),ecx=1.60,ecy=2.41,a=25.39,b=14.03,以上各值皆由Cb′~Cr′空间的肤色聚集区域计算得到.
由于光照不均匀和人为因素的影响,会造成拍摄的手势模糊,一般可使用微分运算对图像进行锐化,使图像的边缘变得清晰,有利于手势的分割.本文在手势分割前,先对图像进行Laplacian锐化.
锐化及分割效果如图2所示.由图2可见,通过该方法能把手从复杂背景中有效地分割出来.
图2 YCbCr皮肤模型分割效果Fig.2 Segmentation results of YCbCr skin model
2.2 边界追踪
经过皮肤颜色模型分割得到的是关于手的黑白二值图像,手区域像素值为1,背景区域像素值为0.在边缘提取的多种方法中,可以采用的边缘检测方法很多.如使用微分算子方法进行手的边缘提取时,由于上下方向等问题,使得外边缘与内边缘的区分发生混淆,而本文感兴趣的是手区域的外边缘.为此,本文采用一种八领域搜索的外边缘跟踪算法[8-9],该算法既能有效地跟踪外边界又能克服内边界的存在对算法的影响,其具体算法如下:
(1)按从上到下、从左到右的顺序扫描图像,寻找第一个像素值为1的像素点作为边界起始点A[0],记录A[0]点的坐标(A[0]·x,A[0]·y).A[0]是具有最小行和列值的边界点,再定义一个扫描方向变量dir.该变量用于记录上一步中沿着前一个边界点到当前边界点的移动方向,其初始化取值为A[0]·dir=7.
假设当前坐标为(x,y),则其8个邻域坐标见表1.
表18 个邻域坐标Tab.1 Eight-neighborhood coordinates
(2)按逆时针方向搜索当前象素的3×3的邻域,其起始搜索方向设定如下:
若A[n-1],dir为奇数,则取(dir+7)mod8;
若A[n-1],dir为偶数,则取(dir+6)mod8.
在3×3邻域中搜索到的第1个像素值为1的象素点便为新的边界点A[n],同时更新记录从上一点搜索到边界点A[n]的方向变量A[n]·dir,记录新的边界点的坐标(A[n]·x,A[n]·y).
(3)如果边界点A[n]等于第一个边界点A[0],即(A[n]·x==A[0]·x&&A[n]·y==A[0]·y).则停止搜索,结束跟踪,否则重复步骤(2).由边界点A[0],A[1],A[2],…,A[n]构成的边界便为要跟踪的边界.
本文在进行边界追踪之前,先对分割出来的二值手势图像进行剪切和调整大小,然后进行先膨胀后腐蚀的闭运算.该运算能够填充手内细小空洞,填平狭窄的断裂、细长的沟壑以及轮廓的缺口,在平滑其边界的同时并不明显改变其面积.对图像进行闭运算后,再进行边界追踪的结果如图3中(a)、(b)所示.
2.3 特征提取
对于一个物体的边缘即形状来说,可将其看作是平面在空间坐标系下的点集构成的闭合曲线,这样就可用周期函数来描述其外形,可以进行离散傅里叶变换,将图像由空域表示转换到频域表示,变换后的函数可由傅里叶变换系数来描述[10-12].对于数字图像的频谱来说,低频分量的分布反映了图像主体的基本形状,高频分量的分布反映图像的细节,去掉细节,即去掉高频成分并不会破坏物体的形状特征.而且图像低频部分代表了图像的主体信息,因而可以引用低频分量的系数来分析其形状的相似度.
通过边界追踪得到边界点A[0],A[1],A[2],…,A [n],将这些边界点组成序列p[n]={A[n]·x,A[n]·y},其中n=0,1,2,…,N-1.用复数来表示每一点坐标,即p[n]=A[n]·x+i A[n]·y.对复数序列进行离散傅里叶变换,得到傅里叶系数,取傅里叶系数的幅值作为特征向量.
在此去掉第1个系数,即直流分量,来防止噪声干扰,实现旋转不变.取2~11这10个系数,并将这10个系数除以边缘点总数N,实现特征向量正则化,从而实现尺度不变.这样就得到了一组十维的满足旋转不变性和尺度不变性的特征向量.
2.4 基于最小距离的手势识别
最小距离分类器[13-14]是对训练集中的样本进行训练,得到每一类的中心.分别计算待识别手势与每一类中心的距离,哪一个距离最近则待识别手势属于哪一类.基本思想:设图像类Ωi的样本集为,它们都是向量,平均值如公式(8)所示:
用di表示任何一个图像样本与平均值之间的距离如式(9):
求出di的最小值,则判决X属于Ωi类.
如何正确获取并识别手势指令是室内机器人手势指令控制系统的关键.目前在手势指令识别上还存在一些问题.一方面,由于室内人员较多,容易造成手势指令误判;另一方面由于在指令手势没有稳定后就进行手势采集,造成指令误判,从而导致识别率较低.
为此本文设计了一种手势指令激活及手势指令稳定的判断方法,具体实现步骤为:
(1)摄像头对视区不断进行实时监控,检测视区中是否存在运动物体,存在则转到(2);否则,继续进行步骤(1).
(2)等待物体静止,获取静态图片,判断是否存在激活指令手势,存在则激活无线指令收发模块,并转到(3);否则延迟1 s,转到(1).
(3)对视区继续进行实时监控,检测视区中是否存在运动物体,存在则转到步骤(4);否则,继续进行步骤(3).
(4)等待物体静止,并获取静态图片,判断是否存在指令手势,存在则转到步骤(5);否则,延迟1 s后,转到步骤(3).
(5)对指令手势进行识别,将指令通过无线模块向机器人控制器发送控制指令,控制器接收到指令后,向机器人发送相应的指令,使其产生动作.延迟1 s,然后转到(1).
为了验证手势识别算法的性能,本文采用由瑞士的Sebastien Marcel创建的手势数据库[15]对该算法进行测试,该数据库中共有5 818幅手势图片,包含了10个人的6种手势.本文从中随机抽取100幅彩色图片,其中共包含了如图4所示的4种手势,其中40幅用于训练样本,60幅用于测试样本.测试结果如表2所示.
图44 种手势Fig.4 Four kinds of gestures
手势 测试图片数 错误判别数 误判手势 识别率/ % A 1 5 0 - 1 0 0 C 1 5 1 F i v e 9 3 . 3 F i v e 1 5 1 P o i n t 9 3 . 3 P o i n t 1 5 2 F i v e 8 6 . 7
通过实验发现存在手势误判的情况,错误识别的主要原因有2个:
(1)数据库中图片分辨率较低,手的轮廓模糊,导致分割出来的手形发生形变,造成手势误判.
(2)手形比较接近,容易造成错误判别.
总之,该识别算法基本上能正确地识别出手势,其性能是十分可靠的.
在保证了识别算法的可靠有效后,就将进一步验证该手势指令系统是否能实现对机器人的有效控制.为了避免手势误判,本文采用了如图5所示的手形差别较大的5种手势,分别代表了激活、前进、后退、左转、右转这5种指令,来控制机器人的运动.
图55 种手势指令Fig.5 Five kinds of gesture instructions
本实验共做了40次测试,其测试过程为:每次手握拳缓缓置于摄像头视区内,静止1 s后,变换另一种手势,手势静止后,观察机器人的运动情况.经反复测试后,其实验结果如表3所示.
表3 指令控制实验结果Tab.3 Results of instruction controlling
从表3可以看出,该系统的识别率较高,能够实现手势指令对室内机器人的有效控制.
本文提出了一种简单合理的手势指令识别系统,通过手势来控制室内机器人的运动.识别算法采用皮肤颜色模型进行手势分割,通过八邻域边界追踪和傅里叶变换得到满足旋转不变性和尺度不变性的特征向量,最后用最小距离法进行识别,识别率较高.同时,提出了一种新的指令识别框架,从而实现了对室内机器人运动的有效控制.由于室内环境较为复杂,且室内光线不均匀,给手势分割带来了一定难度,所以本文将图像采集设备固定在室内某一位置,但这给手势识别系统带来了一定的局限性.因此,研究出一种更有效的手势分割算法是本文下一步研究的重点.
[1]孙丽娟,张立材,郭彩龙.基于视觉的手势识别技术[J].计算机技术与发展,2008,18(10):214-216,221.
[2]李清水,方志刚,沈模卫,等.手势识别技术及其在人机交互中的应用[J].人类工效学,2002,8(1):27-29.
[3]HSU Rein-Lien,MOHAMED Abdel-Mottaleb,JAIN Anil K. Face detection in color images[J].IEEE Transactions on Pattern Analysis And Machine Intelligence,2002,24(5):696-706.
[4]王金庭,杨 敏.基于YCbCr空间的亮度自适应肤色检测[J].计算机系统应用,2007(6):99-102.
[5] HIDEKI Noda,MICHIHARU Niimi,JIN Korekuni.Simple and efficient colorization in YCbCr color space[J].International Conference on Pattern Recognition,2006(3):685-688.
[6]DOUGLAS Chai,ABDESSELAM Bouzerdoum.Bayesian approach to skin color classification in YCbCr color space[C]. IEEE Region 10 Annual International Conference,Proceedings,2000,2:421-424.
[7]李 杰,郝晓莉.一种基于椭圆肤色模型的人脸检测方法[J].计算机测量与控制,2006(2):170-171.
[8] YU Yang,LIU Erli,ZHOU Tietao.Application of boundary tracing and freeman code in quantitative metallography[J]. Journal of Beijing University of Aeronautics and Astronautics,2004,30(8):676-770.
[9]李兴伟,葛 元,王林泉.基于形状特征的字母手势的分类及识别算法[J].计算机工程,2004,30(18):130-132,186.
[10]ZHANG Gang,MA Z M,TONG Qiang,et al.Shape feature extraction using fourier descriptor with brightness in contentbased medical image retrieval[C].Proceedings-2008 4th International Conference on Intelligent Information Hiding and Multimedia Signal Processing.IIH-MSP 2008,2008:71-74.
[11] PURCARU Dorina.Algorithm for computing the Fourier descriptors of a binary outline[C].Proceedings of the Mediterranean Electrotechnical Conference-MELECON,1998,1:39-43.
[12]刘江华,陈佳品,程君实.用于人机交互的静态手势识别系统[J].红外与激光工程,2002,31(6):499-503.
[13] LIU Zhe.Minimum distance texture classification of SAR images in contourlet domain[C].Proceedings-International Conference on Computer Science and Software Engineering,CSSE,2008,1:834-837.
[14]陈绵书,付 萍,张春雨.基于最小距离最大原则的模式分类[J].计算机工程,2004,30(9):28-30.
[15] MARCEL S.Hand posture recognition in a body-face centered space[DB].In Proceedings of the Conference on Human Factors in Computer Systems(CHI),1999.
A new recognition system of hand gesture instruction based on indoor robot
WEI Zhi-lian1,WANG Jian-ming1,DOU Ru-zhen2,LENG Yu3
(1.School of Information and Communication Engineering,Tianjin Polytechnic University,Tianjin 300160,China;2. AutomotiveTechnologyResearchCenterof China,Tianjin 300162,China;3.SuzhouEntry-Exit Inpection and Quarantine Bureau,Suzhou 215021,China)
A new scheme of hand gesture based instruction recognition system for indoor robot is proposed to improve recognition rate and reduce the complexity of recognition algorithm.The image acquisition device is installed at a fixed indoor location,and YCbCr skin color model is applied to segment hand gesture pictures.Then,feature vector is gotten by the eight-neighborhood tracking and Fourier transform.Finally,the minimum distance method is adopted to identify hand gestures,and the basic framework of hand gesture instruction recognition is illuminated.The experiment shows that the system has higher recognition rate(more than 90%),which is a simple and reasonable recognition system.
intelligent human-computer interface;indoor robot;hand gesture instruction recognition
book=1,ebook=81
TP242.62
A
1671-024X(2010)01-0072-05
2009-08-18 基金项目:国家自然科学基金资助项目(60602036)
魏志莲(1983—),女,硕士研究生.
汪剑鸣(1974—),男,副教授,博士,硕士生导师.E-mail:wjm_hope@hotmail.com