江铁成
(1.安徽大学艺术与传媒学院,安徽 合肥 230011;2.安徽广播影视职业技术学院,安徽 合肥 230011)
基于视觉手势识别技术的实践研究
江铁成1,2
(1.安徽大学艺术与传媒学院,安徽 合肥 230011;2.安徽广播影视职业技术学院,安徽 合肥 230011)
[摘要]本文首先简单介绍了市面上手势识别技术的应用状况,接着分析了计算机手势识别的技术具体内容,介绍了手势识别技术常见的 几种方法,分析手势建模方式,最后研究了现实生活中手势识别技术的在人机交互中的应用情况。
[关键词]视觉;手势;识别技术;应用
手势属于一种容易接受、形象直观、自然真实的人机交互手段。人机之间不使用其他媒体,直接用人手作为输入设备,通过一种简单定义得来的手势进行控制计算机。手势识别技术的研究内容一般分为两种:手势合成技术与手势识别技术,手势合成技术包含在计算机图形学范畴内,手势识别技术包含在模式识别范畴内,两个阶段共同完成以下任务,也就是识别人脸、面部表情、头部运动跟踪、体势识别等[1]。这种技术在实践运用中,具有间接性、直接性和丰富性,所以得到不断推广普及。
1视觉手势识别技术的发展
刚开始研究重点是设计一种专用硬件设备来输入数据。比如数据手套,只要人拿着一个相似于手套的传感器,通过传感器的反应,计算机能够获得人手的具体位置,手指的弯曲程度等多种信息。最有代表性的人物是一个叫B.Thamas的学者,在1993年建立了自由手遥控目标系统,其输入媒介就是利用了数据套,还是需要人带着一个特殊的实验设备,有些麻烦。
后来,科学家们发展到集中精力研究标记手势。也就是在人的手上做一个标记,可以在手腕处画上有颜色的符号,进而达到认识手势的目的,这种方法方便了识别的同时,也带来了实验困难。
为了免除不必要的麻烦,研究者最终集中精力研究人的手掌,经过反复的脱机训练,利用专用实验硬件,研究出了一套简单的手势系统。只可以识别仅有的几种系统。具有代表性是人是Freeman联合Roth等人共同研究出了基于方向直方图的手势识别系统。还有一个叫高文的研究者,进一步实验,创造了在静态复杂背景中对手势目标进行捕获,加以识别的手势识别系统,经过一年的深入研究,又建立了在动态背景下,进行捕获手势目标,加以识别的系统。
以后对自然手的识别系统的研究是一种流行趋势,基于视觉的手势识别技术不断改进,逐渐满足了人们的需求[2]。
2计算机手势识别技术具体内容
手势应用在人机交互过程中必备的前提条件是,利用计算机进行手势识别,以及深入分析手势输入技术。当前市场上比较流行下面三种不同手段来识别手势。
(1)利用鼠标器和笔来识别手势,有一个鲜明的缺陷,仅仅是识别手的整体运动形态,无法显示识别手指的细节动作。但优势较多,利用软件算法实现识别功能,特别适合用于普通用户的桌面系统。在此值得指出,只限于利用鼠标光标运动,利用笔尖运动或者是运动的方向传达所需要的信息,如此情况下,所使用的笔、鼠标、光标等工具就可以看成是手势表达根据。在印刷、编辑、排版工作中常有这种技术来校对文字,比人工校对效率高几倍。
(2)利用计算机视觉技术,也就是利用摄象机输入手势技术,有一个优点是丝毫不会影响到用户,用户只需要在摄象机面前出现,受到市场普遍欢迎,目前这项技术吸引了大量的计算机技术工作者深入研究。可是,想有所突破,面临重重困难,当前市场上的计算机识别技术处于初级阶段,无法准确识别手势,分析手势,执行命令,前面的路还长。
(3)基于数据套建立手势识别技术,数据套(Data Glove)技术稍微复杂些,技术难度也较大,能够测定出手指的手势,分辨出手指的姿势。可是对用户要求严格些,必须保持手指的干燥、干净,否则,识别系统会出现问题,数据不准确,可是计算机设备价格比较贵,难以普及。
3当前普遍使用的计算机手势识别方法
常见手势识别方法有如下三种:
(1)较为简单的模版匹配技术预先建立一个模版,储存需要的数据,然后通过传感器获取的原始数据,原始数据与模版自行匹配,出现一定的相似度,以相似度的高低完成手势识别任务。
(2)比较新型的神经网络技术使用一种新模式,具备了较为全面的能力,有较强的组织能力,自学能力,有明显的分布性特点,能够自行解决有些缺陷的模式,有效抵抗各种噪音,具备了较强的模式推广功能。
(3)较为复杂的统计分析技术是一种计算概率的分类方法,先统计出样本的各种特征向量,进而确定分类器的分类技巧。手势模式识别技术里,一般建立一个分类函数,依据是贝叶斯极大似然理论,将相关概率分类。这种手势识别技术存在明显的缺点,就是不能够直接识别全部获得的原始数据,必须通过人们操作,从有关的原始数据中提取部分需要的特种向量,这个步骤在实际使用起来显得较为麻烦。
当前市场上手势识别技术运用较多的是数据套的神经网络技术,因为它能够进行静态输入和动态输入,十分有利于训练活动,记录快速和交互的活动方式,省去了利用一种解析方式定义传递特征的步骤。还可以自行调节处理,用户根据自己需求调整网络的链接权值,以求手势识别程序符合自己的意愿。但是此种技术也存在不足之处,必须通过网络设备完成手势识别技术,如果更改了手套设备,那么网络的拓扑结构也必须随着改变,还必须从头开始训练网络,获得新的链接权值[3]。
4基于视觉手势建模分析
4.1手势建模过程
手势模型在建立手势识别系统中处于核心位置,决定着识别范围的确定过程,选择模型就是根据具体应用来确定的。针对一个确定的应用,只要建立一个简单、粗糙的模型使用图像梯度方向直方图,再用此图来跟踪人手,识别静态手势如果要实现人机交互,就要建立3D人手模型。保证所需识别系统能够正确反应出用户的大部分手势,(而不是全部的手势),反应也就是识别或者决绝。根据历史资料查询得知,当前3D模型分为两种:基于表现的手势建模方法,和基于3D模型的手势建模方法。前者是通过分析手势在图像里的变现特这来建立手势模型,后者是先给手和手臂的静态与运动动态建模的,接着,利用手和手臂的静态与动态模型参数,处理好估计手势模型参数,从而获得3D手势识别技术。通常来说,手势建模过程分为两个步骤:第一步是给手的表面及动态,手臂的动作与形态进行建模,第二步是按照运动和姿态的模型,详细设计手势模型参数。
基于3D手模型的手势模型基本包含了四种:骨架模型、几何模型、网络模型以及体模型。其中体模型功能是识别身体,跟踪身体姿态和动作。这种人体3D模型在实践中普遍使用的是3D骨架模型。参数是经过简化处理过的人体关节角度参数和指节长度数据。根据人手的物理性质,3D骨架模型可以获得两种约束,一个是静态约束,分析关节角度范围,另一个是动态约束,分析运动依赖关系。
基于3D手臂模型使用过程中经常出现两个重要困难:第一个是参数空间的维数高,难以分析。第二个是利用视觉技术获得手臂模型的参数十分困难,技术复杂,目前难以克服。
基于表观的手势模型分为四类。第一类基于表观的手势模型,建立过程发挥了2D灰度图像的作用。第二类手势模型通过手(臂)的可变性2D模版建立的。第三类手势模型根据图像属性的相关数据建立的。第四类基于表观的手势模型主要针对动态手势识别运用中,它使用计算机图像运动参数进行技术分析,获得手势模型参数而建立的。
4.2手势分析阶段技术
目前手势基于3D手势分析阶段的任务,是对手势模型的参数进行分析,加以估计,做出选定。这个阶段的任务包含了两个内容:特征检测串行,参数估计串行。
进行特征检测第一步必须将手势的主体(人手)做出定位。由于线索不一样,导致定位技术也不一样,出现以下三种:基于运动定位技术、基于颜色定位技术和多模式定位技术。基于颜色定位技术很大程度上利用了皮肤的测验数据,或者利用直方图匹配技术建立查找表的方法,得到普遍推广,可是也存在很大的局限性,由于关照条件发生变化,引起皮肤颜色发生相应的变化,导致出现了有些皮肤没有被发现,还会出现错误检测形成非皮肤区域。如果将背景进行限制,或者领用颜色手套,也许能够高效率的定位人手,甚至实时定位人手。可是这样以来,对用户提出了一定要求,对接口设备也提出了更加严格的限制性质的条件[4]。
虽然各种手势模型的参数是不一样,可是有一点基本上是相似的,即用于计算模型参数的图像特征基元差不多。普遍使用的图像特征基元一般有以下几种:区域、边界、轮廓、指尖、二值影响以及灰度图像等。
对3D模型参数进行估计不能采用一个模式,应该根据模型对应的参数运用相应的参数估计方法。一个完整的3D手模型一般都具有两个环节,一个是原始参数估计环节,另一个是参数随时间更新环节。
2D所包含的四类基于表观的手势模型的估计也不能采用一个标准,而应该是根据每一个类别,使用该类别相应的估计方法。
4.3手势识别过程
手势识别具体细节,是把手势模型参数空间翠的轨迹,有的是一些点,根据需要分类到该空间的一个子集当中的过程。静态手势只能与一个点或者是几个点相对应。动态手势相对来说复杂一些,只能与模型参数空间里的一条轨迹做出对应。
由此得知,两种手势识别方法也不一样。静态手势识别算法细分为两种:一种是基于非线性聚类技术识别算法,另一种是基于经典参数聚类技术的识别算法。 动态手势比静态复杂些,牵连到时间变化和空间上下位置,大部分动态手势利用参数空间的轨迹进行建模。由于不同用户的手势动作受到时间、速率、熟练程度的影响,在时间轴上会出现非线性波动。
由于处理时间轴的效果不同,动态手势识别技术可以分为三类:第一类是基于动态实践规整的识别,第二类是基于隐马尔可夫模型的识别,第三类基于压缩时间轴的识别。
5手势识别技术在实践中的应用状况
目前手势识别技术在以下四个方面得到推广实用。
(1)手势识别技术运用于机器人机械手抓取程序的建立。机器人机械手程序建立的难点就是自然抓取程序的建立,如果利用手势识别技术,提高机械手的识别事物能力,收集相关事物表象数据,进一步分析,得出下一步措施数据,进而指挥机械手抓取物体,因此,更一步研究基于数据库手势识别,将会突破机械手的难点,促使机器人技术跃上一个台阶,将会得到很多行业重视,市场前景广阔。
(2) 手势识别技术广泛使用在虚拟环境中, 进行数据交互。虚拟设计产品,虚拟装配产品零件,虚拟制造有关产品,利用手势识别技术将会大大提高工作效率。此类虚拟环境中的作业都是可以通过手的动作直接装配零件,具体装配零件时可以预先定义零件之间的装配关系,利用手势与语音的合成技术实现这种定义,每个零件、零件之间的关系设定相应语音,执行装配自动提醒或预警报告。手势识别技术在输入复杂设计信息中也发挥同样的作用[5]。
(3)手势识别技术最基本的功能是用于手语识别。手语识别研究最终目的就是聋人的语言给机器人甄别,得出相应的反应。其中必须建立一个人-机手语翻译系统,这个系统有手语识别与手语合成有机联系得出,提供给聋人,帮助聋人与环境顺利交流。手语识别技术包含两种:基于视觉手语识别技术,和基于数据手套手语识别技术。其中有一个“感知”手势过程,如图2所示:
感知过程就是用户概念手势G,经过运动控制之后,手势运动H表达,输入设备,变换Thi,转变为系统信息I。由G转变为I的过程是:
T gh:G → H·即HT gh (G)
T gi:H →I·即IT hi (G)
T gh:G→ I·即IThi (T gh(G)) T(G)
其中:Tgh为人体运动控制传送函数:Thi为输入设备传送函数
(4)手势识别技术普遍使用在多媒体界面。如今多媒体用户界面采用多种交互设备,鼠标与键盘同时使用,手势输入与键盘、鼠标都各得其所,手势输入虽然技术先进,可是仍然有不足之处,第一个不足之处是手势识别所用设备性能不够周全,技术还不够全面。第二个是手势本来就有很多难以琢磨的特性:差异性、多义性、多样性以及不精确性等。二者原因导致了手势识别近些年来无法取代传统式交互设备。手势输入有优点,可是在人机交互中应用的本来意义,不是用作未独立的用作空间指点,而是帮助语言、唇语以及视线等交互手段通道提供相应的空间约束信息,或者时间等相关的约束信息,这样就消除了在单通道输入过程中出现的歧义问题。如此效果,难以做到用充分性全面代替精确性的目的。
6总结
本文介绍了手势识别技术的使用现状,手势识别的具体概念,详细叙述了手势识别的几点关键技术,重点分析了当今时代手势识别的应用状态。
[参考文献]
[1]陆颖隽.虚拟现实技术在数字图书馆的应用研究[D].武汉大学,2013.
[2]任海兵,祝远新,徐光,林学,张哓平.基于视觉手势识别的研究综述[J].电子学报,2000,02:118-121.
[3]邹晨,张树有,谭建荣,刘振宇.VR环境中产品设计手势的定义与合成[J].工程图学学报,2000,02:107-110.
[4]方志刚.计算机手势输入及其在人机交互技术中的应用[J].小型微型计算机系统,1999,06:19-22.
[5]高鹰,黄昌正,周子航,刘振能.基于ARM的数据手套及其手语识别系统的设计与实现[J].广州大学学报(自然科学版),2012,04:68-74.
Practical Research on Recognition Technology based on Visual Gesture
JIANG Tiecheng1,2
(1.SchoolofArtandCommunication,AnhuiUniversity,Hefei230011,China;2.AnhuiVocationalCollegeofRadio,FilmandTelevision,Hefei230011,China)
Abstract:This paper briefly introduces the application of gesture recognition technology in the market, followed by the analysis of the computer gesture recognition technology including the specific content, gesture recognition techniques, and lastly, it studies application of the hand gesture recognition technology in human-computer interaction.
Key words:vision; gesture; recognition technology; application
[收稿日期]2016-03-01
[基金项目]安徽省自然科学重点项目:《动画融合技艺在影视制作中应用研究》(项目批号:SK2014A447)
[作者简介]江铁成(1971-),男,安徽潜山人,硕士,副教授、工程师。研究方向:计算机及应用。
[中图分类号]TP391
[文献标识码]A
[文章编号]1674-2273(2016)03-0031-04