耿海霄(四川大学视觉合成图形图像技术国防重点学科实验室,成都 610065)
基于条件随机场的连续手势识别算法
耿海霄
(四川大学视觉合成图形图像技术国防重点学科实验室,成都610065)
传统的人机交互方式,主要通过键盘、鼠标、触摸屏等设备来进行,这与人在日常生活中自然的交流方式仍有很大不同。为实现更加自然的人机交互,随着计算机科学的飞速发展,学者们对人体动作捕获和识别做了大量研究,手势识别技术也成为其研究核心之一。特别近年来,手势控制被越来越多地运用到各种产品中,这种更加直观的人机交互方式让手势识别技术拥有了更广阔的应用前景,如虚拟现实、娱乐游戏、工业控制和航空航天等领域。
手势识别的目标是将人手作为直接输入设备,不再需要中间的媒介,直接通过已定义的手势来控制机器。在现实生活中,人们的手势往往是动态的、连续的,静态手势能够表达的信息量难以满足人们的需求。而动态手势包含了连续的动作序列,不同的手势动作常具有相似或重复的运动轨迹,且相同的手势也会因为不同人而具有不同的运动速度。因此,提高手势分割的的准确性和高效性,提升手势识别的精度成为其主要的难点和突破点。
如今,国内外在手势识别方面均取得了颇多研究成果,张良国等人采用基于Hausdorff距离的模板匹配方法,建立了一个静态手势识别系统。Santemiz P等人利用动态时间规整法(DTW)进行多序对比,采用计算两个序列之间的欧氏距离,区分出了不同手势序列的起点和终点,解决了手势分割中的分了和识别问题。W. J.Tan等人将DTW和神经网络结合起来,实现了一种手形和运动轨迹同时变化的识别方法。Hyeon-Kyu Lee等人提出了一种基于自适应阈值的隐马尔可夫模型(HMM)手势识别算法,大大降低了手势训练和识别的难度。Elmezain M等人将CRF运用到连续手势的分割和识别中,建立自适应阈值模型将手势的起点和终点清晰的定位出来,提高了识别的精确度。
其中,HMM的时间尺度不变性以及训练时较强的扩充性,使其在动态手势识别中取得很好的效果。然而手势动作序列之间具有长距离依赖性,但HMM需假设手势动作序列相互独立,采用CRF可以避免条件无关性假设,既降低了对训练成本的要求,又更容易提高识别的精确性。
本文主要工作是采用CRF算法实现连续手势识别,并将实验结果与HMM算法进行比较,证明CRF算法在连续手势识别上有一定的优势。
2.1条件随机场理论基础
条件随机场(Conditional Random Fileds,CRF)是一种用于标注和切分有序数据 的条件概率模型,由Lafferty等人在2001年提出。该模型最早被用于有序数据的标注和分析,现在已经被广泛应用到手势识别领域中。
CRF本质上是给定了观察值集合的马尔科夫随机场,可看作一种基于最大熵和隐马尔可夫模型的无向图模型。假设G=(V,E)是一个无向图,Y={Yν|ν∈V}是以G中节点为索引的随机变量Yν构成的集合。在给定的X条件下,如果每个随机变量Yb服从马尔可夫属性,则(X,Y)就构成一个条件随机场。即:
其中,u~v表示u和v是相邻的边。
假设有观察序列X={x1,x2,…,xn}和有限状态集合Y={y1,y2,…,yn},则根据随机场的基本理论,可得:
其中,tj(yi-1,yi,x,i)是观察序列的标记位置i-1与i之间的转移特征函数,sk(yi,x,i)是观察序列的i位置的状态特征函数。
将两个特征函数统一为fj(y(i-1),yi,x,i),则:
2.2条件随机场的三个关键问题
(1)特征函数的选取
状态特征函数有过渡的性质,表示观察序列一个特征值是否在两个状态之间,即若该特征值在前一状态和当前状态之间,则所有特征函数都是实数值:
其中,Ya和Yb表示CRF模型中的两个特征值。
(2)参数估计
为了从训练数据中估计特征函数的权重λ,CRF参数估计基于最大熵原则,采用极大似然估计来最大化对数似然函数。假定对于训练数据有一组样本集合D={x(j),y(j)},∀j=1,…,n,且样本相互独立的,CRF的似然函数为:
上式中,p~(x,y)为训练样本(x,y)的经验概率。再对λj求偏导,得出:
令公式(6)等于0,便可求出λj。然而,极大似然估计有时并不能得到一个近似解,所以Lafferty提出了两种迭代缩放算法——GIS(Generalised Iterative Scaling)算法和IIS(Improved Iterative Scaling)算法来选择参数,使对数似然函数最大化。本文采用的GIS算法来训练模型参数,使之得到最高的对数似然值。
(3)模型推断
CRF模型见公式(2),其中,在模型训练过程中通常会碰到一些问题,如需要求边际分布p(yi-1,yi│x,λ),需要标记为标记的序列等。前者可以用forwardbackward算法来计算,后者则可以用Viterbi算法来找到全局最优解。
任何一种手势识别算法在进行手势识别时,都需要提取手势特征,为后续手势建模和分类做准备。这些特征主要包括:形状、方向角、运动速率、轮廓等。本文方法采用以方向角为主要特征,对手势运动轨迹进行区分和分类。其中,训练和识别的过程如图1所示。
本文用Microsoft Studio 2010实现了基于CRF手势识别算法。先利用OptiTrack硬件设备来捕获目标三维空间坐标,并通过Motive软件与NatNet SDK协同工作收集目标运动轨迹的坐标,最后采用已实现的CRF算法完成手势的训练和识别,从而完成连续手势运动轨迹的识别工作。
图1 CRF训练和识别流程图
本文手势数据库由10位用户共同录制,其中包括图2中的4种连续手势序列(pug Tail,Number4,Check Mark,Delete),每种手势收集20组样本数据进行训练。在手势识别时,用户在三维空间挥动装置,系统对实时手势轨迹进行识别。
图2 手势模板集
针对同样的手势库,还采用了HMM方法进行手势识别实验,并与本文的CRF算法识别结果作对比,效果的对比指标是召回率(Recall)、精确率(Precision)和两者相结合的函数F,分别表示为:
召回率 (Recall)=正确识别的手势个数/标准结果中的手势个数(7)
精确率 (Precision)=正确识别的手势个数/识别出的所有手势个数(8)
F值测试精度的描述,同时考虑了Recall表和Precision的值,表示为:
表1为使用CRF和HMM算法进行手势识别时,根据上述指标收集手势识别情况,计算均值后得到的统计结果。
表1
本文主要介绍了CRF算法和其在手势识别中的应用。由实验结果可知,CRF算法可以更好地描述手势动作序列之间的相关性,使得在手势识别过程中有更理想的识别效果。
[1]张良国,吴江琴,高文,等.基于Hausdorff距离的手势识别[J].中国图象图形学报,2002(11):1144-1150.
[2]Santemiz P,Aran O,Saraclar M,et al.Automatic Sign Segmentation from Continuous Signing Via Multiple Sequence Alignment[A]. 12th International Conference on Computer Vision Workshops(ICCV Workshops)[C].USA:IEEE,2009:2001-2008
[3]Probabilistic Models for Segmenting and Labeling Sequence Data[A].Proc of International Conference on Machine Learning[C].San Francisco:Morgan Kaufman,2001.
[4]C.Sminchisescu,A.Kanaujia,D.Metaxas.Conditional Models for Contextual Human Motion Recognition.Computer Vision and Image Understanding,2006,104(2):210-220.
Continuous Gesture Recognition;Condition Random Fields;Likelihood Maximization;Human-Computer Interaction
Condition Random Fields for Continuous Gesture Recognition
GENG Hai-xiao
(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0049-04
10.3969/j.issn.1007-1423.2016.05.011
耿海霄(1990-),女,四川武定人,硕士研究生,研究方向为图形图像技术
2016-01-08
2016-02-08
近年来,随着计算机技术的飞速发展,基于非接触手势控制的人机交互方式在不同领域都得以广泛应用。由于连续手势之间的相互依赖性,而传统的HMM手势识别方法必须先假设动作序列相互独立,对手势识别效果会造成一定的影响。为了有更精确的识别率,在连续手势识别过程中采用CRF算法。实验证明,该方法提高连续手势运动轨迹的识别率,优于传统的HMM算法。
连续手势识别;条件随机场;极大似然;人机交互
Recently,with the rapid development of computer science,the human-computer interaction technology based on untouched gesture control has been widely used in different fileds.The traditional Hidden Markov Model(HMM)has the assumption that the sequence of observations is mutually independent in temporal domain.However,continuous gesture is interdependent,and HMM method has some negative impact on the result.To improve the accuracy of recognition rate,in the process of continuous gesture recognition the Condition Random Fields(CRF)method are used.The experimental results show that the method effectively improve the accuracy of recognition rate and have some advantages compared with HMM method.