张生军,吴仕勋,王宏刚,许登元,黄大荣
(重庆交通大学 信息科学与工程学院,重庆 400074)
无标记手势识别中基于混合特征的手部分割研究
张生军,吴仕勋,王宏刚,许登元,黄大荣
(重庆交通大学 信息科学与工程学院,重庆 400074)
结合多种算法对无标记手势动作的识别进行了研究。根据人体肤色分布特性,采用了高斯肤色模型对肤色进行了建模;针对外界光照问题,采用HSV颜色空间来表示不同的肤色;针对手部运动过程中会出现背景信息融入手部的情况,使用背景去除的Haar-like特征手部描述算法,同时研究了AdaBoost分类器进行特征分类。实验结果表明:在无标记手部分割中,采用多特征融合的方法较可以得到更好的分割效果。
通信工程;机器视觉;手势识别;手部标记;混合特征
手势识别可以被用于计算机游戏、虚拟现实、人机交互、医疗保健以及工业控制等领域。由于手势识别广阔的应用前景和应用领域,近年来手势识别技术越来越多地受到国内外相关研究机构和学者的关注。手势识别系统通常包括手势信息获取,手部检测、手部跟踪,手势识别等几个关键步骤。
根据手势获取方式,手部信息提取方式分为视频直接提取手部运动信息和传感器辅助提取手部运动信息两种主要方式。黄启友等[1]采用三轴加速度传感器作为手腕部分数据采集传感器,通过数据窗口的自动检测、信号去噪声和重采样等预处理;并采用陀螺仪传感器采集三维手势角度特征,将该方法用于3D空间的鼠标输入和键盘输入。王万良等[2]基于使手势交互较少受到视角和光线的限制的考虑,通过采用具有加速度仪和地磁仪的数据手套进行手势数据采集。刘剑锋等[3]采用加速度传感器进行手势数据采集,并且在虚拟奥运博物馆用户输入手势实例中进行了测试。曾芬芳等[4]在人手结构和手关节运动的分析基础上,通过使用数据手套采集各指节的曲伸角,然后采用模糊神经网络进行手势识别。C.PUN等[5]介绍了一种基于视频信息的手势识别系统,该系统在手势识别中采用了直方图模型;通过对选择的10个手势的测试,该系统可以达到较好的手势识别率。胡馨月等[6]采用运动传感器进行手部跟踪,并将该方法应用于儿童水墨画的运笔方式和步骤学习中。顾伟宏等[7]设计了一种基于机电系统MEMS加速度传感器的新型数据手套,通过数据手套采集手势动作的空间三维信息和手指的运动信息,采用基于模糊理论的识别算法,并且在汉语手指语拼音字母识别系统中加以应用。丁跃等[8]采用手机内置三轴加速度传感器获取相应手势数据,采用动态时间弯曲等算法实现了通过手机示意的自然手势识别,并且将其应用到媒体播放控制中。C.OZ等[9]采用数据手套的方式进行手势三维运动信息采集,然后通过使用人工神经网络模型实现了对美国手语的识别,该实验表明:这种方法可以实现手语单词的识别。其它诸如小波法[10]和自适应中值滤波法[11]在图像处理中也有研究。
虽然采用数据手套手势识别系统可以避免基于视频手势识别系统分析获取手势所带来的诸如手部跟踪容易丢失,双手遮挡容易造成的双手分割困难,环境噪声造成手部检测困难以及视角差异造成的手势差异等问题;但是,相对于基于视频的手势识别系统来说,基于数据手套的系统在一定程度上增加了系统成本,同时降低了用户的使用便捷性。相对于数据手套的复杂性,相关研究人员采用了折中的办法,如采用指尖染色和手指染色的颜色手套模型的方式实现了静态和动态手势识别[12-13]。
进行无标记手势识别的第一步就是进行手部标注。根据手部所具有的特点,笔者采用多特征融合的方法对手部进行检测;根据人体肤色分布特性,为提高肤色判定准确性,笔者采用了高斯肤色模型对肤色进行了建模;针对外界光照造成的肤色容易发生变化的问题,笔者采用HSV颜色空间来表示不同的肤色。由于手势具有非刚体运动特性,在手部运动过程中会出现背景信息融入手部的情况,针对该问题笔者在使用Haar-like特征进行手部描述时采用了手部背景去除算法。为提高Haar-like特征分类的准确性和快速性,笔者采用快速AdaBoost分类器。
笔者主要工作是采用手部颜色特征、Haar-like和AdaBoost相结合的方法进行图像中手部分割。它结合了颜色特征对手势描述的优势,同时也具备了借助手部特征进行手部分割的优势。通过对现有的单一特征手部分割结果相比,笔者所采用的方法具有更好的分割效果。
根据族群不同,人类肤色的变化范围可从深色到近乎白色。肤色的色调决定于黑色素在皮肤中的含量。通常祖先源自光照丰富地区的人拥有较黑的皮肤;反之则较浅。
von Luschan的肤色标尺(图1)主要用来对肤色进行分类。该图包含36种颜色,主要作为肤色参考标准,该颜色图中的肤色适合于未暴露于太阳下的肤色部分(如胳膊下方的部分皮肤颜色)。
图1 von Luschan 肤色标尺Fig.1 von Luschan skin color scalle
一个人的肤色除了与自身的因素有关外,也与皮肤暴露于太阳的程度有关(表1)。与其它人种相比欧洲人种通常来讲有较浅的皮肤、头发和眼睛颜色。而通常来讲非洲人种则有比其它种族更深的皮肤、头发和眼睛颜色。Fitzpatrick按照皮肤在太阳下暴晒的时间,将肤色依据深浅排序分为6类[14]。
表1 皮肤颜色深度信息与实际情况对比
根据人体肤色分布特性,为提高肤色判定准确性,采用了高斯肤色模型对肤色进行了建模。针对外界光照造成的肤色容易发生变化的问题,在建模时采用HSV颜色空间来表示不同的肤色。从人类视觉角度看,在颜色表述方面HSV颜色空间较RGB空间表述更准确。例如,如果若想分割红色R,那么在HSV中所有V值从最暗到最亮,所有S值从最不饱和到最饱和都有相同的色调值H,但是在RGB空间,如果使用红色R大于某值的方式进行分割,将只能得到桔红色值,而无法得到较暗的红色值。
HSV的3个颜色分量分别如下:色调(H),用于表示实际颜色;饱和度(S),用于表示颜色的纯度,如某种颜色鲜艳或暗淡;色值(V),用来表示亮度颜色值,如亮或暗。HSV与RGB换算如式(1):
(1)
(2)
Haar-like是受Haar小波启发主要用于目标检测的一种特征描述方法。Haar-like特征具有简单、高效和准确等特点,通常被定义为一个矩形区域。
根据不同的特征描述需要,Haar-like特征的形状可以定义为各种有利于问题描述的形式。当被描述对象多为水平或垂直的特征时可以选择以水平或垂直分割为主的Haar-like特征形状,而当被描述对象包含更复杂特征时可以增加倾斜的Haar-like特征,这样可以尽可能地减少在特征描述时倾斜纹理信息的丢失。尽管Haar-like特征的形状可以任意定义,但是随着形状数目的增加,在进行目标描述时将产生数目巨大的特征描述子,这将增加系统的时间和空间复杂度。根据所描述特征的不同,常用的Haar-like特征如图2[15]。
图2 常用的Haar-like特征Fig.2 Haar-like features demonstration
其中,图2(a)主要用于描述边缘特征;图2(b)主要用于中心包围特征;图2(c)主要用于描述线性特征;图2(d)主要用于其它特征。
在进行Haar-like特征计算时,选取特定形状的区域作为特征计算的窗口。特征统计区域形状、数量和类型的选择依赖于被检测目标的特征属性,常采用矩形区域窗口。矩形窗口区域按照一定的规则分为正区域和反区域,窗口分割的数量和方法可以根据应用范围自行制定。
在样本Haar-like特征提取完成之后,要对样本进行分类。样本分类算法很多,在基于Haar-like特征的目标分类中常采用级联分类器。在级联分类器中每级以近似的识别率进行识别,通过多级分类器并联实现目标的最终分类。在级联分类器中每级都包括与特征个数相同的子分类器,也称作弱分类器。弱分类器的构造方法多种多样,由于样本数量巨大,对于两类分割问题通常采用较简单的二叉树进行判别分类。
Boosting分类方法是一种把若干个分类器整合为一个分类器的级联分类方法。在Boosting分类方法基础上,研究人员提出了AdaBoost算法,该算法的优点为[16]:有很高精度的分类器;算法只提供了框架,子分类器可以根据需求进行选择或定制;弱分类器物理原理明确,结构可以比较简单;该算法不存在过训练的问题。
AdaBoost算法基本流程如下[16]:
1) 给定图像样本序列(x1,y1),…, (xn,yn);其中:yi∈{0,1}分别表示负样本和正样本。
2) 初始化权重ω1,i=m/2,l/2;表示yi=0,1;其中:m,l分别表示正负样本的数量。
3) For t=1,2,…,T
权重归一化:
(3)
对每一个特征j训练一个分类器(弱分类器)hj;加权处理后的分类错误表示为:
(4)
在所有分类器hj中,选择ej最小的分类器作为ht;
End For
最终,通过上述弱分类器组成的强分类器如式(5):
(5)
Boosting算法中弱分类器构造通常有多种形式,式(6)所示是一种比较简单的弱分类器函数:
(6)
该弱分类器hj(x)包含一个特征函数(fj),一个门限值(θj)和一个方向指示值(pj),其中:x是固定大小的一个窗口范围。
在Boosting分类算法中,弱分类器的判别结果作为分类依据,对输入特征进行类型判别,从而实现特征分类。因此,笔者将以式(1)中的特征函数(fj)、门限值(θj)和方向指示值(pj)为着手点,通过应用Haar-like特性和肤色特性,实现手部分割。
Haar-like特征进行手部检测时,首先对手势图像进行积分图计算,然后在与训练时同样大小的窗口内计算Haar-like特征,并用不同的缩放比例让该窗口遍历图片。在每个窗口内计算完Haar-like特征后,使用Boost级联分类器进行特征分类,最终获得该窗口内容的级联分类结果。
Haar-like特征是基于灰度图像进行特征计算的。针对手部进行检测时,如果可以充用手部肤色这一特征,对提高检测准确性有很大帮助。通过前面对Haar-like特征的分析可知,只需在弱分类器中采用颜色特征就可以实现这一目标。笔者对弱分类器增加了颜色信息,如式(7)。
(7)
式(7)中由于存在特征向量判别,因此存在向量信息如何进行融合的问题。在单特征弱分类器中每一个阈值对应一个特征向量,而在本文提出的多特征情况下,特征向量阈值Ψj包含多个阈值分量。笔者在使用弱分类器进行某个像素点类型判别时,当这些特征中的2/3满足弱分类器的真条件时,就认为该点特征为真。
增加颜色信息的弱分类器构造步骤:
1) 将样本颜色从RGB颜色空间转换为HSV颜色空间。
2) 计算样本均值:m=E{X},其中
X=(H,S)T
(8)
3) 计算协方差矩阵:
C=E{(X-m)(X-m)T}
(9)
4) 使用均值和矩阵值构造肤色高斯模型
P(x)=exp[-0.5(X-m)TC-1(X-m)]
(10)
式中:m表示均值;C表示协方差矩阵。
在样本分类时,将样本表示为:(P(xi),si), 其中:i∈{1,2,…,n}表示第i个样本图像,当Si=1表示正样本。
5) Haar-like特征
(11)
式中:ωi为矩形的权重值;R(r) 为第i个矩形的面积积分,表示矩形个数。
6) 单个弱分类器训练
设置εmin=∞,表示弱分类器的误差值Fort=1 todkdo;
其中:
End If
其中,dk表示由k个矩形区域构成的特征的可选权重值,yi∈{-1,1},i∈{1,2,…,n}表示样本的类别。
通过上述若分类器的构造,再将肤色信息增加到Haar-like分类器中,颜色信息的增加有助于图像中特定颜色信息的判别,进而提高手部的分割准确性。
针对笔者所介绍的手部分割算法,采用了自制手部分割样本数据库的方式进行了测试。在实验样本库制作时,以现有自制动态手势库为基础,该手势库由6位手势演示者录制,对每个手势演示者选择10个手势,每个动作选择10帧手势图片,总共生成600帧手势图像。同时,选择100帧不包括手部的图像作为Haar-like特性训练的室内背景图像。在实验时,采用k-fold交叉测试方法,将所有实验图像分为3份,每次选择2份作为训练样本,剩余一份作为测试样本,最后通过平均得到实验结果。
采用融合肤色特征的Haar-like特征进行手部检测前,要对分类器进行训练。
笔者在训练样本准备时主要考虑两个方面的问题。首先正样本应该尽可能包含所有的手势变化情况,虽然文中所提模型针对手部检测的特殊情况增加了颜色特征,但是Haar-like特征主要用于描述纹理特征,如果在训练阶段手部变化情况过于单一,则会出现识别不准确或者错误的情况。其次,作为背景的负样本选择应该选择尽可能变化多的场景。针对文中情况,笔者主要选择室内场景,同时由于手势识别时往往人体本身占了很大的一部分,因此不同着装和画面中出现脸部的情况也应该进行考虑。训练样本部分采集内容如图3。
图3 手部检测训练样本示例Fig.3 The positive training sample demonstration
由Boost分类原理可知,要对AdaBoost分类器进行训练,首先要生成包括手部特征的训练样本[16]。在生成训练样本时主要有以下几个关键点:首先,为增加分类器对不同背景下手部的检测率,将正样本中的手部区域提取出来并分别放到不同背景中生成不同背景下的训练样本;其次,为增加分类器对手部旋转的鲁棒性,在上一步中手部区域将以不同的角度放入背景区域中,随旋转的角度和分度不同得到的训练样本数目不同,理论上来讲分度越精细训练样本包括的情况越全面,用这些样本训练的分类器分类效果越好,但是分类器的训练所花费的时间也就越多;最后,为增加分类器对缩放的鲁棒性,手部区域将以不同的缩放比例放入背景中,缩放比例以实际手部在视频中的大小作为参考。图4为使用的部分背景场景。
图4 用于构建Haar-like特征的背景图片示例Fig.4 The photo with background based on Haar-like property
通过使用上述训练样本训练了采用Haar-like特征的手部自动检测AdaBoost分类器,该分类器通过使用融合颜色特征的Haar-like特征可以实现对图像中手部自动检测。为测试该分类器,采用手势中常见的从画面中没有手到手部进入画面的方式进行手部检测测试。为测试分类器对手型变化的鲁棒性,实验中也对不同手势进入画面的情况进行测试。为测试分类器对复杂环境的鲁棒性,实验中以不同的背景做相应的手部检测测试。图5显示了在测试过程中部分检测结果。
图5 手部检测示例Fig.5 The experiment result demonstation
采用多特征融合AdaBoost的实现过程比较简单,下面采用测试和训练样本对其过程进行简单说明。
首先采用训练样本对上述分类器进行测试,为便于比较,在不同的迭代阶段分别对测试样本进行分类测试。图6为4个迭代过程中对训练样本的识别情况。在第1次迭代时,样本点c,d和e分类错误,在第2次开始的迭代中被正确分类,而在第1次迭代分类正确的样本点a和b,在第2次开始的迭代中却被错误分类。
图6 4次迭代分类器对训练样本分类情况Fig.6 The 4 iterations classifier results on training sample
图7显示了采用前面训练得到的分类模型对测试样本进行分类的情况。在第1次迭代中被错误分类的样本点c,d和e在后续迭代中被正确分类,而被正确分类的样本点a和b在后续分类中被正确分类。由图7可以看到,通过每一个迭代过程,上一步未分类正确的样本被逐步分类正确,这也体现由弱分类迭代形成强分类器的过程。
图7 采用测试样本对分类器进行测试的情况Fig.7 The classifier result for testing samples
图8显示了在迭代不同阶段,分类器对训练样本和测试样本的分类错误率。由训练样本分类错误率可以看到,随着迭代次数的增加分类错误率最终达到0,而在测试样本分类错误率可以看到,随着迭代次数的增加分类错误率在不断降低。比较这两个结果,可以看到使用测试样本的分类错误率要高于使用训练样本的分类错误率,这也符合模型是由训练样本训练得到的机理。
图8 不同迭代阶段,对样本的分类情况Fig.8 The classifier result in different iteration stage
上述过程可看出,多特征融合手部分割分类器虽然简单,但是分类器也能获得很好的分类效果。
实验中采用以下评价指标对不同的算法在手部检测的效果进行评估:检测率 (the true positive rate,即图像中手部真阳性率)tp,虚警率(false positive rate,即无手部图像识别为手部图像的假阳性率)fp,其定义如式(12)、式(13):
(12)
(13)
式中:Ntp表示测试样本中分类器正确检测到的手部图像数量;Nfn表示将非手部图像误识别为首部图像的数量;Ntn表示正确识别的非手部图像数量;Nfp表示将手部图像误识别为非手部图像的数量。共组织了以下3组实验。
采用测试样本对使用肤色与未使用肤色特征的Haar-like特征的AdaBoost分类器进行测试,同时将文中所提方法与基于PCA和SVM-PSO的实时人脸检测方法[16],基于multiple proposals的手部检测方法[17],以及基于直方图的手部分割方法[5]进行了对比(表2);除此之外,笔者也分别对Haar+ AdaBoost分类器、Haar-like分类器和肤色判别几种方法单独用于手部检测时的情况做了测试。
表2 手部检测率和虚警率
由表2可看出,虽然文中方法手部检测率较高,但还有7%的虚警率。为降低在手势识别中的误报情况,本系统对进入画面的手势做了手型的限定,通过增加手型限定只有当手部进入画面并且满足预先定义的手型时才被认为是进入画面的手部。
由于手部序列图像属于非刚体物体,其形状变化比较大,因此主成分分析方法和Haar-like并不能很好的描述其形状特征。实验也对只采用肤色的手部检测情况作了比较,由实验结果可知其检测率较高,但是只要画面背景中有与肤色相近的区域都被检测为手,当摄像头位于手势者前方时,由于画面中脸部对基于肤色的手部检测法存在干扰,造成该方法无法使用。
笔者主要介绍了使用多特征融合的手部自动分割方法。通过融合肤色、Haar-like特征,采用adaBoost分类器对图像中的手部做自动分割,不仅具备肤色分割法所具有的高效性,同时通过使用Haar-like特征,文中方法可以避免其它身体部分由于与肤色相近而对手部分割所带来的影响。
从试验结果可看出,笔者所提方法较单独使用肤色或者Haar-like具有更好的分割效果。下一步将直接将文中所用方法用于前期基于模糊条件随机场的手势识别系统,并进一步对该方法进行改进。
[1] 黄启友,戴永,胡明清,等.基于陀螺传感器的三维手势识别方案[J].计算机工程,2011,37(22):153-155. HUANG Qiyou, DAI Yong, HU Mingqing, et al. 3D gesture recognition scheme based on gyro sensor[J].ComputerEngineering,2011,37(22):153-155.
[2] 王万良,杨经纬,蒋一波.基于运动传感器的手势识别[J].传感技术学报,2011,24(12):1723-1727. WANG Wanliang, YANG Jingwei, JIANG Yibo. Motion sensor based gesture recognition[J].ChineseJournalofSensorsandActuators,2011,24(12):1723-1727.
[3] 刘剑锋,张大兴.一种基于加速计的手势识别算法及其在虚拟环境中的应用[J].机电工程,2010,27(8):91-96. LIU Jianfeng, ZHANG Daxing. An accelerometer-based gesture recognition algorithm and its application in virtual environment[J].JournalofMechanical&ElectricalEngineering,2010,27(8):91-96.
[4] 曾芬芳,王颖,黄国建,等.基于模糊神经网络的手势识别[J].小型微型计算机系统,2000,21(7):706-709. ZENG Fenfang, WANG Ying, HUANG Guojian, et al. Gesture recognition with fuzzy neural networks[J].Mini-MicroSystems,2000,21(7):706-709.
[5] PUN C, ZHU Hongmin, FENG Wei. Real-time hand gesture recognition using motion tracking[J].InternationalJournalofComputationalIntelligenceSystems,2011,4(2):277-286.
[6] 胡馨月,梁秀波,樊儒昆,等.基于运动传感的书空临摹交互方式[J].计算机辅助设计与图形学学报,2010,22(10):1734-1740. HU Xinyue, LIANG Xiubo, FAN Rukun, et al. Interactively painting by Shu-Kong facsimile based on motion sensors[J].JournalofComputer-AidedDesign&ComputerGraphics,2010,22(10):1734-1740.
[7] 顾伟宏,闵昆龙,张晓娜.新型数据手套及其手势识别研究[J].自动化仪表,2011,32(2):56-58. GU Weihong, MIN Kunlong, ZHANG Xiaona. Research on the new data glove and its gesture recognition[J].ProcessAutomationInstrumentation,2011,32(2):56-58.
[8] 丁跃,刘军发,陈益强,等.基于手机手势识别的媒体控制界面[J].计算机工程,2010,36(23):152-154. DING Yue, LIU Junfa, CHEN Yiqiang, et al. Media control interface based on gesture recognition of mobile phone[J].ComputerEngineering,2010,36(23):152-154.
[9] OZ C, LEU M C. American sign language word recognition with a sensory glove using artificial neural networks[J].EngineeringApplicationsofArtificialIntelligence,2011,24(7):1204-1213.
[10] 孙波成,邱延峻,梁世庆.基于小波的路面裂缝识别研究[J].重庆交通大学学报(自然科学版),2010,29(1):69-72. SUN Bocheng, QIU Yanjun, LIANG Shiqing. Cracking recognition of pavement surface based on wavelet technology[J].JournalofChongqingJiaotongUniversity(NaturalScience),2010,29(1):69-72.
[11] 冯焕飞,何友全,刘冲.基于邻域相关的自适应中值滤波算法[J].重庆交通大学学报(自然科学版),2013,32(3):547-550. FENG Huanfei, HE Youquan, LIU Chong. Adaptive median filter based on neighborhood correlation[J].JournalofChongqingJiaotongUniversity(NaturalScience),2013,32(3):547-550.
[12] 李勇,高文,姚鸿勋.基于颜色手套的中国手指语字母的动静态识别[J].计算机工程与应用,2002,38(17):55-60. LI Yong, GAO Wen, YAO Hongxun. Chinese sign language finger alphabet recognition based on color gloves[J].ComputerEngineeringandApplications,2002,38(17):55-60.
[13] WELLER R, HUNTER J A A, SAVIN J, et al.ClinicalDermatology[M]. 4th ed. New Jersey: Wiley-Blackwell,2008.
[14] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// USA: 2002InternationalConferenceonImageProcessing,2002.
[15] ROJAS R.AdaBoostandthesSuperBowlofClassifiersATutorialIntroductiontoAdaptiveBoosting[R]. Berlin: Freie University,2009.
[16] SUN Mingjian, WU Zhenghua, LIU Ting, et al. Time reversal reconstruction algorithm based on PSO optimized SVM interpolation for photoacousticinaging[J].MathematicalProblemsinEngineering,2015(1):1-9.
[17] MITTAL A, ZISSERMAN A, TORR P. Hand detection using multiple proposals[C]//BMVC2011,the22ndBritishMachineVisionConference. Dundee, Scotland: University of Dundee,2011.
Hand Segment Using Multi-feature Fusion Method in Unmarked Hand Gesture Recognition
ZHANG Shengjun, WU Shixun, WANG Honggang, XU Dengyuan, HUANG Darong
(School of Computer Science and Technology, Chongqing Jiaotong University, Chongqing 400074, P.R.China)
Identification of non-mark gesture movement was studied by multi-algorithms. Gaussian skin model was used to model human complexion accoding to human comlexion distribution properties. HSV color space was applied to represent different skin colors. For in hand movement process, background information was incorporated in hand, algorithm of Haar-like which described hand characters by removing background was applied. Meanwhile AdaBoost classifier was explored to classify characters. The results of experiment show that in non-mark hand segmenting, multi-feature combination method can achieve better segment results.
communication engineering; machine vision; gesture recognition; hand segment; multi-feautre fusion
10.3969/j.issn.1674-0696.2016.05.35
2015-04-15;
2015-07-20
重庆市高等教育教学改革研究项目(1203034);重庆市教委科学技术研究项目(KJ1400305);重庆交通大学山区桥梁与隧道工程国家重点实验室开放基金资助项目(CQSLBF-Y16-7);水利水运工程教育部重点实验室开放基金(SLK2016A01)
张生军(1978—),男,四川成都人,博士,主要从事通讯与信息系统、机器视觉及人工智能方面的研究。E-mail:sjzhang@cqjtu.edu.cn。
TN919.81
A
1674-0696(2016)05-185-08