基于特征点识别的头部姿态计算

2014-11-05 07:38乔体洲戴树岭
北京航空航天大学学报 2014年8期
关键词:头部姿态像素

乔体洲 戴树岭

(北京航空航天大学 自动化科学与电气工程学院,北京100191)

头部姿态计算技术是一种利用光学、电磁学、计算机等理论和设备分析人类头部姿态参数的技术,是人体姿态识别的重要分支之一,也是人机交互领域的重要研究领域之一.使用电磁跟踪设备是工业应用领域比较成熟的方案,但是对环境要求比较苛刻.基于光学测量的方案应用潜力已经显现,随着计算机技术的不断进步,以计算机视觉技术为基础进行头部姿态计算的研究越来越多地受到人们的重视.

虽然基于二维图像数据的相关研究是热点之一[1-2],但是在实际应用中容易受到环境光亮度变化、遮挡、面部表情变化等影响,稳定性较差,而且计算速度较慢[3].利用深度图像信息计算头部姿态可有效避免受环境光变化的影响,但是目前已有的一些依靠深度信息的方法[4-7]计算头部姿态的研究存在计算速度和识别成功率相互制约的问题,且不能完全解决遮挡、面部表情变化、数据噪声等问题.由于随机森林[8]能够高效地处理大规模的训练数据,还具有很高的运行速度和广泛的适用性等特点[9-10],将随机森林应用于基于计算机视觉技术的头部姿态计算可以相对容易地实现计算速度和性能之间的平衡[11-14],但是由于随机森林的图像特征、二元测试的决策函数、度量函数等的选取对于噪声和干扰敏感程度不一致,以及对特征的辨识度不同,在实现高识别精度和识别率的同时,解决遮挡、面部表情变化等的影响依然是很具有挑战性的问题.

本文的研究目的是利用随机森林计算速度快、抗干扰能力强等特点,在基于深度信息计算头部姿态时,降低姿态参数的估计方差,提高计算的稳定性,并提高处理存在遮挡的头部深度数据的能力.由于使用随机森林进行特征点识别不依赖任何特定的面部特征,有潜力降低头发、眼镜等遮挡对性能的影响,本文使用随机森林进行特征点识别,并在图像特征中使用曲率提高二元测试的特征识别力,再对投票聚类得到的群簇进行Mean Shift以降低噪声干扰.

1 随机森林的样本标注选取

随机森林的构建过程依照Breiman[8]描述的方式进行(图1).决策树是根据一组标注参数真实值的样本子域图像集合的随机子集合训练建立的,这些图像块是从训练数据集的图像中随机提取出来的.从根节点开始,每一个决策树的建立过程都是一个递归过程,非叶子节点包含了进行分割的决策函数,它控制了数据进入哪个子节点.

图1 随机回归森林进行头部姿态计算Fig.1 Head pose estimation with random regression forest

由于训练数据包含头部位置和头部姿态的真实值,训练时可以标注一组头部位置和头部朝向矢量的真值,即图2中所示的Q1和F1.头部位置的具体标注点各异,图2假设标注为鼻尖的位置.文献[12-13]直接使用了标注的头部位置和头部朝向矢量,在深度数据的采样子域保存了F1和F3,图3所示即为该标注方法的计算效果,所含高误差投票会影响结果准确度.为了使得计算对象之间的关系更具一般化并降低估计方差,本文在样本子域中保存的是F2和F3,这样在最终的计算中投票估计Q1和Q2点,两者确定的矢量即为朝向矢量.

图2 标注值选取示意图Fig.2 Labelling selection demonstration

图3 含有高误差投票数据的计算结果Fig.3 Result with high error votes

2 决策函数和图像特征选择

最佳决策函数的选择是来自于一组随机生成的决策函数集φ*={φ},所有到达这个节点的样本子域图像块都要经过这一组中所有的决策函数计算评估,使得这个节点分裂的信息增益最大化的决策函数作为当前节点的分裂决策函数:

信息增益的定义是

式中,ωL和ωR为到达左/右子节点的图像块所占总的训练样本集合的比率;H(P)为样本子域图像块集合P的一个类熵度量函数.训练过程中,在分裂节点依据该节点所保存的最优决策函数,数据进入左/右子节点,整个训练过程迭代式进行下去,迭代的停止条件是达到了决策树规定的最大树深度,或者剩余的训练样本数量已经低于规定的最小值时,最终创建的是叶子节点.

样本子域图像块标注了两个实数矢量,其中θ1是该样本子域图像块中心的三维点到鼻子尖端的方向矢量;θ2是以欧拉空间姿态角形式存储的头部姿态角.

因此这样一组训练图像块集合的参数化表示为 P={Pi=(Ji,θi)},其中 θi=(θ1i,θ2i)是依据标注真值得到的数据.如图4所示,Ji表示根据一个图像块计算得到的图像特征,可以是原始的深度数据Dv,也可以使用顶点法线数据Nv,但是Ji至少应当包括深度值特征.为了得到更精准的训练分类,这里还使用了离散高斯曲率Kv和平均曲率Hv,根据Meyer等人的方法[15]计算三角网格的离散曲率.同时,使用单位法向量的极坐标表示,使得单位法线的变量参数简化为两个.

图4 三角网格特征参数计算的变量定义Fig.4 Definition of feature parameters in triangular mesh

式中N(i)为点v的邻域点集.

根据以上分析,特征 J∈{Dv,φ,μ,Kv,Hv},其中φ和μ为法向量的任意2个通道.决策函数φ(J)使用Haar特征,定义为两个随机矩形每个像素上的平均特征值的差值[10,12]:

式中,R1和R2为两个定义在样本子域图像块内的非对称矩形;τ为阈值.使用单个像素的差值作为决策函数,对噪声的干扰更加敏感[16].

3 度量函数

假定θn是三变量的高斯随机分布,可以将集合 P 的标注真值表示为 p(θn)=N(n,Σn),从而可以为n∈{1,2}计算其对应的微分熵H(P)n:

回归度量函数是所有参数熵的和:

式中,an为参数相关的加权系数;Σn为方差矩阵.

将回归度量函数代入信息增益gIG(φ),使其最大化,即使得以子节点的全部标注矢量θn计算的高斯分布的协方差最小化,可以降低回归的不确定性.

经训练后的每一个叶子节点中,类别概率p(c=k|P)和连续头部姿态参数 p(θ1)和p(θ2)的分布都有保存,其中P为图像块集合,k为类别.分布的计算是使用到达该叶子节点的训练样本子域图像块进行的,然后在后面的部分中用于头部姿态估测的计算.

4 头部姿态计算

在对深度图像进行测试时,将采样得到的一定量样本子域图像块传送到随机森林中的所有决策树中.每一个图像块都根据保存在当前节点的分裂决策函数的控制选择下一步行动方式,当一个样本到达叶子节点,就按照当前叶子节点保存的概率分布函数给出头部姿态参数的估计.

在叶子节点中根据所保存的类别概率,可以分析当前的测试采样图像块对于类别k的贡献度.这个概率值表示了当前的图像块是否属于头部.为提高精确度这里只分析类别概率为1的叶子节点,再去掉对回归过程的贡献相对较小的有较高方差的叶子节点,即协方差的迹tr(Σ1)大于给定的阈值Mv的叶子节点.

经过滤后剩余的分布则用来估计鼻尖位置θ1,即通过对图像块的中心 θ(P)添加偏移均值1,得到鼻尖位置的分布;根据统计学的人体头部平均直径[17]对所有的投票进行聚类分析,使用Mean Shift得到进一步优化从而去掉那些异常值.最终得到的投票群簇如果足够大,就认为是有效的结果.头部群簇的高斯分布的总和是一个新的多变量高斯分布,均值作为头部姿态的估计值,协方差作为估计的置信度.

5 性能测试

随机森林的训练和测试,使用了数据库ETH Face Pose Range Image Data Set[4](下文简称为ETH数据库),数据提供了鼻子顶端的三维空间坐标和从鼻子顶端指向面部方向的矢量.在训练随机森林时使用了90%的ETH数据库数据,剩余的10%数据则作为测试数据使用.随机森林生长停止条件:决策树的深度达到20;节点剩余图像块少于20.为了达到节点分裂最优化,在每个节点随机生成30000个分裂决策函数,即生成1000种决策函数参数的不同值组合,每一种组合使用30个不同的阈值.实验时使用的 CPU是 Intel Core i7 CPU@3.4 GHz.默认使用的参数值:鼻子位置的误差阈值15 mm;面部朝向的角度误差阈值15°;最大树深度20;决策树数量20;计算决策函数的样本子域图像分辨率40像素×40像素;采样步幅10像素.

由图5a、图5b可见,分辨率偏小无法一次性获得足够的信息来预测头部姿态;增大分辨率也会带来性能的一定损失.如果将图像块的大小控制在80像素×80像素到100像素×100像素之间是一个比较合理的选择.图像特征中使用曲率对成功率的提高作用比较明显,当训练图像数据的数量达到2 000之后精度的增高幅度很小.在接下来的实验中,每个决策树使用3000张深度图像进行训练,每张训练图像中提取出大小为100像素×100像素的图像块50个.图5c~图5f所示的实验是分析随机森林决策树数量和采样步幅在不同参数设定下对特征点的位置识别精确度的影响,以及对头部姿态角的识别精确度的影响.在测试特征点位置的误差时,是将鼻尖位置和面部朝向特征点位置的实验结果统一分析得到的结果.实验还测试了图像特征对识别精度的影响.根据实验结果可知,增加使用几何法线等图形特征比起增加决策树的数量,能够更大幅度地提升探测的精确度,使用曲率对精度的提升效果也比较明显.

图5 使用不同图像特征时随机森林参数对识别成功率、平均位置误差和平均角度误差的影响Fig.5 Experiments of different data features’effect on accuracy,average nose error and average direction error

在图6a、图6b中显示的是经过对测试数据库进行计算得到的误差阈值和识别成功率的关系曲线,实验还对比了不同图像特征的影响.根据实验数据可知,使用法线和曲率可以有效提高特征辨识力,从而提高成功率,但是使用高斯曲率后进一步使用平均曲率的影响比较微弱.

测试遮挡的影响,对测试数据做了遮挡处理.数据被遮挡比例的计算方式为:由于遮挡损失的有深度数据的像素数量,与遮挡前所有的有深度数据的像素数量的比值.从图6c中的曲线可以看到,存在遮挡的情况下使用曲率可以有效减小识别误差;而且图像特征使用曲率时,10%以内的遮挡比例对平均位置误差的影响很小,在20%的遮挡率情况下,可以使得平均误差在10mm以内.图6d所示为头部姿态的平均识别误差与数据被遮挡比例之间的曲线关系.在遮挡比例大于15%之后,平均角度误差急剧增大;小于15%时,遮挡比例的变化对于平均误差的影响比较平缓,尤其是图像特征使用曲率的情况下,平均角度误差一直低于10°.图6e和图6f所示为遮挡比例与认定为识别成功的角度差阈值对于识别成功率的影响.由实验可知,图像特征使用曲率有助于提高识别的成功率.将阈值设为5°的条件比较严格,成功率相对较低;而10°~15°的阈值设定较为平衡,既能保证成功率较高,误差范围的值也比较小.

根据图7可以看到,当数据被遮挡的比例大约在13%以内时,本文的方法都可以获得90%以上的正确识别率.而Tang[14]采用的图像特征ISF(Integral Slice Features)由于更容易受到遮挡的影响,所以对遮挡的影响非常敏感.

图8和图9给出了部分测试数据的效果,分别显示了本文方法计算的头部姿态和标注的头部姿态.从总体上看,在图像特征中使用法线和曲率,较大幅度地提高了特征辨识力,从而提升了随机森林系统进行特征点位置计算的精度,可以使得位置的平均误差在10 mm以内.由于所使用的部分源数据是在有遮挡物的情况下采集到的深度数据,所以使用该数据进行的测试事实上已经说明了本文方法在处理有遮挡物时的性能.本文还对随机产生0%~30%遮挡比例的数据进行了实验测试,从图6c~图6f的实验结果看到10%以内的遮挡对算法性能的影响相对很小,对平均位置和角度误差的影响分别在10%和15%以内,存在20%的遮挡比例时也可以实现大约10 mm的平均位置误差和13°的平均角度误差.

图7 不同方法识别效果的实验结果Fig.7 Comparison of different methods

图8 ETH数据库中部分数据的识别结果Fig.8 Recognition results of ETH database

图9 测试遮挡影响时的识别结果Fig.9 Recognition results of head depth data with partial occlusions

6 结论

1)本文方法使用多种特征计算决策函数可以提升头部姿态跟踪的能力,实现稳定的头部姿态识别性能,适当的参数设置可以达到95%左右的识别成功率;

2)降低了跟踪误差,达到了5~6 mm左右的位置识别精度和6°~8°的角度识别精度;

3)有效提高了对有遮挡数据的处理能力,数据被遮挡的比例大约在13%以内时,本文的方法都可以获得90%以上的正确识别率.

References)

[1]Martins P,Batista J.Accurate single view model-based head pose estimation[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4813369

[2]Morency L P,Whitehill J,Movellan J.Generalized adaptive viewbased appearance model:integrated framework for monocular head pose estimation[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4813429

[3]Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:a survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):607 -626

[4]Breitenstein M D,Kuettel D,Weise T,et al.Real-time face pose estimation from single range images[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4587807

[5]Lu X G,Jain A K.Automatic feature extraction for multiview 3D face recognition[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2006:585 -590

[6]Weise T,Leibe B,Van G L.Fast 3d scanning with automatic motion compensation[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2007:4270316

[7]Breitenstein M D,Jensen J,Hilund C,et al.Head pose estimation from passive stereo images[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2009:219 - 228

[8]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32

[9]Gall J,Lempitsky V.Class-specific hough forests for object detection[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2009:1022 -1029

[10]Criminisi A,Shotton J,Robertson D,et al.Regression forests for efficient anatomy detection and localization in CT studies[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2010:106 -117

[11]Huang C,Ding X Q,Fang C.Head pose estimation based on random forests for multiclass classification[C]//Proceedings of International Conference on Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2010:934 -937

[12]Fanelli G,Gall J,Van G L.Real time head pose estimation with random regression forests[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2011:617 - 624

[13]Fanelli G,Weise T,Gall J,et al.Real time head pose estimation from consumer depth cameras[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2011:101 -110

[14]Tang Y Q,Sun Z N,Tan T N.Real-time head pose estimation using random regression forests[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2011:66 - 73

[15]Meyer M,Desbrun M,Schröder P,et al.Discrete differential-geometry operators for triangulated 2-manifolds[J].Visualization and Mathematics,2002,3(2):52 -58

[16]Gall J,Yao A,Razavi N,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202

[17]Paysan P,Knothe R,Amberg B,et al.A 3D face model for pose and illumination invariant face recognition[C]//Proceedings of International Conference on Advanced Video and Signal Based Surveillance.Piscataway,NJ:IEEE Computer Society Press,2009:296-301

猜你喜欢
头部姿态像素
像素前线之“幻影”2000
自动驾驶走向L4 企业头部效应显现
火箭的头部为什么是圆钝形?
攀爬的姿态
“像素”仙人掌
全新一代宋的新姿态
高像素不是全部
另一种姿态
蚝壳巧制作
阅读是最美的姿态