基于多变量标签分布的连续型姿态估计方法

2016-02-23 06:31赵启军

计算机技术与发展 2016年1期

关键词：连续型人脸头部

江婷，赵启军,陈虎

(四川大学计算机学院，四川成都 610065)

基于多变量标签分布的连续型姿态估计方法

江婷，赵启军,陈虎

(四川大学计算机学院，四川成都 610065)

人脸的头部姿态往往指示并传达着丰富的信息，准确估计头部姿态角度在人脸识别、表情识别等领域有重要作用。针对获得的人脸真实姿态角度往往存在一定的偏差且只包含有限个离散角度等问题，文中提出了一种基于多变量标签分布的连续型姿态估计方法。在训练阶段，对不同姿态角度，通过训练获得离散情况下的多变量标签分布；在测试阶段，采用正交多项式拟合的思想，将离散的分布拟合成连续的分布，计算分布的最大值所对应的标签作为最终的输出结果。文中在Pointing’04公开库上进行了测试，利用文中方法，在正交多项式拟合后，估计出的人脸的姿态角不再局限于训练集中的一些角度，而是有更多连续的值，所得的估计姿态角更接近于真实角度。实验结果表明，文中方法能够预测出更多的人脸姿态角度，并且预测更稳定。

姿态估计；多变量标签分布；正交多项式拟合；连续型姿态

0 引言

在人际交流中，头部姿态是非常重要的部分，静态的头部姿态的某个特定方向可指示对某人的注意，或者对话的对象，等等。头部姿态的变化也可传达丰富的信息，比如赞同、否定、理解、疑惑和惊喜等等。另外，头部姿态是很多应用领域的关键部分，如人脸识别、表情识别、视线估计等等。因此，头部姿态估计已成为计算机视觉和模式识别的一个重要研究领域。近年来已经有很多头部姿态估计的方法被提出，例如非线性回归方法[1-5]、子空间嵌入方法[6-9]、基于特殊特征的方法[10-13]和多变量标签分布方法[14]。

在计算机视觉领域，头部姿态估计通常指的是使用图像平面去预测头部方向。通常做法是假设人的头部是一个刚性物体，这样头部姿态只有三个自由度，包括水平偏转角、俯仰角和旋转角[15]。对于很多现存的数据集，只考虑了有限的离散角度，而且姿态角度标定值往往存在一定的误差。文献[14]提出离散的多变量标签分布方法(Multivariate Label Distribution,MLD)，将人脸姿态角度的临近角度也作为姿态估计的标签，使得一个人脸姿态可以有不同权重的多个值，提高了算法对训练数据中姿态角度标定误差的鲁棒性，也提高了姿态估计的正确率。但是现有人脸数据库中的姿态角度往往是离散的值，若估计到的姿态角是真实值的临近角度，也会偏差很大。换言之，现有的MLD方法对训练集中不包含的姿态角的图片预测误差往往会很大。

为解决上述问题，文中提出了基于MLD的连续值姿态估计方法。首先用MLD得到离散情况下的多变量标签分布，然后用正交多项式拟合的方法拟合成连续的分布。选用正交多项式作为拟合工具可以得到与一般多项式拟合相同的结果，而且有效避免了一般多项式拟合时法方程组的病态问题。改进后的MLD估计得到的姿态角度比离散情况更接近真实值，而不受训练集角度间隔的影响。值得一提的是，提出的方法能非常方便地扩展到三个自由度或者缩减到单个自由度。

1 多变量标签分布

(1)

设在连续空间X=q中，标签集Υ={yjk;j=1,2,…,np,k=1,2,…,ny}，那么目标就是从G学习得到一个条件函数集p(y|x;θ)。其中x∈X,y∈Υ，θ为参数向量。该条件函数集由找到一个θ使生成的MLD接近于当前xi的Pi来决定。由于p(y|x;θ)的形式与Geng等在文献[16-17]中的工作类似，所以假设它为一个最大熵模型，即：

(2)

2 正交多项式拟合

针对不同姿态角度，训练获得离散情况下的多变量标签分布后，采用正交多项式拟合的思想，将离散的分布拟合成连续的分布，计算分布的最大值所对应的标签作为最终姿态的估计值。

2.1 一元函数拟合

(3)

(4)

2.2 二元函数拟合

(5)

先对l进行拟合后，可得到dk,ωk(l),k=0,1,…,L-1。再对m进行拟合，得到σs,φs(m) ,m=0,1,…,M-1，参考式(4)，则

(6)

将式(6)代入式(5)中即得拟合的二元函数。

当从一组可供选择的模型中选择一个最佳模型时，选择赤池信息量准则(AkaikeInformationCriterion,AIC)为最小的模型是可取的，所以采用AIC作为决定拟合多项式变量最高阶次数的方法。

(7)

拟合后，在求得最优解θ*后，给出一张图片x'，则先根据p(y|x';θ*),y∈Υ估计得到它的MLD，然后与MLD中最大描述度相对应的姿态角即为x'的估计值。

3 算法流程

为了解决现有的MLD方法对训练集中不包含的姿态角的图片预测误差很大的问题，提出了一种基于MLD的连续值姿态估计方法。首先在训练阶段，对不

同姿态角度的图片进行训练，将每个训练图片的临近姿态角度的权重设为非零值，即该图片就能有多个标签值，就可根据条件函数获得离散情况下的多变量标签分布。

在测试阶段，采用正交多项式拟合的思想，对于给定的测试图片，通过将参数向量θ拟合成连续的函数，获得θ的最优解，然后与MLD中最大描述度相对应的姿态角即为该测试图片的估计值。整体框图如图1所示。

图1 基于MLD的连续型姿态估计方法的框图

4 实验结果及分析

为验证改进的MLD方法的估计效果，将该方法在Pointing’04人脸库上进行了测试。Pointing’04人脸库包括9个离散的俯仰角{-90°，-60°，-30°，-15°，0°，15°，30°，60°，90°}，以及13个离散的水平偏转角度{-90°，-75°，-60°，-45°，-30°，-15°，0°，15°，30°，45°，60°，75°，90°}。人脸的姿态由一个水平偏转角和一个俯仰角组成，特别地，当俯仰角为-90°和90°时，水平偏转角始终是0°。所以，该数据库中包括13×7+2=93个姿态角。该库包含两次采集15个人的人脸图像，共93×15×2=2 790张。图2给出了该库中单个人的部分角度图像，库中每张图片被归一化为32×32大小的灰度图，用方向梯度直方图(HistogramofOrientedGradients,HOG)[18]提取特征，每个细胞单元为3×3个像素。

图2 Pointing’04人脸库中同一个人部分角度图像

实验中，首先对Pointing’04人脸库随机选取14个人(93×14×2=2 604张)的图片进行训练，剩下1人(93×2=186张)图片进行测试。因为当俯仰角为-90°和90°时，水平偏转角始终是0°，所以测试时去除这两个姿态角，则剩余91个姿态。多次实验证明，当p=4,q=8时，拟合得到的多项式最大地逼近了离散标签值。图3给出了对于测试图片，通过多项式拟合，阶数分别为4和8时，θ前后值的对比，空心圆圈曲线表示θ的初始值，实心点曲线表示拟合后的θ的值，横轴表示91个姿态标签值，纵轴为θ的值。

图3 θ拟合前后曲线对比

在正交多项式拟合后，估计出的人脸的姿态角不再局限于训练集中的一些角度，而是有更多连续的值，表1列出了部分真实值所对应的两种方法估计出来的结果。

表1 离散和连续MLD方法的估计结果对比

通过对比可以看出，连续的MLD方法估计出的值更接近真实值，而离散的方法使结果偏差为15°的倍数。

5 结束语

准确估计人脸的姿态角度在人脸识别、表情识别等领域有重要作用。文中受文献[14]的启发，针对受现有离散的人脸数据库中的有限姿态角度的影响，MLD估计得到的姿态角也会偏差很大这个问题，提出了一种正交多项式拟合的方法，将标签拟合为连续值，使姿态估计地更接近真实值。实验结果表明，文中方法能够预测出更多角度的人脸姿态角度并且估计的姿态更稳定。

[1]StiefelhagenR.Estimatingheadposewithneuralnetworks-resultsonthePointing04ICPRworkshopevaluationdata[C]//Procofpointing2004workshop:visualobservationofdeicticgestures.Cambridge,UK:[s.n.],2004.

[2]GourierN,MaisonnasseJ,HallD,etal.Headposeestimationonlowresolutionimages[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:270-280.

[3]VoitM,NickelK,StiefelhagenR.Neuralnetworkbasedheadposeestimationandmulti-viewfusion[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:291-298.

[4]GuoG,FuY,DyerCR,etal.Headposeestimation:classificationorregression[C]//Procof19thinternationalconfonpatternrecognition.FL:[s.n.],2008.

[5]HajMA,Gonz`alezJ,DavisLS.Onpartialleastsquaresinheadposeestimation:howtosimultaneouslydealwithmisalignment[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2602-2609.

[6]TuJ,FuY,HuY,etal.Evaluationofheadposeestimationforstudiodata[C]//Procof1stinternationalworkshoponclassificationofevents,activitiesandrelationships.Southampton,UK:[s.n.],2006:281-290.

[7]LiZ,FuY,YuanJ,etal.Querydrivenlocalizedlineardiscriminantmodelsforheadposeestimation[C]//ProcofIEEEinternationalconfonmultimediaandexpo.Beijing,China:IEEE,2007:1810-1813.

[8]FoytikJ,AsariVK.Atwo-layerframeworkforpiecewiselinearmanifold-basedheadposeestimation[J].InternationalJournalofComputerVision,2013,101(2):270-287.

[9]LuJiwen,TanYP.Ordinarypreservingmanifoldanalysisforhumanageandheadposeestimation[J].IEEETransonHuman-MachineSystems,2013,43(2):249-258.

[10]GurbuzS,OztopE,InoueN.Modelfreeheadposeestimationusingstereovision[J].PatternRecognition,2012,45(1):33-42.

[11]ZhuX,RamananD.Facedetection,poseestimation,andlandmarklocalizationinthewild[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2879-2886.

[12] Fanelli G,Dantone M,Gall J,et al.Random forests for real time 3D face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.

[13] Ma B,Chai X,Wang T.A novel feature descriptor based on biologically inspired feature for head pose estimation[J].Neurocomputing,2013,115:1-10.

[14] Geng X,Xia Y.Head pose estimation based on multivariate label distribution[C]//Proc of IEEE conf on computer vision and pattern recognition.Columbus,Ohio:IEEE,2014:1837-1842.

[15] Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(4):607-626.

[16] Geng X,Smith-Miles K,Zhou Z H.Facial age estimation by learning from label distributions[C]//Proc of 24th AAAI conf on artificial intelligence.Atlanta:[s.n.],2010:451-456.

[17] Geng X,Yin C,Zhou Z H.Facial age estimation by learning from label distributions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(10):2401-2412.

[18] Felzenszwalb P F,Girshick R B,McAllester D A,et al.Object detection with discriminatively trained part-based models[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.

A Continuous Head Pose Estimation Method Based on Multivariate Label Distribution

JIANG Ting,ZHAO Qi-jun,CHEN Hu

(School of Computer Science,Sichuan University,Chengdu 610065,China)

The human’s head pose are abundant of information.Accurate estimation of head pose plays an important role in face recognition,expression recognition and so on.To improve the precision of estimation and to alleviate the problem that poses are always fixed to some angles,a continuous method based on multivariate label distribution to estimate head poses was presented.In the training phase,get the discrete multivariate distribution from discrete poses and angles.In the testing phase,adopt orthogonal polynomial fitting to transform the discrete distribution into continuous distribution and compute the label corresponding to maximum in distribution as final output.The proposed method has been tested on the open Pointing’04 database.After orthogonal polynomial fitting,the estimated angles are no longer limited to angles in test set,but more continuous values.The estimated angle obtained by the method proposed is closer to the real angle.The result indicates that this method can estimate head pose in wider angle,the result is more stable.

head pose estimation;multivariate label distribution;orthogonal polynomial fitting;continuous head pose

2015-04-29

2015-08-04

时间：2016-01-04

国家自然科学基金资助项目(61202160，61202161)；科技部重大仪器专项(2013YQ49087904)

江婷(1991-)，女，硕士研究生,研究方向为模式识别、计算机视觉；赵启军，副教授，硕士生导师，研究方向为模式识别、机器学习、计算机视觉等；陈虎，讲师，硕士生导师，研究方向为模式识别。

http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.026.html

TP399.1

1673-629X(2016)01-0111-04

10.3969/j.issn.1673-629X.2016.01.023

基于多变量标签分布的连续型姿态估计方法

0 引 言

1 多变量标签分布

2 正交多项式拟合

3 算法流程

4 实验结果及分析

5 结束语

0 引言