潘峥嵘,贺秀伟
(兰州理工大学 电气与信息工程学院,甘肃 兰州 730050)
表情是人类传达自己内心的情绪、情感和意图最有效和直接的方式。研究表明,表情包含了人类传达情感55%的信息[1]。因此,表情识别在研究机器人与人进行情感交互的系统中起着非常重要的作用。目前,表情识别研究取得的成果非常可观[2]。Zhang等[3-4]对表情识别的智能机器人人机交互的应用做了一定的研究。但是要满足生活中的实际应用还有许多关键问题需要解决,如采集人脸表情图像时光照不均匀,人脸姿态的旋转,图像的尺度差异,不同身份人脸的差异等影响因子。针对这些技术难点,很多学者都提出了自己的解决方案。
表情识别主要包含三个过程:人脸检测、表情特征提取、表情分类。表情特征提取是最为重要的一个步骤,有效合理地表征表情特征是准确分类的关键。现阶段的人脸表情特征提取大致分为三类:基于形状特征的模型、基于纹理特征的模型、基于混合特征的模型。Cootes等提出几种典型的人脸特征提取模型,有主动形状模型(active shape models,ASM)[5]、局部约束模型(constrained local models,CLM)[6]、主动表观模型(active appearance models,AAM)[7]。AAM是基于ASM提出的算法,有很好的形状和纹理特征的匹配性能,但是拟合过程计算复杂度高,缺乏实时性。CLM在目标图像上设置定位点,对于标记点的检测具有很高的实时性和鲁棒性,但是缺乏纹理描述能力。基于纹理特征的方法有Gabor小波、局部二进制模式(local binary pattern,LBP)[8]、局部Gabor二进制模式(local Gabor binary pattern,LGBP)[9]、自适应加权的局部二值模式[10]等。Gabor小波有多尺度、多方向的图像表征能力,但是局部细节信息描述能力不足。LBP可以精细地表征细节信息,但缺乏尺度和方向变化的鲁棒性。LGBP结合了Gabor小波和LBP两者的优点,有更强的图像特征表征能力,但是其对面部表情特征点缺乏精确定位的能力。Chen等[11]利用混合特征的方法分别提取面部标记点和局部纹理特征来进行表情分类,效果不错。
针对上述方法的不足,文中采用具有姿态和旋转鲁棒性的BRISK[12]特征描述子与AAM相结的方法进行快速的形状和纹理特征提取。用LGBP对AAM的纹理特征进行二次提取,以增强表情特征的可分性。
传统AAM模型拟合算法的复杂度太高,不能满足实时性的应用要求。Georgios等[13]提出的Fast-SIC(fast-simultaneous inverse compositional)拟合算法极大地提高了模型提取特征的时效性。由于表情特征提取过程中人脸图像存在一定的姿态变化,为了提高表情特征点的检测与匹配精度,采用对姿态旋转变化具有鲁棒性的新特征检测与描述算子BRISK进行特征匹配。最后,对AAM的纹理特征采用LGBP进行二次提取,在一定程度上提高了表情特征的描述能力。
AAM算法主要包括三个步骤:形状模型的建立、纹理模型的建立、AAM模型的拟合。基于Fast-SIC拟合的AAM算法步骤如下:
设训练图像集为Ii(x)∈RN,有n个标记点的向量S=(x1,y1,x2,y2,…,xn,yn)T。
Step1:建立形状模型。
其中,s0为平形状;S为n个形状向量组成的特征矩阵;p为形状参数。
Step2:建立纹理模型。
其中,A0为平均纹理;A为m个纹理向量组成的特征矩阵;c为纹理参数。
Step3:Fast-SIC拟合模型。
用Fast-SIC拟合算法的AAM模型在LFPW图像数据库中对测试图像提取形状和纹理特征的实验结果,如图1所示。由图1可知,Fast-SIC拟合算法的AAM模型具有很高的形状拟合精度和从表观空间中重建描述表观模型的性能。
图1 提取结果
BRISK算法使用自适应通用加速分割检测(AGAST)算子在尺度空间内检测特征点,其基础是FAST角点检测算法。利用特征点的邻域采样模式,将离散同心圆上均匀分布的采样点依据一定规则描述为512 bit的二进制比特串,再用两个描述符之间的汉明距离来衡量其特征的相似度。
LBP[14]是一种灰度范围内像素层级的纹理度量。LBP方法本质上提取的是图像的边缘、角点等局部变化特征,该特征对人脸图像描述非常重要。但是边缘特征有尺度和方向的差异性,原始LBP不能提取该特征。而LGBP结合了Gabor变化提取多尺度、多方向的局部图像特性的优越性,可以很好地描述这些差异性,可以描述图像中更多区分性的特征信息。
LGBP特征提取过程为:先对归一化的人脸图像进行多方向,多分辨率Gabor小波滤波,提取不同方向和尺度的多个Gabor幅值阈谱,然后对每个Gabor幅值阈谱提取LBP特征,最后组成LGBP特征描述子。
表情识别在智能机器人中的应用主要体现在人性化的智能人机交互系统。基于表情识别的智能人机交互系统主要由人脸检测、表情特征提取、表情分类和交互策略模块等组成。文中主要论述解决表情识别中关键问题的算法。表情识别的智能交互系统整体流程如图2所示。
图2 系统整体框架
提取有效的表情特征是表情识别成功的关键。为了从人脸表情图像中提取包含形状和纹理而且判别性高的特征信息,研究中常采用的特征提取模型有ASM,CLM和AAM,以及对其改进的模型[15-16]。AAM模型与其他模型相比,不仅包含了可变目标的形状特征,而且还有比较准确的纹理特征。文中在研究传统AAM模型的基础上,改进传统模型拟合算法得到人脸原始图像的形状和纹理更高效的表达,最后应用于自动人脸表情识别的机器人智能交互系统中。
AAM模型拟合的目标是寻找一组形状和表观参数为训练模型和给定输入图像之间提供最好的拟合效果。近年来,为了降低给定输入图像和训练模型之间的误差,提出了很多模型拟合算法和策略以达到最优的拟合效果。Fast-SIC拟合算法具有一定的高效性,但是Fast-SIC拟合的AAM对人脸的旋转、姿态变化和快速移动很敏感。因此,为了从旋转的人脸图像中提取有效的形状和纹理特征信息,AAM必须在带有旋转和姿态变化的人脸库中再次重复训练。然而,训练过程通常比较耗时和低效,并且需要存取带有各种头部姿态旋转的大样本图像数据库,有时会因计算代价太大而导致训练过程不可行。为了解决这个缺陷,需要一种高效的拟合算法。
BRISK是一种具有旋转和尺度不变性的关键点检测、描述和匹配的算法。该算法对处理旋转和尺度变化的特征有很好的鲁棒性和高效性,适合应用于对计算能力和时间有要求的特征提取过程。
文中采用了基于AAM和BRISK组合模型的特征提取方法,该方法是一种具有旋转不变性的特征提取模型。首先,利用训练好的AAM实时地提取初始的形状特征信息,再用Fast-SIC算法对测试图像进行拟合,然后终止Fast-SIC算法。接着,开始构建BRISK算法。将AAM中提取的形状信息s转换成两个关键点向量k1和k2,k1表示前一帧的关键点,k2表示当前帧的关键点。利用生成的关键点计算得到两个BRISK描述子,再用近似最近邻算法(approximate nearest neighbor,ANN)匹配生成的两个BRISK描述子。将ANN搜索匹配后的BRISK描述子作为形状信息的最后输出。纹理特征是在生成带标记形状的指导下从AAM中提取出来的,标记点采用常用的68点人脸面部关键特征点标记。将AAM和BRISK结合提取的纹理特征用LGBP进行特征二次提取,进一步提高纹理特征的判别能力。最后,将优化的形状和纹理特征结合之后进行表情分类。利用AAM和BRISK组合的方法提取形状和纹理特征的详细过程如图3所示。
图3 AAM和BRISK提取形状和纹理特征
在Cohn-Kanade(CK+)[17]和LFPW[18]人脸库上进行面部特征点的检测实验,在CK+表情库上进行人脸表情识别的实验。CK+人脸库包含123个对象的593个图像序列,每张图片都带有68个面部标记点。库中包含七种基本表情:anger,contempt,disgust,fear,happy,sadness,surprise。为了构建鲁棒高效的AAM模型,选取了32个对象的2 990张图片来训练AAM模型。这些图片包含了人脸从中性表情变化到其他表情峰值的信息。AAM模型训练的输入参数为训练图片和与其对应的68个标记点。LFPW包含了从网络上抓取的1 432张人脸图片,每张图片带有29个标记点,Sagonas等[19]将其重复标记为68点,选取811张图片作为训练集,224张图片作为测试集。
在NAO机器人平台上进行人脸表情识别与交互实验。该平台提供了C++SDK(NAOqi2.1.3)开发包,可以高效地开发机器人视觉、语音和运动的智能组件。NAO机器人配有920 P摄像头,最高分辨率为1 280*720像素,视频帧率为30 fps,可以满足实时视频图像处理应用的要求。该机器人提供了视觉系统API且兼容OpenCV开发包,要实现表情识别的交互系统只需开发核心算法即可。在表情识别的机器人智能交互系统中,表情识别的结果会反馈给语音交互系统,执行预设的交互功能,语音交互系统可以利用NAOqi系统提供的Audio模块实现。
该实验采用基于Fast-SIC拟合算法的AAM模型进行特征点的检测与定位。为了得到更好的拟合效果,实验采用多分辨率的拟合方法,两种不同分别率的参数设置分别为:低分辨率下纹理特征取50维,形状特征取3维;高分辨率下纹理特征取200维,形状特征取10维。利用常用的方法来评估AAM模型对特征点检测定位的精度,计算模型定位的特征点坐标与样本手动标定的特征点坐标之间距离的平均误差,除以定位人脸尺寸长宽之和的一半,作为单张人脸图像检测定位的误差。
整个测试集的误差评估是通过对设定误差范围内参与评估测试图像所占测试集的比例与设定误差的关系曲线来描述。误差评估描述曲线如图4所示。
图4 特征点定位误差曲线
从图4中可以看出,特征点误差在小于0.05时,分别覆盖了CK+和LFPW中选取的测试集的95%和90%。文献[12]中指出,误差在0.03附近即表现出了很好的拟合特性。LFPW中的样本从复杂背景下采集,姿态、光照、尺度等影响因素较大,导致LFPW的拟合误差略大于CK+。
在CK+表情库中选取327个有表情类别标记的图像序列,每个序列抽取与峰值表情连续的5帧图像,共1 635个样本。选取1 090个样本作为训练集,545个样本作为测试集。实验步骤如下:
(1)AdaBoost人脸检测算法检测定位人脸;
(2)AAM和BRISK结合的模型拟合特征点获取形状和纹理特征;
(3)LGBP对纹理特征二次提取;
(4)用SVM分别对形状和纹理以及二者的融合特征做分类。
SVM分类算法采用开源工具LIBSVM,核函数选用线性核函数,其他参数用默认设置。表情识别率的实验结果如表1所示。
表1 提取的不同特征对7种表情识别率的对比
表情类别识别率shapetextureconfusionLGBP+confusionanger54/7562/7569/7572/7572.00%82.67%92.00%94.74%contempt15/3024/3024/3026/3050.00%80.00%80.00%86.67%disgust89/10087/10090/10092/10089.00%87.00%90.00%92.00%fear8/4023/4022/4035/4020.00%57.50%55.00%87.50%happy96/115109/115109/115112/11683.48%94.78%94.78%96.55%sadness19/4830/4830/4831/4839.58%62.50%62.50%64.58%surprise93/138132/138132/138138/13866.91%95.65%95.65%1.00%total68.50%85.53%87.18%92.67%
根据表1可以看出,用形状特征做表情分类,识别率(68.50%)最低。LGBP二次提取纹理特征再结合形状的特征做表情分类,识别率(92.67%)最高。形状特征受表情图像的面部特征点运动幅度影响很大,所以对面部特征点几何运动幅度小的fear,sadness表情分类效果很差。而纹理特征相比形状特征对表情变化有更为细节性的表达,识别率有明显提高。形状与纹理特征的融合可以进一步提高识别率。LGBP提取的纹理特征,不仅对光照、姿态变化具有鲁棒性,而且表情细节信息的表达更丰富,取得了很好的识别率(92.67%)。文中方法与其他相关方法在CK+表情库的平均识别率比较如表2所示。
表2 文中方法与相关方法平均表情识别率比较
由表2可知,文中方法利用LGBP提取纹理特征可以获得表情信息更具判别性的表达,该方法在CK+表情库上的表情识别率优于对比方法。
为了解决基于传统AAM的表情识别算法在机器人智能交互系统中难以达到实时性的问题,采用Fast-SIC拟合算法提高了AAM拟合速度,并结合新的特征检测描述子BRISK做人脸面部的关键特征点匹配,然后通过LGBP对AAM的纹理特征进行二次提取以增强表情特征的判别性,最后用SVM分类器对表情进行识别与分类。实验结果表明,该方法对人脸特征点检测定位具有实时性和姿态旋转的鲁棒性,对表情特征的描述具有很好的判别性。实验结果验证了算法的有较性。但是,该算法对微弱表情的判别性能较差,下一步研究目标是实现对微弱表情特征的更有效表达,使得表情识别在智能机器人交互应用中更人性化。
[1] EKMAN P,FRIESEN W V.Constants across cultures in the face and emotion[J].Journal of Personality & Social Psychology,1971,17(2):124-129.
[2] 薛雨丽,毛 峡,郭 叶,等.人机交互中的人脸表情识别研究进展[J].中国图象图形学报,2009,14(5):764-772.
[3] ZHANG L, MISTRY K,HOSSAIN A. Shape and texture based facial action and emotion recognition[C]//Proceedings of the 2014 international conference on autonomous agents and multi-agent systems.Richland,SC:International Foundation for Autonomous Agents and Multiagent Systems,2014:1659-1660.
[4] MISTRY K,LI Z,BARNDEN J.Intelligent facial expression recognition with adaptive feature extraction for a humanoid robot[C]//International joint conference on neural networks.[s.l.]:IEEE,2015:1-8.
[5] COOTES T F,EDWARDS G J,TAYLOR C J.Comparing active shape models with active appearance models[C]//British machine vision conference.Nottingham:[s.n.],1999:173-182.
[6] CRISTINACCE D,COOTES T F.Feature detection and tr-acking with constrained local models[C]//British machine vision conference.Edinburgh,UK:[s.n.],2006:929-938.
[7] COOTES T F,EDWARDS G J,TAYLOR C J.Active appearance models[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(6):681-685.
[8] SHAN C,GONG S,MCOWAN P W.Facial expression recognition based on local binary patterns:a comprehensive study[J].Image & Vision Computing,2009,27(6):803-816.
[9] ZHANG W, SHAN S, GAO W,et al.Local Gabor binary pattern histogram sequence (lgbphs):a novel non-statistical model for face representation and recognition[C]//Tenth IEEE international conference on computer vision.[s.l.]:IEEE,2005:786-791.
[10] 胡 敏,许艳侠,王晓华,等.自适应加权完全局部二值模式的表情识别[J].中国图象图形学报,2013,18(10):1279-1284.
[11] CHEN H Y,HUANG C L,FU C M.Hybrid-boost learning for multi-pose face detection and facial expression recognition[J].Pattern Recognition,2008,41(3):1173-1185.
[12] LEUTENEGGER S,CHLI M,SIEGWART R Y.Brisk:binary robust invariant scalable keypoints[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2011:2548-2555.
[13] TZIMIROPOULOS G,PANTIC M.Optimization problems for fast aam fitting in-the-wild[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2013:593-600.
[14] OJALA T,HARWOOD I.A comparative study of texture measures with classification based on feature distributions[J].Pattern Recognition,1996,29(1):51-59.
[15] 黄 飞,谭守标.基于改进主动表观模型算法的人脸特征定位[J].计算机工程与应用,2015,51(16):204-209.
[16] 王 晶,苏光大,刘炯鑫,等.融合改进的asm和aam的人脸形状特征点定位算法[J].光电子·激光,2011,22(8):1227-1230.
[17] LUCEY P,COHN J F,KANADE T,et al.The extended cohn-kanade dataset (ck+):a complete dataset for action unit and emotion-specified expression[C]//IEEE computer society conference on computer vision and pattern recognition workshops.[s.l.]:IEEE,2010:94-101.
[18] BELHUMEUR P N,JACOBS D W,KRIEGMAN D J,et al.Localizing parts of faces using a consensus of exemplars[C]//IEEE conference on computer vision and pattern recognition.Colorado Springs,Co,USA:IEEE,2011:545-552.
[19] SAGONAS C,TZIMIROPOULOS G,ZAFEIRIOU S,et al.300 faces in-the-wild challenge:the first facial landmark localization challenge[C]//Proceedings of the IEEE international conference on computer vision workshops.[s.l.]:IEEE,2013:397-403.
[20] WU T,BARTLETT M S,MOVELLAN J R.Facial expression recognition using Gabor motion energy filters[C]//IEEE computer society conference on computer vision and pattern recognition workshops.[s.l.]:IEEE,2010:42-47.