基于多特征决策级融合的表情识别方法

2015-03-07 11:43忠,胡敏,刘
计算机工程 2015年10期
关键词:后验识别率纹理

黄 忠,胡 敏,刘 娟

(1.安庆师范学院物理与电气工程学院,安徽 安庆 246011;2.合肥工业大学计算机与信息学院,合肥 230009)

基于多特征决策级融合的表情识别方法

黄 忠1,2,胡 敏2,刘 娟1

(1.安庆师范学院物理与电气工程学院,安徽 安庆 246011;2.合肥工业大学计算机与信息学院,合肥 230009)

为实现多源特征的优势互补并融合多分类器的决策结果,提出一种改进的多特征表情识别方法。利用链码编码刻画表情形状特征并构建形变特征描述面部几何变化,构造Gabor特征融合图以表征表情局部纹理细节。采用支持向量机分类器分别获取3类特征的类别后验概率并在决策级实现多分类器的融合。在有监督学习下提出一种基于粒子群算法的权重寻优策略求解最优融合权重。Cohn-Kanade表情库上的实验结果表明,该方法在平均识别率和鲁棒性方面均优于单分类器识别方法,与现有的多分类器融合方法相比,权重寻优策略在识别率和可靠性方面更优。

决策级融合;主动形状模型;链码;形状特征;形变特征;Gabor纹理特征;粒子群寻优

DO I:10.3969/j.issn.1000-3428.2015.10.032

1 概述

人脸表情是表达内心情感与协调人际关系的重要途径[1]。人们一方面提取描述能力强、鲁棒性好、维数低的表情特征,如局部二值模式(Local Binary Pattern,LBP)、Gabor小波变换、主动形状模型(Active Shape Model,ASM)等;另一方面设计稳定性好的分类器将表情归类到预先定义的类别中,如最近邻、反向传播(Back Propagation,BP)神经网络、支持向量机等[2]。然而,各类表情特征及分类方法

具有不同的优势及局限性,如何构建多源互补的特征并探索多分类融合策略已成为表情识别领域新的研究热点[3]。

目前,表情识别方法主要有基于几何特征和基于纹理特征2类[2]。基于几何特征方法一般通过跟踪人脸显著区域(如眉毛、眼睛和嘴巴等)的特征点以反映面部表情的运动幅度及趋势,具有维数低、光照变化不敏感等优点,但其局部细节描述能力弱[4]。基于纹理特征方法则是根据像素灰度值进行建模,包含大量的表情信息且提取过程相对稳定,但提取出的特征维数较高且易受光照影响[5-6]。近年来,研究者开始在特征级和决策级方面探讨多特征融合的表情识别方法。特征级融合是将不同类型的特征按照一定的规则融合成一个整体并将数据降维后的主成分特征输入一级或多级分类器进行分类。如文献[4]将特征点矢量与纹理形变参数进行融合;文献[2]融合多特征并采用极大似然估计实现自然表情分类。由于融合特征关联信息强、维数高,这种方式分类性能不稳定;同时特征分类前的主成分分析或数据降维也增加了特征级融合方式的复杂度。与特征级融合不同,决策级融合则是通过分类器获取各特征关于类别的后验概率,并按照一定策略融合各类别度量信息以达到更精确的分类效果。如文献[7]以各分类器正确率为权重系数的加权投票法;文献[8]根据后验概率及阈值的自适应投票法;文献[9]以模糊密度反映分类器识别性能的模糊积分方法;文献[10]以混淆矩阵衡量分类器可信度的决策模板法;文献[11]利用多分类器差异的登普斯特-谢弗(Dempster-Shafer,D-S)证据理论方法。这些基于先验知识的融合方法,能够有效提高各类别表情识别率,但在适应性及鲁棒性方面有待进一步提高。同时,为了进一步提高多分类器识别效率,研究者引入优化算法以探求最佳融合策略,如文献[12]以贪心算法实现分类器选择和集成,文献[13]以人工鱼群算法实现多分类器动态选择及融合。然而,随着分类器数量的增多,急剧增长的分类器组合虽为寻找最优多分类器融合方式提供了可能,但也为求解融合策略的优化算法提出更高要求。

为了实现多源特征的优势互补,并考虑各分类器识别性能差异,本文提出一种基于多特征决策级融合的表情识别方法,该方法一方面通过ASM定位与人脸表情密切相关的特征点,并提取表情形状及形变特征以描述面部几何变化,另一方面构造Gabor特征融合图以表征局部细节。在SVM分类器分别获取各特征后验概率基础上实现多分类器决策级融合,并在监督学习下采用粒子群优化算法求解最优融合权重。

2 表情几何及纹理特征提取

2.1 表情几何特征提取

人脸表情可看成是表情区域形状及幅度的改变,几何特征是描述区域发生形变的最直接方式[2]。本文采用 ASM模型[14]定位与表情相关的 n(n= 68)个特征点,如图1所示。

图1 面部特征点标注顺序

n个特征点构成的形状向量S可表示为:

其中,(χi,yi)为第i个特征点经过Procrustes分析产生的归一化位置坐标。通过ASM获取n个特征点位置坐标后,几何特征可以通过任意两特征点间的距离构建,但这种方式将产生n(n-1)/2维的特征向量。由于维数过高,并且特征分量中存在较大冗余,其描述效果并不理想。为了有效反映表情几何信息并减少特征维数,本文根据这些点的拓扑关系构建形状和形变2类几何特征。

2.1.1 基于链码编码的形状特征提取

文献[2]认为,人们可以通过人脸区域如眉毛、眼睛、嘴等的形状差异来区分表情。而链码编码作为一种形状描述方法广泛用于图像中线条、曲线等形状描述[15]。它将平面若干特征点按照一定顺序组成一个封闭区域,并对区域的边界线段倾斜角进行链码编码。图2显示了边界线段A→B→C→D→E→F→A八向链码编码表示(107543)。

图2 8向链码方向编号及链码编码表示

考虑8向不足以描述人脸表情形状差异,本文采用36向链码编码方式提取各表情区域形状特征。

设表情区域上的某一特征点为 Pi(χi,yi),与其组成边界线段下一特征点为 Pi+1(χi+1,yi+1),可由式(2)计算Pi的链码值li:

其中,θ为Pi与 Pi+1两特征点组成的边界线段与水平线的夹角;·」为向下取整。若某一包含m个特征点的表情区域,其几何形状特征可由这些特征点的链码值表示。而人脸包含嘴巴、眼睛、眉毛等若干表情区域,因此根据表情区域将ASM算法定位的n个特征点划分成P(P=7)组,各组特征点及数目如表1所示。组合 P组链码值以表示表情几何形状特征SF:

其中,向量Li=(li1,li2,…,limi)为第i个表情区域的链码编码表示;lij为第i个表情区域第j个特征点的链码值;mi为第i个表情区域的特征点数目。

表1 各表情区域特征点

2.1.2 基于拓扑结构的形变特征构建

链码编码描述的形状特征能反映表情区域边缘特征点的拓扑信息,但对表情区域的收缩程度、幅度大小等形变信息不能有效表征。本文进一步构建表情区域内不相邻特征点以及表情区域间特征点的几何信息,提取的q(q=8)个形变特征如下:

(1)左眉的弯度:

(2)右眉的弯度:

(3)左眼的闭合度:

(4)右眼的闭合度:

(5)外唇的闭合度:

(6)鼻尖到上唇的距离:

(7)左嘴角上提幅度:

(8)右嘴角上提幅度:

其中,line(a,b)和dis(a,b)分别表示a,b两点间形成的线段和欧式距离。度量的形变特征不仅描述了表情区域的闭合度、收缩程度等,还考虑了不同区域间相互影响呈现出的形变信息。组合 q个度量距离以表示表情几何形变特征DF:

2.2 表情纹理特征提取

提取的形状及形变特征能有效表征面部运动导致的几何变化,但其局部表情细节如褶皱等表现不佳。相关文献表明[2,5],Gabor小波变换提取的多尺度多方向的纹理特征具有较强的局部细节描述能力。为了提取表情局部纹理信息并降低Gabor特征维数,本文结合研究者前期工作[16],将Gabor提取的5尺度 8方向特征在同一尺度上进行梯度融合,Gabor融合后的表情纹理特征TF可表示为:

3 多特征决策级融合

提取表情3类特征后,下一步需要将3类特征输入分类器进行训练和识别。考虑不同特征计算方法、幅度数量级存在较大差异,并在分类中作用不尽相同,本文将SVM获取的3类特征的后验概率在决策级进行加权融合,并将权重求解过程转化为粒子群优化算法的全局寻优,其整体流程如图3所示。

图3 基于决策级融合的多特征表情识别方法流程

3.1 多分类器决策级融合

首先为表情图像χ的3类特征SF,DF,TF分别建立K(K=3)个SVM分类器{Ek}Kk=1,并利用Sigmoid函数将SVM输出结果拟合为目标类别的后验概率[10]。记Pr(ct|χ,Ek)为第k个分类器将表情图像χ识别为ct类的概率,其中{ct}Mt=1表示M(M= 7)类表情,分别为中性、高兴、厌恶、生气、害怕、伤心、惊讶。因此,表情图像χ关于K个分类器的决策矩阵可表示为:

其中:

然后融合各分类器决策信息并通过不同决策权重方式以获得优于单个分类器的决策性能。融合后的决策信息可表示为:

其中,wkt表示第k个分类器关于ct类表情的权重,

3.2 基于粒子群优化的权重求解

为了获得更优的权重系数,本文在有监督学习下将最优权重求解过程转化为式(9)目标函数最大化:

其中,cχi和分别表示第i个样本表情类别真值和按照式(8)获得的估计值;N表示训练样本数目,w=(w11,w21,…,wK1,…,wkt,…,w1M,…,wKM)为需要优化的D(D=K×M)维权重,而目标函数|J(w)表示以w为融合权值系数的分类器正确率,期待寻找最优的w使得|J(w)最大化。然而,目标式(9)属于高维非线性问题,并且其ΔJ(w)/Δwkt不易表达。基于梯度寻优的局部优化方法如最速下降法、牛顿法等虽然收敛速度较快、计算精度高,但因缺乏梯度信息而不能有效求解。而一些全局优化算法如遗传算法、模拟退火算法、进化算法等,一方面受限于各自机理和单一结构,难以实现高维复杂函数的高效优化;另一方面存在参数设置多、实现复杂、优化时间长等问题,难以满足实时应用场合。粒子群优化算法通过粒子间的竞争和协作寻找全局最优点,可以在梯度信息缺失下求解复杂优化问题[17],已广泛应用于求解空间函数和单目标优化。因其算法收敛速度快、参数设置少、全局搜索能力强、实现方便,本文采用粒子群优化算法寻找权重系数w的最优解,其权重求解过程描述如下:

输出 最优权重系数w

(2)粒子更新:在[0,1]之间随机产生加速权重系数r1,r2,并按式(11)更新粒子速度及位置。

(3)粒子归一化:每个粒子根据表情类别分段归一化。

(4)粒子全局寻优:以式(9)作为适应度函数评价各粒子的性能优劣,并根据适应值的大小更新各粒子最优位置pj(1≤j≤S)以及粒子群中最优粒子

位置g,同时更新当前最佳识别率r,即:

(5)如果q>Q或r>η,结束;否则q←q+1,转步骤(2)。

4 实验结果及分析

为了说明本文提取的3类特征以及多分类器融合策略的有效性,在较为复杂的CK(Cohn-Kanade)表情库上对提出的方法进行了性能评测;同时为了说明粒子群权重寻优策略的优点,本文还将其与其它权重策略在识别率方面进行比较。实验中,本文方法的参数设置如下:以径向基核作为SVM的决策函数并采用Sigmoid函数输出各类别的后验概率,粒子数目S= 3 000,粒子惯性权重α=0.5,加速常数β1=β2=2,最大迭代次数Q=1 000,识别率阈值η=95%。

4.1 本文方法的识别率分析

CK表情库包含100多位测试者的表情序列,每个表情序列从中性开始并结束于峰值表情,同时具有肤色、人种、光照、头部刚性运动等的变化。为了说明本文提取的几何和纹理特征的分类特性以及多分类器融合的优点,随机选择50位测试者的7类表情作为训练集、在余下测试者中随机选择30位7类表情图像作为测试集,并比较基于几何特征的单分类器方法(SF+DF+SVM)、基于纹理特征的单分类器方法[16](TF+SVM)以及本文方法的识别结果。10次实验的平均识别率如图4所示。

图4 不同特征分类性能比较

由几何特征构造的单分类器方法对面部运动较剧烈的表情如高兴、惊讶,识别率较高,而对面部形变较小的表情如中性、伤心等,识别率较低。这与不同表情的运动幅度有关,幅度大的表情由于几何特征更具区分性,其识别率相对较高。与几何特征方法不同,基于纹理特征构建的单分类器方法更关注表情局部细节描述能力,其各类表情识别率相对均衡并具有略高的平均识别率。而本文方法将3类特征的类别后验概率在决策级融合,不仅在各表情类别上保持较高识别率,而且在平均识别率和均衡性方面也具有较好优势。这说明本文多分类器融合策略能够充分利用多源特征的互补信息并有效融合各分类器的决策信息。

表2进一步反映了本文方法关于7类表情分类效果。本文方法虽然对一些五官变化不明显的表情如伤心、厌恶等,以及不易区分的表情如厌恶与害怕、生气与害怕等,误判率较高,但每类表情的识别率均超过90%(见粗体),并且类间错误率不超过2.5%。最大类间错误率出现在伤心与中性(2.4%)、害怕与生气之间(2.2%)。这与这些表情几何特征不显著而局部纹理特征又具较高相似性有关。

表2 本文方法各类别表情识别率 %

4.2 不同方法的性能比较

为了说明本文方法的性能,在Windows7系统(Intel@CoreTMDUO CPU E7400@2.80 GHz,内存4 GB)及VS2010+OpenCV平台上,与经典的表情识别方法进行时间性能和分类正确率评测。在这些方法中,几何特征由ASM定位的68个特征点位置坐标表示,LBP卷积矩阵设为3×3,Gabor滤波器采用5尺度、8方向,直方图按照8×8分块统计。各方法特征维数及时间性能如表3所示,分类性能如图5所示。

表3 不同方法性能比较

图5 不种方法分类性能比较

在时间性能上,本文方法不及LBP方法和几何特征方法;但由于降低了Gabor特征维数和计算复杂度,本文方法优于传统Gabor方法。而在分类性能上,本文方法通过提取表情几何及纹理特征并采用多分类器决策级融合,各类别识别率及平均识别率均高于其他方法。

4.3 不同权重求解策略比较

为了说明本文基于粒子群权重寻优策略的有效性,在SVM获取表情类别后验概率后,将其与其他4种权重计算策略进行比较:(1)先验识别率策略[7];(2)最大后验概率策略:将各分类器后验概率作为比较对象并将最大者对应的类别判决为最终类别;(3)自适应权重投票策略[8];(4)可信度策略[10]。以10次实验的平均识别率作为各种求解策略的性能评价,如图6所示。

图6 不同权重求解策略识别率比较

由图6可知,本文方法不仅具有较高识别率,而且对各表情类别保持较好鲁棒性,尤其是伤心、害怕、厌恶等难以区分的表情。在分类器融合策略中,最大后验概率和先验识别率策略由于只考虑各分类器总体识别率,其识别率不及其他方法。而与以先验知识的权重计算策略相比,如自适应权重投票、可信度策略,本文方法在有监督学习下最大化后验概率并采用粒子群权重寻优策略更具优点。

5 结束语

本文分别提取链码编码表征的形状特征、特征点拓扑关系构建的形变特征以及梯度Gabor描述的纹理特征以从不同角度描述表情信息,同时采用SVM获取各类特征的后验概率并在决策级实现多分类器融合。为了求解最优融合权重,在有监督学习下提出粒子群权重寻优策略并将最优权重求解过程转化适应度目标函数最大化。在CK表情库上的评测结果表明,提取的3类特征能充分表达表情信息并具有较好的分类互补性,其多分类器融合后的识别率也高于基于几何特征或纹理特征的单分类器方法。而不同权重求解策略的比较结果表明,本文提出的粒子群权重寻优策略具有较低的分类错误率并具有较好的鲁棒性。由于需要提取多源特征并进行分类器权重寻优,本文方法时间性能不及基于单特征构建的分类器方法,因此如何将并行处理技术引入到表情多特征提取及融合是下一步的工作。

[1] Rizwan A K.Framework for Reliable,Real-time Facial Expression Recognition for Low Resolution Images[J]. Pattern Recognition Letters,2013,34(10):1159-1168.

[2] Wan Shaohua.Spontaneous Facial Expression Recognition:A Robust Metric Learning Approach[J].Pattern Recognition,2014,47(5):1859-1868.

[3] 梁绍一,韩德强,韩崇昭.一种基于几何关系的多分类器差异性度量及其在多分类器系统构造中的应用[J].自动化学报,2014,40(3):449-458.

[4] 易积政,毛 峡,Mitsuru L.基于特征点矢量与纹理形变能量参数融合的人脸表情识别[J].电子与信息学报,2013,35(10):2403-2410.

[5] 刘帅师,田彦涛,万 川.基于Gabor多方向特征融合与分块直方图的人脸表情识别方法[J].自动化学报,2011,37(12):1455-1463.

[6] 胡 敏,许艳侠.自适应加权完全局部二值模式的表情识别[J].中国图象图形学报,2013,18(10):1279-1284.

[7] 邓 楠,徐正光.基于稀疏表征多分类器融合的遮挡人脸识别[J].计算机应用研究,2013,30(6):1914-1916.

[8] 朱旭锋,马彩文.基于多不变量和多分类器融合的飞机识别[J].仪器仪表学报,2011,32(7):1621-1627.

[9] 张 娟,詹永照.基于 Gabor小波和稀疏表示的人脸表情识别[J].计算机工程,2012,38(6):207-212.

[10] 李鑫滨,陈云强,张淑清,等.基于LS-SVM多分类器融合决策的混合故障诊断算法[J].振动与冲击,2013,32(19):159-164,182.

[11] 杨 艺,韩德强,韩崇昭.一种基于证据距离的多分类器差异性度量[J].航空学报,2012,33(6):1093-1099.

[12] 林煜明.面向用户观点分析的多分类器集成和优化技术[J].计算机学报,2013,36(8):1650-1658.

[13] 罗 彬,邵培基,夏国恩.基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究[J].管理学报,2012,9(9):1373-1381.

[14] Kotsia I,Pitas I.Facial Expression Recognition in Image Sequences Using Geometric Deformation Features and Support Vector Machines[J].IEEE Transactions on Image Processing,2007,16(1):172-187.

[15] 赵丽科,宋伟东.Freeman链码优先级直线提取算法研究[J].武汉大学学报:信息科学版,2014,39(1):42-46.

[16] 胡 敏,朱 弘,王晓华,等.基于梯度Gabor直方图特征的表情识别方法[J].计算机辅助设计与图形学学报,2013,12(25):1856-1861.

[17] 徐从东,陈 春.一种自适应动态控制参数的粒子群优化算法[J].计算机工程,2013,39(10):203-207.

[18] Liu Haibin,Zhang Guobao.Multiple Features Extraction and Coordination Using Gabor Wavelet Transformation and Fisher Faces with Application to Facial Expression Recognition[C]//Proceedings of CCPR’10.Chongqing,China:[s.n.],2010:1-5.

[19] Gu Wenfei,Xiang Cheng,Venkatesh Y V,et al.Facial Expression Recognition Using Radial Encoding of Local Gabor Features and Classifier Synthesis[J].Pattern Recognition,2012,45(1):80-91.

编辑 索书志

Facial Expression Recognition Method Based on Multi-feature Decision-level Fusion

HUANG Zhong1,2,HU Min2,LIU Juan1
(1.School of Physics and Electronic Engineering,Anqing Normal University,Anqing 246011,China;2.School of Computer and Information,Hefei University of Technology,Hefei230009,China)

In order to perform advantages of complementary multisource features and fuse decision results of multiple classifiers,a multi-feature facial expression recognition method based on decision-level fusion is proposed.Shape Feature(SF)of expression is attained by chain code and deformation feature is built to depict facial geometric changes. Meanwhile,Gabor feature fusion diagram is applied to describe local texture details of facial expression.The posterior probability of three kinds of features,which is obtained by Support Vector Machine(SVM)classifier respectively,is constructed for multiple classifiers fusion in decision-level.In order to solve the optimal fusion weights,a weight optimization strategy based on Particle Swarm Optimization(PSO)under the condition of supervised learning is put forward.Experimental results on Cohn-Kanade database show that the proposed method has better performance for average recognition rate and robustness than single classifier recognition method.Compared with existed multiple classifiers fusion methods,the weight optimization strategy has advantages in term s of recognition rate and reliability.

decision-level fusion;Active Shape Model(ASM);chain code;Shape Feature(SF);Deformation Feature(DF);Gabor Texture Feature(TF);Particle Swarm Optimization(PSO)

黄 忠,胡 敏,刘 娟.基于多特征决策级融合的表情识别方法[J].计算机工程,2015,41(10):171-176.

英文引用格式:Huang Zhong,Hu Min,Liu Juan.Facial Expression Recognition Method Based on Multi-feature Decision-level Fusion[J].Computer Engineering,2015,41(10):171-176.

1000-3428(2015)10-0171-06

A

TP18

国家自然科学基金资助项目(61300119);国家自然科学基金资助重点项目(61432004)。

黄 忠(1981-),男,讲师、博士研究生,主研方向:人脸识别,情感计算;胡 敏,教授、博士;刘 娟,讲师、硕士。

2014-10-24

2014-12-01E-mail:huangzhong-200512@163.com

猜你喜欢
后验识别率纹理
基于对偶理论的椭圆变分不等式的后验误差分析(英)
基于BM3D的复杂纹理区域图像去噪
基于类图像处理与向量化的大数据脚本攻击智能检测
贝叶斯统计中单参数后验分布的精确计算方法
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
使用纹理叠加添加艺术画特效
提升高速公路MTC二次抓拍车牌识别率方案研究
TEXTURE ON TEXTURE质地上的纹理
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
高速公路机电日常维护中车牌识别率分析系统的应用