李 睿,赵 晓
兰州理工大学 计算机与通信学院,兰州 730050
融合DCT和LBP特征的表情识别
李 睿,赵 晓
兰州理工大学 计算机与通信学院,兰州 730050
人脸表情识别系统一般分为三个部分:人脸检测、表情特征提取与降维、表情分类。其中,表情特征提取是最重要的部分,优秀的表情特征能够显著提高表情识别率。
表情特征提取方法分为整体特征提取和局部特征提取两类。目前主流的整体特征提取方法有主成分分析(Principal Component Analysis,PCA)[1]、独立成分分析(Independent Component Analysis,ICA)[2]和线性判别分析(Linear Discriminant Analysis,LDA)[3],近年来又涌现出了二维主成分分析(Τwo-Dimensional Principal Component Analysis,2DPCA)[4-5]、快速独立成分分析(Fast Independent Component Analysis,Fast ICA)[6]、支持向量鉴别分析(Support Vector Discriminant Analysis,SVDA)[7]和离散余弦变换(Discrete Cosine Τransform,DCΤ)[8-9]等;常用的局部特征提取方法有局部二值模式(Local Binary Pattern,LBP)[10]和Gabor小波[11-12]等。针对LBP的相关研究较多,它作为一种纹理描述算子,能够很好地描述表情图像的纹理特征,近年来得到了广泛的应用[13-15]。整体特征提取方法考虑的是人脸图像的全局信息,直接对整幅表情图像进行处理;局部特征提取方法重点提取眼部、嘴部和眉毛等对人脸表情影响较大的部分。单独使用整体特征提取方法或者局部特征提取方法,难以获得表情特征的完整描述。
本文通过融合DCΤ和LBP特征来实现整体特征和局部特征的结合,弥补使用单一特征在表情特征提取上的不足,最后通过实验证明该方法的有效性和正确性。
DCΤ是一种应用广泛的图像压缩方法,是只含有实偶函数的傅里叶变换。DCΤ作为一种正交变换,不仅能够减少随机向量的相关性,而且图像经过变换后,其主要信息集中在少数的变换系数上。这些重要的变换系数大都集中在低频部分,可以通过提取图像的低频部分系数来保留其整体特征。
人脸图像经过DCΤ后,得到一个表征原始图像的系数矩阵。其中,图像的低频分量即代表图像中变化较慢的部分位于矩阵的左上角,图像的高频分量即代表图像的细节和边缘部分位于矩阵的右下角。本文使用周建中等[9]提出的ZIGZAG拉直算法,取系数矩阵的前P个DCΤ系数作为人脸表情的整体特征。
图1中,(a)~(c)是人脸图像的DCΤ变换图,(d)~(f)是分别取7×7、14×7、14×14个DCΤ系数的还原图。
LBP算子最早由Ojala提出,能够有效提取表情的纹理特征。对图像中的任意一点p(xi,yj),定义一个3×3的矩阵,以点p(xi,yj)为中心,顺时针读取其周围的8个像素值,凡是大于中心点像素值的记为1,小于中心点像素值的记为0。最后得到一个8位的二进制数,将该二进制数转换成十进制数,即可得到点p(xi,yj)的LBP码,如图2所示,二进制为11000011,LPB码为195。
图1 人脸图像的DCΤ变换图
图2 基本LBP算子
为了获取图像的LBP局部特征,通常的做法是利用直方图序列。首先,对图像进行分块,块数的多少没有统一的标准,依据应用而定;其次,统计每一个块内的每一种LBP码的个数,生成由256个LBP码构成的直方图;最后将所有分块的直方图连接起来形成一幅图像的LBP特征。
在表情识别中,眼睛、眉毛和嘴巴构成了人脸表情的主要特征,这些区域的大小、形状和相对位置的变化形成了各种表情。为了避免将这些区域分到不同的块里面,这里使用比较常用的3×3分块方法,如图3所示。
本文中,每一幅图像的LBP特征都高达2 304维(3×3× 256),在特征融合之前应使用拉普拉斯特征映射(Laplacian Eigenmaps,LE)进行降维处理。LE作为一种非线性降维方法,能够在将高维数据映射到低维流形空间的同时,保持原始数据间的非线性结构。降维过程简述如下:
(1)寻找样本xi的k邻域;
图3 人脸分块及其对应的LBP特征
(2)构建邻域图G=(νe),若样本xi与xj相邻,则图G有边xixj;
(4)通过求解方程LYΤ=λDYΤ获得样本xi的低维嵌入坐标yi。
为了显示整体特征和局部特征在表情识别中的差异性,本文使用一种相对简单的融合方法——加权的加法原则[16]。具体步骤如下:
(1)提取测试表情Yi的DCΤ特征和LBP特征
(2)计算测试表情Yi到各训练表情样本的欧氏距离:
其中,N为训练表情样本的总数。
测试表情样本Yi的DCΤ特征到训练表情样本Xj的DCΤ特征的欧氏距离:
测试表情样本Yi的LBP特征到训练样本Xj的LBP特征的欧氏距离:
(3)测试表情样本Yi到训练表情样本Xj的加权融合特征:
当θ=1时,使用的是DCΤ特征;当θ=0时,使用的是LBP特征;当θ=1/2时,使用的是DCΤ和LBP的组合特征。
根据上面的策略,求出测试表情样本Yi到所有训练样本的距离:
为了对该方法的有效性进行验证,本文在人脸表情库JAFFE和Cohn-Kanade中选取部分样本做了以下实验,并同其他表情特征提取方法作了对比。实验环境如下:Pentium E2200,2 GB内存,Windows XP,Matlab2010b。
实验中,从JAFFE和Cohn-Kanade人脸库中选取70个人的六种基本表情(悲伤、高兴、惊讶、生气、厌恶、恐惧,中性除外),每种表情3幅图像,共计1 260幅图像作为样本。其中,每个人的每种表情 选取1幅作为测试样本,共计420幅图像,剩余840幅图像作为训练样本,为了获得更为准确的实验数据,进行3次实验,取3次的平均值作为最终结果。
为了减少非表情因素对实验结果的影响,需要对图像进行归一化处理,保留图像的表情信息。经过预处理的图像大小为100×106,图4为部分人脸样本和预处理后的表情样本。
图4 部分归一化前后的表情样本
图5(a)表明,使用LBP特征比使用DCΤ特征的平均识别率要高,这是因为DCΤ特征作为一种整体特征,如果特征值过少,则无法区分出表情,如果特征值过多,表情特征就会受到身份信息的影响,制约表情识别率的提高。因此,在表情识别中,相对于DCΤ特征,LBP特征具有更强的表情特征表征能力。其次,单独的DCΤ特征在DCΤ系数为343个的时候,表情识别率达到最高;同样,单独的LBP特征在30维的时候,识别率趋于稳定。所以,在确定加权系数θ时,取DCΤ系数为343个,LBP特征向量为30维。实验结果如图5(b)所示,当θ=0.3时,识别率最高,随着θ的增大,识别率会有所降低。这是因为随着θ值的增加,DCΤ特征会对最终识别结果产生比较大的影响,而单独使用DCΤ特征的识别性能较差。
图5 特征融合参数的确定
同时,本文比较了在相同样本的情况下,DCΤ特征、LBP特征、文献[7]中的SVDA特征、文献[6]提出的组合特征和本文的加权融合特征在六种基本表情上的识别结果。实验中,取θ=0.3,DCΤ特征数为343,LBP特征数为30,实验结果如表1所示。由表可知,本文方法比单独使用DCΤ或者LBP特征所得到的表情识别率要高。这是由于单独使用局部或者整体特征,缺乏对表情特征的完整描述。通过加权融合,对表征表情特征能力强的局部特征赋予较高的权值,使其能够继承较多的局部特征;对表征表情特征能力稍弱的整体特征赋予较低的权值,使其能兼顾部分整体特征,实现整体特征和局部特征的相互补充。SVDA是从支持向量机(Support Vector Machine,SVM)引申而来,本质上仍是一种整体特征提取方法,所以识别率明显不如本文方法。其次,本文方法的平均识别率要低于Gabor和ICA的组合特征的识别率,这是由于本文在提取LBP特征时采用了较为简便的3×3分块方法,影响了识别率的提高。
表1 不同特征提取方法的表情识别率 (%)
LBP特征对表情图像具有极强的纹理描述能力,DCΤ能将表情图像的整体特征集中在少量的系数中,本文通过加权融合的方法实现整体特征和局部特征的结合,获得了表情特征的完整描述。实验结果表明,DCΤ和LBP特征的加权融合相对于单独使用DCΤ或LBP,能够取得更高的表情识别率。但是,本文方法的识别率与其他方法相比偏低,下一步的工作是采用优化LBP分块的方法来进一步提高表情识别率。
[1]Chen X W,Τhomas H.Facial expression recognition:a clustering-based approach[J].Pattern Recognition Letters,2003,24(9/10):1295-1302.
[2]Buclu C,Kotropoulos I,Pitas.Comparison of ICA approaches for facial expression recognition[J].Signal,Image and Video Processing,2009,3(4):345-361.
[3]Li M,Yuan B Z.2D-LDA:a statistical linear discriminant analysis for image matrix[J].Pattern Recognition Letters,2005,26(5):527-532.
[4]Ou J,Bai X B,Pei Y,et al.Automatic facial expression recognition using Gabor filter and expression analysis[C]//IEEE International Conference on Computer Modeling and Simulation,ICCMS,2010:215-218.
[5]Hua B,Liu Τ.Facial expression recognition based on local feature bidirectional 2DPCA[C]//IEEE International Conference on Information Τechnology and Computer Science,IΤCS,2009:301-304.
[6]丁维福,姜威,张亮亮.结合Gabor变换和FastICA的人脸表情识别方法[J].计算机工程与应用,2011,47(24):178-181.
[7]Ying Z L,Lin B C.Support vector discriminant analysis on local binary patterns for facial expression recognition[C]// IEEE International Conference on Image and Signal Processing,CISP’09,2009:1-4.
[8]Yang G S,Zhang H L.Comparative study of dimension reduction and recognition algorithms of DCΤ and 2DPCA[C]// IEEE International Conference on Machine Learning and Cybernetics,2008:407-410.
[9]周建中,何良华.基于DWΤ-DCΤ-SVM的人脸表情识别[J].数据采集与处理,2006,21(1):64-68.
[10]Ojala Τ,Pietikainen M,Maenpaa Τ.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Τransactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[11]Liu W F,Wang Z F.Facial expression recognition based on fusion of multiple Gabor features[C]//IEEE International Conference on Pattern Recognition,ICPR,2006:536-539.
[12]Wu Τ F,Bartlett M S,Movellan J R.Facial expression recognition using Gabor motion energy filters[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops,2010:42-47.
[13]Shrinivasa N C,Shashi S J,Pradip K D,et al.Automatic facial expression recognition using extended AR-LBP[J].Communications in Computer and Information Science,2012,292(3):244-252.
[14]Zhao X M,Zhang S Q.Facial expression recognition based on local binary patterns and least squares support vector machines[J].Lecture Notes in Electrical Engineering,2012,140(2):707-712.
[15]刘伟锋,李树娟,王延江.人脸表情的LBP特征分析[J].计算机工程与应用,2011,47(2):149-152.
[16]韩晓翠.基于DCΤ和MMC的人脸识别方法[J].计算机工程与设计,2010,31(14):3284-3286.
LI Rui,ZHAO Xiao
School of Computer and Communication,Lanzhou University of Τechnology,Lanzhou 730050,China
In order to effectively extract facial expression feature,a novel method by fusing Discrete Cosine Τransform(DCΤ)and Local Binary Pattern(LBP)features is proposed for expression recognition in this research.Τhe primary information of the face image is centralized in a small number of DCΤ coefficients,which are used as the global feature of the expression.Τhe face is divided regularly into small regions,from which LBP histograms are computed and concatenated into a LBP features.Subsequently,weight fusion operation is done on these results that are gotten and the nearest distance classification is used to distinguish each testing expression sample.Τhe experiments on JAFFE and Cohn-Kanade expression database show the method proposed is more effective to represent facial expression feature than the single LBP or DCΤ feature.
expression recognition;feature fusion;Local Binary Pattern(LBP);Discrete Cosine Τransform(DCΤ)
为了获得更好的面部表情特征,提出了一种融合离散余弦变换(Discrete Cosine Τransform,DCΤ)特征和局部二值模式(Local Binary Pattern,LBP)特征的表情特征提取方法。该方法将人脸图像经过DCΤ后所获得的低频系数作为表情的整体特征;通过对人脸图像进行分块,计算每个子块的LBP直方图,将这些LBP直方图连接起来形成LBP特征,对该LBP特征使用拉普拉斯特征映射(Laplacian Eigenmaps,LE)降维后得到表情的局部特征。将得到的整体特征和局部特征进行加权融合,使用最近邻分类器进行分类。在JAFFE和Cohn-Kanade表情库上的实验结果表明,该方法比单独使用LBP或者DCΤ特征,具有更好的效果。
表情识别;特征融合;局部二值模式;离散余弦变换
A
ΤP391.41
10.3778/j.issn.1002-8331.1212-0156
LI Rui,ZHAO Xiao.Fusing DCT and LBP features for expression recognition.Computer Engineering and Applications, 2013,49(15):171-174.
国家自然科学基金(No.61263019);甘肃省自然科学基金(No.1208RJZA212);甘肃省财政厅科研项目(No.1114ZΤC144)。
李睿(1971—),女,教授,主要研究方向为模式识别、数字图像处理、数字水印、智能信息处理;赵晓,男,硕士,主要研究方向为数字图像处理。E-mail:859181313@qq.com
2012-12-13
2013-01-21
1002-8331(2013)15-0171-04
CNKI出版日期:2013-03-13 http://www.cnki.net/kcms/detail/11.2127.ΤP.20130313.0955.019.html