王伟
摘 要: 提出一种基于局部二值模式(LBP)和支持向量机(SVM)相结合的三维人脸表情识别算法。该算法使用BDPCA重构降低图像维数、保存主要特征、消除噪声影响及缩短运算时间;使用LBP来表征人脸表情特征,通过融合了纹理特征的统计直方图展现人脸图像;再使用支持向量机作为匹配准则。该算法在Bosphorus人脸数据库进行测试,并与类似算法进行对比,结果令人满意,证明该算法适用于三维人脸表情识别。
关键词: 人脸表情识别; 局部二值模式; 支持向量机; 纹理特征
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2017)07-60-05
3D facial expression recognition based on combination of texture features
and support vector machine
Wang Wei
(No.36 Research Institute of China Electronics Technology Group Corporation, Jiaxing, Zhejiang 314033, China)
Abstract: This paper presents a novel 3D facial expression recognition algorithm using Local Binary Patterns (LBP) and Support Vector Machine (SVM). First, to preserve the main information, reduce dimensions, remove noises and shorten the computing time, BDPCA reconstruction is utilized to depict the human face accurately. Then the LBP framework for face representation is introduced. The facial expression features are all extracted and encoded by LBP. So the faces are represented by taking advantage of the statistical histograms that fuse the texture features of each face. Finally the SVM is used as matching strategy to address the recognition task. The proposed algorithm is tested on Bosphorus database, and compared with similar algorithms, the result is satisfactory. It is proved that the algorithm is suitable for 3D facial expression recognition.
Key words: facial expression recognition; LBP; SVM; texture feature
0 引言
隨着计算机及网络技术的飞速发展,生物特征识别技术应运而生。生物特征识别技术是为了进行身份验证而采用自动技术测量生理特征或行为特征,并将这些特征与数据库的模板数据进行比较,从而完成认证的一种解决方案。生理特征包括指纹、掌形、毛孔、静脉、虹膜、视网膜、颅骨、DNA等,行为特征包括声音、签名、步态、击打键盘的力度等,这些特征是每个人所特有的。
人脸识别技术隶属于生物识别技术,是利用计算机提取出脸部特征并对这些特征进行分析,从而进行身份验证的一门技术,涉及到计算机视觉、数字图像处理、模式识别、人工智能等多学科,是机器视觉和模式识别领域最富有挑战性的课题之一,具有广泛应用的意义。目前人脸表情识别技术是国内外研究热点,其在信号处理、模式识别、人机交互等方面有广泛应用。
主成分分析(PCA[1])最早被Turk和Pentland运用于人脸识别。PCA是图像压缩中的一种最优正交变换,是一种基于目标统计的方法,在人脸识别中主要用于提取特征向量。虽然基于PCA的人脸识别取得了巨大成功,但因其本生存在缺陷,它的识别率一直都不高。针对缺陷人们又相继提出了基于PCA的改进算法,如2DPCA[2]和BDPCA[3]等。
局部二值模式(LBP[4])因其在图像分析中的巨大优越性,近年来被广泛运用于人脸表情识别[5]。LBP是一种灰度范围内的纹理描述方式,从局部纹理近邻定义中衍生出来,最初是为了辅助性地度量局部图像对比度而提出的[6]。尽管LBP为表情识别提供了一种简单而有效方法,但是由于自身缺点,在人脸识别的应用中还存在许多亟待解决的问题。
针对LBP算法自身存在的问题,本文提出了一种基于纹理特征和支持向量机相结合的人脸表情算法。首先,对于经过预处理的图像,我们使用BDPCA重构来保存主要特征及消除噪声影响,并为后续算法降低运算复杂度。接着,我们提取人脸表情纹理信息,用LBP算子编码并将它们进行融合来表征人脸。最后,我们用支持向量机作为匹配准则进行识别。本文算法的实现过程如图1所示。
1 人脸图像标准化
1.1 BDPCA重构
由于BDPCA重构是PCA重构的改进算法,其核心算法与PCA相同,所以本文在介绍BDPCA重构之前,先介绍PCA重构的原理和方法。
主成分分析(Principal Component Analysis,PCA)目的是通过线性变换寻找一组最优的单位正交向量基(即主成分)[7],用它们的线性组合来重构原样本,并使重构以后的样本和原样本的均方误差最小。
我们将一幅大小为m×n的人脸图像每列相连,构成一个大小为维的列向量,并把D称作人脸图像的维数。设M是训练样本的数目,Xj为第j幅人脸图像形成的人脸向量,可通过下列计算,提取其特征向量和特征值:
⑴
⑵
⑶
将计算得到特征值从大到小排列:λ1?λ2?…λi?0,其对应的特征向量为μi。为实现降低维数,我们只选取前d个特征向量作为新的特征空间。由于这些特征向量所对应的图像和人脸非常接近,故称之为“特征脸[8]”。这样,我们将人脸图像都在这个特征空间Wj上做投影,便得到其重构图像。
⑷
其中,Y为重构的图像;U=[μ1,μ2,…,μr]为特征矩阵;X为原始图像。
BDPCA重构的实现途径与PCA重构大致相同,其具体实现如下所述。
⑸
这里Wcol是m×dcol列投影矩阵,Wrow是n×drow行投影矩阵,训练集的均值图像。
⑹
⑺
其中,Srow是n×n行散布矩阵,Scol是n×m列散布矩阵。
⑻
这里Xr就是人脸图像X的重构图像。
BDPCA重构后图像如图2所示,其中(a)为原始图像,(b)、(c)、(d)是图像(a)的重构图像,其重构所用的dcol×drow分别为11×11、15×15和19×19。
1.2 基于形状检索的三维人脸描述
由于本文算法不能直接处理三维人脸图像,只能将三维人脸图像转化成二维人脸图像再进行处理。所以我们引入形状检索来计算那些基于曲率的描述符。对于每一个三角形网格的顶点p来说,首先定义一个局部三维坐标系,该坐标系的原点在顶点上,z轴位于该顶点的法向量方向上。通过计算与顶点毗连的人脸法向量的平均值得到顶点法矢量。假设x和y是两正交轴,并且是在垂直于法向量的切平面随机选取的,于是在顶点p邻域内的顶点就转化成一个局部坐标系,用三次多项式来表示该顶点:
⑼
把该函数规范化,得到如下公式:
⑽
为了求解上述近似方程⑼和⑽,我们利用最小方凑合的方法得到局部拟合函数z(x,y)。最大曲率kmax和最小曲率kmin(kmax>kmin)可以经过Weingarten矩阵(形状算子)计算得到。所以,形状检索定义为:
⑾
2 人脸表情特征提取及识别
2.1 LBP算法介绍
局部二值模式(Local Binary Pattern)是一种灰度范围内的纹理描述方式[9]。基本的LBP算子定義在3×3的邻域,把邻域中心像素点作为阈值,用其相邻的8个像素的灰度值跟它进行比较,若周围像素点的灰度值大于中心点的灰度值,则该像素位置被标记1,否则为0。于是,3×3邻域内的8个点就产生一个8-bit 的无符号数,再按其位置赋以不同权重,最后求和得一个整数,即得到该窗口的LBP值,并且用这个数反映该区域的纹理特征。基本的LBP算子的计算方法如图3所示。
Ojala等对LBP算子进行了发展和改进,将3×3的邻域扩展到任意邻域,并且用圆形邻域代替了正方形邻域。这样,改进后的LBP算子在半径为R的圆形邻域内可有任意多个像素点,其编码计算公式表示为:
⑿
其中,,为阶跃函数;gc为中心像素点(xc,yc)的灰度值;N为领域像素点的个数;gp为领域像素点的灰度值。此外,还可以用符号表示在半径为R的圆形区域内P个像素点的LBP算子。常见的LBP算子有、、、等。
2.2 LBP人脸特征提取
根据文献[9],不同区域所包含的人脸表情信息不同,所以在进行特征提取时,根据人脸的不同区域分别赋予不同的权值。这样既减少了脸局部区域失真,又保证了识别率。于是人脸表情图像就被分割成大小相同的小区域来分别提取LBP直方图,每个区域所对应的直方图再乘以相应的权值。最后,把所有的乘以不同权值的直方图级联起来,组成一个总的直方图作为表情特征。匹配准则可为表示为:
⒀
这里hi表示人脸图像第i个区域的直方图,wi是其对应的权值。设置合适的权值对于最后的识别率起至关重要的作用。本文中,对于起重要作用的区域,我们设置的权值较大;而对于起作用较小甚至不起作用的区域,所设置的权值相对较小。人脸特征提取具体实现过程如图4所示。
2.3 支持向量机
支持向量机(Support vector machine,SVM)是一种应用广泛的数据学习分类方法,在回归估计与模式识别领域取得了巨大成功。SVM旨在寻找一个具有最大边界值的高维空间,在该空间内可用几何和线性代数的方法将经过非线性变换的原始数据进行分类。支持向量机不但能使两类不同数据之间的差异最大化,保证分类准确率,而且能够解决人脸表情样本不足及不同表情之间量大差异问题。
人脸表情识别是一种非线性分类模式。表情数据经由SVM引入到高维特征空间,在这个空间里,通过某一非线性映射函数,运用线性代数和几何的方法将表情数据分类。我们将这一非线性映射函数称之为核函数,SVM通过利用核函数获得分类学习能力。
SVM最初用于两类数据的分类。但随着区分数据类别的增多,学者们又提出了“一对一”和“一对多”这两个步骤相结合的多类SVM分类器。一对多分类时将所有图像数据分成两类,一部分数据归为一类,余下的数据归为另一类,以此类推。一对一分类仅能将图像划分成互不相同的两类。事实上,三维人脸表情识别也是一对多分类过程。
3 实验结果与分析
本文人脸数据库采用Bosphorus[10]人脸数据库。Bosphorus人脸数据库是土耳其Bogazici大学创立出用于研究二维和三维人脸技术的数据库。该数据库主要用于表情识别、脸部动作单元检测、不利条件下的人脸识别以及三维人脸重构等领域的研究。Bosphorus人脸数据库一共包含有4666张人脸图片,一共由105个采集者提供。
人脸表情一般分为6种基本表情(生气、厌恶、害怕、高兴、悲伤和惊讶)和中性表情,總共7种。考虑到生气和厌恶这两种表情接近,两者界定比较困难,本文实验把厌恶表情归并到生气表情中。
本实验中每人拥有6种表情,从人脸数据库中的80个采集者中选取了1680张人脸图片,男女各40人。50个个体作为训练集,其余的作为测试集。经过预处理的人脸表情图像如图5所示,从左到右依次为生气、害怕、高兴、悲伤、惊讶和中性。
使用不同维数的BDPCA重构,得到结果也不相同,因此本文第一步是找出最恰当的特征矩阵的维数。本文算法与文献[9]所用的人脸数据库相同,且文献[9]已经通过实验证明,在三维人脸表情识别中,BDPCA重构的特征矩阵最合适的维数是255。作为文献[9]的后续研究,本文采信其实验结果,该维数也是本文实验时BDPCA重构的维数。
描述了运用本文算法的情况下,6种不同基本表情和中性表情在Bosphorus人脸数据库上的识别率也有所不同。从图中可以直观看出,在7种不同的表情中,高兴的识别率最高,达到了98.45%。惊讶的是第二高识别率的表情,也达到了98.28%。这是因为嘴巴和眉毛等这些在人脸表情识别中起更重要作用的脸部特征,在高兴和惊讶这两种表情上表现得更明显。但是某些表情的识别率相对低一些,其中悲伤的识别率最低,为92.39%。害怕的识别率次低,为94.37%。
表1比较了本文算法与其他相近算法在Bosphorus数据库上的识别率。可以看出,本文算法的识别率要高。与LBP+SVM算法相比,本文算法总识别率及大多数人脸表情的识别率要高,说明经过BDPCA重构后,本算法不仅降低了维数,而且突出了主要信息,去除了次要信息,因而提高了人脸表情识别准确率。
与BDPCA+LBP+开方距离的算法相比,本文算法在总识别率和个别表情识别率均表现更好。这说明对于同为匹配准则的SVM和开方距离,由于SVM比开方距离要复杂得多,因而分类的结果更准确,使所有表情的识别率均有所提高。
与SI算法相比较,本文算法的识别率均有较大幅度提高。由于本文算法充分利用了局部纹理特征,匹配准则也更加优越,而SI人脸表情算法只考虑了全局纹理信息,识别过程中只把人脸表情图像当作一个整体去识别,所以其识别率比本文算法低。
为了探究本文算法的识别速度,我们将不同算法识别631幅人脸表情图像花费的总时间,分别进行统计,具体结果如表2。从表2可以看出,本文算法的识别时间比LBP+SVM识别算法要短。这是因为本文算法经过BDPCA重构,降低了人脸图像的维数,提高了运算效率,因而缩短了运算时间。但识别时间比BDPCA+LBP+开方距离的算法及SI人脸算法所花费时间要长,这是由于SVM算法比开方距离复杂得多,因而在识别过程中花费了更多时间。
4 结束语
针对LBP算子本身存在的不完善性,我们提出了一种基于LBP和SVM的人脸表情识别算法。首先,我们使用BDPCA重构的方法来减小图像维数、保留主要特征、降低噪声影响以及提高运算效率。接着,用LBP来表征人脸表情特征,降低表情变化影响的同时,又将人脸图像通过融合纹理特征的统计直方图展现出来。最后,使用支持向量机作为人脸表情识别的匹配准则。本文算法在Bosphorus人脸数据库取得了较高的识别率,与相近算法在识别准确率和识别时间上相比,更具优势,说明本文该算法适合三维人脸表情识别。
参考文献(References):
[1] M. A. Turk and A. P. Pentland.Face recognition using
eigenfaces[C]. in Proc. Cvpr'91 IEEE Computer Society Conf. Digital Object Identifier,1991:586-591
[2] J. Yang, D. Zhang, A. F. Frangi, and J. Yang.
Two-dimendional pca: a new approach to appearance-
based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004.26(1):131-137
[3] Y. Sun, S. Chen and B. Yin.Color face recognition based
on quaternion matrix representation[J]. Pattern Recognition Letters,2011.32:597-605
[4] C. Shan, S. Gong, and P. W. McOwan. Facial expression
recognition based on local binary patterns: A comprehensive study[J]. Image and Vision Computing,2009.27(6):803-816
[5] T. Ojala, M. Pietik?inen, and T. M?enp??.Multiresolution
gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2002.24(7):971-987
[6] J. Yang, D. Zhang, A. F. Frangi, and J. Yang.
Two-dimendional pca: a new approach to appearance-
based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004.26(1):131-137
[7] T. Jabeed, M. H. Kabir, and O. Chae.Robust facial
expression recognition based on local directional pattern[J]. ETRI Journal,2010.32(5):784-794
[8] L. Broadbent, K. Emrith, A. R. Farooq, M. L. Smith, and
L. N. Smith. 2.5D Facial Expression Recognition using Photometric Stereo and The Area Weighted Histogram of Shape Index[C]. in Proc. IEEE Int. Workshop Robot Human Interact. Commun, Institute of Electrical and Electronics Engineers Inc,2012.9:490-495
[9] W. Wang, W. H. Zheng and Y. M. Ma. 3D Facial
Expression Recognition Based on Combination of Local Features and Globe Information[C]. in IHMSC,2014.2:20-25
[10] Savran, N. Alyüz, H. Dibeklioglu, O. ?eliktutan, B.
G?kberk, B. Sankur, and L. Akarun.Bosphorus Database for 3D Face Analysis. The First COST 2101 Workshop on Biometrics and Identity Management (BIOID 2008)[J]. Roskilde University, Denmark,2008.5:7-9