一种方向性的局部二值模式在人脸表情识别中的应用

2016-01-15 07:37童莹
智能系统学报 2015年3期

网络出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150601.0940.003.html

一种方向性的局部二值模式在人脸表情识别中的应用

童莹

(南京工程学院 通信工程学院,江苏 南京 211167)

摘要:传统局部二值模式(LBP)算法应用在人脸表情识别中,不能准确描述眼睛、嘴巴、额头等表情特征区域在不同方向上的灰度变化趋势,识别效果不理想。本文改进传统局部二值模式的灰度比较关系,分别从水平、垂直以及对角3个方向对邻域像素的灰度变化进行二值编码,融合3个方向的特征,得到一种基于方向性的局部二值模式(DLBP)。在JAFFE数据库和Cohn-Kanade数据库上的实验结果均表明,DLBP算子相比LBP算子、Gabor算子能更准确描述人脸基本表情,识别率平均分别提高了5%和1%;相比LBP算子对椒盐噪声和高斯白噪声具有更强的鲁棒性;且与LDP算子相比,识别率基本不变,但特征提取时间缩减近50%。由此可见,DLBP算子是一种快速有效的人脸表情描述子。

关键词:人脸表情识别;局部二值模式;中心最近邻分类;方向性局部二值模式;Gabor:LDP

DOI:10.3969/j.issn.1673-4785.2201405016

中图分类号:TP391.41 文献标志码:A

收稿日期:2014-05-06. 网络出版日期:2015-06-01.

基金项目:江苏省自然科学基金资助项目(BK20131342).

作者简介:

中文引用格式:童莹.一种方向性的局部二值模式在人脸表情识别中的应用[J]. 智能系统学报, 2015, 10(3): 422-428.

英文引用格式:TONG Ying. Local binary pattern based on the directions and its application in facial expression recognition[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 422-428.

Local binary pattern based on the directions and

its application in facial expression recognition

TONG Ying

(Department of Communication Engineering, Nanjing Institute of Technology, Nanjing 211167, China)

Abstract:The traditional local binary pattern (LBP) algorithm for facial expression recognition could not describe the gray value change in different directions of somel expression regions, such as eyes, mouth, forehead, etc. The recognition result is not satisfied. This paper presents a simple and robust method, namely local binary pattern based on the directions (DLBP), which improves the coding pattern of LBP and encoded the difference from the horizontal, vertical and diagonal directions. Experimental results on JAFFE and Cohn-Kanade databases show that DLBP algorithm has achieved 5% and 1% higher recognition rates than other existing algorithms, such as LBP and Gabor. It has a strong robustness to Gaussian noise and salt and pepper noise compared with LBP, and Its feature extraction time is reduced by 50% compared to LDP. Therefore, the DLBP algorithm is a fast and effective feature descriptor.

Keywords:facial expression recognition; local binary pattern (LBP); central nearest neighbor classification; directional local binary pattern (DLBP); Gabor; local directional pattern (LDP)

通信作者:童莹. E-mail: tongying@njpt.edu.cn.

面部是情感交流的器官,人们可以通过面部表情变化准确而充分地表达自己的思想情感,也可以通过表情辨认对方的情感状态,是一种有效的非语言信息交流手段。因此,对表情识别进行研究具有重要的学术价值和应用前景,是实现人机交互、机器视觉、行为科学等应用的基础,近年来逐渐成为学者们的研究热点。

人脸表情识别(facial expression recognition, FER)系统包含表情图像预处理、人脸检测与人脸区域分割、表情特征提取和表情分类4个组成部分。表情特征提取是人脸表情识别系统的一个重要环节,是提高表情分类准确性的关键步骤。在众多表情特征提取方法中,局部特征法对光照、姿态等变化具有较强的鲁棒性,其中局部二值模式(LBP)[1]和Gabor小波变换[2-6]是2种代表性方法。Gabor小波变换能够检测多尺度、多方向的表情纹理信息,但其耗时多,产生特征维数巨大,降维方法的选择会影响识别准确性。相比于Gabor小波变换,LBP算法可以快速提取表情特征,具有强大的纹理判别能力和计算简单等特点,因此被广泛地应用于分类、图像检索和模式识别中[7-12]。然而传统LBP算子也有其局限性,它是通过比较中心像素与邻域像素的灰度值大小获取特征,受噪声影响较大,对灰度变化敏感,识别效果不理想。因此本文对传统LBP算子进行改进,提出一种基于方向性的局部二值模式(directional LBP, DLBP),分别从水平、垂直和对角3个方向对邻域像素进行灰度值比较和二值编码,既符合人脸表情变化趋势,又降低像素相关性,减少噪声干扰。在JAFFE数据库和Cohn-Kanade数据库上的实验结果均表明,DLBP算子是一种实用有效的人脸表情描述算子,且比LBP算子具体较强的噪声鲁棒性。

1LBP算子理论

传统局部二值模式(local binary pattern, LBP)是由T. Ojala等在1996年提出的,是一种用来描述图像局部纹理特征的算子,它具有旋转不变性和灰度不变性等显著优点。传统LBP算子定义在3×3窗口内,以窗口中心像素灰度值为阈值,将相邻8个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则编码为1,否则编码为0。从左上角开始顺时针读取数值,先读出的二进制数放在低位,后读出的二进制数放在高位,依次得到8位二进制数,即LBP编码。将LBP编码值转换为十进制数,则得到该编码对应的LBP值。图1描述了一个编码示例,中心像素灰度值为150,依次与八邻域像素比较,顺序得到LBP编码为(00011011)2,将其转化为十进制数得到LBP值为27。

图1 LBP编码示例 Fig. 1 Illustration of the LBP descriptor

2基于方向性的LBP算子理论

2.1DLBP算子的定义

原始的LBP提出后,T. Ojala又对其进行改进,将3×3邻域扩展到任意邻域,并用圆形邻域代替方形邻域,改进后的LBP算子允许在半径为R的圆形邻域内有任意多个像素点。同时,他还提出了均匀模式,将LBP模式由256种减少为59种,降低了特征向量的维数但并不丢失主要信息。在T. Ojala研究的基础上,又有很多研究人员提出自己的改进方法,例如Tan提出了局部三值模式[13],通过计算中心像素与邻域像素的灰度差值与给定经验阈值的正负关系进行三值编码,可以有效去除噪声和光照的影响;Yang等提出了汉明LBP[14],当非均匀模式与某均匀模式的汉明距离最小时,将其归入均匀模式,可进一步降低LBP特征向量的维数;Huang等提出了扩展LBP[15],对邻域像素与中心像素的灰度差值进行四位二值编码,首位是符号位,后面3位是数值位,该方法以增加向量维数来换取鲁棒性。可以看出,改进方法多数集中在邻域选择、特征向量降维或者编码方式构建上,他们的基本思想仍是比较中心像素和邻域像素的灰度大小,并没有考虑邻域像素间的灰度变化,这种传统比较关系并不有利于表情特征的提取[16-20]。

针对这一不足,本文提出一种基于方向性的局部二值模式(DLBP),分别从水平、垂直和对角3个方向比较邻域像素间的灰度值大小,并对其进行二值编码,得到DLBP编码图像。这是一种简单有效的表情特征提取方法,可以准确描述人脸中各个表情区域的纹理变化,同时也不增加算法的复杂性。考虑到3个方向的选择顺序以及编码权重对识别效果无影响,本文定义DLBP算式如式(1)所示。

(1)

式中:g1~g8为图2中3×3模板对应像素点的灰度值,其编码运算示例如图3所示。图3中像素灰度分布与图1一致,虚线表示进行灰度比较的2个邻域像素,根据式(1)得到DLBP编码为(10011001)2。可以看出,针对相同的灰度分布,由于LBP算子与DLBP算子进行灰度比较的像素不同,所以编码结果也不同。

图2 DLBP算子的3×3模板 Fig. 2 3×3 mask of DLBP descriptor

图3 DLBP编码示例 Fig. 3 Illustration of DLBP descriptor

为了直观比较LBP算子与DLBP算子提取表情特征的优劣,以JAFFE数据库中某一表情图像为例,分别对其进行LBP编码和DLBP编码,显示结果如图4所示。从图中可以看出,由于DLBP算子独特的灰度比较方式,它能够准确描述出邻域像素间不同方向的灰度变化,DLBP编码图像中面部肌肉的皱褶形变以及眼睛、嘴巴等部位的变化趋势更明显,相比LBP编码图像,DLBP编码图像的表情特征更清晰,噪声干扰更少。

图4 原始图像与LBP和DLBP编码图像 Fig. 4  Sample of original image, LBP coding image and DLBP coding image

2.2DLBP算子的鲁棒性

由于LBP算子是对中心像素点与邻域像素点的灰度大小进行编码,因此任意一个邻域像素点的灰度值发生改变,都会导致LBP编码变化。如图5所示,图5(a)是原始灰度模板,加上高斯白噪声后得到灰度分布如图5(b)所示,此时LBP编码由原来的00011100变为00010100,第5位编码发生了错误。这是由于噪声的影响导致图中圆圈标识的邻域像素灰度值与中心像素灰度值的关系发生逆转,尽管剩余邻域像素与中心像素灰度值的关系并没有发生改变,但这仍然导致LBP编码值由原来的28变为20,改变直方图分布,从而影响识别率。而DLBP算子则是考虑邻域像素间的灰度关系,它们之间的灰度值相关性小于中心像素与邻域像素之间的相关性,并且邻域越大相关程度越小,因此DLBP算子受噪声影响小。如图5(c)所示,圆圈标识的灰度值为53,其对应水平方向的方形标识像素灰度值为10。考虑受噪声影响的最坏情况,即圆圈标识的灰度值降低,而方形标识的灰度值升高。若不改变灰度关系,此时所能承受的最大噪声容限为两者差值43。图5(d)为受高斯白噪声影响后的灰度分布,图中圆圈标识的灰度值下降5,方形标识的灰度值上升5,灰度值变化总和为10,小于最大噪声容限值43,所以灰度关系不发生改变,DLBP编码也不变。由此可见,DLBP算子的噪声容限大于LBP算子,对噪声有较强的鲁棒性。

图5 LBP与DLBP对噪声的鲁棒性分析 Fig. 5 Stability of LBP vs DLBP

2.3DLBP特征向量描述子

采用DLBP算子对图像中每一个像素进行编码,得到DLBP编码图像。在进行表情分类时,一般不将编码图像作为特征向量进行识别,这是因为编码图像中DLBP值与位置是紧密相关的,对2幅编码图像进行判别分析,会因为“位置不准确”而产生很大误差。因此仍采用DLBP统计直方图作为特征向量来消除位置的影响。具体实现步骤如下:

1)将人脸表情图像平均分成N个子图像,每一块子图像大小为m×n。

2)采用式(1)计算每个子图像所有像素的DLBP值。

3)利用式(2)统计每个子图像的DLBP直方图。

(2)

4)将所有子图像的统计直方图顺序链接起来,得到最终可用于分类识别的DLBP特征向量,如图6所示,特征向量的长度为256×N。

图6 DLBP特性向量提取过程 Fig. 6 The process of DLBP feature extraction

可以看出,DLBP特征向量描述子采用直方图分布可以消除像素位置的影响,同时分别统计各个子图像的DLBP直方图,又可以增加局部特征之间的空间排列信息,有利于提高识别率。

3实验结果与分析

本文采用JAFFE数据库和Cohn-Kanade数据库进行实验仿真。JAFFE数据库是日本ATR媒体信息科学实验室的Lyons博士提供的,包括10位日本女性在愤怒、厌恶、恐惧、高兴、悲伤、惊讶6种情况下自发产生的表情图像,共213幅图像,图像大小为256×256。选取其中每人每种表情3幅图像,共180幅图像进行实验仿真。Cohn-Kanade数据库是CMU机器人研究所和心理系于2000年共同建立的人脸表情数据库,包含了200个由18~30岁的210个成年人近2 000张不同表情图像序列,每张图像大小为640×490或640×480。本文选取每个表情序列中最具有代表性的5幅图像,共1 665幅图像进行实验仿真。这2个数据库完全开放,且表情标定标准,现为多数研究人员仿真使用。

在进行实验仿真前,还要对数据库中图像进行表情区域划分和归一化预处理。在精确定位人眼后,计算双眼与水平线的夹角,并将双眼位置旋转到同一水平高度。根据人眼的坐标位置对图像进行表情区域划分,使人脸表情区域同背景分离开来,尽量减少与表情无关的因素对表情识别的影响。设双眼之间的水平距离为D,以两眼连线的中点为基准,向上距离0.5D处为上边界,向下距离1.5D处为下边界,向左距离D处为左边界,向右距离D为右边界,将人脸主要表情区域从图像中分割出来,模板如图7所示。同时,由于分割出的表情区域大小不同,还需要将图像归一化为标准大小,本文归一化图像尺寸为128×128,JAFFE数据库和Cohn-Kanade数据库中部分经过预处理的样本表情图像如图8所示。

图7 人脸表情区域分割模板 Fig. 7 Cropped templet of facial expression images

(a)JAFFE数据库中不同表情的部分样本图像

(b)Cohn-Kanade数据库中不同表情的部分样本图像 图8 JAFFE数据库和Cohn-Kanade数据库的样本表情图像 Fig. 8  Sample expression images of each prototypic expression from (a) JAFFE database and (b) CK database

参考文献本文采用中心最近邻分类器进行表情识别,具体实现步骤[18],文中不再详述。采用熟悉人脸样本选择方式进行实验仿真,任选1幅图像作为测试样本,剩余图像作为训练样本,交叉验证N次(JAFFE数据库中N=180,CK数据库中N=1 665)。采用这种样本选择方式可以最大程度选择所有数据作为测试样本,以确保每幅图像的表情特征都被考虑到,实验结果更具有真实性。

3.1子图像尺寸大小对算法的影响

首先分析子图像尺寸大小对分类准确性的影响。将人脸表情图像平均分割成1×1、2×2、4×4、8×8、16×16个子图像,划分的子图像个数越多,尺寸越小。考虑CK数据库样本多,程序运行时间长,因此采用JAFFE数据库使用DLBP算子分别对每种分割情况进行仿真实验,结果如表1所示。

表 1 不同子图像个数下DLBP算子的识别率

从表中可以看出,将128×128大小的图像平均分为8×8=64个子图像效果最佳,子图像的个数过多或过少都会对识别率造成影响。子图像个数过少,每个子图像尺寸则较大,DLBP算子无法准确提取局部细节特征;子图像个数过多,每个子图像尺寸则较小,各个子图像间的DLBP特征有冗余,影响分类效果。

3.2DLBP算子与LBP、Gabor算子的性能比较

本小节进一步比较DLBP算子与LBP算子、Gabor算子[16]在人脸表情识别中的性能优劣,采用文献[16]中的降维方法得到Gabor特征。LBP算子和DLBP算子编码邻域大小为3×3,采用表1中最佳分块参数,分别在JAFFE数据库和CK数据库上进行实验仿真,实验结果如表2和3所示。

从表2和3可以看出,无论对JAFFE数据库还是CK数据库,DLBP算子均有较强的表情特征提取能力,识别率均高于LBP算子和Gabor算子。这是由于DLBP算子通过编码邻域像素间的灰度差异快速捕捉到丰富的纹理信息,相比传统LBP算子仅比较邻域点与中心像素点之间的灰度差异,可以更好地提高人脸表情的鉴别能力。同时,Gabor算子虽然可以从多个方向多个尺度提取表情特征,但运行时间长,特征维数巨大,选择的特征降维方法能否最大程度去除冗余保留有效信息对识别率有重要影响。

表 2 在JAFFE数据库上不同算子的识别率

表 3 在CK数据库上不同算子的识别率

3.3DLBP算子对噪声的鲁棒性能分析

以JAFFE数据库为例,在图像中加入高斯白噪声和椒盐噪声,噪声的方差由小到大逐渐增加,分析其对LBP算子和DLBP算子的影响。识别率的变化情况如图9和10所示。

图9 高斯白噪声下JAFFE数据库的LBP和DLBP识别率 Fig. 9  LBP and DLBP recognition performance with Gaussian white noise on JAFFE database

图10 椒盐噪声下JAFFE数据库的LBP和DLBP识别率 Fig. 10  LBP and DLBP recognition performance with pepper salt noise on JAFFE database

可以看出,随着噪声的增大,DLBP算子和LBP算子的识别率在逐渐下降,但DLBP算子的识别率始终高于LBP算子,且下降速度低于LBP算子,所以本文提出的DLBP算子具有一定消除或降低噪声影响的能力。

3.4DLBP算子与GDP和LDP算子的性能比较

比较DLBP算子与文献[7]提出的GDP算子和文献[9]提出的LDP算子的仿真效果。这里,DLBP算子采用上述步骤获得,仍采用上文分析得到的最佳参数;根据文献[7]描述步骤实现8位梯度角度二值编码得到GDP算子,它的最佳梯度角度阈值为2.16°(由实验分析得到);根据文献[9]描述步骤得到LDP算子,参数与文中一致。分别在JAFFE数据库和CK数据库上进行仿真实验,识别率和特征提取时间结果如表4和5所示。

表 4 在JAFFE数据上3种算子的性能比较

表 5 在CK数据上3种算子的性能比较

从表中可以看出,LDP算子的识别率略高于DLBP算子,且都高于GDP算子,所以从不同方向提取纹理灰度变化的特征算子其识别效果优于梯度方向特征算子。但LDP算子的特征提取步骤复杂,需要计算8个方向的Kirsch梯度幅值,然后进行阈值比较和二值编码,而DLBP算子仅需比较对称8个方向的灰度大小,所以特征提取时间远小于LDP算子,综合分类识别率和运行时间的结果,DLBP算子的性能最佳。

4结束语

人脸表情识别是一个跨学科富挑战性的前沿课题,其中特征提取和分类识别是2个重要的步骤,但由于分类效果好坏很大程度上受限于特征提取是否准确,因此表情特征提取是一个非常关键的步骤,它能为系统的实时处理提供可能,并为后续分类识别提供保证。

目前多数传统局部二值模式及其改进算法都是比较中心像素与邻域像素的灰度大小,在人脸表情纹理描述与抗噪性能方面效果不佳,针对此不足,提出了基于方向性的局部二值模式,改变传统编码方式,从水平、垂直和对角3个方向对邻域像素进行灰度比较和二值编码。实验结果表明,DLBP算子能更准确描述人脸基本表情,其编码图像中面部肌肉形变以及眼睛、嘴巴等部位的变化趋势更清晰,且具有一定的噪声鲁棒性,相比GDP算子和LDP算子,DLBP算子的识别准确率基本不变,但特征提取时间大大降低,因此是一种综合性能最佳的表情特征描述子。

在提出的算法中,仅使用3×3单尺度模板计算特征向量,但人眼视觉系统是一个多尺度系统,如何设计多尺度DLBP算子并进行特征融合,使其更符合人眼视觉特性,是接下来工作的重点及难点。

参考文献:

[1]HUANG Di, SHAN Caifeng, ARDABILIAN M, et al. Local binary patterns and its application to facial image analysis: a survey[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2011, 41(6): 765-781.

[2]KYPEROUNTAS M, TEFAS A, PITAS I. Salient feature and reliable classifier selection for facial expression classification[J]. Pattern Recognition, 2010, 43(3): 972-986.

[3]OU Jun, BAI Xiaobo, PEI Yun, et al. Automatic facial expression recognition using Gabor filter and expression analysis[C]//Second International Conference on Computer Modeling and Simulation (ICCMS). Sanya, China, 2010: 215-218.

[4]LI P, PHUNG S L, BOUZERDOUM A, et al. Improved facial expression recognition with trainable 2-D filters and support vector machines[C]//20th International Conference on Pattern Recognition (ICPR). Istanbul, Turkey, 2010: 3732-3735.

[5]张文超, 山世光, 张洪明, 等. 基于局部Gabor变化直方图序列的人脸描述与识别[J]. 软件学报, 2006, 17(12): 2508-2517.

ZHANG Wenchao, SHAN Shiguang, ZHANG Hongming, et al. Histogram sequence of local Gabor binary pattern for face description and identification[J]. Journal of Software, 2006, 17(12): 2508-2517.

[6]徐洁, 章毓晋. 基于多种采样方式和Gabor特征的表情识别[J]. 计算机工程, 2011, 37(18): 195-197.

XU Jie, ZHANG Yujin. Expression recognition based on variant sampling method and Gabor features[J]. Computer Engineering, 2011, 37(18): 195-197.

[7]AHMED F. Gradient directional pattern: a robust feature descriptor for facial expression recognition[J]. Electronics Letters, 2012, 48(19): 1203-1204.

[8]HUANG Xiaohua, ZHAO Guoying, ZHENG Wenming, et al. Spatiotemporal local monogenic binary patterns for facial expression recognition[J]. IEEE Signal Processing Letters, 2012, 19(5): 243-246.

[9]JABID T, KABIR M H, CHAE O. Robust facial expression recognition based on local directional pattern[J]. ETRI Journal, 2010, 32(5): 784-794.

[10]ZHANG Baochang, GAO Yongsheng, ZHAO Sanqing, et al. Local derivative pattern versus local binary pattern: face recognition with high-order local pattern descriptor[J]. IEEE Transactions on Image Processing, 2010, 19(2): 533-544.

[11]王玮, 黄非非, 李见为, 等. 使用多尺度LBP特征描述与识别人脸[J]. 光学精密工程, 2008, 16(4): 696-705.

WANG Wei, HUANG Feifei, LI Jianwei, et al. Face description and recognition using multi-scale LBP feature[J]. Optics and Precision Engineering, 2008, 16(4): 696-705.

[12]王玮, 黄非非, 李见为, 等. 采用LBP金字塔的人脸描述与识别[J]. 计算机辅助设计与图形学学报, 2009, 21(1): 94-100, 106.

WANG Wei, HUANG Feifei, LI Jianwei, et al. Face description and recognition by LBP pyramid[J]. Journal of Computer Aided Design & Computer Graphics, 2009, 21(1): 94-100, 106.

[13]TAN Xiaoyang, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635-1650.

[14]YANG Hong, WANG Yiding. A LBP-based face recognition method with Hamming distance constraint[C]//Fourth International Conference on Image and Graphics. Beijing, China, 2007: 645-649.

[15]HUANG Di, WANG Yunhong, WANG Yiding. A robust method for near infrared face recognition based on extended local binary pattern[M]//BEBIS G, BOYLE R, PARVIN B, et al. Advances in Visual Computing. Berlin/Heidelberg: Springer, 2007: 437-446.

[16]阮锦新. 多姿态人脸检测与表情识别关键技术研究[D]. 广州: 华南理工大学, 2010: 64-83.

RUAN Jinxin. Study on key technology for multi-pose face detection and facial expression recognition[D]. Guangzhou, China: South China University of Technology, 2010: 64-83.

[17]PRIYA G N, BANU R S D W. Person independent facial expression detection using MBWM and multiclass SVM[J]. International Journal of Computer Applications, 2012, 55(17): 52-58.

[18]付晓峰. 基于二元模式的人脸识别与表情识别研究[D]. 杭州: 浙江大学, 2008: 54-65.

FU Xiaofeng. Research on binary pattern-based face recognition and expression recognition[D]. Hangzhou, China: Zhejiang University, 2008: 54-65.

[19]LAJEVARDI S M, HUSSAIN Z M. Higher order orthogonal moments for invariant facial expression recognition[J]. Digital Signal Processing, 2010, 20(6): 1771-1779.

[20]RAHULAMATHAVAN Y, PHAN R C W, CHAMBERS J A, et al. Facial expression recognition in the encrypted domain based on local fisher discriminant analysis[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 83-92.

童莹,女,1979年生,讲师,主要研究方向为图像处理与模式识别。发表学术论文10余篇,其中被SCI检索2篇、EI检索3篇。主编教材1部,参编了新教材2部。