基于非下采样Contourlet变换的人脸表情识别算法研究

2015-05-30 10:48贾函龙王金芳黄利飞
智能计算机与应用 2015年5期
关键词:学习机子带人脸

贾函龙 王金芳 黄利飞

摘 要:本文研究了非下采样Contourlet变换在人脸表情识别中的应用,并设计了相应的算法流程。首先将人脸表情图像分割为最能表征表情信息的眼睛和嘴巴两个部分,然后利用非下采样Contourlet变换对分割的局部图像进行特征提取,最后使用极限学习机进行分类,并与BP神经网络进行对照实验。研究结果显示,表情分类平均准确率可达86.57%,比BP神经网络的分类方法平均准确率高出7.43%。而在执行速度方法,极限学习机却是BP神经网络的11.09倍,表明了本实验方案的高效性和可行性。

关键词:人脸表情识别;非下采样Contourlet变换;极限学习机;BP神经网络

中图分类号:TP391 文献标识号: A 文章编号:2095-2163(2015)05-

Facial Expression Recognition based on the Next Sampling Contourlet Transform Algorithm Research

Jia Hanlong1, Wang Jinfang2, Huang Lifei3

(1 Liaoning Mechatronics College, Liaoning Dandong, 118000, China;2 Yanshan University, Qinhuangdao, 066200, China;3Hangzhou ChouTou Tech Co. LTD, Hangzhou, 310000, China)

Abstract: This paper studies the next sampling Contourlet transform in the application of facial expression recognition, and the corresponding algorithm design process. The image segmentation of facial expression is divided into two parts covering the eyes and the mouth, which to the most extent can represent the expression information, and then uses the sampling Contourlet transform under the division of local image feature extraction, furtherly using extreme learning machine for classification, and makes the comparison with the BP neural network control experiment. The results showed that expression classification accuracy can reach 86.57% on average, than the BP neural network classification method of average accuracy higher than 7.43%. In the speed of execution method, the fact that extreme learning machine is 11.09 times that of the BP neural network shows the efficiency and feasibility of the experiment scheme.

Key words: Facial Expression Recognition; Next Sampling Contourlet Transform; Extreme Learning Machine; BP Neural Network

0引 言

人脸表情含有丰富的人体行为信息,可以直观地反映一个人的心理状态。随着人机交互的研究日益得到关注,人脸表情识别已经成为模式识别一个重要且具实效意义的研究分支。目前,应用于表情识别的方法有基于gabor小波特征的方法[1],基于主动形状模型(ASM)和主动外观模型(AAM)的方法[2],基于流形的方法[3]等。

典型的人脸表情提取主要包括人脸表情的预处理,特征提取与选择和人脸表情分类三个主要步骤。其中,表情特征的提取与选择是人脸表情识别步骤中最具决定性的一步。如何将人脸表情预处理得到的高维数据进行快速有效的降维,既是表情识别系统的核心,也是目前为止最难于有效解决的关键所在。Gabor小波可以提取多尺度、多方向的空间频率特征,在人脸识别和表情识别的应用技术中,已经取得了一定的成果。Contourlet变换也是一种多尺度、多方向的变换,早在2002年,Martin Vetterli和M.N.Do就研究了该算法。该变换是基于小波多尺度分析的思想而开展的一种新的多尺度多方向分析方法研究。该变换不仅可以实现任意方向和尺度的分解,具有同小波变换一样的优势,而且由于其在图像轮廓特征和纹理信息方面的独到的提取和描述,使其在图像处理领域获得了较为广泛的应用。然而,该变换在轮廓波采样过程进行了下采样转换,因此失去了平移不变性,导致在图像的恢复变换时,会造成伪吉布斯失真。为此,A.L.Cunha等人研究了非下采样Contourlet变换 ,其中由于取消了变换过程中的下采样,从而实现了伪Gibbs失真的有效抑制。

鉴于Contourlet变换存在的明显缺陷,A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks,NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组,可将信号分解成一个多通和多个带通部分。

1 表情图像预处理

由于拍摄环境的复杂性以及人体自身的运动,获取的人脸表情信息或多或少会受到一些干扰。因此预先即需针对拟实现特征提取和特征选择的图片进行人脸特征区域的定位,人脸区域的几何归一化以及直方图均衡化,则将具有重要的基础性意义的[4]。JAFEE人脸表情库后预处理前后的图像如图1和图2所示,每行分别对应一个人的7种表情,分别为愤怒、厌恶、恐惧、高兴、中性、悲伤和惊奇。

人脸特征区域的定位采用基准特征结合仿射变换[5]的方法,该方法可以估计左右瞳孔的位置,然后依据左右瞳孔的坐标来确定人脸的位置,从而实现对人脸特征区域的定位。几何归一化是指图像经过尺度变换,得到统一大小的校准图像,即具有相同的高和宽,这样可以使图像在后期特征提取和特征选择阶段上具有相同的特征维数,由此简化了实际运算。直方图均衡化可以消除部分光线和光照强度的影响,使图像动态范围增大,对比度更加扩展,有助于提高识别率。

2 Contourlet变换与非下采样Contourlet变换

Contourlet变换是一种新的图像二维表示算法,其基本思想是首先使用一个类似小波的多尺度分解描述出轮廓段,然后将图像数据拉普拉斯金字塔变换(Laplacian Pyramid,LP)和二维方向滤波器组(Directional Filter Bank,DFB)进行多尺度、多方向的变换。LP变换的基础是高斯金字塔,这是通过对原始图像循环进行高斯低通滤波和下采样来完成的,下采样的过程相当于带通滤波器,基于此就形成了从上到下有层次的金字塔样式的图像分解,LP变换的主要功能是将图像分解为低频系数子带和高频系数子带。

从根本上说,图像是由一个数值矩阵组成的。矩阵相邻的像素点可以组成短小的线条,而多个线条的聚集就形成图像的基本轮廓和纹理特性,因此引入DFB滤波器组的作用就是基于方向的角度对图像进行从粗分辨率到细分辨率的特征提取。DFB滤波器组首先将LP变换得到的高频分量抽样进行多方向分解,然后通过将分布在同一方向的奇异点,合成一个系数,用类似于线段的基结构表征图像的边缘细节等几何特征,实现对图像信息的稀疏逼近。

对低频子带重复上述LP和DFB分解过程即可实现图像的多尺度多方向分解。LP分解的每一层将图像分解为高频部分和低频部分,而DFB的优点是对于高频部分的表现更加优秀,这也就是两者叠加之后的Contourlet变换更具有优异性的原因。但是由于该变换在LP变换的分解和重构滤波器的过程中,带宽均大于 。因此,对滤波后的图像进行缩减下采样将会产生频谱混叠。频谱混叠相应削弱了Contourlet变换的方向选择性,因为同一方向的信息会在几个不同的方向子带中再次出现。同时,Contourlet变换的下采样也使该算法失去了平移不变性。

如上所述,针对Contourlet变换的缺陷分析,A.L.Cunha等人随即提出了NSCT变换。NSCT变换由两步组成,先将图像经非下采样金字塔分解滤波器分解为低频图像矩阵系数部分和高频图像矩阵系数部分,再由非下采样方向性滤波器将高频图像矩阵系数部分分解为若干个子带方向,如图3所示。

在NSP分解过程中由于没有下采样环节,则使得NSCT变换具备了平移不变性,这就增强了图像特征信息的方向选择性,并在多尺度多方向上更好地实现了纹理特征的描述。

因为上述两个步骤中已经全部去除了滤波器组的下采样因子,图像的错位也就不再出现,这就是该变换满足平移不变性的原因。运用该变换进行图像的NSCT变换分解后,同Contourlet变换一样,也会得到一个低频子带和若干个高频子带,而且随着子带层数的增加,细节就实现了逐级放大。

将JAFEE人脸表情库中的一幅图像进行NSCT变换三层分解之后,变换分解结果则如图4所示,仔细观察图像的细微之处,由此可知,低频子带的图像系数矩阵主要描述了人脸五官的基本轮廓,对原始图像进行了低频滤波之后,图像变得模糊不清,而高频子带的图像系数矩阵则主要描述了人脸五官的更细节的轮廓及纹理等信息。如第二层四个方向上的高频子带信息较为细腻地从不同方向描述了口、眼、鼻子的细节特征,验证了随着子带层数的增加,细节纹理等被逐渐放大的效果事实;其他可如第三层高频子带信息则描述了更加细微的对光照等外部因素鲁棒性强的细节特征。在采用支持向量机或者极限学习机进行分类的时候,考虑该变换的平移不变性,分解次数太多会导致维数灾难。另外,也进一步考虑到各层子带所描述和包含的信息量,研究择取三层NSCT变换分解,且设定各层方向数目为2,4,2的时候,较为理想。

3 非下采样Contourlet变换表情识别

在人脸表情识别系统中,人脸的每个部位对表情识别的贡献率是不同的。研究表明,眼睛和嘴唇部位,对人脸表情的识别,起着决定性的作用。因此,本算法将人脸表情分割成含有丰富表情的眼睛部位和嘴唇部位两个区域开展研究。本文在人脸表情识别技术中使用了NSCT算法,先用该算法进行人脸表情关键区域的特征选择,其中,在人脸表情的非下采样Contourlet特征融合之后,因为维数较大(如选取JAFFE人脸表情库的210幅图片,特征提取并融合后可达210*101025维),直接带入分类器的话,会引发维数灾难,而且会显著降低分类器的分类效率。为此,在把特征提取之后的数据引入分类器之前,应先进行数据压缩,以避免维数灾难。本文引入PCA方法进行维数约简。然后调用主成分分析算法进行特征提取,最后采用极限学习机(extreme learning machine,简称ELM)进行表情分类,并与BP神经网络[6]分类算法进行识别正确率和识别效率的对比。

在此,给出非下采样Contourlet变换表情识别的原理实现框架,具体如图5所示。

4 极限学习机

2004年,新加坡南洋理工大学的黄广斌副教授研究极限学习机(Exteme Learning Machine,ELM)算法。这是一种简单小巧、高效可靠的单隐层前馈神经网络学习算法。传统的神经网络学习算法,比如BP神经网络,不仅容易产生局部最优解,而且在训练时,还需要人为设置大量的训练参数。极限学习机则具有学习速度快且泛化性能好的优点,这是因为该算法流程简洁在只需要提前设置网络的隐层节点数目,在算法运行过程中将不再需要调整网络的输入权值和隐元的偏置大小,而且算法最终只会产生唯一的最优解。因此,近年来,ELM已经成为神经网络研究领域的一个研究热点,并成功应用于手写数字识别、人脸识别、时间序列预测等领域。以下介绍ELM算法的工作原理。

已知给定N个不同的样本D={(xi ,yi)|xi Rn, yi Rn }, i=1,2,3,…,M。ELM算法是前馈神经网络,主要用于训练单隐含层,这点与BP神经网络不同,BP神经网络可以手动设置隐含层数目。那么,该神经网络的数学模型可以表述为:

在式(3)中,行代表训练样本所有隐结点的输出。ELM算法是一种速度极快的单隐层前馈神经网络学习算法。其算法设计原理可以分析总结为如下几步:

第一步,通过随机初始化的方式,对偏置 和权值 进行随机赋值。需要说明的是,这一步由于不需要调整网络的输入权值和隐元的偏置大小,就大大提高了ELM算法的运行速度。

第二步,计算隐含层输出矩阵H。利用公式(4),求得训练样本所有隐节点的输出,并将其计算成矩阵的形式。

第三步,近似求解权值 。利用公式 ,即可求得计算隐含层到输出层的权值。

5实验结果

运用非下采样Contourle变换的方法,对人脸表情图像进行特征提取,并用PCA算法进行特征选择,最后以BP神经网络和极限学习机进行分类。本章实验中所使用的数据库是日本的JAFFE表情库,该图像库由有10个女性的7种表情(生气、厌恶、恐惧、高兴、悲伤、惊讶和中性),共计213幅图像组成。本算法选取每人每种表情3幅,七种表情共210幅表情图像来进行实验。将每幅人脸表情图像经过几何归一化、直方图均衡化等预处理后,可以得到每幅像素点为130×130的统一大小的图像。实验采用三层NSCT变换分解,且各层方向数目为2,4,2,并将“PKVA”作为默认的滤波器。所以,每张人脸表情经变换后可以得到7个子带特征信息。为了做到与人无关的表情识别,在表情的分类环节,引入BP神经网络和ELM算法进行对照试验,并且随机选择每类表情的25幅表情图像作为训练集,其余5幅表情图像作为测试集。实验中BP神经网络和ELM算法的激励函数都是S型函数。实验重复10次以降低随机性。

由表1可以看出,经过非下采样Contourle变换提取后,使用极限学习机的表情分类平均准确率可达86.57%,比使用BP神经网络的分类方法平均准确率高出7.43%。而在执行时间方面,结果对比如表2所示,BP神经算法执行十次的平均时间为6.82s而,ELM算法仅为0.92s,因此可知,极限学习机的速度达到了BP神经网络的11.09倍,由这一结果已然明显可见ELM算法的高速性和高效性。

本文还分析了各类表情识别的相关分布,如表3所示。可以看到,分类正确率最低的是恐惧和厌恶,各自只有76%和80%。在恐惧表情的分类中,表情大多被错分为厌恶和愤怒,在厌恶表情的分类中,表情大多被错分为愤怒和恐惧。因此证明了这四种表情在JAFFE库上的表情单元的相近性,以致于无法使用NSCT变换提取出精确的表情特征。

在六种基本表情的实验分类结果中,可以通过绘制直方图来更加简明地进行对比分析,如图6所示。各类表情中分类正确率最高的愤怒、惊奇和高兴,对应达到了96%,96%和90%。相对来说,各种表情的识别率都已达到了较高范畴,这也在整体上表明了本算法在实现表情正确分类上的有效性。

本文所提方法比已有的研究方法在识别效果上提高了8%~12%,具体如表4所示,显示了文献报道中不同的方法在JAFFE表情数据库中的识别率,可知本文所研究的方法的测试结果优于文献报道结果.进一步表明了本算法的有效性。

6 结束语

本文研究将NSCT变换用于人脸表情的特征提取,并且使用极限学习机进行分类,而后又将实验结果与BP神经网络算法进行对比。详细描述了实验结果中各类表情的识别率,通过各类表情识别率都比较高这一结果事实,表明了本方法的有效性和高效性。

NSCT算法中,并没有对NSCT各层分解方向数目做具体的探讨;在表情分类时,ELM算法和BP神经网络各自的参数寻优也并未是实现深化,因此对NSCT算法各层分解方向数目做具体的探讨,并进行深化的参数寻优,则有望进一步提高人脸表情研究的识别效果。

参考文献:

[1] HUANG G, ZHOU H. Extreme learning machine for regression and multiclass cassification[J]. Systems,Man, and Cybernetics,PartB Cybernetics, IEEE Transactions on, 2012,42(2):513-529.

[2] ZUO Kunlong ,LIU Wenyao. Facial expression recognion using active appearance models[J ] . Journal of Optoelectronics ·La ser (光电子·激光) ,2004 ,15 (7) : 853-857.

[3] CHANG Ya, HU Changbo, TURK M.Probabilistic expression analysis on Manifolds[C]//Proc.of Conference on Computer Vision and Pattern Recognition, Washington D. C., USA: [s. n.], 2004.

[4]朱健翔, 苏光大, 李迎春. 结合Gabor特征与Adaboost的人脸表情识别[J]. 光电子:激光, 2006, 17(8):993-998.

[5] Littlewort G, Bartlett M S, Fasel I, et al. Analysis of machine learning methods for real-time recognition of facial expressions from video[J]. Computer Vision & Pattern Recognition, 2004.

[6] 乔杉. 基于BP神经网络的人脸识别方法研究[D]. 武汉:中国地质大学, 2014.

猜你喜欢
学习机子带人脸
一种基于奇偶判断WPT的多音干扰抑制方法*
有特点的人脸
子带编码在图像压缩编码中的应用
极限学习机综述
三国漫——人脸解锁
基于极限学习机参数迁移的域适应算法
分层极限学习机在滚动轴承故障诊断中的应用
基于虚拟孔径扩展的子带信息融合宽带DOA估计
马面部与人脸相似度惊人
长得象人脸的十种动物