唐红梅,石京力,郭迎春,韩力英,王 霞
(河北工业大学 信息工程学院,天津 300401)
基于MG-LTP与ELM的微表情识别
唐红梅,石京力,郭迎春,韩力英,王 霞
(河北工业大学 信息工程学院,天津 300401)
特征提取和表情分类是表情识别的关键技术。针对传统方法识别率低的缺点,首先,提出了一种基于平均灰度的局部三值模式(MG-LTP)新算法,用于提取表情特征;其次,使用极限学习机(ELM)作为分类器,用于特征分类;最后,将二者结合用于表情识别,并进一步应用于人脸微表情识别中。在JAFFE数据库及CASME人脸微表情数据库进行试验,与传统方法对比,取得了较好的效果。
微表情;特征提取;分类识别;局部三值模式;极限学习机
人脸表情在人与人交流的交流过程中,起着非常重要的作用。但是,有些表情的变化速度很快,并不容易察觉到。1969年,Ekman和Friesen定义了一种新的面部表情,称之为微表情(Micro-Expression)[1]。微表情是人类试图压抑或隐藏真实情感时泄露的非常短暂的、不能自主控制的面部表情,它是一种非常快速的表情,持续时间仅为1/25~1/5s。目前,美国的Ekman团队和Shreve团队、加拿大的李康团队和Porter团队、芬兰的赵国英团队、日本的Polikovsky团队以及中国的傅小兰团队等都在开展微表情相关课题的研究[2-3]。
使用计算机对表情进行分类识别包含很多步骤,其中主要的是特征提取和分类器识别。常用的特征提取方法主要有主成分分析(PCA)、线性判别分析(LDA)、独立成分分(ICA)和局部二值模式(LBP)等[4-6]。LBP是一种局部纹理描述算子,能够很好描绘图像局部纹理特征。为了增强图像局部纹理特征对噪声和光照变化的鲁棒性,在参考文献[7]中,Tang和Triggs对LBP算法进行优化,提出了局部三值模式(LTP)算法。虽然LTP算法对LBP算法有了改善,但由于提取特征的局部化特点,使得其缺乏对图像整体信息的把握,在抗噪声干扰方面依然能力不足。常用的分类器主要有K近邻(KNN)、神经网络法(NN)、贝叶斯分类和支持向量机(SVM)等[8-10]。为了克服以上几种算法识别率低、参数复杂和运算速度慢的缺点,在参考文献[11]中,Huang提出了一种基于单隐层前馈神经网络的新算法,称为极限学习机(ELM)。
综上所述,该文针对LTP算法进行改进,综合利用图像的局部特征和整体信息,提出了MG-LTP新算法,并使用ELM作为分类器,在JAFFE数据库上进行表情识别,进一步在CASME数据库上进行微表情识别,给出了实验结果和分析。通过分析微表情,目的是发现人试图隐藏的真实情感,能够广泛应用于临床、司法、安全等领域。在日常生活中,微表情研究具有十分重要的实际意义,例如商业谈判、审讯嫌疑犯等,都可以通过分析细微表情来寻求对方的真实意图。
1.1 LTP算子描述
局部三值模式(LTP)是一种局部纹理特征提取方法,由局部二值模式(LBP)发展而来。LTP的基本思想定义如下:设置阈值t,与中心像素灰度值gc构成新的区间[gc-t,gc+t]。若像素灰度值gi在此区间内,则gi量化为0;若gi大于区间最大值,则gi量化为1;若gi小于区间最小值,则gi量化为-1。计算如下
(1)
(2)
式中:i=0,1,2,…,R-1;gc为中心像素点灰度值;gi为中心像素点周围的像素点灰度值;R为周围像素点的个数;t为阈值。当选取R为8时,阈值t为5,编码如图1所示(箭头代表编码顺序)。
图1 标准LTP编码示意图
为了计算简单,LTP编码可以分为正值LTP计算和负值LTP计算,两部分分别计算编码,如图2所示。
图2 正负值LTP编码示意图
LTP是LBP的扩展算法,由二元改进为三元,因此能够提取更丰富的局部纹理特征,并且设置了阈值区间,使计算结果受像素灰度差异变化的影响变小[12],所以该算法较LBP更具有判别能力,而且对于统一区域的噪声更不敏感。使用LBP算子,LTP算子进行滤波,实验结果如图3所示。
图3 LBP/LTP 滤波图像
1.2 MG-LTP新算法描述
LTP作为一种局部纹理特征提取的算法,缺乏对图像整体信息的粗粒度把握,抗噪声干扰能力不足。因此,本文提出平均灰度局部三值模式(Mean-gray Local Ternary Patterns,MG-LTP)算法,结合图像局部纹理特征与图像整体信息的特点,来改善LTP的不足之处。
在MG-LTP的计算中,不再进行相邻像素之间的比较,取而代之的是相邻像素块之间平均灰度的比较。主要思想是,首先设置像素块大小(不同的像素块大小代表不同的观察和分析粒度,通常以MGs-LTP表示像素块大小为S×S的LTP),计算每个像素块的平均灰度;其次设置阈值计算三元编码;最后为了方便计算,将三元编码转换为二元编码。与LTP相比,MG-LTP的优点主要体现在计算了S×S像素块的平均灰度,把握住了图像的整体信息,增强了算法的抗噪声干扰能力。详细步骤如下:
1)设置像素块大小,并计算每个像素块的平均灰度。若设置像素块大小为3×3(阴影部分为1个3×3像素块),并计算每一个像素块的平均值,如图4所示。
图4 计算S×S像素块的平均灰度
2)计算三元编码。根据LTP算法,若设置阈值t为5,计算MG-LTP三元编码,如图5所示。
图5 计算三元编码
3)由上一步骤得到的三元编码,根据上文中LTP计算方法,可以转换为二元的正值MG-LTP编码和负值MG-LTP编码两部分。将二者串联起来,作为MG-LTP编码,如图6所示。
图6 三元编码转换为二元编码
在文献[11]中,Huang和Zhu等人在单隐层前馈神经网络(SLFNs)的基础上提出了一种新的算法,称为极限学习机(ELM)。相比传统前馈神经网络,ELM分类器学习速度更快、精度更高、参数调整更为简单。ELM结构如图7所示。
图7 ELM结构图
(3)
式中:ai=[ai1,ai2,…,ain]T,是连接输入结点和第i个隐藏层节点的权值向量;bi是第i个隐藏层节点的偏差;βi=[βi1,βi2…,βim]T是连接第i个隐藏层结点与输出结点的权值向量;ai·xj表示向量ai和向量xj的内积。激励函数g(x)的类型一般设置为“Sine”,“Sigmoid”或“RBF”。如果上述的前馈神经网络能零误差的逼近这N个样本,则存在ai,bi,βi使
(4)
式(4)可以简化为
Hβ=T
(5)
其中
(6)
(7)
(8)
误差存在时,定义εj为预测值与实际值tj之间的误差,式(4)改写为
(8)
定义E(W)为预测值与实际值的误差平方,为了寻求最好的预测结果,问题便转化为寻找最优权值W=(a,b,β)来使E(W)最小,如式(9)所示
(9)
Huang和Chen提出一种思想,若激励函数无穷可微,则不需要去调整全部网络的参数。网络训练前,输入权值ai和偏差bi随机设定,训练过程中保持数值不变[13]。ELM分类识别结果的优良取决于隐藏层节点输出权值βi。通过计算公式(5)的最小二乘解来完成网络的最优训练,并且解是唯一的
(10)
式中:H*表示隐含层输出矩阵H的Moore-penrose广义逆[14]。
实验选择JAFFE人脸表情数据库以及CASME人脸微表情数据库。其中JAFFE包含了213幅日本女性的脸相,表情库中共有10个人,每个人有7种表情(中性、高兴、惊奇、愤怒、悲伤、恐惧、厌恶)。部分JAFFE人脸表情数据库图片如图8所示。
图8 部分JAFFE人脸表情数据库图片
CASME是中科院心理研究所公开发布的微表情数据库,该数据库共有195个微表情,全部在实验室环境下诱发得到,视频的频率是60f/s(帧/秒)[15]。部分CASME微表情数据库图片如图9所示。
实验中,本文使用的训练样本与识别样本的比例为2∶1。每种表情训练图片为20张,测试表情为10张。共7种表情,所以使用的训练样本图片总数为140,识别样本图片总数为70。在本文所提出的方法中,LTP阈值t设为5;MG-LTP设为MG4-LTP,即采用4×4像素块来计算平均灰度;ELM的神经节点个数,通过交叉验证,设为300。
对于JAFFE数据库,试验结果如表1所示。从试验结果可以看出,高兴、惊讶和害怕这三种表情识别完全正确,识别率达到100%。生气的识别率最低,只有60%,由表中数据可以看到,生气被错误的识别为高兴、悲伤、嫌恶和中性的概率分别为10%。其余几种表情的识别率介于上述数值之间,为80%和90%。总体来说,70个识别样本中,正确识别了62个,识别率达到87.14%,误判率为12.86%。
表1 JAFFE数据库识别结果 %
对于CASME数据库,试验结果如表2所示。从试验结果可以看出,害怕表情识别完全正确,识别率达到100%。生气和厌恶的识别率最低,只有70%,由表2中数据可以看出,这两类表情分别存在被错误地识别为其他三类表情的情况。惊讶和中性的识别率为80%,高兴和悲伤的识别率均为90%。总体来说,70个识别样本中,正确识别了58个,识别率达到82.86%,误判率为17.14%。CASME数据库上的识别率要比JAFFE数据库低,主要是因为微表情的特征较细微,对不同表情特征提取的结果要求比较高。
表2 CASME数据库识别结果 %
在均使用同一种分类器ELM的前提下,在JAFFE数据库上和CASME微表情数据库上,使用不同的特征提取方法(PCA,LDA,LBP,LTP,MG-LTP)进行比较,实验结果如图10和表3所示。从中可以看出,传统的PCA和LDA效果不是很理想,识别率最低,LBP和LTP效果较好,识别率得到了提高。本文提出的MG-LTP算法要比其余4种算法的识别率高,效果最好,由此可见把握整体图像的粗粒度有助于减少噪声干扰,提高图像识别率。
图10 不同特征提取方法经ELM分类器后的识别结果比较
表3 不同特征提取方法经ELM分类器后的识别结果比较 %
为了准确分析算法的性能,减少外部环境的差异对实验的影响,所有实验均在CPU为Intel(R) Core(TM)2 Duo,2.2 GHz主频,4Gbyte/s内存,Windows 7操作系统和MATLAB R2010b的环境下进行。
本文针对传统表情识别方法的低识别率问题,首先提出平均灰度局部三值模式(MG-LTP)新算法,再与极限学习机(ELM)结合起来进行表情及微表情的分类识别。该方法充分利用了MG-LTP算法结合图像局部纹理特征与图像整体信息的特性,具有判别能力强、对噪声不敏感的优点以及ELM识别精度高、参数调整简单的优点。在JAFFE数据库和CASME微表情数据库上进行试验,取得了较好的识别结果。如何更加实时地在动态视频序列中进行微表情分类识别,是下一步研究的重点。
[1]EKMAN P.Telling lies:clues to deceit in the marketplace,politics,and marriage revised edition[M].New York:WW Norton & Company,2009.
[2]YAN W J,WANG S J,LIU Y J,et al.For micro-expression recognition: database and suggestions[J].Neurocomputing,2014(1):82-87.
[3]SHREVE M,BRIZZI J,FELILATYEV S,et al.Automatic expression spotting in videos[J].Image and Vision Computing,2014,32(8):476-486.
[4]PANG S,OZAWA S,KASABOV N.Incremental linear discriminant analysis for classification of data streams[J].IEEE Trans.Systems,Man,and Cybernetics,2005,35(5):905-914.
[5]OJALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[6]BARTLETT M S,MOVELLAN J R,SEJNOWSKI T J.Face recognition by independent component analysis[J].IEEE Trans.Neural Networks,2002,13(6):1450-1464.
[7]TAN X,TRIGGS B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Trans.Image Processing,2010,19(6):163-165.
[8]LIU Z,PAN Q,DEZERT J.A new belief-based K-nearest neighbor classification method[J].Pattern Recognition,2013,46(3):834-844.
[9]BARAKAT M,DRUAUX F,LEFEBVRE D,et al.Self adaptive growing neural network classifier for faults detection and diagnosis[J].Neurocomputing,2011(18):3865-3876.
[10]FUNG G M,MANGASARIAN O L.Multicategory proximal support vector machine classifiers[J].Machine Learning,2005,59(1):77-97.[11]HUANG G B,ZHU Q Y.Extreme learning machine:theory and applications[J].Neurocomputing,2006(1):489-501.
[12]MEHTA R,EGIAZARIAN K.Face recognition using scale-adaptive directional and textural features[J].Pattern Recognition,2014,47(5):1846-1858.
[13]CHEN H,PENG J,ZHOU Y.Extreme learning machine for ranking: generalization analysis and applications[J].Neural Networks,2014(53):119-126.
[14]HAN H G,WANG L D,QIAO J F.Hierarchical extreme learning machine for feedforward neural network[J].Neurocomputing,2014(128):128-135.
[15]YAN W J,WU Q,LIU Y J,et al.Casme database: a dataset of spontaneous micro-expressions collected from neutralized faces[C]//Proc.201310th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition(FG).[S.l.]:IEEE Press,2013:1-7.
唐红梅(1968— ),女,副教授,硕士生导师,研究方向为数字图像处理、模式识别;
石京力(1988— ),硕士生,研究方向为数字图像处理;
郭迎春(1970— ),女,博士,副教授,研究方向为图像处理、模式识别。
责任编辑:时 雯
Micro-expression Recognition Based on MG-LTP and ELM
TANG Hongmei,SHI Jingli,GUO Yingchun,HAN Liying,WANG Xia
(SchoolofInformationEngineering,HebeiUniversityofTechnology,Tianjin300401,China)
Feature extraction and expression classification are the key technologies of expression recognition.Considering of the low recognition rate of traditional methods,a new algorithm called mean gray local ternary patterns(MG-LTP) based on mean gray is firstly proposed in this paper,and MG-LTP is used to extract expression feature.Then,extreme learning machine(ELM) is used as a classifier for feature classification.Finally,the above two methods are combined for expression recognition,and further for facial micro-expression recognition.Experiments are completed on JAFFE database for expression recognition and CASME databases for facial micro-expression recognition.Compared with traditional methods,the method used in this paper achieves better results.
micro-expression;feature extraction;expression recognition;local ternary patterns;extreme learning machine
【本文献信息】唐红梅,石京力,郭迎春,等.基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(3).
TP391.4
A
10.16280/j.videoe.2015.03.031
2014-07-13