基于MG-LTP与ELM的微表情识别

2015-10-15 02:05唐红梅石京力郭迎春韩力英

电视技术 2015年3期

关键词：识别率特征提取分类器

唐红梅，石京力，郭迎春，韩力英，王霞

(河北工业大学信息工程学院，天津 300401)

基于MG-LTP与ELM的微表情识别

唐红梅，石京力，郭迎春，韩力英，王霞

(河北工业大学信息工程学院，天津 300401)

特征提取和表情分类是表情识别的关键技术。针对传统方法识别率低的缺点，首先，提出了一种基于平均灰度的局部三值模式(MG-LTP)新算法，用于提取表情特征；其次，使用极限学习机(ELM)作为分类器，用于特征分类；最后，将二者结合用于表情识别，并进一步应用于人脸微表情识别中。在JAFFE数据库及CASME人脸微表情数据库进行试验，与传统方法对比，取得了较好的效果。

微表情；特征提取；分类识别；局部三值模式；极限学习机

人脸表情在人与人交流的交流过程中，起着非常重要的作用。但是，有些表情的变化速度很快，并不容易察觉到。1969年，Ekman和Friesen定义了一种新的面部表情，称之为微表情(Micro-Expression)[1]。微表情是人类试图压抑或隐藏真实情感时泄露的非常短暂的、不能自主控制的面部表情，它是一种非常快速的表情，持续时间仅为1/25～1/5s。目前，美国的Ekman团队和Shreve团队、加拿大的李康团队和Porter团队、芬兰的赵国英团队、日本的Polikovsky团队以及中国的傅小兰团队等都在开展微表情相关课题的研究[2-3]。

使用计算机对表情进行分类识别包含很多步骤，其中主要的是特征提取和分类器识别。常用的特征提取方法主要有主成分分析(PCA)、线性判别分析(LDA)、独立成分分(ICA)和局部二值模式(LBP)等[4-6]。LBP是一种局部纹理描述算子，能够很好描绘图像局部纹理特征。为了增强图像局部纹理特征对噪声和光照变化的鲁棒性，在参考文献[7]中，Tang和Triggs对LBP算法进行优化，提出了局部三值模式(LTP)算法。虽然LTP算法对LBP算法有了改善，但由于提取特征的局部化特点，使得其缺乏对图像整体信息的把握，在抗噪声干扰方面依然能力不足。常用的分类器主要有K近邻(KNN)、神经网络法(NN)、贝叶斯分类和支持向量机(SVM)等[8-10]。为了克服以上几种算法识别率低、参数复杂和运算速度慢的缺点，在参考文献[11]中，Huang提出了一种基于单隐层前馈神经网络的新算法，称为极限学习机(ELM)。

综上所述，该文针对LTP算法进行改进，综合利用图像的局部特征和整体信息，提出了MG-LTP新算法，并使用ELM作为分类器，在JAFFE数据库上进行表情识别，进一步在CASME数据库上进行微表情识别，给出了实验结果和分析。通过分析微表情，目的是发现人试图隐藏的真实情感，能够广泛应用于临床、司法、安全等领域。在日常生活中，微表情研究具有十分重要的实际意义，例如商业谈判、审讯嫌疑犯等，都可以通过分析细微表情来寻求对方的真实意图。

1 基于MG-LTP的特征提取

1.1 LTP算子描述

局部三值模式(LTP)是一种局部纹理特征提取方法，由局部二值模式(LBP)发展而来。LTP的基本思想定义如下：设置阈值t，与中心像素灰度值gc构成新的区间[gc-t,gc+t]。若像素灰度值gi在此区间内，则gi量化为0；若gi大于区间最大值，则gi量化为1；若gi小于区间最小值，则gi量化为-1。计算如下

(1)

(2)

式中：i=0,1，2，…,R-1；gc为中心像素点灰度值；gi为中心像素点周围的像素点灰度值；R为周围像素点的个数；t为阈值。当选取R为8时，阈值t为5，编码如图1所示(箭头代表编码顺序)。

图1 标准LTP编码示意图

为了计算简单，LTP编码可以分为正值LTP计算和负值LTP计算，两部分分别计算编码,如图2所示。

图2 正负值LTP编码示意图

LTP是LBP的扩展算法，由二元改进为三元，因此能够提取更丰富的局部纹理特征，并且设置了阈值区间，使计算结果受像素灰度差异变化的影响变小[12]，所以该算法较LBP更具有判别能力，而且对于统一区域的噪声更不敏感。使用LBP算子，LTP算子进行滤波，实验结果如图3所示。

图3 LBP/LTP 滤波图像

1.2 MG-LTP新算法描述

LTP作为一种局部纹理特征提取的算法，缺乏对图像整体信息的粗粒度把握，抗噪声干扰能力不足。因此，本文提出平均灰度局部三值模式(Mean-gray Local Ternary Patterns，MG-LTP)算法，结合图像局部纹理特征与图像整体信息的特点，来改善LTP的不足之处。

在MG-LTP的计算中，不再进行相邻像素之间的比较，取而代之的是相邻像素块之间平均灰度的比较。主要思想是，首先设置像素块大小(不同的像素块大小代表不同的观察和分析粒度，通常以MGs-LTP表示像素块大小为S×S的LTP)，计算每个像素块的平均灰度；其次设置阈值计算三元编码；最后为了方便计算，将三元编码转换为二元编码。与LTP相比，MG-LTP的优点主要体现在计算了S×S像素块的平均灰度，把握住了图像的整体信息，增强了算法的抗噪声干扰能力。详细步骤如下：

1)设置像素块大小，并计算每个像素块的平均灰度。若设置像素块大小为3×3(阴影部分为1个3×3像素块)，并计算每一个像素块的平均值，如图4所示。

图4 计算S×S像素块的平均灰度

2)计算三元编码。根据LTP算法，若设置阈值t为5，计算MG-LTP三元编码，如图5所示。

图5 计算三元编码

3)由上一步骤得到的三元编码，根据上文中LTP计算方法，可以转换为二元的正值MG-LTP编码和负值MG-LTP编码两部分。将二者串联起来，作为MG-LTP编码，如图6所示。

图6 三元编码转换为二元编码

2 ELM分类器

在文献[11]中，Huang和Zhu等人在单隐层前馈神经网络(SLFNs)的基础上提出了一种新的算法，称为极限学习机(ELM)。相比传统前馈神经网络，ELM分类器学习速度更快、精度更高、参数调整更为简单。ELM结构如图7所示。

图7 ELM结构图

(3)

式中：ai=[ai1,ai2,…,ain]T，是连接输入结点和第i个隐藏层节点的权值向量；bi是第i个隐藏层节点的偏差；βi=[βi1,βi2…,βim]T是连接第i个隐藏层结点与输出结点的权值向量；ai·xj表示向量ai和向量xj的内积。激励函数g(x)的类型一般设置为“Sine”，“Sigmoid”或“RBF”。如果上述的前馈神经网络能零误差的逼近这N个样本，则存在ai,bi,βi使

(4)

式(4)可以简化为

Hβ=T

(5)

其中

(6)

(7)

(8)

误差存在时，定义εj为预测值与实际值tj之间的误差，式(4)改写为

(8)

定义E(W)为预测值与实际值的误差平方，为了寻求最好的预测结果，问题便转化为寻找最优权值W=(a,b,β)来使E(W)最小，如式(9)所示

(9)

Huang和Chen提出一种思想，若激励函数无穷可微，则不需要去调整全部网络的参数。网络训练前，输入权值ai和偏差bi随机设定，训练过程中保持数值不变[13]。ELM分类识别结果的优良取决于隐藏层节点输出权值βi。通过计算公式(5)的最小二乘解来完成网络的最优训练，并且解是唯一的

(10)

式中：H*表示隐含层输出矩阵H的Moore-penrose广义逆[14]。

3 实验结果及分析

实验选择JAFFE人脸表情数据库以及CASME人脸微表情数据库。其中JAFFE包含了213幅日本女性的脸相，表情库中共有10个人，每个人有7种表情(中性、高兴、惊奇、愤怒、悲伤、恐惧、厌恶)。部分JAFFE人脸表情数据库图片如图8所示。

图8 部分JAFFE人脸表情数据库图片

CASME是中科院心理研究所公开发布的微表情数据库，该数据库共有195个微表情，全部在实验室环境下诱发得到，视频的频率是60f/s(帧/秒)[15]。部分CASME微表情数据库图片如图9所示。

实验中，本文使用的训练样本与识别样本的比例为2∶1。每种表情训练图片为20张，测试表情为10张。共7种表情，所以使用的训练样本图片总数为140，识别样本图片总数为70。在本文所提出的方法中，LTP阈值t设为5；MG-LTP设为MG4-LTP，即采用4×4像素块来计算平均灰度；ELM的神经节点个数，通过交叉验证，设为300。

对于JAFFE数据库，试验结果如表1所示。从试验结果可以看出，高兴、惊讶和害怕这三种表情识别完全正确，识别率达到100%。生气的识别率最低，只有60%，由表中数据可以看到，生气被错误的识别为高兴、悲伤、嫌恶和中性的概率分别为10%。其余几种表情的识别率介于上述数值之间，为80%和90%。总体来说，70个识别样本中，正确识别了62个，识别率达到87.14%，误判率为12.86%。

表1 JAFFE数据库识别结果 %

对于CASME数据库，试验结果如表2所示。从试验结果可以看出，害怕表情识别完全正确，识别率达到100%。生气和厌恶的识别率最低，只有70%，由表2中数据可以看出，这两类表情分别存在被错误地识别为其他三类表情的情况。惊讶和中性的识别率为80%，高兴和悲伤的识别率均为90%。总体来说，70个识别样本中，正确识别了58个，识别率达到82.86%，误判率为17.14%。CASME数据库上的识别率要比JAFFE数据库低，主要是因为微表情的特征较细微，对不同表情特征提取的结果要求比较高。

表2 CASME数据库识别结果 %

在均使用同一种分类器ELM的前提下，在JAFFE数据库上和CASME微表情数据库上，使用不同的特征提取方法(PCA，LDA，LBP，LTP，MG-LTP)进行比较，实验结果如图10和表3所示。从中可以看出，传统的PCA和LDA效果不是很理想，识别率最低，LBP和LTP效果较好，识别率得到了提高。本文提出的MG-LTP算法要比其余4种算法的识别率高，效果最好，由此可见把握整体图像的粗粒度有助于减少噪声干扰，提高图像识别率。

图10 不同特征提取方法经ELM分类器后的识别结果比较

表3 不同特征提取方法经ELM分类器后的识别结果比较 %

为了准确分析算法的性能，减少外部环境的差异对实验的影响，所有实验均在CPU为Intel(R) Core(TM)2 Duo，2.2 GHz主频，4Gbyte/s内存，Windows 7操作系统和MATLAB R2010b的环境下进行。

4 小结

本文针对传统表情识别方法的低识别率问题，首先提出平均灰度局部三值模式(MG-LTP)新算法，再与极限学习机(ELM)结合起来进行表情及微表情的分类识别。该方法充分利用了MG-LTP算法结合图像局部纹理特征与图像整体信息的特性，具有判别能力强、对噪声不敏感的优点以及ELM识别精度高、参数调整简单的优点。在JAFFE数据库和CASME微表情数据库上进行试验，取得了较好的识别结果。如何更加实时地在动态视频序列中进行微表情分类识别，是下一步研究的重点。

[1]EKMAN P.Telling lies：clues to deceit in the marketplace，politics，and marriage revised edition[M].New York：WW Norton & Company，2009.

[2]YAN W J，WANG S J，LIU Y J，et al.For micro-expression recognition： database and suggestions[J].Neurocomputing，2014(1)：82-87.

[3]SHREVE M，BRIZZI J，FELILATYEV S，et al.Automatic expression spotting in videos[J].Image and Vision Computing，2014，32(8)：476-486.

[4]PANG S，OZAWA S，KASABOV N.Incremental linear discriminant analysis for classification of data streams[J].IEEE Trans.Systems，Man，and Cybernetics，2005，35(5)：905-914.

[5]OJALA T，PIETIKAINEN M，MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans.Pattern Analysis and Machine Intelligence，2002，24(7)：971-987.

[6]BARTLETT M S，MOVELLAN J R，SEJNOWSKI T J.Face recognition by independent component analysis[J].IEEE Trans.Neural Networks，2002，13(6)：1450-1464.

[7]TAN X，TRIGGS B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Trans.Image Processing，2010，19(6)：163-165.

[8]LIU Z，PAN Q，DEZERT J.A new belief-based K-nearest neighbor classification method[J].Pattern Recognition，2013，46(3)：834-844.

[9]BARAKAT M，DRUAUX F，LEFEBVRE D，et al.Self adaptive growing neural network classifier for faults detection and diagnosis[J].Neurocomputing，2011(18)：3865-3876.

[10]FUNG G M，MANGASARIAN O L.Multicategory proximal support vector machine classifiers[J].Machine Learning，2005，59(1)：77-97.[11]HUANG G B，ZHU Q Y.Extreme learning machine：theory and applications[J].Neurocomputing，2006(1)：489-501.

[12]MEHTA R，EGIAZARIAN K.Face recognition using scale-adaptive directional and textural features[J].Pattern Recognition，2014，47(5)：1846-1858.

[13]CHEN H，PENG J，ZHOU Y.Extreme learning machine for ranking： generalization analysis and applications[J].Neural Networks，2014(53)：119-126.

[14]HAN H G，WANG L D，QIAO J F.Hierarchical extreme learning machine for feedforward neural network[J].Neurocomputing，2014(128)：128-135.

[15]YAN W J，WU Q，LIU Y J，et al.Casme database： a dataset of spontaneous micro-expressions collected from neutralized faces[C]//Proc.201310th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition(FG).[S.l.]：IEEE Press，2013：1-7.

唐红梅(1968— )，女，副教授，硕士生导师，研究方向为数字图像处理、模式识别；

石京力(1988— )，硕士生，研究方向为数字图像处理；

郭迎春(1970— )，女，博士，副教授，研究方向为图像处理、模式识别。

责任编辑：时雯

Micro-expression Recognition Based on MG-LTP and ELM

TANG Hongmei，SHI Jingli，GUO Yingchun，HAN Liying，WANG Xia

(SchoolofInformationEngineering，HebeiUniversityofTechnology，Tianjin300401，China)

Feature extraction and expression classification are the key technologies of expression recognition.Considering of the low recognition rate of traditional methods，a new algorithm called mean gray local ternary patterns(MG-LTP) based on mean gray is firstly proposed in this paper，and MG-LTP is used to extract expression feature.Then，extreme learning machine(ELM) is used as a classifier for feature classification.Finally，the above two methods are combined for expression recognition，and further for facial micro-expression recognition.Experiments are completed on JAFFE database for expression recognition and CASME databases for facial micro-expression recognition.Compared with traditional methods，the method used in this paper achieves better results.

micro-expression；feature extraction；expression recognition；local ternary patterns；extreme learning machine

【本文献信息】唐红梅，石京力，郭迎春,等.基于MG-LTP与ELM的微表情识别[J].电视技术,2015，39(3).

TP391.4

10.16280/j.videoe.2015.03.031

2014-07-13