赵 军,赵 艳,杨 勇,,朴仁圭,黄 勇
(1. 重庆邮电大学 计算智能重庆市重点实验室,重庆 400065;2.韩国仁荷大学 情报通信工学部,仁川 402751)
基于降维的堆积降噪自动编码机的表情识别方法
赵 军1,赵 艳1,杨 勇1,2,朴仁圭2,黄 勇1
(1. 重庆邮电大学 计算智能重庆市重点实验室,重庆 400065;2.韩国仁荷大学 情报通信工学部,仁川 402751)
堆积降噪自动编码机是一种典型的深度学习模型,它能够刻画数据丰富的内在信息,具有较强的特征学习能力。基于主成分分析(principal component analysis, PCA)技术和堆积降噪自动编码机(stacked denoising autoencoders, SDAE)模型,提出一种新的表情识别算法PCA+SDAE。该算法对人脸图片进行裁剪及归一化等预处理,采用主成分分析技术对人脸特征进行线性降维,再利用堆积降噪自动编码机逐层进行特征学习并同时实现对人脸表情数据的非线性降维,可以得到更好的、维度更低的表情特征,并据此进行表情分类。对PCA+SDAE算法的仿真测试实验结果表明,其综合性能比其他的基于深度学习模型的表情识别方法更好,同时与传统的非深度学习表情识别方法相比,它具有更高的表情识别正确率。
表情识别;深度学习;堆积降噪自动编码机;主成分分析
面部表情不仅是人们常用的较自然的表达情感的方式,也是人类鉴别情感的主要标志,在情感计算中占有很重要的地位。近些年来,表情识别作为情感识别的主要方式[1],已被广泛地应用到人机交互、远程教育管理、车辆安全驾驶、公共场合安全监控等领域。
传统的表情识别思路包括以下几个步骤:获得数据、预处理、特征提取、特征选择、表情分类[2-4],而在表情分类之前所做的工作概括起来就是特征表达,良好的特征表达对最终分类的准确性起着非常关键的作用,这部分工作一般都是先于表情分类过程独立完成。截至目前为止,已有人提出多种特征表达方法,比如Gabor小波特征、离散余弦转换、局部二值模式等。
深度学习通过构建具有多隐层的非线性神经网络结构,将输入数据通过逐层特征变换,将样本在原空间的特征表示变换到一个新的特征空间,从而试图学习数据样本的本质特征,并建立模拟人脑进行分析学习的神经网络,进一步模仿人脑来解释图像、声音、文本等数据[5]。与特征表达方法相比,深度学习更能够刻画数据的丰富内在信息,从而最终提升分类的准确性。近些年来,一些深度学习方法,如受限玻尔兹曼机、深度信念网络和卷积神经网络也被应用于表情识别领域。2002年,FASEL B利用卷积神经网络进行表情识别[6]; 2014年,刘云帆等人利用光流特征和稀疏自动编码机进行表情识别[7];同年,LV Y等人利用深度信念网络对脸部切片进行检查,并利用自动编码机进行表情识别[8];2015年,JUNG H等人利用深度神经网络和卷积神经网络开发了一套表情识别系统[9],同年LIU P等人利用结合深度信念网络和adaboost的方法进行表情识别[10]。尽管基于深度学习模型的表情识别方法已经取得较大的研究进展,但人们发现仅使用单一的深度学习模型进行表情识别很难取得较高的识别率;要取得更好的结果,需要对模型进行改造,其工作流程繁琐,而且模型训练与识别的过程也较为复杂。
堆积降噪自动编码机[11]是一种高效的深度学习模型。本文提出一种基于主成分分析(principal component analysis,PCA)和堆积降噪自动编码机(stacked denoising autoencoders, SDAE)的表情识别方法,对输入特征先利用主成分分析进行线性降维,再利用堆积降噪自动编码机在特征学习时对数据进行非线性降维,从而得到更有效的特征表达,使得预测平均时间及表情识别率都有所提高。仿真实验结果验证了新方法的有效性。
1.1 降噪自动编码机
(1)
(1)式中,L是损失函数。把向量x和z的每个分量看做满足伯努利分布,使用交叉熵来度量x和z之间的距离。
(2)
图1 降噪自动编码机结构Fig.1 The structure of denoising auto-encoders
1.2 堆积降噪自动编码机
图2 堆积降噪自动编码机结构Fig.2 Structure of stacked denoising auto-encoders
与卷积神经网络和深度信念网络等常用深度学习模型相比,SDAE具有更强的特征学习能力,在手写数字识别领域已经得到成功应用,自然地,我们也可以考虑将SDAE应用于表情识别领域。不过,由于原始人脸图像含有大量与表情表达无关的成分,如果直接将其输入堆积降噪自动编码机进行特征学习,必定会影响模型训练和识别的效率,因此,需要事先有效去除图像数据中的无关成分。基于这一思想,我们提出PCA+SDAE的表情识别算法,算法框架如图3所示。
图3 基于PCA+SDAE的表情识别方法框架图Fig.3 Framework of facial expression recognition method based on PCA+SDAE
算法首先对人脸图片进行裁剪及归一化等预处理。先对人脸图片按文献[15]的方式进行剪裁,既减小图片数据的规模,又去除头发、背景等干扰区域,尽可能只保留脸部与表情表达相关的部分;然后进行灰度归一化处理,以减小因光照不匀而带来的影响。
接下来,算法采用PCA[16]对预处理之后的人脸特征进行降维。PCA是一种正交线性变换,它利用主成分值来替代原始数据,可以有效提取表达表情的主要成分,从而实现对人脸图像数据的线性降维。PCA降维的这种线性特性,正好与随后的SDAE学习过程的非线性降维形成互补性,仿真实验结果表明这种方式能够取得较理想的效果。
算法最后将降维得到的特征输入SDAE进行特征学习,从而完成堆积降噪自动编码机的训练,这是算法最核心的步骤。SDAE通常要求各层输出数据的维度要低于输入数据[11],于是,SDAE模型的学习训练过程也是一个对输入数据进行非线性降维的过程;此外,SDAE各层节点数通常是由低到高逐层递减的[11-12],通常可设为整百或整十[8]。
进行表情识别时,将待识别人脸图像进行同样的预处理和PCA降维,将训练得到各层参数的SDAE作为测试模型,把待识别人脸图像输入SDAE模型,就可以得到表情分类结果。
3.1 实验设置
为了验证本文提出方法的有效性,我们采用经典的表情数据集CK+和JAFFE[17-19]进行实验测试,对包括愤怒、厌恶、害怕、高兴、悲伤、惊讶[20]等6种常见的基本表情进行分类。除中性表情的人脸图片外,我们分别从CK+数据集中选取600张表情图片、从JAFFE数据集选取183张表情图片作为样本,按照十折交叉验证的方法进行实验。
实验过程中,我们按文献[11-12]和[8]讨论的方法来设置SDAE模型的参数。我们为CK+数据集选取5层结构,隐层节点数由低到高分别是500,400,200;由于JAFFE数据集较小,需要更多层模型来进行特征学习,我们为其选择7层模型,隐层节点数由低到高分别是500,400,300,200,100。
3.2 实验与结果分析
3.2.1 与不同深度学习方法的对比实验
表1比较了本文提出的PCA+SDAE算法与几种经典的基于深度学习的表情识别算法的实验测试结果。
表1 不同深度学习算法的表情识别率
测试结果表明,PCA+SDAE的综合性能明显优于经典的堆积降噪自动编码机SDAE、深度信念网络(deep belief networks, DBN),略优于卷积神经网络(convolutional neural networks, CNN),但略次于文献[8]提出的FP+SAE算法。不过值得注意的是,FP+SAE算法需先对人脸切块进行特征提取,再对脸部各切块特征进行融合,最后利用堆积自动编码机进行表情识别,其计算过程比本文提出的算法更为复杂。
3.2.2 与非深度学习方法的对比实验
我们比较了PCA+SDAE与人工神经网络(artificial neural networks, ANN)、局部二值模式+支持向量机(local binary pattern+support vector machine, LBP+SVM)等3种算法对人脸表情进行识别的效果,其中,ANN和LBP+SVM是两种经典的非深度学习的表情识别算法。实验结果如表2所示。
表2 PCA+SDAE与非深度学习方法的表情识别率比较
测试结果表明,PCA+SDAE的综合性能明显优于ANN和LBP+SVM。从某种意义上说,这一结果反映了深度学习方法具有更强的自动学习特征的能力。
本文提出一种结合主成分分析和堆积降噪自动编码机的表情识别方法PCA+SDAE。测试实验结果表明,总体来看,与其他几种经典的深度学习方法和非深度学习方法相比,PCA+SDAE能得到更高的表情识别率。但是迄今为止,尽管有一些原则性的约束和方向性的讨论,在SDAE模型结构的选择仍然主要利用经验来确定,因此,如何结合人脸图片的特征,选择最优的模型结构值得进一步研究;另外,目前的表情识别大都应用于正面人脸表情,今后还可以进一步拓宽到有姿态的表情识别领域。
[1] FASEL B,LUETTIN J.Automatic facial expression analysis:a survey[J].Pattern recognition,2003,36(1):259-275.[2] SUMATHI C P, SANTHANAM T, MAHADEVI M. Automatic facial expression analysis a survey[J]. International Journal of Computer Science & Engineering Survey, 2012, 3(6):47-59.
[3] CALEANU C D. Face expression recognition: a brief overview of the last decade[C]// 8th IEEE International Symposium on Applied Computational Intelligence and Informatics. Timisoara: IEEE press, 2013: 157-161.
[4] PANTIC M, ROTHKRANTZ L J M. Automatic analysis of facial expressions: the state of the art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1424-1445.
[5] BOUREAU Y, CUN Y L. Sparse feature learning for deep belief networks[C]//Advances in neural information processing systems. Vancouver: NIPS press, 2008: 1185-1192.
[6] FASEL B. Mutliscale facial expression recognition using convolutional neural networks[C]//Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP 02).Ahmedabad: ICVGIP press, 2002: 1-9.
[7] LIU Y, HOU X, CHEN J, et al. Facial expression recognition and generation using sparse autoencoder[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 125-130.
[8] LV Y, FENG Z, XU C. Facial expression recognition via deep learning[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 303-308.
[9] JUNG H, LEE S, PARK S, et al. Development of deep learning-based facial expression recognition system[C]// 21st Korea-Japan Joint Workshop on Frontiers of Computer Vision. Mokpo: IEEE press, 2015: 1-4.
[10] LIU P, HAN S, MENG Z, et al. Facial expression recognition via a boosted deep belief network[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE press, 2014: 1805-1812.
[11] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(6):3371-3408.
[12] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th international conference on Machine learning. Helsinki: ACM press,2008: 1096-1103.
[13] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1):1-127.
[14] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[M]∥Advances in neural information processing systems 19(NIPS’06). [s.L.]: MIT Press, 2007:153-160.
[15] DENG H B, JIN L W, ZHEN L X, et al. A new facial expression recognition method based on local Gabor filter bank and PCA plus LDA[J]. International Journal of Information Technology, 2005, 11(11): 86-96.
[16] JOLLIFFE I. Principal component analysis[M]. USA: John Wiley & Sons, Ltd, 2002.
[17] KANADE T, COHN J F,TIAN Y. Comprehensive database for facial expression analysis[C]// Fourth IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble: IEEE press, 2000: 46-53.
[18] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (ck+): a complete expression dataset for action unit and emotion-specified expression[C]//IEEE Computer Society Conference of Computer Vision and Pattern Recognition Workshops. San Francisco, CA: IEEE press, 2010: 94-101.
[19] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001, 21(21):1357-1362.
[20] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J].Journal of Personality and Social Psychology, 1971, 17(2):124-129.
赵 军(1971-):男,重庆市人,博士,教授,硕士生导师。主要研究方向为人工智能与模式识别、情感计算等。E-mail:zhaojun@cqupt.edu.cn。
赵 艳(1990-):女,山西朔州人,硕士研究生,主要研究方向为图像处理与模式识别E-mail:cquptzyan@163.com。
杨 勇(1976-):男,云南大理人,博士,副教授,硕士生导师。主要研究方向为人工智能与模式识别、情感计算、数据挖掘等。E-mail:yangyong@cqupt.edu.cn。
朴仁圭(1972-),男,韩国仁川人,韩国仁荷大学博士生导师,主要研究方向为基于图像和视频的3D形状采集、建模、处理和呈现,嵌入计算及视觉,多媒体应用。E-mail:pik@inha.ac.kr。
黄 勇(1990-),男,湖南益阳人,硕士研究生,主要研究方向为图像处理与模型识别。E-mail:lyrhy@foxmail.com。
(编辑:张 诚)
Facial expression recognition method based on stacked denoising auto-encoders and feature reduction
ZHAO Jun1, ZHAO Yan1, YANG Yong1,2, PARK Inkyu2, HUANG Yong1
(1. Chongqing Key Laboratory of Computational and Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China; 2. Department of Information and Communication Engineering, Inha University, Incheon 402751, Korea)
A Stacked Denoising Auto-Encoders (SDAE) is a typical deep learning model. Because of its capability of disclosing rich inherent information from data, and it has a strong ability of leaning features. Herein, a new algorithm principal components analysis+stacked denoising auto-encoders (PCA+SDAE) for facial expression recognition is put forward on the bases of principal components analysis (PCA) technology and stacked denoising auto-encoders model. By the new algorithm PCA+SDAE, a facial image is firstly processed by cutting and normalization; then the linear dimensionality of its expression features is reduced by PCA; lastly, a greed layer-wise feature learning is conducted by a SDAE, and the non-linear dimensionality of its expression features is simultaneously reduced. Consequently, facial expression can be recognized based on the more powerful and lower dimensional facial features can be obtained. The results of simulation test experiments on algorithm PCA+SDAE show that the proposed method has better overall performance than some other expression recognition methods based on deep learning models; and it can also get higher expression recognition accuracy than traditional non-deep learning based expression recognition methods.
facial expression recognition; deep learning; stacked denoising autoencoders; principal component analysis.
10.3979/j.issn.1673-825X.2016.06.016
2016-03-15
2016-07-20
赵 军 zhaojun@cqupt.edu.cn
重庆市自然科学基金项目(CSTC,2007BB2445);韩国科学与信息科技未来规划部2013年ICT研发项目(10039149)
Foundation Items:The Natural Science Foundation Project of CQ (CSTC, 2007BB2445); The MSIP Ministry of Science, ICT & Future Planning(MSIP) of Korea in the ICT R&D Program 2013 (10039149)
TP181
A
1673-825X(2016)06-0844-05