基于卷积神经网络的人脸表情识别研究

2019-08-12 01:27张璟

电脑知识与技术 2019年16期

张璟

摘要：人脸表情识别是计算机视觉领域的一项重要任务。针对经典VGG模型参数量巨大、训练成本较高的问题，提出了一种基于VGG模型的改进卷积神经网络。改进的模型减少全连接层的使用有效减少了参数量，加入批规范化层和dropout随机失活操作，进一步加速了模型的收敛，从而获得较好的分类效果。实验采用FER2013公开人脸表情数据集，实验结果表明，改进的模型提高了表情识别的准确率率和泛化能力，减少了时间消耗。

关键词：卷积神经网络;人脸表情识别;表情分类;批规范化;卷积

中图分类号：G642 文献标识码：A

文章编号：1009-3044（2019）16-0212-02

开放科学（资源服务）标识码（OSID）：

Abstract： Face expression recognition is an important task in the field of computer vision. An improved convolutional neural network based on VGG model was proposed to solve the problem of large number of classical VGG model parameters and large training time cost. The improved model reduces the use of full connection layer， effectively reduces the number of parameters， and adds batch normalization layer and dropout random deactivation operation， which further accelerates the convergence of the model and achieves better classification results. In the experiment， FER2013 was used to publish facial expression dataset， the experimental results show that the improved model improves the recognition rate and generalization ability of expression recognition， and reduces the time consumption.

Key words： convolutional neural network;face expression recognition; facial expression classification; batch normalization; convolution

人类通过脸部表情的细微变化传达了内心情感世界的真实反映[1]，通过快速捕捉并且准确识别人类表情，机器可以做出不同的响应并有效提高了人机交互的友好性和智能性。

传统的表情识别方法主要使用Gabor小波、Haar特征和LBP局部二值模式等算法提取表情特征，这些算法主要针对表情特征中的局部像素点，往往忽略了整个图像中像素点之间的内在联系。通常基于手工设计的表情特征提取方法费时费力，提取到的特征直接决定了表情分类的好坏，在复杂场景中的识别效果有待提高。

卷积神經网络在计算机视觉得到了广泛的应用，在表情识别领域也取得了显著的效果。通过端到端的训练方式将原始图像作为输入进行自动训练和特征自主提取，进一步减少了人工预处理并且适用于大规模的图片训练。

1 VGG模型

VGG[2]网络模型是牛津大学计算机视觉组的经典研究，通过线性堆叠3[×]3的小型卷积滤波器和2[×]2的最大池化层，在Alexnet模型基础上得到的更深的网络结构，获得了2014年Imagenet比赛的冠军。在网络中重复使用小卷积核的方法可以获得与较大尺寸的卷积核一样的空间特征信息与感受野大小，而且串联的卷积核之间额外增加的ReLU激活函数可以提高网络中的非线性表征。例如使用2个3[×]3的卷积核可以覆盖5[×]5的区域，可以减少了28%的参数量;使用3个3[×]3的卷积核可以感受到7[×]7的特征信息，但是减少了约45%的参数量，串联小卷积的方式在较深的网络中依然可以达到快速收敛与训练。VGG模型使用较小的卷积核和池化核使得网络的层数更深特征图更宽，但是连续3层的全连接层使得模型使用了巨大的参数，耗费了更多的计算资源和训练成本。

如表所示，输入层为224[×]224[×]3形状的图片，前两段卷积均包含2个卷积层，后三段卷积均包含了3个卷积层，每段卷积核的个数为64、128、256、512和512，相邻的卷积层之间通过ReLU激活函数稀疏网络，避免过拟合现象的发生。可以发现3个全连接层大约占了总参数量的89%，第一个全连接层大约占了74%。

2 基于改进VGG16网络的识别模型

在表情识别实验过程中改进了VGG模型，在相邻卷积层之间添加了批规范化BN层，每段卷积之间加入了随机失活dropout操作，并在后3段卷积前均加入了1[×]1卷积。批规范化层通过统一隐藏层中输入数据的分布，减小了中间层经过权重更新后对上层的输入数据分布的影响，有效地遏制了梯度弥散现象。使用dropout操作的目的是优化网络的训练，将中间层的部分神经元的权重或输出信息随机重置为0，增加了网络的稀疏性与独立性，降低了过拟合现象，提高了对新数据的适应性和鲁棒性。通过使用1[×]1卷积组合变化了通道信息并且较少了计算量。改进的VGG模型仅保留了一层全连接层，而且添加了dropout和批处理规范化BN减弱了参数之间的联合适应性，进一步加速了模型的收敛，提高了表情分类效果。

3 实验结果与分析

本文使用FER2013人脸表情公开数据库进行表情识别的实验。实验数据将人类表情分为：生气（Angry）、厌恶（Disgust）、害怕（Fear）、高兴（Happy）、悲伤（Sad）、惊讶（Surprise）、中性（Neutral）七类基本表情，实验数据均为48x48像素的灰度图。

本文使用数据扩充方法进行数据增强，对图像数据进行10度的旋转、水平和竖直方向随机移动10%、水平和垂直镜像变换及其组合操作，获得大量具有空间相关性的变换图像。通过图像增强有效的增强与丰富了实验数据，并且提高了模型的鲁棒性和适应性。

本文使用经典的VGG卷积神经网络以及改进的VGG卷积神经网络对FER2013数据集进行训练。经典的VGG方法在PrivateTest中的准确率为65.58%，经过改进的VGG16的模型的准确率为68.4%，准确率提高了2.82%。Ian Goodfellow经过研究证明平均人类在FER2013数据集的识别率为65%左右[3]，本模型得到的准确率略高于人类识别率，略低于排行榜中第3名的68.82%。带有预训练权重的拥有3个全连接层的VGG模型的参数量为138357544，经过改进的VGG16模型的参数量为18746823，约为原始VGG模型的13.5%。改进的VGG模型平均每步耗时252ms，训练150轮共耗时4小时9分钟，训练过程如图2所示。结果表明，改进的VGG模型对原始的VGG模型有了显著的提高。

本文方法在Private Test中的表情预测混淆矩阵如图3所示。分析结果发现模型对于开心的表情识别率最高为89%，而对于伤心表情识别率仅为45%。其中生气和厌恶表情容易混淆，悲伤和中性表情容易混淆，因为生气和厌恶表情均有不同程度的皱眉和张大嘴巴的动作，并不容易区分。悲伤表情中有大部分表现为微微皱眉的忧郁，这与没有表情变化的中性表情也比较相似。

4 结论

在本项表情识别工作中，提出了一个改进的vgg模型。加入批规范化和随机失活操作并减少了全连接层的使用，有效的压缩了模型的参数量并且达到了比赛排行榜第四名的准确率68.4%。但是对于轻微的忧伤和惊恐的表情识别率较低。未来的工作，我们将重点研究如何加强在表情变化不明显情况下的准确识别。

参考文獻：

[1]卢官明，何嘉利，闫静杰，等.一种用于人脸表情识别的卷积神经网络[J].南京邮电大学学报（自然科学版），2016，36（01）：16-22.

[2] SimonyanK ， Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science， 2014.

[3] Goodfellow I J， Erhan D， Carrier P L， et al. Challenges in Representation Learning： A report on three machine learning contests[J]. Neural Netw， 2013， 64：59-63.

[4] 孙晓，潘汀，任福继.基于ROI-KNN卷积神经网络的面部表情识别[J].自动化学报，2016，42（06）：883-891.

[5]李勇，林小竹，蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报，2018，44（01）：176-182.

[6]徐嵚嵛. 基于迁移学习的表情识别算法研究[D].南京邮电大学，2017.

[7]刘元震. 基于深度学习的人脸面部情感识别的研究[D].哈尔滨工业大学，2017.

【通联编辑：王力】