刘锦峰 黄江峰
摘 要:面部表情能够反映人的内心情绪,在智慧课堂真实场景中识别学生面部表情从而获知学生的学习状态一直是研究的热点与难点。文章对图像进行预处理,然后分别输入到卷积神经网络层提取特征,并使用长短期记忆神经网络与提取到的特征融合。最后,将它们加权融合在一起,通过Softmax层对人脸表情进行分类。分别使用JAFFE等4个数据集、智慧课堂真实场景验证模型准确性,结果表明所提出的模型具有较强的泛化能力。
关键词:人脸表情;CNN;LSTM;智慧课堂
中图分类号:TP391.4;TP18 文献标识码:A文章编号:2096-4706(2022)01-0086-04
Abstract: Facial expressions can reflect people’s inner emotions. It has always been a hot and difficult research topic to recognize students’ facial expressions in real scenes of smart classrooms to know their learning status. This paper preprocesses the images, then inputs them to the convolutional neural network (CNN) layer to extract the features, and uses the long and short-term memory (LSTM) neural network to fuse with the extracted features. Finally, they are weighted and fused together to classify facial expressions through a Softmax layer. The accuracy of the model is verified by using respectively 4 datasets including JAFFE and the real scene of the smart classrooms, and the results show that the proposed model has strong generalization ability.
Keywords: facial expression; CNN; LSTM; smart classroom
0 引 言
面部表情是人類表达情绪的最主要、最直接、最自然的通道[1],也是用于情绪识别的一种重要依据[2]。随着人工智能、深度学习、计算机视觉等新兴技术的发展,计算机可以通过识别人们的外显面部特征,获取其内隐的情绪状态。基于此,人类面部表情识别已被广泛应用于智能监护、安全驾驶、刑侦检测、人机交互、智慧教学等领域。以智慧教学为例,通过准确感知学习者的情绪状态,教师可以适时调整自己的教学策略,有效实施个性化教学,提升学习者学习效果。
历经了近60年的发展历程,目前人脸识别的研究主要可分为以下四个阶段[3]:一是基于模板匹配的算法、基于几何结构的算法等;二是奇异值分解法、隐马尔克夫法、Eigenfaces特征法等;三是稀疏表示法、支持向量机(Support Vector Machines, SVM)、尺度不变特征变换(Scale-invariant Feature Transform, SIFT)、方向梯度直方图(Histogram of Oriented Gradient, HOG)、局部二值模式(Local Binary Patterns, LBP)等;四是卷积神经网络(Convolutional Neural Networks, CNN)、长短期记忆神经网络(Long Short-Term Memory, LSTM)等深度学习网络。
传统人脸识别方法在提取人脸特征时,容易受到复杂背景、光照变化、遮挡等情况的干扰,进而导致识别率低。而深度学习通过大量样本的训练学习,可以提取到更抽象、更深层次的特征,从而大大提高人脸识别准确率。目前,越来越多的学者通过深度学习方法识别人脸表情,已成为计算机视觉领域的热点。
近些年,卷积神经网络为面部表情识别的突破性进展起到了决定性作用[4,5],但仍然存在一系列问题。针对使用CNN进行面部表情识别时,难以对空间和时间信号进行处理的问题,程换新等[6]创新采用了CNN和LSTM模型获取实时环境或数据集中的图像序列;针对人脸识别时表情区域特征表示力不足、参数量过大等问题,周丽芳等[7]设计了一个轻量化网络模型BRNet,将二值卷积与传统卷积并行运算;针对微表情存在的数据集样本少、面部肌肉运动幅度小等问题,陈汤慧等[8]采用了预处理阶段放大微表情、改进Mini-Xception网络模型等策略;王涛等[9]将LBP特征和几何特征融合,结合SVM进行笑脸识别;吕秀丽等创新将改进局部LBP和深度信念网络(Depth Belief Net-work, DBN)结合进行人脸识别[10]。本文主要研究在真实的智慧课堂环境下,创新使用双通道CNN-LSTM模型对学生面部表情进行识别。
1 基于深度学习的面部表情识别
为提高真实智慧课堂环境下面部表情识别的效果,本文的面部表情识别主要分为以下三个流程:首先,对图像进行两步预处理,分别是捕捉人脸纹理信息和面部微表情,生成LBP图像;捕捉人脸边缘和结构特征,生成梯度图像。然后,将预处理后的LBP图像和梯度图像分别输入到CNN层提取特征,并使用LSTM与提取到的特征融合。最后,将它们加权融合在一起,通过Softmax层对人脸表情进行分类,从而实现面部表情识别。算法流程如图1所示。
1.1 基于LBP和梯度的图像预处理
为了更好提取嘴、鼻子、眼睛和其他关键区域的纹理特征,且对不同尺寸、灰度、旋转都具有更强的适应性和鲁棒性,本文使用Ojala改进的LBP算子,用任意大小的圆形邻域替代原来3×3的正方形邻域。
对于任意一个点(xc,yc),它的近邻点(xp,yp)的表示为:
其中,R代表半径,R代表样本点个数。由于圆形LBP采用的样本点可能不在像素坐标上,则需要双线性插值进行近似处理:
圆形LBP图像处理后的图像能将原始图像的细节还原,得到更多有用的特征点信息。
为了能够更好突出人脸边缘特征,本文采用高斯-拉普拉斯(LoG)算子进行边缘检测,边缘定位时结合了二阶导数零交叉性质。典型的二维高斯函数如式(4)所示:
其中,σ代表用于控制去噪的尺度因子,图像平滑效果最好的时候σ值取1。
使用LoG算子时,首先需要对图像低通滤波,也就是消除图像中的噪声,让图像变得光滑,具体实现过程是使用二维高斯函数与图像进行卷积运算,如式(5)所示:
然后使用Laplacian算子对平滑后的图像g(x,y)进行二阶导数运算,见公式(6):
梯度图像处理后的图像能更好保留面部的结构和边缘特征。
1.2 基于CNN和LSTM的特征提取
通过上述步骤的图像预处理,将处理后的LBP图像和梯度图像分别输入由若干卷积层和池化层构成的CNN中。其中,卷积层的作用是通过卷积核扫描输入图像数据,提取人脸图像特征,计算过程见公式(8), w代表卷积核权重系数,x代表输入数据,b代表偏置,σ代表激活函數ReLU,ReLU能使模型较快地达到收敛的状态,h代表运算后的输出结果:
池化层的作用是通过降低数据特征维度减少计算量,主要有平均值池化和最大值池化两种方法,计算过程见公式(9),hi、hi-1分别代表池化后、池化前的特征数据。
接下来,将CNN层提取的人脸面部表情特征输入LSTM单元,如图2所示,主要目的是为了提取人脸面部表情的时序特征。LSTM单元本质上是通过输入门i、输出门o,遗忘门f控制单元内部信息的流动。其中,遗忘门f决定丢弃哪些信息,计算过程见式(10);输入门i决定可以添加哪些信息m,计算过程见式(11),通过当前的输入和前一时刻的输出,更新当前单元状态C,计算过程见式(12);输出门o决定输出哪些信息,计算过程见式(13),通过学生当前的表情和输出门ot,可以得到学生以前的表情ht,计算过程见公式(14)。
在上述公式公式中,ht代表学生以前表情的输出,xt代表智慧课堂图像序列的输入,bf、bt、bc、bo代表偏置,Wf、Wt、Wc、Wo代表权重系数,tanh代表双曲正切激活函数,σ代表sigmoid激活函数。
1.3 特征融合与基于Softmax函数的分类
接下来,将使用加权的方法将两个通道上特征向量融合在一起,如式(15)所示:
其中pi代表融合后的特征,li代表图像LBP特征,si代表图像梯度特征,α为权重。最后,使用Softmax函数对融合后的特征经过全连接层后进行分类。
2 实验与分析
2.1 实验环境
本实验操作系统为Windows10 64位,处理器为AMD Ryzen 7 3800X型号,显卡为GTX 1080 TITAN。编程环境为Python 3.0,使用的深度学习框架为TensorFlow和Keras。
2.2 CK+、FER2013、JAFFE和Oulu-CASIA数据集试验结果
(1)首先是评估权重α对四个数据集识别准确率的影响,α的增加步长为0.1,当α=0时,代表仅输入LBP图像,当α=1时,代表仅输入梯度图像,实验结果表明,当α=0.5时,识别准确率最高。因此,本模型中α的取值为0.5。实验结果如表1所示。
(2)其次是基于FER2013数据集制作了混合矩阵,该数据集共有35 886张面部表情图片,共包含了愤怒、厌恶、恐惧、中性、高兴、惊讶、悲伤7种面部表情,包含了真实世界的遮挡、不平衡光照、不同姿势等多种情况,相对而言难度更大。实验结果如表2所示,其中行为真实类别,列为预测类别,对角线为预测正确率,其余为预测错误率。
2.3 性能测试
为进一步测试本模型在智慧课堂真实环境中的应用效果,使用该模型对智慧课堂真实视频的每帧画面进行表情识别。实验结果表明,在真实智慧课堂环境下,本文算法具有较好的识别准确率,如图3所示。
3 结 论
本文从特征提取、卷积神经网络两个方面展开了人脸表情识别研究。通过LBP图像和梯度图像,有效提取了人脸纹理信息、面部微表情、人脸结构和边缘特征,通过结合CNN和LSTM构建双通道卷积神经网络,最后将它们加权融合在一起,使用Softmax进行分类。在FER2013、JAFFE、CK+、Oulu-CASIA 和真实智慧课堂环境中均取得了较优越的性能。
考虑到智慧课堂中的表情分布不平衡这一问题,比如厌恶、悲伤、恐惧之类的表情较少。未来,笔者将尝试进一步扩大数据库多样性和规模,同时拓展对反映学生学习状态的微表情识别的研究。
参考文献:
[1]K ELTNER D, EKMAN P. Facial Expression of Emotion [M]. Handbook ofEmotions 3rd. New York: The Guilford Press, 2010: 173-183.
[2] Lancet T. Communication without Words[J]. University of East London, 1968, 24(23): 1084-5.
[3]魏为民,孟繁星等.人脸表情识别综述[J].上海电力大学学报,2021(12):597-602.
[4]景晨凯,宋涛等.基于深度卷积神经网络的人脸识别技术综述[J].计算机应用与软件,2018(1):223-231.
[5]靳显智,林霏等.基于CNN的面部表情识别算法[J].齐鲁工业大学学报,2021(6):64-69.
[6]程换新,王雪等.基于CNN和LSTM的人脸表情识别模型设计[J].电子测量技术,2021(9):160-164.
[7]周丽芳,刘俊林等.深度二值卷积网络的人脸表情识别方法[J].计算机辅助设计与图形学学报,2022(1):1-12.
[8]陈汤慧,高美凤.基于ME-Xception卷积神经网络的微表情识别[J].信号处理,2021(12):1-12.
[9]王涛,彭欣荣等.基于几何特征和LBP特征融合的笑脸识别算法的研究[J].电子测试,2021(12):52-54.
[10]吕秀丽,黄兆昊等.基于改进LBP和DBN的人脸识别算法研究[J].工业仪表与自动化装置,2021(5):80-82.
作者简介:刘锦峰(1982—),女,汉族,湖南娄底人,副教授,硕士,主要研究方向:高职教育、智能教育、电子商务。