蒋斌 崔晓梅 江宏彬 丁汉清 袁俊岭
摘 要:作为人工智能领域的热门研究方向,人脸表情识别(facial expression recognition,FER)是让计算机获取人类感情最直接最有效的方式,在人机交互、智慧医疗、疲劳驾驶等研发课题中占据关键的技术地位。为了满足高识别率的应用需求,FER深度学习网络结构愈发复杂,占用了大量的计算资源和存储空间,严重影响了算法实时性的要求。围绕如何在有效提升模型运算速度的同时,保障模型的精度这一问题展开综述。首先,介绍了利用轻量级网络实现表情识别的重要数据集;其次,对用于人脸表情识别的经典轻量级网络模型进行了分析;再次,阐述了主要的网络轻量化方法的原理、特点及适用场景;最后,总结了轻量级网络在人脸表情识别研究中存在的问题和挑战,对未来的研究方向进行展望。
关键词:人脸表情识别;轻量化网络;网络轻量化;深度学习
中图分类号:TP391 文献标志码:A
文章编号:1001-3695(2024)03-003-0663-08
doi:10.19734/j.issn.1001-3695.2023.07.0287
New advances in lightweight networks for facial expression recognition
Jiang Bin,Cui Xiaomei,Jiang Hongbin,Ding Hanqing,Yuan Junling
(School of Computer Science & Technology,Zhengzhou University of Light Industry,Zhengzhou 450001,China)
Abstract:As a popular research direction in the field of artificial intelligence,FER is the most direct and effective way for computers to access human emotions.It occupies a key technical position in human-computer interaction,intelligent medical care,fatigue driving,and other R&D topics.In order to meet the application requirements of high recognition rate,the structure of FER deep learning network becomes more and more complex,occupying a large amount of computing resources and storage space,which seriously affects the real-time requirements of the algorithm.This paper focused on the problem of how to guarantee the accuracy of the model while effectively improving its computational speed.Firstly,it introduced the important datasets for expression recognition using lightweight networks.Secondly,it analyzed the classical lightweight network models used for facial expression recognition.Thirdly,it described the principles,characteristics,and applicable scenarios of the main network lightweighting methods.Finally,it summarized the problems and challenges of lightweight networks in facial expression recognition research and looked forward to the future research direction.
Key words:facial expression recognition;lightweight network;network lightweighting;deep learning
0 引言
面部表情是人類表达情感状态最真实、最有效的信号之一。人脸表情识别(FER)通过人脸检测、人脸对齐、特征提取、分类等几个部分[1]识别人的表情,并在智能控制、心理学、虚拟现实、人机交互、安防等领域得到广泛应用。
完成FER的关键在于如何有效获取人脸的表情特征。在深度学习热潮之前,表情识别研究多采用基于机器学习的方法,从整体、局部、几何、模型等多个角度,获取面部表情特征。经典方法,如局部二值模式(LBP)[2]、方向梯度直方图(HOG)[3]等,依靠手工提取人脸表情样本的浅层特征,也能够准确地分析和判断部分测试者的面部表情。然而当被识别者处于复杂多变的环境时,上述方法难以维持较高的识别率。
深度学习技术的异军突起给基于机器学习的表情识别方法注入了新的活力。基于深度学习的表情识别方法主要包含三个步骤:首先,针对输入样本(图像或视频)进行预处理,如去噪、分析定位等,若样本图像模糊,还需要先对样本图像进行修复,现有技术已经能够满足实验要求[4,5];其次,将处理好的图像输送到深度学习模型中进行特征提取;最后,将提取到的表情特征对分类器进行训练,进行依靠训练后的分类器正确地预测样本的表情分类。与传统方法不同的是,在深度学习方法中,特征提取和分类的过程均可由深度学习模型自行完成[6]。文献[7,8]均采用多任务级联卷积神经网络(CNN)的方法,提高了FER模型的性能。文献[9]将LBP与卷积神经网络相结合,在一定程度上解决了旋转问题。文献[10]提出一种加权混合深度神经网络(weighted mixture Feep neural network,WMDNN)自动提取对FER任务有效的特征,可以通过更简单的程序实现强大的性能。文献[11]提出一种模拟粗到细视觉注意的新型多注意网络,以学习表达相关区域的判别特征。由此可见,深度学习的出现使人脸表情识别取得了很大的进展,各种高精度卷积神经网络陆续被用于表情识别研究,但体积大,计算复杂阻碍了卷积神经网络技术的落地。因此轻量级卷积神经网络和网络模型轻量化方法成为了基于深度学习的人脸表情识别的重要研究方向。
轻量级人脸表情识别研究的识别任务是人脸表情样本,具体实现过程包括两个方面:a)依托现有轻量级网络进行人脸表情识别;b)对原有的卷积神经网络进行轻量级处理,再用于人脸表情识别。因此本文从以上两方面出发,对新型轻量级表情识别网络及模型压缩方法进行综述。
1 典型的人脸表情数据集
由于轻量级表情识别研究更侧重于人脸表情识别技术的实用化,所以其采用的人脸表情数据集更青睐于赋予网络在真实环境下开展表情识别所面临的挑战。例如:光照不均衡、头部姿态的不一致、人脸的部分遮挡,以及识别对象的复杂性都增加了表情识别的难度。
典型的人脸表情数据集如下所示。
a)CK+数据库是Lucey等人[12]在Cohn-Kanade数据库的基础上创建的。该库包含了来自123位不同民族参与者的593段人脸表情图像序列,完整展示了人脸表情从开始到完全展现的过程,如图1所示。
b)FER2013数据集[13]是由Google Research创建的公开数据库,其中包含测试图28708张,公共验证图和私有验证图各3 589张,如图2所示。该库包含了遮挡、姿态、光照等真实环境变化下的表情图像。
c)AffectNet数据集[14]是由Affectiva公司推出大规模野外面部表情数据集,包含超过一百万张面部图片,每个图像都标记了相应的情感类别。它们涵盖了不同性别、不同年龄和不同种族的面孔,以反映真实世界中的多样性。
d)RaFD数据库[15]是由不同年龄、性别及肤色的67位表演者拍摄而成,共有8 400张图像,包含高兴、悲伤、厌恶、惊奇、恐惧、生气、轻蔑以及中立表情8种基本表情。每种表情有5种不同的姿态和3种不同的眼神方向。
e)CelebA-Spoof數据库[16]是由北京交通大学、商汤科技及香港中文大学共同创建,包含10 177个名人超过62万张的人脸数据集,每个图像还伴随着43个属性标签,40个属于活体图像面部信息,如皮肤、鼻子、发型、眼镜等,3个属于欺骗类型标注,即使用照片、视频或面具等非真实人脸进行欺骗的情况。
上述人脸表情数据集的对比如表1所示。
2 用于表情识别的轻量化网络
随着嵌入式设备的普及,在嵌入式设备上部署深度模型已成为一种趋势。大多数高精度模型都需要大量的计算成本。因此,开发一种运行在嵌入式设备上进行表情识别的轻量级网络模型是当前研究的热点。本文将介绍几个比较热门的用于人脸与表情识别的轻量级卷积神经网络。卷积神经网络表情识别基本原理如图3所示。
2.1 MobileNet系列模型
从AlexNet [17]通过赢得ImageNet Challenge:ILSVRC 2012[18]推广了深度卷积神经网络以来,卷积神经网络在计算机视觉中已经变得无处不在。为了获得更高的精度,一般的趋势是制作更深入、更复杂的网络[19,20],然而,这会导致网络变得更加庞大和计算资源消耗更高。自此从2017年开始,谷歌先后提出了MobileNetV1[21]、MobileNetV2[22]、MobileNetV3[23],这些都可以应用于移动和嵌入式设备中,并且这些模型在ImageNet数据集上取得了很高的精度。
2.1.1 MobileNetV1
MobileNetV1[21]是一种高效的神经网络架构,它使用深度可分离卷积(depthwise separable convolution,DSC)代替标准卷积来降低模型参数,从而提高网络的计算效率和精度。在MobileNetV1中,深度可分离卷积被用作卷积层的基本构建块,它由深度卷积(depthwise convolution,DW)和逐点卷积(pointwise convolution,PW)组成。
在人脸与表情识别方面,MobileNetV1可以用于特征提取。首先,通过人脸检测和对齐等技术,将人脸部分提取出来。然后,将人脸图像输入MobileNetV1模型进行特征提取,得到人脸的表情特征。最后,将特征输入分类器进行训练,实现人脸与表情的识别。
文献[24]在MobileNetV1的网络模型中,引入了注意力模块,增强了模型对面部表情局部特征的提取能力,然后结合中心损耗和softmax损耗对模型参数进行优化,减小类内距离,增大类间距离,并加入了dropout技术,防止过拟合。在不增加模型参数数量的情况下,显著提高了识别精度,但是还需进一步提高模型的分类能力。
2.1.2 MobileNetV2
MobileNetV2[22]是一种轻量级的卷积神经网络模型,可以用于人脸和表情识别等相关领域。该模型在MobileNetV1的基础上增加了残差结构,并引入了线性瓶颈和倒残差结构,以解决通道数较少的feature map上的信息丢失问题。在人脸识别和表情识别中,低维流形映射到高维空间的特征表达通常包含重要信息。MobileNetV2通过在卷积块中插入线性瓶颈层来捕获这些信息,同时在最后一层卷积中使用线性激活函数来避免过多的信息损失。倒残差结构可以提高内存效率,使得MobileNetV2能够在保持模型轻量级的同时,更好地捕获人脸和表情相关的特征,提高识别精度和效率。
文献[25]利用MobileNetV2优化SSD网络结构,解决模型参数过多的问题。并且受注意力机制提高特征提取能力的启发,使用卷积块注意力模块(convolutional block attention mo-dule,CBAM)[26]从通道和空间两方面优化MobileNetV2网络,将三个网络的特征结合起来。该方法减少了识别参数的数量,但对于负面情绪的识别精度较低。文献[27]在MobileNetV2的基础上使用了多层轻量级卷积和特征融合方法,提高了网络的运行效率和表情识别的检测精度。
2.1.3 MobileNetV3
MobileNetV3[23]适用于资源受限场景的轻量级卷积神经网络。该网络提供了MobileNetV3 large和MobileNetV3 small两个版本,可根据具体资源需求进行选择。它结合了MobileNetV1的深度可分离卷积、MobileNetV2的linear bottleneck和inverted residuals结构以及SE模块[28],并利用平台感知的神经网络结构搜索(neural architecture search,NAS)[29]进行自动网络搜索,从而大大提高了MobileNetV3在人脸与表情识别中的识别精度。
MobileNetV3的反向瓶颈结构和变体基于MobileNetV2,并使用1×1卷积作为最后一层,以扩展到高维特征空间,提高预测性能,但这也会带来额外的延迟。为了进一步减少延迟、减少计算量,MobileNetV3对原始结构进行了优化。经过优化后,MobileNetV3几乎不损失精度的情况下有效地减少了7 ms的延迟,相当于运行时间的11%,并减少了3 000万个乘加累积操作数MAdds的操作数量[23]。这种优化使MobileNetV3更适合于人脸与表情识别等资源受限的应用场景,从而在实际应用中更高效、准确。文献[30]在MobileNet网络的基础上增加卷积层的数量和通道数,增加残差连接及注意力机制,实现了对人脸图像的有效分类。
2.2 ShuffleNet
ShuffleNet[31]是计算效率极高的轻量级CNN架构,通过逐点群卷积和通道混洗来提高计算效率两种新的操作。其中,逐点群卷积是对点卷积的一种改进,它可以在保持计算效率的同时提高精度。通道混洗则是通过重新分组输入通道,将不同的通道组合在一起,从而降低计算成本。
ShuffleNet的基础块采用了瓶颈结构和群卷积,通过反复堆叠这些基础块来构建整个网络。在群卷积中,将输入通道分为若干组,每组只进行局部卷积操作,从而降低计算复杂度。
ShuffleNetV2[32]在ShuffleNet的基础上引入了通道拆分算子,可以在不太多群的情况下保持大量和等宽的信道,从而最小化内存访问量。这种算子可以避免通道混洗算子破坏数据存储连续性的问题。
在人脸表情识别等领域,ShuffleNet可以与MTCNN[33]等其他算法结合使用,从而实现快速和准确的识别。通过一系列优化操作,包括瓶颈结构、深度可分离卷积、群卷积和通道拆分,ShuffleNet实现了高效和准确的特征提取和分类。同时,ShuffleNet还可以适用于计算资源受限的场景,例如移动端和嵌入式设备。
文献[34]从特征提取的角度,对传统的ShuffleNetV2网络模型作出改进,进一步压缩了模型的计算复杂度,增强模型的性能,通过标签平滑学习,利用软标签监督网络的学习来解决单标签信息量不足所导致的歧义表情问题,相较于目前其他人脸表情识别方法,其识别率有一定的提高,同时模型参数量和计算量保持在较低水平,利于其在实际中的应用。文獻[35]改进的ShuffleNet设计,引入了分组卷积和通道随机重排等技术,使得网络具有较高的识别精度和较快的推理速度。表2列举出上述网络模型识别精度与计算量数据,可以看出同时间发表的MobileNetV3的性能是最好的,ShuffleNetV2次之,而ShuffleNetV1与MobileNetV2显然要差一些。
2.3 LA-Net
LA-Net[36]是一种新颖的轻量级注意力网络模型,用于人脸表情识别。该模型结合了SE模块和CNN网络,通过给每个特征通道分配一定的权重,重点学习人脸的显著特征,减少冗余信息,从而提取出判别特征。LA-Net包含五个块,分别是block 1~5,每个块由多个3×3卷积层组成。对于所有的五个块,步幅都是1。每个块后面都有一个SE-block,用于学习有选择地放大有价值的特征通道,抑制无用的特征通道以减少冗余信息。
由于计算成本高、模型规模大的限制,LA-Net采用了网络瘦身法,通过进一步减小模型的尺寸,得到一个精简紧凑的网络,使用更少的运行时内存和计算操作,从而在资源有限的设备上实现高性能FER。虽然该方法可以节省高达5.6倍的参数,触发器的减少量通常在15倍左右,微调后的网络可能比原始模型的识别精度有所下降。然而,在数据集样本相对平衡,面部表情特征区别相对较大的情况下,LA-Net在人脸表情识别方面具有较高的准确率。
2.4 MFF-CNN
MFF-CNN(multi-feature fusion based convolutional neural network)[37]是一种用于人脸表情识别的卷积神经网络。它采用了多特征融合的策略,包括一个image分支和一个patch分支。image branch从全局的角度对输入图像进行中层和高层特征的提取,patch branch将输入图像分割成16个重叠的图像小块,并从每个小块中提取局部特征。通过特征向量选择机制,MFF-CNN选择最具有辨别性的局部特征,减少后续全连接层的计算节点。最后,image branch和patch branch进行联合调优,将两个分支产生的特征进行正确融合,提高了人脸与表情识别的准确性。
然而,对于更复杂的FER任务,MFF-CNN可能需要使用更深层次的卷积神经网络以更好地捕获表情的细节和复杂性。由于MFF-CNN使用的卷积层数较少,可能在处理不受约束的FER任务时存在性能下降的问题。因此,在这些情况下,需要使用更先进的卷积神经网络模型来提高FER任务的性能。
2.5 SDNet
SDNet[38]是在XceptionNet[39]和DenseNet[40]的启发下提出的一种基于深度可分离卷积和密集块的人脸与表情识别网络模型,旨在降低模型参数并提高效率。该模型采用残差结构以解决网络退化问题,并增强深度特征在不同层间的传递性。此外,SDNet还提出了自适应类权重作用以缓解样品不平衡,并采用RO损失函数以避免过拟合。通过实验室控制的数据集和野外数据集的测试,SDNet在人脸与表情识别相关方面表现出色,具有轻量级和高精度的特点。
2.6 EfficientFace
EfficientFace[41]是一种用于面部遮挡表情识别的轻量级网络。由于实际场景中存在着遮挡和姿态变化等问题,对比各种人脸去遮挡技术[42,43],EfficientFace提出了局部特征提取器和信道空间调制器来解决这些问题。此外,提出了一种新的标签分布学习方法,这与心理学家Plutchik[44]的理论是一致的。通过这些技术手段,EfficientFace可以更准确地提取人脸局部特征,从而提高模型在野外FER任务中的效果。
相较于传统基于人脸标志的局部特征获取方法,EfficientFace的局部特征提取器可以更高效地提取局部区域特征,并将其以残差形式融合到全局特征中,提高了特征提取的效率和准确性。此外,EfficientFace提出了一种新的标签分布学习方法,即标签分发生成器(label distribution generator,LDG) 用于解决人脸图像的情感分布标注困难的问题。LDG可以生成用于训练的标签分发,使模型更好地利用数据,提高模型的性能。
总的来说,EfficientFace在人脸与表情识别任务中,通过使用轻量级网络、局部特征提取器、信道空间调制器和标签分布学习方法等技术手段,可以更有效地提取局部特征,同时解决数据标注的问题,从而取得更好的效果。表3对相关网络模型进行了分析。
3 用于表情识别的网络轻量化
在人脸表情识别领域,小型设备上无法部署现有深度神经网络模型的问题一直存在。为了解决这一问题,研究者们开始探索对模型进行有效压缩的方法,以在保持模型性能不变的前提下减少计算量和存储空间。当前的研究热点包括量化、低秩分解、网络修剪、轻量化网络设计和知识蒸馏。这些方法有助于在小型设备上实现高性能的人脸表情识别。
3.1 网络量化
网络量化[45]是一种在保证模型精度的前提下,减少模型参数量、计算量和存储空间的压缩方法,被广泛应用于人脸识别和表情识别等领域。其中,二值化权重是一种常用的量化方法,通过将权重限制在两个可能值之间来达到参数压缩的效果。文献[46]提出了一种称为binary connect的方法,通过约束在这些前向和后向传播中使用的权重为二进制来消除对这些乘法的需要,从而将这些乘法运算变为加减运算。然而,仅使用二值化权重可能会存在信息丢失的问题,从而影响模型性能。为了解决这个问题,Qin等人[47]提出了一个信息保留网络(IR-Net)来保留包含向前激活和向后梯度的信息。文献[48]采用二值权重和低比特位激活值的量化方式在保持高准确性的同时,大大减少了网络的计算和存储开销,使得人脸识别模型可以更好地适应资源受限的小型设备。文献[49]通过将网络参数进行量化和压缩来减少模型的大小和计算量,并且不会显著降低识别性能,对于实现高效率的人脸识别具有重要意义。
LA-Net将SE模块与CNN模块相结合,有效减少了冗余信息,并采用网络瘦身法降低网络模型规模与计算成本非常适合在资源受限的设备上实现高性能FER虽然运行内存使用较少但是其在真实场景下识别精度有待提高运行内存有限,精度要求不高
MFF-CNN采用image分支和patch分支,進行多特征融合,并使用L2范数选择最优的局部特征,减少后续全连接层的计算节点相较于其他网络模型,规模更小,参数更少仅适用于约束环境下人脸表情识别对静态图片识别较多
SDNET使用自适应的分类权值和RO损失函数在保持识别精度的同时大幅降低网络参数在样本数量不平衡的情况下仍保持较高的识别精度在野外数据集的识别精度较低表情代表性不足且要求识别精度较高
EfficientFace在ShuffleNetV2的基础上提出了局部特征提取器和信道空间调制器,在遮挡和姿势变化的条件下,特征提取结果仍较准确在实际遮挡和姿态变化明显的前提下仍能有较高的识别精度在人脸微表情发生变化时,识别精度较大差距面部有遮挡且姿态易变化
3.2 低秩分解
在人脸与表情识别的相关领域,低秩压缩方法也被广泛应用于模型压缩与加速。
一种常见的方法是使用低秩滤波器来近似预训练模型中的原始滤波器,从而减少模型参数数量和计算复杂度[50]。文献[51]提出了一种直接通过最小化滤波器重构误差来重构原始滤波器的方法,并且可以通过最小化卷积层输出的重构误差来间接逼近卷积层。Tai等人[52]提出了一种新的计算低秩张量分解的算法,并在BN层将内部隐藏单元的激活归一化。虽然该方法在压缩模型参数方面效果显著,但是分解操作成本过高,且逐层分解不利于全局参数压缩,目前使用较少。文献[53]提出的低秩矩阵分解算法GoDec+,具有鲁棒性强,分类速度快的优点。
3.3 模型剪枝
模型剪枝是一种有效的网络压缩方法,可以通过删除冗余的通道或网络结构,减小模型的大小并提高推理速度[45],同时保持准确度。针对人脸表情识别任务,可以采用非结构化剪枝、结构化剪枝和自动化剪枝等方法。
3.3.1 非结构化模型剪枝
非结构化剪枝是随机删除一些通道或权重,简单易行,但可能会破坏网络结构平衡性,影响准确度。Han等人[54]提出在不改变网络结构的情况下通过删减不重要的连接,来减少存储和计算所需的神经网络数量级。Zhang等人[55]提出一种新的DNN权重修剪和模型压缩的系统框架,通过将权重修剪问题描述为一个具有组合约束的约束非凸优化问题,利用基数函数诱导权重的稀疏性,采用乘数交替方向法(alternating direction method of multipliers,ADMM)将原非凸优化问题分解为两个子问题,迭代求解。
3.3.2 结构化模型剪枝
与非结构化剪枝相比,结构化剪枝则是删除整个通道或层,可以保持平衡性和准确度。Liu等人[56]提出一种名为网络瘦身的训练方案,对批处理归一化层(batch normalization,BN)中的尺度因子进行稀疏诱导正则化,从而在训练过程中自动识别不重要的通道并进行修剪,从而导致更紧凑的网络。文献[57]通过剪枝算法对GoogLeNet网络进行训练、修剪低权重连接和再训练网络等操作,添加全局最大池化层并保留检测目标的位置信息,以sigmoid交叉熵作为训练目标,获得全面的人脸表情特征信息。改进后网络得到较高的识别率,具有较好的适用性。
3.3.3 自动化模型剪枝
非结构化剪枝和结构化剪枝依赖于人为设计的方案,这样的设计往往会耗费很长时间,因此Liu等人[58]提出了一种新的元学习(meta learning)方法,用于自动通道修剪。首先训练一个修剪网络,可生成任一修剪网络的权重,然后通过进化搜索方法搜索出最佳修剪网络从而进行剪枝。文献[59]提出了一个用于细粒度和结构化修剪的统一自动修剪框架NAP(network automatic pruning),几乎不需要超参数调优,与之前的方法相比显示出更好的性能。
除了模型剪枝,还可以结合其他压缩方法来进一步压缩模型。例如,可以使用量化方法将浮点数参数转换为整数参数,减小模型的大小和内存占用,同时提高推理速度,根据具体任务和需求,可以选择不同的剪枝方法并结合其他压缩方法。相关方法优劣分析见表4。
3.4 轻量级设计
为了实现在资源有限的设备上的实时性能要求,人脸表情识别领域也需要采用轻量化网络设计。其中,调整卷积核大小和分组卷积运算是两种有效的方法来减少网络的计算量和参数数量。
3.4.1 调整卷积核大小
首次提出调整卷积核大小思想是在inception V3[20],使用较小的卷积核代替较大的卷积核。其中使用两个3×3的卷积替换一个5×5的卷积,明显减少了参数。除了使用3×3的卷积降低参数以外,SqueezeNet[60]则是用1×1的卷积核来替换3×3的,这使得参数减少到原来的1/9,同时减少了输入通道的个数。文献[61]保留了原SqueezeNet模型中的小卷积核去提取图片特征,采用首尾池化层分别引入对应的后续卷积层进行特征融合并采用L2范数约束的方法,将最后一层的特征约束在一个球面内。改进后网络在不降低识别率的前提下,输入参数少、模型易于收敛和能够运行在内存小的硬件设备。
3.4.2 分组卷积运算
除了调整卷积核大小的方法外,分组卷积运算也是一种有效的轻量化网络设计方法。通过将输入特征图分成多个组,并在每个组内进行卷积运算,可以降低计算量和参数数量。例如,将标准卷积运算分解为多个组卷积运算,有助于提高网络的效率。这些方法可以帮助人脸表情识别网络实现轻量化,以满足在资源有限的设备上的实时性能要求。ResNeXt[62]重复聚合一组具有相同拓扑结构的转换的构建块进行构建,比ResNet[63]有更高的准确率。IGCNets[64]将标准卷积分解成多个组卷积,在保持网络规模和计算复杂度的同时,比常规群卷积更宽,效率更高。
因此,在人脸表情识别领域的轻量化网络设计中,调整卷积核大小和分组卷积运算是两种常用的方法。它们可以有效地减少网络的计算量和参数数量,从而提高网络的效率和实时性能。
3.5 知识蒸馏
知识蒸馏的概念最早由文献[65]提出,用于训练具有伪标签的强分类器的压缩模型。2015年Hinton等人[66]真正实现了知识蒸馏(knowledge distilling,KD)技术,其主要思想是使用教师网络通过已学习的知识来指导学生网络,将教师网络的知识压缩到深度相似的学生网络中[67]。在人脸表情识别领域,知识蒸馏技术被广泛应用。通过知识蒸馏技术,小型的学生模型可以获得与大型教师模型相似的表现,同时减小模型的体积和计算复杂度,适应资源有限的设备,如移动设备和嵌入式系统。在表情识别任务中,教师网络通常是一个表现良好的大型网络,如ResNet或VGG[68]等。学生网络通常是一个较小的网络,如MobileNet或ShuffleNet等。KD的基本原理如图4所示。
一些研究者将知识蒸馏技术与其他方法结合起来,以提高表情识别性能,Romero等人[69]提出的FitNets可以结合知识蒸馏和中间层对齐技术,提高学生网络的泛化性能和分类准确率。文献[70]提出一种新的软标签生成方式和知识蒸馏过程,把标签置信度估计网络中丰富和独特知识以基于响应的方式蒸馏到表情分类网络中,有效提高了表情分类网络的表征能力和泛化能力。文献[71]提出基于伪孪生网络的知识蒸馏方法提升网络模型的人脸表情识别准确率。相关方法优劣分析见表5。
4 结束语
现有的轻量级网络虽然能够在嵌入式设备中进行人脸表情识别,但是遇到光照变化、面部遮挡、头部偏转等非理想状态时,表情识别的准确率仍然较低[72]。本文认为该领域还有很多亟待解决的问题与挑战:
a)数据样本不平衡。在实际应用中,表情数据集往往呈现不平衡性,即不同表情类别的样本数量存在较大差异。这种不平衡现象会导致轻量级表情识别网络在训练过程中偏向于学习样本较多的表情类别,从而对样本较少的表情识别效果较差。解决数据不平衡问题并提高对各种表情的识别能力是一个重要且具有挑战性的任务。
b)模型可解释性差。在轻量级网络的设计过程中,确实会面临模型的可解释性问题。由于这些网络通常较为复杂,缺乏直观的可解释性,很难理解网络对表情判别的依据。提高轻量级网络的可解释性,使得人们能够理解网络的决策过程,是一个值得探索的方向。
c)实时性要求高。在某些实时应用场景中,如智能手機和智能驾驶等,表情识别需要在非常短的时间内完成。如何确保轻量级网络在这些实时性要求下保持高准确率,是一个重要的挑战。
有鉴于此,本文认为轻量级表情识别网络未来可行的研究方向如下所示。
a)研究基于迁移学习的识别算法。样本不平衡会导致网络模型在训练过程中倾向于偏向样本较多的表情类别,从而对样本较少的表情识别效果较差,而迁移学习可以有效利用大规模数据集中的信息,提高对少数类别的识别能力。将迁移学习运用到识别算法是一个有价值的研究方向。
b)研究基于可解释性图模型的轻量级网络。通过使用可解释性图模型网络结构可以使网络的决策过程更加透明,并且有助于更好地理解网络在表情识别中的工作原理。通过这些探索和改进,轻量级网络可以在保持高性能的同时,具备更好的可解释性,使其在实际应用中更加可信和可用。
c)研究更快计算响应的网络。目前轻量级网络在小型设备上进行目标检测、物体定位等任务上已经取得了显著进展[73,74],然而人脸表情识别任务相对复杂,如何在保持高准确率的同时,实现轻量级网络的实时计算及响应是未来的奋斗目标。
d)研究更有效的模型压缩方法。模型压缩的过程往往涉及到模型的损失,如何能在保持模型性能,损失可控的前提下寻找有效的模型压缩方法,来降低模型的存储需求和计算开销是当前一个努力的方向。
e)研究自主搜索网络结构的算法。随着网络的发展,神经网络结构搜索(neural architecture search,NAS)[75,76]初有成效,但依旧受人工设计的影响。因此亟需一种不再需要人工干涉搜索空间的解决方法,自动组合现有空间,从而得到最优的网络结构,迈向真正智能的重要一步。
f)研究特殊场景下针对小样本的轻量级网络。由于特殊场景下的识别样本采集不易,如痛感识别、自闭症儿童心理状态等涉及患者隐私的研究,样本数量有限,网络不易训练。为避免网络欠学习情况的发生,亟待研究泛化性更好的轻量级识别算法,以应对小样本学习问题。
参考文献:
[1]Liu Wenting,Zhou Li,Chen Jie.Face recognition based on lightweight convolutional neural networks[J].Information,2021,12(5):article No.191.
[2]Shan Caifeng,Gong Shaogang,Mcowan P W.Facial expression recognition based on local binary patterns:a comprehensive study[J].Image and Vision Computing,2009,27(6):803-816.
[3]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2005:886-893.
[4]姜藝,胥加洁,柳絮,等.边缘指导图像修复算法研究[J].计算机科学与探索,2022,16(3):669-682.(Jiang Yi,Xu Jiajie,Liu Xu,et al.Research on edge guided image restoration algorithm[J].Computer Science and Exploration,2022,16(3):669-682.)
[5]刘微容,米彦春,杨帆,等.基于多级解码网络的图像修复[J].电子学报,2022,50(3):12-18.(Liu Weirong,Mi Yanchun,Yang Fan,et al.Image restoration based on multilevel decoding network[J].
Acta Electronic Sinica,2022,50(3):12-18.)
[6]蒋斌,钟瑞,张秋闻,等.采用深度学习方法的非正面表情识别综述[J].计算机工程与应用,2021,57(8):48-61.(Jiang Bin,Zhong Rui,Zhang Qiuwen,et al.An overview of nonpositive expression recognition using depth learning methods[J].Computer Engineering and Applications,2021,57(8):48-61.)
[7]Chou K Y,Cheng Y W,Chen W R,et al.Multi-task cascaded and densely connected convolutional networks applied to human face detection and facial expression recognition system[C]//Proc of International Automatic Control Conference.Piscataway,NJ:IEEE Press,2019:1-6.
[8]Yu Wenming,Xu Hua.Co-attentive multi-task convolutional neural network for facial expression recognition[J].Pattern Recognition,2022,123:108401.
[9]Xu Qintao,Zhao Najing.A facial expression recognition algorithm based on CNN and LBP feature [C]//Proc of the 4th Information Technology,Networking,Electronic and Automation Control Confe-rence.Piscataway,NJ:IEEE Press,2020:2304-2308.
[10]Yang Biao,Cao Jinmeng,Ni Rongrong,et al.Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J].IEEE Access,2018,6:4630-4640.
[11]Gan Yanling,Chen Jingying,Yang Zongkai,et al.Multiple attention network for facial expression recognition[J].IEEE Access,2020,8:7383-7393.
[12]Lucey P,Cohn J F,Kanade T,et al.The extended Cohn-Kanade dataset (CK+):a complete dataset for action unit and emotion-specified expression[C]//Proc of IEEE Computer Society Conference on Compu-ter Vision and Pattern Recognition-Workshops.Piscataway,NJ:IEEE Press,2010:94-101.
[13]Goodfellow I J,Erhan D,Carrier P L,et al.Challenges in representation learning:a report on three machine learning contests[C]//Proc of International Conference on Neural Information Processing.Berlin:Springer,2013:117-124.
[14]Mollahosseini A,Hasani B,Mahoor M H.AffectNet:a database for facial expression,valence,and arousal computing in the wild[J].IEEE Trans on Affective Computing,2019,10(1):18-31.
[15]Langner O,Dotsch R,Bijlstra G,et al.Presentation and validation of the Radboud faces database[J].Cognition and Emotion,2010,24(8):1377-1388.
[16]Zhang Yuanhan,Yin Zhenfei,Li Yidong,et al.CelebA-Spoof:large-scale face anti-spoofing dataset with rich annotations[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:70-85.
[17]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,1(6):1097-1105.
[18]Russakovsky O,Deng J,Su Hao,et al.ImageNet large scale visual re-cognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[19]Szegedy C,Ioffe S,Vanhoucke V.Inception-V4,Inception-ResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:4278-4284.
[20]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2818-2826.
[21]Howard A G,Zhu Menglong,Chen Bo,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17).https://arxiv.org/abs/1704.04861.
[22]Sandler M,Howard A,Zhu Menglong,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4510-4520.
[23]Howard A,Sandler M,Cheng Bo,et al.Searching for MobileNetV3[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:1314-1324.
[24]Nan Yahui,Ju Jianguo,Hua Qingyi,et al.A-MobileNet:an approach of facial expression recognition[J].Alexandria Engineering Journal,2022,61(6):4435-4444.
[25]Wang Qiuchen,Xu Xiaowei,Tao Ye,et al.A novel facial expression recognition method based on AMSSD model[C]//Proc of the 6th International Conference on Image,Vision and Computing.Piscataway,NJ:IEEE Press,2021:95-99.
[26]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-19.
[27]Chen Sheng,Liu Yang,Gao Xiang,et al.MobileFaceNets:efficient CNNs for accurate real-time face verification on mobile devices[C]//Proc of Chinese Conference on Biometric Recognition.Berlin:Sprin-ger,2018:428-438.
[28]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[29]Zoph B,Le Q V.Neural architecture search with reinforcement lear-ning[EB/OL].(2017-02-15).https://arxiv.org/abs/1611.01578.
[30]Zhou You,Liu Yiyue,Han Guijin,et al.Face recognition based on the improved MobileNet[C]//Proc of IEEE Symposium Series on Computational Intelligence.Piscataway,NJ:IEEE Press,2019:2776-2781.
[31]Zhang Xiangyu,Zhou Xinyu,Lin Mengxiao,et al.ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6848-6856.
[32]Ma Ningning,Zhang Xiangyu,Zheng Haitao,et al.ShuffleNet V2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:116-131.
[33]Ghofrani A,Toroghi R M,Ghanbari S.Realtime face-detection and emotion recognition using MTCNN and miniShuffleNet V2[C]//Proc of the 5th Conference on Knowledge Based Engineering and Innovation.Piscataway,NJ:IEEE Press,2019:817-821.
[34]劉劲,罗晓曙,徐照兴.权重推断与标签平滑的轻量级人脸表情识别[J].计算机工程与应用,2024,60(2):254-263.(Liu Jing,Luo Xiaoshu,Xu Zhaoxing.Computer Engineering and Applications.Lightweight facial expression recognition based on weight inference and label smoothing[J].Computer Engineering and Applications,2024,60(2):254-263.)
[35]Martindez-Díaz Y,Luevano L S,Mendez-Vazquez H,et al.ShuffleFaceNet:a lightweight face architecture for efficient and highly-accurate face recognition[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision Workshop.Piscataway,NJ:IEEE Press,2019:2721-2728.
[36]Ma Hui,Celik T,Li H C.Lightweight attention convolutional neural network through network slimming for robust facial expression recognition[J].Signal,Image and Video Processing,2021,15(7):1507-1515.
[37]Zou Wei,Zhang Dong,Lee D J.A new multi-feature fusion based convolutional neural network for facial expression recognition[J].Applied Intelligence,2022,52(3):2918-2929.
[38]Zhou Lifang,Li Siqin,Wang Yi,et al.SDNET:lightweight facial expression recognition for sample disequilibrium[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:2415-2419.
[39]Chollet F.Xception:deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1800-1807.
[40]Huang Gao,Liu Zhuang,Maaten V L D,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2261-2269.
[41]Zhao Zengqun,Liu Qingshan,Zhou Feng.Robust lightweight facial expression recognition network with label distribution training[J].Proc of AAAI Conference on Artificial Intelligence,2021,35(4):3510-3519.
[42]奚琰.基于對比学习的细粒度遮挡人脸表情识别[J].计算机系统应用,2022,31(11):175-183.(Xi Yan.Fine grained occlusion facial expression recognition based on contrast learning[J].Compu-ter Systems & Applications,2022,31(11):175-183.)
[43]刘颖,张艺轩,佘建初,等.人脸去遮挡新技术研究综述[J].计算机科学与探索,2021,15(10):1773-1794.(Liu Ying,Zhang Yixuan,She Jianchu,et al.A review of new face occlusion removal technologies[J].Computer Science and Exploration,2021,15(10):1773-1794.)
[44]Plutchik R.A general psychoevolutionary theory of emotion[M]//Plutchik R,Kellerman H.Theories of Emotion.[S.l.]:Academic Press,1980:3-33.
[45]Han Song,Mao Huizi,Dally W J.Deep compression:compressing deep neural networks with pruning,trained quantization and Huffman co-ding[EB/OL].(2016-02-15).https://arxiv.org/abs/1510.00149.
[46]Courbariaux M,Bengio Y,David P J.BinaryConnect:training deep neural networks with binary weights during propagations[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:3123-3131.
[47]Qin Haotong,Gong Ruihao,Liu Xianglong,et al.Forward and backward information retention for accurate binary neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2020:2247-2256.
[48]Jacob B,Kligys S,Chen Bo,et al.Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2704-2713.
[49]Yamamoto K.Learnable companding quantization for accurate low-bit neural networks [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:5027-5036.
[50]Liu Jing,Zhuang Bohan,Zhuang Wei,et al.Discrimination-aware network pruning for deep model compression[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(8):4035-4051.
[51]Jaderberg M,Vedaldi A,Zisserman A.Speeding up convolutional neural networks with low rank expansions[EB/OL].(2014-05-15).https://arxiv.org/abs/1405.3866.
[52]Tai Cheng,Xiao Tong,Zhang Yi,et al.Convolutional neural networks with low-rank regularization[EB/OL].(2016-02-14).https://arxiv.org/abs/1511.06067.
[53]郭鍇凌.低秩分解及其在计算机视觉中的应用[D].广州:华南理工大学,2017.(Guo Kailing.Low rank decomposition and its application in computer vision[D].Guangzhou:South China University of Technology,2017.)
[54]Han Song,Pool J,Tran J,et al.Learning both weights and connections for efficient neural networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:1135-1143.
[55]Zhang Tianyun,Ye Shaokai,Zhang Kaiqi,et al.A systematic DNN weight pruning framework using alternating direction method of multipliers[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:191-207.
[56]Liu Zhuang,Li J,Shen Zhiqiang,et al.Learning efficient convolutional networks through network slimming[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2755-2763.
[57]张宏丽,白翔宇.利用优化剪枝GoogLeNet的人脸表情识别方法[J].计算机工程与应用,2021,57(19):179-188.(Zhang Hongli,Bai Xiangyu.Facial expression recognition method using optimized pruning GoogLeNet[J].Computer Engineering and Applications,2021,57(19):179-188.)
[58]Liu Zechun,Mu Haoyuan,Zhang Xiangyu,et al.Metapruning:meta learning for automatic neural network channel pruning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3295-3304.
[59]Zeng Wenyuan,Xiong Yuwen,Urtasun R.Network automatic pruning:start nap and take a nap [EB/OL].(2021-01-17).https://arxiv.org/abs/2101.06608.
[60]Iandola F N,Moskewicz M W,Ashraf K,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[EB/OL].(2016-02-24).https://arxiv.org/abs/1602.07360.
[61]吳军,邱阳,卢忠亮.基于改进的SqueezeNet的人脸识别[J].科学技术与工程,2019,19(11):218-223.(Wu Jun,Qiu Yang,Lu Zhongliang.Face recognition based on improved SqueezeNet[J].Science,Technology and Engineering,2019,19(11):218-223.)
[62]Xie Saining,Girshick R,Dollár P,et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5987-5995.
[63]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[64]Zhang Ting,Qi G J,Xiao Bin,et al.Interleaved group convolutions[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4383-4392.
[65]Bucil? C,Caruana R,Niculescu-Mizil A.Model compression[C]//Proc of the 12th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining.New York:ACM Press,2001:535-541.
[66]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[EB/OL].(2015-03-09).https://arxiv.org/abs/1503.02531.
[67]高晗,田育龙,许封元,等.深度学习模型压缩与加速综述[J].软件学报,2021,32(1):68-92.(Gao Han,Tian Yulong,Xu Fengyuan,et al.Summary of compression and acceleration of deep learning model[J].Journal of Software,2021,32(1):68-92.)
[68]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2015-04-10).https://arxiv.org/abs/1409.1556.
[69]Romero A,Ballas N,Kahou S E,et al.FitNets:hints for thin deep nets[EB/OL].(2015-03-27).https://arxiv.org/abs/1412.6550.
[70]许大良.基于标签置信估计与知识蒸馏的表情识别算法研究[D].武汉:华中师范大学,2022.(Xu Daliang.Research on expression recognition algorithm based on label confidence estimation and knowledge distillation[D].Wuhan:Huazhong Normal University,2022.)
[71]姜慧明.基于生成对抗网络与知识蒸馏的人脸修复与表情识别[D].吉林:吉林大学,2020.(Jiang Huiming.Face restoration and expression recognition based on generative adversarial networks and knowledge distillation[D].Jilin:Jilin University,2020.)
[72]蒋斌,李南星,钟瑞,等.人脸部分遮挡条件下表情识别研究的新进展[J].计算机工程与应用,2022,58(12):12-24.(Jiang Bin,Li Nanxing,Zhong Rui,et al.New progress in facial expression recognition under partial occlusion[J].Computer Engineering and App-lications,2022,58(12):12-24.)
[73]Zhang Menghan,Li Zitian,Song Yuncheng.Optimization and comparative analysis of YOLOV3 target detection method based on lightweight network structure[C]//Proc of IEEE International Conference on Artificial Intelligence and Computer Applications.Piscataway,NJ:IEEE Press,2020:20-24.
[74]Yang Yumin,Liao Yurong,Ni Shuyan,et al.Study of algorithm for aerial target detection based on lightweight neural network[C]//Proc of IEEE International Conference on Consumer Electronics and Computer Engineering.Piscataway,NJ:IEEE Press,2021:422-426.
[75]Zoph B,Vasudevan V,Shlens J,et al.Learning transferable architectures for scalable image recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8697-8710.
[76]Pham H,Guan M,Zoph B,et al.Efficient neural architecture search via parameters sharing[C]//Proc of the 35th International Conference on Machine Learning.:PMLR,2018:4095-4104.