博物馆场景下基于时空注意力机制的人脸表情识别方法

2024-03-27 16:21董宇轩
现代计算机 2024年1期
关键词:人脸特征提取注意力

张 鹏,董宇轩

(1. 烟台科技学院数据智能学院,烟台 265600;2.烟台科技学院艺术设计学院,烟台 265600)

0 引言

博物馆数字化[1]展示是近年来伴随着数字技术的发展及其在博物馆文物展览与研究领域的拓展应用而产生的新的展示形式。它利用交互艺术[2]对观众的感官(视觉、听觉、触觉)进行信息采集,并识别用户情感信息,做出相应的反馈,使得观众可以达到身临其境的感受,通过互动等方式,在达到博物馆展品展示的教育功能的同时,还可以增强展品的趣味性。

人脸表情是在人际交往中判断对方真实情感状态的一个重要信息。随着人工智能技术的发展,人脸表情识别技术正融入到人机交互中,促进人机交互技术的发展,使机器更加能够读懂人的真实情感状态。智慧医疗、聊天机器人、学生专注度测量等一系列的应用场景应运而生。

人脸表情的相关研究由来已久,Ekman等[3]定义了六种基本表情,包括高兴、恐惧、悲伤、生气、惊讶和厌恶。人脸表情识别分为图片采集和预处理、表情特征提取、表情分类三个步骤。其中特征提取是决定人脸表情识别的关键。特征提取一般分为传统特征提取方法和基于深度学习的特征提取方法。传统的面部表情识别方法采用人工设计的特征提取器,然后使用分类器来实现整个识别过程,其性能主要取决于特征表达的有效性。例如,局部二进制模型LBP、HOG、SIFT、SURF、Haar 等。研究人员可以通过Gabor 滤波器[4]等传统的特征提取方法获取人脸的纹理信息,将这些信息作为SVM(支持向量机)模型的输入,实现对表情的识别。但是传统的特征提取方法存在鲁棒性较弱和准确率较低等问题,无法很好地适应复杂的人脸表情识别任务。

随着深度学习技术的发展,提出了一系列可用于提取人脸表情特征的深度神经网络,基于深度学习的人脸表情识别方法逐渐成为主流。代表性的有卷积神经网络(CNN)[5]和长短时记忆网络(LSTM)[6],CNN 用于提取每帧图像的空间特征,LSTM 用于学习视频图像帧之间的时间维度信息表示。

为了进一步提高网络模型对表情特征的提取能力,研究人员在卷积神经网络的基础上引入了注意力机制,包括通道注意力机制[7]、混合注意力机制[8]等。这些注意力机制能够对CNN 提取出的多通道特征向量在空间和通道维度上赋予不同的权重,进而提高卷积网络模型对人脸表情重要特征的提取能力。倪锦园等[9]通过构建深度残差模型,并在网络中引入通道注意力机制,让网络模型能够正确分类被擦除部分人脸的表情图片,提高了网络的鲁棒性与识别准确率。周江等[10]提出CNN-LSTM 网络集成结构的视频表情识别方法。虽然该方法在时间和空间维度都有良好的表达。但是,对于人脸表情重要特征提取上能力欠缺。

本文算法应用场景为博物馆中,整体光线比较暗,所以对于人脸表情识别难度增加,需要对人脸特征进行增强,提高识别成功率。本文提出使用CNN 和LSTM 作为框架基础,CNN用于提取每帧图像的空间特征;LSTM 用于学习视频图像帧之间的时间维度信息表示。同时,对表情特征施加空间注意力,增强人脸表情重要特征在空间上的提取能力和表达能力。利用增加了空间注意力机制的特征,与LSTM 模型中的时间信息相运算,使得导入LSTM 模型中的特征既具备空间注意力,又具备时间特征增强。

1 本文方法

本文提出了适用于博物馆场景,基于注意力机制的人脸表情识别算法。整体流程如图1所示,需要识别的人脸特征首先通过CNN 提取面部外观特征,即面部的空间特征。如果仅仅依靠空间特征进行表情识别,特征分辨性和表达能力不足以获得准确的结果。所以,将空间特征导入到LSTM 中,利用LSTM 网络对时序特征的处理能力,使得人脸特征结合空间和时间双特征。为了能够让导入的空间特征效果更好,在导入前,通过注意力机制为空间特征施加一个空间注意力机制,加强空间特征的权重。同时,利用增加了空间注意力机制的特征,与LSTM 模型中的时间信息相运算,使得导入LSTM 模型中的特征既具备空间注意力,又具备时间特征增强。

图1 基于空间注意力机制的时空双特征人脸表情识别方法算法流程

1.1 空间注意力结构设计

本文通过使用3个卷积层学习重要性掩膜的方式生成空间注意力。为了实现空间注意力的施加,对每一次输入的人脸特征,通过点积运算进行融合,其目的是根据特征的重要性,加强所需区域的特征表达能力。计算公式如式(1)所示:

式中,Xi为第i个获取的人脸特征,Mi为该人脸的注意力,Zi是施加空间注意力后的人脸特征。

1.2 增强型LSTM结构设计

CNN 提取的人脸特征经过空间注意力模块后,进入本文所提出的增强型LSTM 网络模块,对时间特征进行提取、处理。

LSTM 网络是利用各种门实现对特征的时序处理。主要有遗忘门、输入门和输出门。增强型LSTM 网络模块比起传统的LSTM 网络来说,对于输入的目标特征施加了空间注意力,使得特征在时空表达能力上有了进一步提高。以下为本算法设计的LSTM处理公式。

为了让施加空间注意力的人脸特征Zi在输入LSTM 网络时具备时间特征,使用前馈网络,将其与ht-1进行计算,计算公式如式(2)所示:

其中,ft,it,Ot分别表示遗忘门、输入门、输出门。

图2 增强型LSTM结构

LSTM 网络主要包括遗忘门、输入门、输出门,本算法结合空间注意力机制,分别对遗忘门、输入门、输出门进行了重新设计。

在遗忘门的设计中,Yit表示在t 时间第i 个经过空间注意力输入的人脸特征,ht-1表示上个时刻的隐藏状态。σ表示Sigmoid 激活函数,bf和Wf表示可学习的权重参数。遗忘门的作用是根据权值分配,将对于当前时刻不重要的信息遗忘,只保留当前重要的信息。计算公式如式(3)所示:

在输出门设计中,Ct表示当前时刻的输出,其中包含了通过遗忘门与上一时刻输入相乘,保留与当前时刻相关的信息;输入门与当前时刻所学习到的重要信息相乘,提纯当前时刻的信息。计算公式如式(6)、式(7)、式(8)所示:

输入门和遗忘门的信息相加之后,直接输出到下一层。输出门还有个分支,Yit通过激活之后和tanh 的输出相乘,然后作为隐藏状态传给下一层。该分支的作用是将当前时刻提纯后的有用信息传递给下一时刻继续使用,由此循环往复,直到结束。

2 实验

本次实验使用RML(ryerson multimedia lab)人脸表情数据库,该库采集了来自六个不同国家、不同文化背景的人在自然状态下的愉悦、困惑(害怕)、惊讶、疲倦(悲伤)和中性等人脸基本表情样本,共计450 张人脸表情图片和500句左右的语音信息。

在消融实验中,本文对比了三种不同的模型:①CNN;②CNN 加上本文所提的空间注意力机制;③CNN、LSTM 加上本文所提出的空间注意力机制。

消融实验结果见表1,实验数据表明,单纯使用CNN 模型的准确率为60.20%,而如果将本文所提出的空间注意力机制加入CNN 模型中,准确率可提升到63.58%。因为注意力机制中,CNN 提取的人脸特征又重新通过多层卷积网络学习其重要特征,该重要特征与人脸特征进行卷积运算得到带有空间注意力的人脸特征,使得特征更加具有分辨性。但是该特征只考虑了空间特征,缺少时间维度的特征支持。本文所提算法是将CNN 与LSTM 融合,并加上本文所提出的空间注意力机制,LSTM 模型主要是在时间维度上提供支持,与以往导入LSTM 的特征不同,本文导入LSTM 模型的特征是带有空间注意力的人脸特征,其特征在时间维度、空间维度都具有一定的识别能力,准确率可以达到64.63%。

表1 消融实验对比结果

图3是本文所提出的表情识别算法的混淆矩阵图。图中将愉悦、困惑、惊讶、中性、疲倦这五种表情的真实标签与预测标签做了对比,测试实际表情的准确率。

图3 表情识别结果的混淆矩阵图

从图3可以看出,愉悦和疲倦这两种表情的准确率最高,正确识别率分别是78%和75%,而困惑的正确识别率最低,只有43%。因为困惑很容易被判断为疲倦,困惑与疲倦在表情识别上具有很大的相似性,容易使得网络模型产生误判。惊讶与中性两种表情表现较好,正确识别率分别为68%和66%。

3 结语

本文提出了一种在博物馆场景下,基于空间注意力机制的时空双特征人脸表情识别方法。空间特征采用CNN 处理、时间特征采用LSTM处理。同时,通过3个卷积层神经网络学习人脸特征的重要性掩膜,并与人脸特征做点积运算获得空间注意力机制。在RML 情感数据集上进行实验,结果表明本文所提算法整体表现良好,对于愉悦和疲倦两种表情处理结果最好。

猜你喜欢
人脸特征提取注意力
让注意力“飞”回来
有特点的人脸
基于Daubechies(dbN)的飞行器音频特征提取
三国漫——人脸解锁
“扬眼”APP:让注意力“变现”
Bagging RCSP脑电特征提取算法
A Beautiful Way Of Looking At Things
马面部与人脸相似度惊人
基于MED和循环域解调的多故障特征提取
长得象人脸的十种动物