基于残差网络注意力机制的人脸表情识别

2023-10-20 14:15郭昕刚沈紫琪
长春工业大学学报 2023年3期
关键词:掩码注意力卷积

郭昕刚, 沈紫琪

(长春工业大学 计算机科学与工程学院, 吉林 长春 130102)

0 引 言

面部表情相较于语言、动作等方式在大多数场景下更能真实有效地判断人们的心理活动,是人类表达感情中最具判断力的方式[1]。1971年,美国心理学家Ekman系统性地将面部表情分为:生气、害怕、厌恶、开心、悲伤、惊讶六类[2]。随着人工智能、计算机视觉的飞速发展,人脸表情识别技术作为图像识别的分支逐步成为该领域的热门研究对象,目前将深度学习引入表情识别领域中,此时的研究大多利用卷积神经网络[3]。谢银成等[4]在ResNet网络中嵌入自注意力机制,并在损失函数中加入权重系数,以此针对类别不均衡数据集;冉瑞生等[5]以ResNet18为基础,先将特征图遮掩一部分,再利用注意力机制进行表情判定;张波等[6]提出在普通卷积层中加入可分离卷积的网络为基础,并引入残差机制和通道注意力机制,对面部进行识别;付小龙等[7]以ResNet18网络为主体,利用联合损失函数进行表情识别;潘海鹏等[8]将浅层特征分别与多尺度特征和注意力机制融合,从而对人脸表情进行判定;Jiang D H等[9]针对瓶颈问题提出RexNet网络,进行表情识别。

文中提出一种网络:首先对图片裁剪掩码,进行数据增强处理;然后利用Ghost模块[10]减少网络参数量,并在Ghost模块后引入压缩-激励模块减少噪声影响,通过通道注意力机制和多尺度空间注意力机制获得更精细的特征;最后利用联合损失函数[11]减少类内距离,以此提高表情识别率。

改造直接收益方面,以SNCR系统年运行8 000小时计算:稀释水泵电能消耗8 800kWh,约3 960元;除盐水消耗量减少1 816吨,约7 264元;氨水消耗量减少110吨,约81 767元。而单台炉整体改造费用为42 000元,可见从SNCR喷嘴系统改造中产生良好的经济效益的同时也为节能减排工作发挥了明显的作用,在同类型锅炉中值得推广应用。

治疗后,平衡针灸治疗组患者的生活质量评分为(78.12±8.12)分,常规针灸治疗组患者的生活质量评分为(65.12±7.56)分,组间数据比较,差异具有统计学意义(P<0.05)。详见表2。

1 网络设计

文中网络模型以残差网络为基础,融合裁剪掩码模块、Ghost模块、通道注意力机制、多尺度空间注意力机制和联合损失函数,网络模型结构流程如图1所示。

图1 网络模型结构

裁剪掩码是将图像随机遮掩一部分,遮掩区域和大小都随机选择,增加随机性更好地利用整张图像的全局信息。利用归一化层(Batch Normalization, BN)平衡特征数据,与常规Ghost模块[10]不同的是:采用深度可分离卷积进一步减少冗余参数量,引入压缩-激励模块减少提取特征的噪声干扰;然后使用通道注意力机制给通道分配不同权重,增加部分通道的重要性,设计多尺度空间注意力机制,将多尺度特征与空间注意力融合,用更大的感受野提取纹理特征;最后使用联合损失函数增大类外距离,减少类内距离,精准分类表情。

蒸汽发生器是核电站的关键设备,其性能好坏直接关系到电厂的安全运行,而蒸汽发生器中泥渣沉积会浓缩二次侧水中的离子浓度,有的甚至达到104倍以上,如氯离子,能增加传热管和其他管段上发生晶间应力腐蚀、点蚀的概率,从而影响蒸汽发生器的使用寿命[4-5]。因此,国内电厂普遍采取水力冲洗的办法,在大修期间,对蒸汽发生器二次侧泥渣进行冲洗,以避免泥渣大量堆积,危及蒸汽发生器安全运行的情况。

1.1 裁剪掩码

为提升网络泛化力,需要对数据做增强处理,文中受文献[12]的启发,设计裁剪掩码模块(Cutout),但与文献[12]不同的是,对图像的随机区域遮掩的时候,遮掩形状也随机选择,遮掩区域使用黑色,但不宜过大,部分经过遮掩处理的图片如图2所示。

图2 剪裁掩码图像

Cutout模块的具体思路如下:

1)根据输入图像得到图像的宽和高,确定掩码像素起始值位置;

2)随机选择掩码像素边长,规定掩码像素边长的上下限;

采取FER2013和CK+两种经典的人脸表情数据集。FER2013一共有35 886张图片,其中训练集占28 708张,验证集和测试集各占3 589张,共有7种表情。而CK+数据集样本中的7类表情图像来自不同的国家、民族和性别,且是比较完善的公开数据集。

为研究每个模块对网络性能的影响,以残差网络为基线,依次引入Cutout、Ghost模块、CAM、MSAM和联合损失函数(Joint Loss Function, JLF)进行表情识别。

上述工艺已成功地应用于三门1、2号机组和海阳1、2号机组空气导流板导流装置的制作,共计240件。该工艺施工简单,能满足连续批量化的工业生产要求,具有良好的质量稳定性和经济效益。

xi=Rand(0,H),

yi=Rand(0,W),

mask[xi:xi+h,yi:yi+w]=0,

(1)

式中:H,W----图片的高和宽;

在登录界面中医院的工作人员需要输入自己的姓名加密码进入系统,医院使用到本模块的角色有前台挂号人员,医生和收费的工作人员。此界面需要操作员表(TB_DIC_CZYXX),该表数据设计如下(见表2)

h,w----经过随机函数选择掩码像素的宽和高;

图4的Conv卷积层中,3×3,1×1,5×5,7×7表示卷积核大小;BN表示归一化操作(Batch normalization, BN);ReLU、Sigmoid表示激活函数。

超市、农贸市场等主要采样地点和不同生产季节,餐桌酱油和烹调酱油中菌落总数的污染水平无统计学差异,分析原因,应该是研究对象为预包装且样品一般为高盐高渗透压,流通过程受环境影响较小,常见细菌在酱油的高盐环境下不易增殖且呈下降趋势[3]。主要产区和不同采样地区菌落总数的污染存在差异,应该与不同企业加工过程中卫生质量的控制效果存在差距,预包装产品的销售范围区域差别较大有关。采自农村的烹调酱油中菌落总数≥10 cfu/mL的样品比例(57.03%)高于城市(49.68%),可能与城市和农村地区该类产品的品牌分布有关[4]。

1.2 通道注意力机制

特征图中每个通道存在不同重要性,给较重要通道增加关注度,提高网络抓取重要信息的能力,故设计一种通道注意力机制(Channel Attention Mechanism, CAM)。CAM具体流程如图3所示。

图3 通道注意力机制

图3中,将输入特征K分别通过平均池化和最大池化压缩特征宽和高维度后逐元素相加,聚合大量空间信息,并将合并的特征图送入卷积核为1的卷积中,降低r倍的通道维度(C表示原通道维度),在减少冗余参数量的同时,更好地拟合通道间的相关性,使用卷积核为3的卷积恢复原来的通道维度C,利用Sigmoid函数对特征图激活,并将每个通道描述符压缩至0~1范围内,最后将得到的通道注意力图与输入特征图相乘,得加权特征图Mc(K)。具体公式为

Mc(K)=K×

σ(f3×3(f1×1(add(AP(K),MP(K))))),

(2)

式中:σ----Sigmoid激活函数;

脂褐素形成原因主要是脂质过氧化产物作用结果。脂质过氧化终产物丙二醛(MDA)具有强烈的交联性质,能够与体内含游离氨基的磷脂、酰乙醇胺、蛋白质或核酸等生物大分子交联形成Schiff碱,使膜脂蛋白之间或其本身之间相互交联,变成比原来大几倍甚至几十倍的不溶于水的大分子聚合物,经溶酶体吞噬后,逐步沉积形成脂褐素[5]。

式中:cyi----第yi类的特征中心,当yi类训练更新时,为避免新中心抖动太大,选择在更新值中加入系数。

AP----平均池化;

MP----最大池化。

1.3 多尺度空间注意力机制

做表情识别时,一般以眼睛、眉毛等特征作为依据判断,因为这些特征包含纹理信息较多,表达不同情绪时会出现相应变化,不同图片人脸所占图片的比例不同,故将多尺度特征与空间注意力机制相结合[13],利用不同感受野提取图片信息,并增强关键点权重,提高网络特征提取能力。多尺度空间注意力机制(Multi-scale Spatial Attention Mechanism, MSAM)的具体流程如图4所示。

图4 多尺度空间注意力机制

xi,yi----掩码像素在图片中的起始位置。

将输入特征图F∈RC×H×W分别送入三条分配不同卷积核的支路,实现不同感受野提取图像特征,得到更多特征信息,三条支路的最后都利用BN层使小批量中的数据归一化和ReLU激活函数增强网络鲁棒性,分别得到三个分支特征图F1,F2,F3∈R1×H×W,将这三条支路输出特征图逐元素相加,融合多尺度特征信息。将融合后的结果引入3×3的卷积中,卷积步长为1,填充为same,最后利用Sigmoid对融合的特征图激活,将空间特征描述符压缩到0~1,与F相乘可突出定位目标,得最终的加权特征图Ms(F)。具体公式为

F1=δ(BN(f3×3(F))),

F2=δ(BN(f5×5(f1×1(F)))),

F3=δ(BN(f7×7(F))),

Ms(F)=F×σ(f3×3(add(F1,F2,F3))),

(3)

式中:F1,F2,F3----分别表示经过三条不同支路后的输出特征;

BN----归一化层。

1.4 联合损失函数

特征图经过网络处理后,一般使用交叉熵函数进行计算,

(4)

式中:xi----第i个样本在进入全连接层以前的输出,属于第yi类别;

wj----第j个全连接层权重参数;

2017年8月—2018年7月期间,110例急性胰腺炎合并脂肪肝疑似患者于我院接受CT诊断(55例)和超声检查的(55例),行分组对照研究(观察组和对照组)。观察组患者男23例,女32例,年龄35~72岁,平均年龄(58.12±4.54)岁。对照组患者男21例,女34例,年龄33~75岁,平均年龄(59.29±5.42)岁。两组患者的基本资料对照相仿(P>0.05),本研究具有可行性。

m----一次训练中批量大小;

n----类别数目。

为将同一类的表情更加紧凑,增大不同表情之间的差异,文中在交叉熵的基础上添入中心损失,中心损失计算过程为

(5)

f----卷积,1×1,3×3表示卷积核大小;

则cyi的更新值公式为

(6)

式中:β----类别中心更新系数。

总损失函数公式为

L=λLc+Lloss,

(7)

式中:λ----中心损失系数,用于控制损失函数所占比重。

CUI Rui, DENG Xiaolong. Experimental study on flotation performance of a novelfatty acid collector[J]. Conservation and utilization of mineral resources, 2018(6):46-50.

2 实验结果与分析

2.1 选取数据集

3)在输入图像宽和高的区域内,随机选择位置作为掩码像素边长起始位置,加入掩码像素边长,即可得到一个随机形状,将此区域设置为黑色,掩码像素矩阵计算公式为

2.2 实验环境

编程语言为python3.7,操作系统是64位的Ubuntu 18.04.5,深度学习框架则是TensorFlow 2.1.0。

进行盾构穿越掘进时,盾构姿态要避免反复蛇形纠偏;利用盾构主推油缸各分区压力差及行程差来控制其纠偏量,保持姿态趋势稳定,每环推进油缸分区的行程差控制在30mm以内,盾构水平/垂直姿态在±30mm以内,纠偏量控制在5mm以内。

2.3 消融实验

本研究还发现2015年MV野毒株组内遗传变异较小,而与疫苗株(A型)比较遗传变异较大。同时也发现有3例麻疹患者之前接种过麻疹疫苗,由于基因测序未发现沪191麻疹疫苗株,且前2例患者接种疫苗到发病时间较短,可能在接种前已经感染MV野毒株,最后1例考虑为免疫失败。冯燕等[15]研究显示,A基因型疫苗免疫后,对国外B、D型MV毒株侵袭的保护效果,要远远好于对我国的H1a流行株的保护。因此,MV野毒株核苷酸及氨基酸变异情况,是否会引起抗原性变化影响疫苗株保护效果,还有待进一步研究。

每个模块在两个数据集上的识别准确率见表1。

显然,该问题至少存在一个最优解。模型(9)—(10)可用于求解它,且数值模拟均显示其具有良好的收敛性和稳定性。取n=20, m=110, p=50,对20个随机初始点,图1显示了模型的前5个输出变量随时间t的变化轨迹。它们可能收敛到不同的值,但均经过短暂运行后收敛。图2显示了对20个随机初始点,误差随时间t趋于零的状态轨迹。

表1 网络中不同模块识别率对比

由表1可知,基线网络上每加入一个模块,识别准确率都会存在一定的增长,说明每个模块在表情识别领域的可行性。

2.4 实验验证与分析

为验证文中网络在表情识别领域的可行性。分别选用多种性能良好的网络相比较。采用FER2013数据集进行验证的结果见表2。

表2 在FER2013数据集上不同方法准确率比较 %

表2结果表明,文中网络模型在FER2013数据集上得到的识别率皆高于表2中其他的网络模型,表示文中网络在人脸表情识别方面的可行性。

文中模型在FER2013数据集识别结果的混淆矩阵见表3。

表3 FER2013识别结果混淆矩阵

由表3可知,7种表情识别率基本处于80%以上,其中,悲伤可以被正确分类,生气相对于其他表情来说识别率较低。

使用不同的网络在CK+数据集上得到的结果见表4。

表4 CK+数据集在不同识别方法准确率比较 %

由表4同样得出,文中网络的识别准确率要高于这些网络。由此说明,文中网络模型存在可行性。

治山治水治穷 建设生态家园——四川省坡耕地水土流失综合治理试点工程建设纪实…………………………………………………………………… (20)

文中模型在CK+数据集识别结果的混淆矩阵见表5。

表5 CK+识别结果混淆矩阵

其中表情识别率都在85%以上,生气和惊讶可以正确分类,而高兴相对于其他表情来说比较低。

3 结 语

针对人脸表情识别提出对传统卷积网络进行改进的方法,在残差网络中使用Cutout模块进行数据增强,并引入利用深度可分离卷积代替深度卷积的Ghost模块,进一步减少不必要参数,同时加入通道注意力模块加强对表情区域的关注,利用多尺度空间注意力机制将多尺度特征与空间注意力结合,有助于提高模型对表情的识别能力,使用联合损失函数增加类与类之间的距离,减少类内距离,从而减小相近表情分类错误率。但文中并没有对数据集中的图片就一个关键点遮掩,所以,可进一步优化网络实验。

猜你喜欢
掩码注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
低面积复杂度AES低熵掩码方案的研究
基于傅里叶域卷积表示的目标跟踪算法
基于布尔异或掩码转算术加法掩码的安全设计*
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
基于掩码的区域增长相位解缠方法
基于掩码的AES算法抗二阶DPA攻击方法研究