甘俊英 吴必诚 邹琪 郑泽鑫 麦超云 翟懿奎 何国辉
(五邑大学智能制造学部,广东江门 529020)
多任务学习是利用多个相关任务的有效信息,来提高多个任务预测表现的方法。在深度学习领域,多任务学习更多趋向于设计一种能从多任务监督信息中学习共享特征的深度多任务结构;不仅能减少参数量、推理时间,而且能提高多个任务的预测表现。文献[1]探讨了一种以编码为中心的深度多任务结构,依赖共享编码器去学习共享特征,并将其输出到任务具体的头部结构,从而得到每一个任务的预测结果。文献[2]将轻量级卷积神经网络作为共享编码器,以人脸美丽评分预测和人脸特征定位为任务来联合学习人脸表征,基于SCUT-FBP数据库的实验获得了较好的效果;但该文献仅通过简单共享整个编码器,未详细探讨共享编码器内部特征共享的具体单元和具体方式。文献[3]提出一种结合局部二值模式和卷积神经网络的人脸美丽预测算法,实验结果表明在卷积神经网络中加入纹理图像能有效提升人脸美丽预测精度。文献[4]提出十字绣单元,建立了编码器中不同任务特征与特征之间的约束关系,并可通过改变十字绣单元的位置和权重来决定不同任务之间哪些特征被共享以及共享的程度。文献[5]对十字绣网络进行改进,将其部分层网络更换为自注意力模块与长短时记忆模块,从而实现层与层之间、模块与模块之间的参数共享。基于大规模亚洲人脸美丽数据库(Large Scale Facial Beauty Database,LSFBD)[6]的人脸美丽预测取得63.95%的准确率。文献[7]提出了基于多头注意力机制的多模态维度情感识别方法,分别构建音频模型、视频模型和多模态融合模型对信息流进行深层特征学习,最后放入双向长短时网络中得到最终情感预测值。所提方法相比于不同基线方法在激活度和愉悦度上均取得了最佳的性能。文献[8]提出一种神经辨别性降维(Neural Discriminative Dimensionality Reduction,NDDR)模块约束特征表达,进而提取出共享特征。文献[9]提出多任务注意力网络(Multi-Task Attention Network,MTAN),利用注意力机制以一种自监督、端对端的方式,自动决定不同任务之间的共享特征和辨别性特征;这种网络结构更具灵活性,可以学习更具表现力的特征组合,进行跨任务的泛化,并可为每个任务定制辨别性特征。
为了使监督信息不足、且具有一种标签类型的数据库能够进行多任务训练,本文扩展了MTAN,提出一种双输入双任务注意力网络(Dual-Input Dual-Task Attention Network,DIDTAN)。若简单扩展MTAN 且处理两种不同分布的数据时,则会出现无法兼容的情况,即分布偏移问题[10]。因此,本文在MTAN 的基础上将任务共享的批量归一化层(Batch Normalization,BN)[11]扩展为不同任务特定的BN层,并引入深度相关对齐(Deep CORrelation ALignment,Deep CORAL)[12]损失函数约束全连接层的特征表达,从而解决分布偏移问题。为进一步提取更为通用的浅层共享特征,本文提出DIDTAN,使用NDDR 模块约束浅层特征的表达;为避免噪声标签的影响,引入噪声标签纠正机制[13],进一步提高该网络的泛化能力。
本文的主要贡献如下:
(1)提出DIDTAN,能使两种单标签类型数据以双输入的方式,进行双任务训练,提高了人脸美丽预测准确率。
(2)将DIDTAN 融入噪声标签纠正机制,进一步提高了网络泛化性,避免了噪声标签的影响。
(3)基于LSFBD 数据库、SCUT-FBP5500 数据库[14]、CelebA 数据库[15]的实验结果表明,DIDTAN能提高人脸美丽预测的准确率;融入噪声标签纠正机制,能进一步提高人脸美丽预测的准确率。同时,对不同超参数的结果进行了对比和分析。
本文提出将DIDTAN 融入噪声标签纠正机制,应用于人脸美丽预测。其中,DIDTAN 使两个单标签类型人脸美丽数据库能以双输入的方式,进行双任务训练,充分利用两个单标签类型人脸美丽数据库的监督信息并提高网络的泛化性。而DIDTAN融入噪声标签纠正机制,进一步提高了网络泛化性并避免了噪声标签的影响。整体框图如图1 所示,其中,数据库1、2是不同的人脸美丽数据库,包括数据和标签两部分,将数据1、2 同时输入DIDTAN,经多次训练后,将预测值1、2 与标签1、2 输入到噪声标签纠正机制中纠正数据库中的噪声标签。最后,利用噪声标签纠正后的数据库继续训练DIDTAN 后,获得最优的DIDTAN模型及其参数。
图1 整体模型框图Fig.1 Block diagram of the overall model
图2 为DIDTAN 结构图,是以Resnet-18[16]为基础的MTAN网络扩展而成的。其中,BN将小批次特征白化,并使用仿射参数还原白化前的特征。在训练阶段,BN 通过指数移动平均法估计输入特征的均值和方差;在测试阶段,BN 使用估计的均值和方差白化特征,并使用学习的仿射变换参数来还原特征。但是,白化和还原操作都对数据集敏感。由于双输入存在分布偏移,直接为不同的数据集共享BN 参数是不合适的[17]。因此,本文将Resnet-18 中出现的每个共享的BN 层扩展成两个任务特异性的BN 层,使得不同任务特征单独经过不同的BN 层,这样就能使每个BN 层估计出任务特异性的均值和方差。图2中BN1与BN2分别代表两个任务特异性的BN 层。NDDR1、NDDR 2模块约束浅层特征的表达,进一步提取到更为通用的浅层共享特征。注意力层结构除了学习到通用的共享特征外,还能获得多样化的任务特异性表达。Deep CORAL 损失函数能约束全连接层1、2 特征的二阶统计值,从而解决分布偏移问题。Drpout正则化[18]被用于防止DIDTAN提取到泛化性不强的特异性特征出现的过拟合。
图2 DIDTAN结构图Fig.2 Diagram of the DIDTAN structure
2.1.1 NDDR模块
深度神经网络倾向于学习层次分明的特征表示[19],即浅层趋向于提取更通用的低维图像特征,例如边缘、边角等,而深层则倾向于提取高层次的特征,这些特征更具有任务特异性。基于以上特点,本文在浅层即注意力层1、2 上一层分别加入NDDR1、NDDR2 模块约束浅层特征的表达,从而学习更为通用的低维特征,进而防止DIDTAN过拟合。图3 为NDDR 模块结构图,将两个具有相同空间分辨率的特征输入以通道串联的方式连接,然后将串联后的通道特征通过尺寸大小为1 × 1 的卷积层得到输出O1、O2、接着经过Relu 激活函数后输出O′1、O′2。为了方便调整两个任务特征共享的程度,本文引用文献[8]中提出的NDDR 模块初始化方式,即O1=[I1,I2][W1,W2]Τ。其中,I1∈RM×H×W×C,I2∈RM×H×W×C,[I1,I2]表示输入I1,I2通道串联在一起,即[I1,I2]∈RM×H×W×2C。W1∈RC×C,W2∈RC×C是 图3中卷积层1、卷积层2的权重值,[W1,则
图3 NDDR模块结构图Fig.3 Diagram of the NDDR module structure
其中,α、β是超参数,分别代表I1、I2的特征共享系数。
2.1.2 注意力层结构
深层网络用于学习更高维度的特征,不同任务之间的相关性变得很低,故不再适合使用NDDR 模块约束深层特征。若只使用NDDR 模块约束不同任务的共享低维特征的表达,往往会忽略不同任务的特异性特征学习。DIDTAN 除了学习到通用的共享特征外,还能获得多样化的任务特异性表达。因此,本文使用MTAN 网络结构中的注意力掩码。每个注意力掩码能自动地决定任务共享特征的重要性,并允许以一种自监督、端对端的方式学习任务共享和任务特异性特征。
图4为注意力层结构,其中,Basicblock_bn模块1、Basicblock_bn 模块2 是共享特征提取模块,即两个输入都经过它提取通用特征。虚线框中的模块为注意力模块,能提取当前任务更关注的特征,然后以注意力掩码的方式输出并与Basicblock_bn 模块2的输出相乘,从而获得特异性特征。不同特异性特征通过Basicblock 模块,提取泛化性较好的特异性特征。通道串联和最大池化层的组合是为了保持不同注意力层之间的连接和相关性,能学习到更为层次化的高维特征。图5为Basicblock模块结构,是经典网络结构Resnet-18[16]中实现的基本块结构。图6 为Basicblock_bn 模块结构,在Basicblock 模块基础上扩展了BN 的数量,即所有卷积层是被共享使用的,而BN模块则与不同的输入相对应。
图4 注意力层结构Fig.4 Structure of the attentional layer
图5 Basicblock模块结构Fig.5 Structure of the Basicblock module
图6 Basicblock_bn模块结构Fig.6 Structure of the Basicblock_bn module
2.1.3 损失函数
当不同任务梯度冲突时,深度神经网络的参数更新是次优的;当一个任务的梯度幅度比其他任务高得多时,深度神经网络的参数会完全倾向于某个任务,严重影响其他任务的泛化性[1]。本文采用MTAN 网络中的动态权重平均策略,平衡不同任务对深度神经网络参数的影响。为了使图2中全连接层学习到的特异性特征限制在一定的范围内,避免过拟合和出现分布偏移问题,本文使用Deep CORAL 损失函数对齐图2 中不同任务全连接层的二阶统计值,并使用超参数η∈[0,1]调节其约束能力。输入数据表示为X1、X2,任务标签表示为Y1,Y2,则损失函数Ltotal定义为
噪声标签是指标注错误的标签,通常会降低深度神经网络的泛化性。为充分利用所有可用数据并避免噪声标签的负面影响,本文采用文献[13]中的噪声标签纠正方法纠正噪声标签。若某样本经DIDTAN 预测的最大输出概率高于标签对应输出概率一定阈值,则认为该样本标签应该被纠正,即
其中,Pm为全连接层预测输出的最大概率,Pt为标签对应的预测输出概率,δ为阈值间隔;ym为最大输出概率对应的标签,y为原标签;yˉ为标签纠正后的伪标签;所有的预测概率皆为经Softmax分类器输出的概率。
本文在GeForce RTX2080ti GPU、Intel i7-9800X CPU 和62.5G 内存的计算机上进行实验,使用Py-Torch 框架;采用Albumentations 工具进行一系列数据处理和增强操作。首先,将数据按照9∶1 划分为训练验证合集、测试集,然后将得到的训练验证合集按照5∶1划分为训练集、验证集。同时,对训练集图像进行随机亮度、对比度、水平翻转、垂直翻转、随机仿射变换(移动、缩放)。然后,以ImageNet 数据库上预训练的ResNet-18 网络作为基础模型,扩展成多任务多输入注意力网络。最后,使用余弦学习率[20],初始化学习率为1 × 10-2,批次大小设置为64。
3.1.1 LSFBD数据库
LSFBD 数据库由本项目组建立,共20000 张带标签的人脸图像(10000张男性人脸图像和10000张女性人脸图像)和80000张未标签人脸图像,分辨率为144 × 144;分为五个类别,即“0”、“1”、“2”、“3”和“4”,分别对应于“极不吸引人”、“不吸引人”、“平均”、“吸引人”和“最吸引人”。本文仅使用10000张女性人脸图像来验证方法的有效性。其中,“0”类别有948 张图像,“1”类别有1148 张图像,“2”类别有3846 张图像,“3”类别有2718 张图像,“4”类别有1340张图像。
3.1.2 SCUT-FBP5500数据库
SCUT-FBP5500 数据库由华南理工大学建立,具有不同属性(男性或女性、亚洲人或白种人、年龄)和不同标签(人脸特征点、范围1~5的美丽分数、美丽分数分布),从而可实现不同人脸美丽预测范式的计算模型。共有5500张正面人脸图像,分辨率为350 × 350;因为SCUT-FBP5500 数据库是由60 个志愿者对所有图像评分为5 种人脸美丽等级,故本文将对同一张图片评分相同等级的志愿者人数最多的评分等级作为最终评分等级。共分为五个类别,即“0”、“1”、“2”、“3”和“4”。其中,“0”类别有76张图像,“1”类别有821 张图像,“2”类别有3278 张图像,“3”类别有1226 张图像,“4”类别有99 张图像。
3.1.3 CelebA数据库
名人人脸属性数据库(CelebA)是由香港中文大学开放提供,广泛用于人脸相关的计算机视觉任务,可用于人脸属性分类、人脸检测以及人脸关键点标记等,包含10177 个名人身份的202599 张人脸图像,每张图像都进行了特征标记,包含人脸位置标注框、5 个人脸特征点坐标以及40 个属性标记。因为CelebA 包括二分类人脸美丽等级标签和性别标签,本文利用CelebA 中的女性人脸美丽等级图像,共有118165 张图像,分辨率为178 × 218,分为两个类别,即“0”、“1”。其中,“0”类别有37911张图像,“1”类别有80254张图像。
本文方法是在MTAN 网络的基础上扩展的,而MTAN 网络是以Resnet-18 网络为基础扩展的。故本文将Resnet-18网络和MTAN 网络作为基准网络,在LSFBD、SCUT-FBP5500、CelebA 数据库上进行对比实验。其中,基于Resnet-18网络进行单输入单任务实验,基于MTAN 网络、本文方法进行LSFBD+SCUT-FBP5500、LSFBD+CelebA 双输入 双任务 实验。在Resnet-18 上进行的单输入单任务实验指将单个数据库的图像作为输入,并进行该数据库的人脸美丽预测分类任务。而在LSFBD+SCUTFBP5500 上进行的双输入双任务实验指同时将LSFBD 和SCUT-FBP5500 的数据作为输入,并同时进行基于LSFBD、SCUT-FBP5500 上的人脸美丽预测分类任务;同理,在LSFBD+CelebA 上进行的双输入双任务实验指同时将LSFBD 和CelebA 的数据作为输入,并同时进行基于LSFBD、CelebA 上的人脸美丽预测分类任务。本文将预测准确率(Classification Accuracy,CA)作为性能评价指标。由于不同数据库的标签类别限制,本文在LSFBD、SCUTFBP5500 数据库上进行人脸美丽预测五分类实验,而在CelebA 数据库上利用人脸属性标签中的女性人脸美丽预测标签进行二分类实验。
表1 为单输入单任务实验结果,表2 为双输入双任务实验结果。表2 中基于LSFBD+SCUTFBP5500 上实验,在LSFBD 上MTAN 的预测准确率为60.8%,与表1 中在LSFBD 上Resnet-18 的预测准确率58.1% 相比提高2.7%;然而,在SCUTFBP5500 上MTAN 的预测准确率为59.7%,与表1中在SCUT-FBP5500 上Resnet-18 的预测准确率74.3%相比却降低14.6%。表2 中基于LSFBD+CelebA 上实验,在LSFBD 上MTAN 的预测准确率为57.2%,与表1 中在LSFBD 上Resnet-18 的预测准确率58.1%相比降低0.9%;然而,在CelebA 上MTAN的预测准确率为77.0%,与表1 中在CelebA 上Resnet-18的预测准确率62.7%相比却提高14.3%。由上可知,在MTAN 上进行不同数据库的双输入双任务实验,出现深度神经网络的参数完全倾向于某个任务,影响其他任务泛化性的情况。这是因为不同数据库存在固有的分布偏移,在MTAN 上直接共享不同任务的BN 参数时无法找到兼容的共享特征。
表1 单输入单任务实验结果(CA(%))Tab.1 Results of single-input single-task experiments(CA(%))
表2 双输入双任务实验结果(CA(%))Tab.2 Results of dual-input and dual-task experiments(CA(%))
表2 中基于LSFBD+SCUT-FBP5500 上实验,在LSFBD 上本文方法的准确率为65.4%,与表1 中Resnet-18 的预测准确率58.1%相比提高7.3%;在SCUT-FBP5500 上本文方法的准确率为74.8%,与表1 中Resnet-18 的预测准确率74.3%相比提高0.5%。表2中基于LSFBD+CelebA上实验,在LSFBD上本文方法的预测准确率为63.1%,与表1 中Resnet-18 的预测准确率58.1%相比提高5.0%;在CelebA 上本文方法的预测准确率为79.5%,与表1中Resnet-18的预测准确率62.7%相比提高16.8%。由上可知,在DIDTAN 上进行不同数据库的双输入实验,本文方法实验结果均优于Resnet-18上的实验结果。
由表2 实验结果可知,基于LSFBD+SCUTFBP5500 上实验,在LSFBD 上本文方法的准确率为65.4%,与MTAN 上的准确率60.8% 相比提高4.6%;在SCUT-FBP5500 上本文方法的准确率为74.8%,与MTAN 上的准确率59.7% 相比提高15.1%。基于LSFBD+CelebA 上实验,在LSFBD 上本文方法的准确率为63.1%,与MTAN 的准确率57.2%相比提高5.9%;在CelebA 上本文方法的预测准确率为79.5%,与MTAN 的准确率77.0%相比提高2.5%。由上可知,在DIDTAN 上进行不同数据库的双输入实验,本文方法实验结果均优于MTAN 上的实验结果。因此,本文方法可以有效实现双输入双任务人脸美丽预测,并提高人脸预测准确率。
为比较融入噪声标签纠正机制前后的效果,本文基于LSFBD+SCUT-FBP5500、LSFBD+CelebA 上实验。其中,×表示没有使用噪声标签纠正机制、√表示使用噪声标签纠正机制。由表3 可知,基于LSFBD+SCUT-FBP5500 实验,融入噪声标签纠正机制前、后在LSFBD 上预测准确率分别为62.7%、65.4%,提高了2.7%;融入噪声标签纠正机制前、后在SCUT-FBP5500 上预测准确率分别为74.4%、74.8%,提高了0.4%。基于LSFBD+CelebA 实验,融入噪声标签纠正机制前、后在LSFBD 上预测准确率分别为62.0%、63.1%,提高了1.1%;融入噪声标签纠正机制前、后在CelebA 上预测准确率分别为78.9%,79.5%,提高了0.6%。
表3 融入噪声标签纠正机制的结果对比实验(CA(%))Tab.3 Results comparison experiment incorporating noise label correction mechanism(CA(%))
δ是预测输出的最大概率Pm和标签对应的预测输出概率Pt的阈值间隔。本文基于LSFBD+SCUTFBP5500 上实验来对比不同阈值δ的实验结果,如表4 所示,当δ取值越远离0.5 时,在LSFBD、SCUTFBP5500 上的预测准确率越低。δ的取值影响着标签纠正的效果,即δ 小于0.5 时,正确标签亦被误纠正;δ大于0.5时,没有完全纠正所有错误标签。
表4 双输入不同阈值δ的对比实验结果(CA(%))Tab.4 Results of comparison experiments with different thresholds for dual inputs(CA(%))
超参数T是计算损失函数时控制不同系数差异程度的超参数。如表5所示,当T=2时,在LSFBD 上的人脸美丽预测准确率最高;当T为表中其他值时,在LSFBD 数据库上的人脸美丽预测准确率相差较小。
表5 双输入不同的差异程度控制超参数T的对比实验结果(CA(%))Tab.5 Results of comparison experiments with dual inputs of different degree of variation control hyperparameters(CA(%))
本章将在LSFBD 数据库上进行的其他方法与本文方法进行对比,实验结果如表6 所示。其中,CRBM、K-means、Multiscale K-means 方法对应的准确率是在LSFBD 上深度学习兴起之前的传统方法应用于人脸美丽预测的分类准确率。NIN、GoogleNet、VGG16 对应的准确率是在LSFBD 上通用的深度卷积神经网络应用于人脸美丽预测的分类准确率。文献[3,5]是近几年在LSFBD 上进行人脸美丽预测的分类准确率。可知,本文所提方法的实验结果高于常规方法的结果。
表6 基于LSFBD不同方法实验结果比较(CA(%))Tab.6 Comparison of experimental results based on different methods of LSFBD(CA(%))
人脸美丽预测存在监督信息不足、易受噪声标签影响泛化性等问题。MTAN利用单个数据库的多种标签类型数据进行监督训练,但忽略了多个仅有一种标签类型的数据库进行多任务训练时效果不佳的情况;同时,未考虑噪声标签对MTAN 的影响。为此,本文结合MTAN,提出DIDTAN,并融入噪声标签纠正机制。其中,DIDTAN 能同时利用两个单标签类型人脸美丽数据库的监督信息,从而解决监督信息不足;而该网络融入噪声标签纠正机制,解决了噪声标签的影响,进而提高了人脸美丽预测准确率。基于LSFBD、SCUFBP-5500 数据库的双输入双任务人脸美丽预测取得65.4%的预测准确率,高于常规方法最高准确率。所提方法能实现双输入双任务训练并解决噪声标签影响,提高了人脸美丽预测准确率,可广泛应用于其他存在噪声标签的双输入双任务场景。后续将从双输入双任务进一步拓展到多输入多任务,不断优化该方法。