核范数优化下的多表征挤压激励自适应网络

2022-03-03 13:46谭茜成朱新远邹俊颖
小型微型计算机系统 2022年3期
关键词:特征提取精度分类

谭茜成,郭 涛,李 鸿,朱新远,邹俊颖,夏 青

(四川师范大学 计算机科学学院,成都 610101)

1 引 言

图像分类一直以来都是计算机视觉和深度学习[1]的研究重点并且都取得了巨大的成功[2].但是计算机视觉和深度学习获得如此成功的基石是大量的人工标记的数据.从实际情况来看,对数据集进行标记是十分耗费时间以及精力的.对此,无监督学习思想在深度学习领域获得了广泛的应用.然而在大多数深度学习以及数据挖掘任务中,都假定训练数据和测试数据服从相同分布并且源于相同的特征空间,现实中常会出现数据分布发生变化,导致传统机器学习算法下训练的模型不再适用的情况[3].针对该问题,杨强等提出迁移学习[4],将从有标签数据的领域学习到的知识应用到没有标签的数据上.领域自适应作为迁移学习的重要分支也得到了广泛的关注,领域自适应解决了源域和目标域数据分布不同但相关的前提下,完成源域知识在目标域上运用的问题[5].Jason Yosinski等人通过实验对深度神经网络过每一层的泛化性和特殊性进行量化,确定了神经网络每一层特征的可迁移性[6].领域自适应中典型的方法深度领域混淆(DDC)[7],通过在预训练网络结构中的Softmax层的上一层即适应层中加入最大均值差异(MMD)[8]距离,并使其最小化来减小源域和目标域在再生核希尔伯特空间(RKHS)[9]中的特征分布,最小化MMD距离来减小源域与目标域之间的分布差异.然而,DDC中单一核的MMD过于局限,不能很好拉近源域和目标域的特征分布[10].Long等提出了DAN[11],通过在预训练网络中加入多个适应层,并在MMD中构造m个核再进行加权计算,以解决单核MMD鲁棒性较差的问题.YaroslavGanin和Evgeniya Ustinova等提出了DANN[12],通过加入梯度反转层连接的域判别器与特征提取器的对抗学习域不变特征,进一步来最小化源域和目标域之间的距离.Sun等提出了Deep-CORAL,通过对源域和目标域进行非线性变换来对齐各自的二阶统计量[13].Zhu等人提出了MRAN[14],MRAN从空间角度出发,采用了Inception[15]并行卷积结构的优势,从多个角度对图像进行特征提取,并结合了CMMD作为拉近源域和目标域特征分布的工具,取得了显著的结果.但是它只关注了空间结构上的联系而忽略了各特征通道之间的联系,对于提取的多表征特征来说,各抽象特征在特征通道处的重要程度是不同的;并且在域适应后进行分类的时候,时常会出现熵相近发生因模型判别性较低从而导致分类错误的情况.本文针对以上的情况,提出了基于批量核范数最大化的多表征挤压激励自适应网络(Multi-Representation Squeeze-Excitation Adaptation Network_Batch Kernel Norm Maximization,MRSEAN_BNM),在多表征特征提取网络后添加了挤压激励注意力机制,通过特征重标定,根据其重要程度,自动学习各并行的表征特征不同的权重[16,17],最大化目标域分类输出矩阵的核范数,提升其最后分类的判别性[18].设置的消融实验结果表明,MRSEAN_BNM的对于最后的分类精度有显著提高.

2 UDA

UDA是指将有标签的源域数据训练好的模型适用于无标签数据的目标域数据,并获得目标域上进行分类精度或其他工作提升的一个方法[19].

定义1(数据集).数据集D可定义为一个二元组即D(X,Y),其中:X={x1,x2,…,xn}这个为n个实际数据的集合,Y={y1,y2,…,yn}则为n个实际数据对应的类别标签信息.

定义2(源域及目标域).对于给定标签的数据集Ds=(XS,YS),未给定数据集标签的数据集为DT=(XT,YT),分别设DS和DT的特征空间为XS和XT;类别空间为yS和yT;边缘概率为PS(xs)和PT(xT);条件概率为QS(ys|xs)和QT(yT|xT).若满足条件XS=XT;ys=yT;PS(xs)≠PT(xT);QS(ys|xs)=QT(yT|xT)即可将DS以及DT视为领域自适应中的源域数据集和目标域数据集.

定义3(UDA).在领域自适应中,如存在源域数据集DS=(XS,YS)和目标域数据集DT=(XT,YT).利用XS和YS进入深度迁移网络后学习一个分类器使得f:xT→yT,即完成UDA.

3 MRAN模型

MRAN通过对输入图像进行多表征特征提取,并通过CMMD拉近对每一组来自源域以及目标域的表征特征分布距离,来实现UDA任务.MRAN的学习过程由特征提取网络、初始适应模块(IAM)、分类网络3个部分完成.

1)特征提取网络:完成由原始图像到低像素图像的转变同时提取出两个域的公共浅层特征.源域图像和目标域数据经过的预训练(backbone)部分即特征提取网络.

2)IAM:完成从低像素图像中的多表征特征提取.源域数据和目标域数据均经过IAM,将经过backbone部分的低像素图像进行多表征特征提取,并将源域和目标域每一组的多表征特征映射到再生核希尔伯特空间拉近其分布,再将每组的表征特征进行合并.

经过IAM的流程如下:以数据集office31中图像数据为例.输入图像大小为32×32×3,经过Inception模块后变为4个并行的特征图,分别是特征图1(32×32×64),特征图2(28×28×64),特征图3(28×28×96),特征图4(32×32×64).4个特征图进入全局平均池化操作,池化后生成的表征向量分为两个分支,分支一对每组源域数据和目标域数据的表征向量CMMD进行计算,计算后完成叠加作为损失函数之一,并将其梯度信息回传;另一分支继续前向传播拉伸成一维向量后进行合并操作后,将4个表示表征向量的特征图合并为一个表征向量特征图,IAM结束.

3)分类网络:完成标签预测.合并后的表征向量特征图连接一个全连接层和Softmax层完成图像的分类并通过交叉熵函数计算其分类损失,分类损失进入损失函数回传机制.

4 MRSEAN_BNM模型

4.1 问题描述

由于MRAN结构存在以下两个问题:1)Inception网络从空间结构的角度出发,采取多表征的方式对输入图像进行特征提取,但是忽略了特征通道之间的联系,导致UDA分类时存在重要性不强的表征特征影响分类性能;2)MRAN中损失函数是由作为分类损失函数的交叉熵以及作为拉近源域数据和目标域数据在再生核希尔伯特空间特征分布损失的CMMD组成,但是忽视了在进行UDA分类过程中决策边界附近存在大量混淆数据的情况,在仅用信息熵最小化方法对目标域数据进行分类时,不足以解决决策边界混淆数据的问题.

4.2 模型结构

针对MRAN的不足,提出了MRSEAN_BNM.MRSEAN_BNM.MRSEAN_BNM模型由特征提取网络(Feature extraction network,F),多表征特征提取网络(Multi-representation feature extraction network,F*),注意力自适应网络(Attention Adaptation network,A),分类网络(Classification network,C)4个部分组成.该模型首先通过F提取输入图像的公共特征,再通过F*进行多表征特征提取.通过挤压激励注意力机制进行表征特征重标定,根据表征特征的重要程度,自动学习每一组表征特征的通道权重,再将学习到的通道权重与对应的表征通道进行点乘,生成带有通道权重的表征特征.并通过CMMD拉近对每一组源域以及目标域的表征特征分布距离;最后通过最大化目标域分类输出矩阵的核范数,来约束决策边界上的混淆数据,来实现UDA任务.模型如图1所示.

1)特征提取网络F:源域数据和目标域数据经过backbone部分,采用的ResNet50结构,完成由原始图像到低像素图片的转变实现对图像特征的低级抽象,同时提取出两个域的公共浅层特征FS,FT.

图1 MRSEAN_BNM结构图Fig.1 Diagram of MRSEAN_BNM structure

2)多表征特征提取网络F*∶F*:由一个Inception模块的4个分支构成,对完成公共特征提取的数据特征进行深层表征提取,完成低级抽象的低像素图像进行多表征特征提取即对特征的高级抽象.将FS,FT传入,生成对应的子模块FS1,FS2,FS3,FS4,FT1,FT2,FT3,FT4.

3)注意力自适应网络A:再将每一组表征向量:FS1和FT1,FS2和FT2,FS3和FT3,FS4和FT4传入注意力自适应网络A.对每一组表征向量特征通道进行权重计算.首先对特征通道独立进行全局池化,将每个通道的二维特征压缩为1个实数,使其获得全局感受野,同时输出维度和输入维度相互匹配,得到1×1×C特征图.此时通过一个全连接层、ReLU层以及一个全连接层在进行非线性变换的同时建立通道之间的相关性,最后通过Sigmoid层将权重归一化后输出并与另一分支的原特征图进行点乘,具体流程如图2所示.完成特征通道权重计算后将源域和目标域的每一组的多表征特征向量映射到高维空间拉近其分布并计算其CMMD损失,最后将每组的表征特征向量进行拉伸合并生成表征向量特征图A(FS)和A(FT).

图2 Attention mechanism结构图Fig.2 Diagram of attention mechanism structure

4)分类网络C:生成的表征向量特征图A(FS)和A(FT)连接一个全连接层和一个Softmax层组成的分类网络C,全连接层用于重组表征,Softmax层用于输出预测的标签.计算其交叉熵作为分类损失,最大化目标域分类输出矩阵的核范数作为BNM损失,计入总损失函数.

4.3 评估方法

本实验的评估方法采用CMMD损失函数、交叉熵损失函数和核范数最大化损失函数.

LCMMD为CMMD损失函数,用于评估源域数据和目标域数据之间的类条件分布.其中c表示标签类别即c∈(1,2,…,C),H表示再生核希尔伯特空间,Φ(·)表示将原始空间到再生核希尔伯特空间的映射函数.见式(1):

(1)

Lsoft为交叉熵损失函数,用于评估源域数据在进行图像分类的时候产生的损失.其中,c为类标签,yic指变量(0或者1),如果该类别和样本i的类别相同就是1,否则为0.指对于观测样本i属于类别c的预测概率.计算公式见式(2):

(2)

LBNM为核范数最大化损失函数,用于评估最大化目标域分类输出矩阵核范数的损失.给定目标域矩阵的随机抽样矩阵为BT.DT上的分类响应矩阵为G(XT),G为DS和DT之间的共享神经网络模块,计算公式见式(3):

(3)

MRSEAN_BNM的总损失函数为Ltotal,公式见式(4):

Ltotal=Lsoft+γLCMMD+γLBNM

(4)

4.4 算法流程

MRSEAN_BNM模型的整体算法流程如表1所示.

算法1.MRSEAN_BNM模型训练

输入:源域数据集Ds=(XS,YS),目标域数据集DT=(XT,YT),

训练次数K,批量大小m,平衡系数λ

输出:MRSEAN_BNM模型Γ

1.随机初始化模型Γ中所有网络层的参数;

2. forkin:Kdo

2.2.xSm通过F网络可得f1Sm,f2Sm,f3Sm,f4Sm=F(xSm);xTm通过F网络可得f1Tm,f2Tm,f3Tm,f4Tm=F(xTm);

2.4.根据式(1)计算源域和目标域的域间损失LCMMD.

2.5.根据式(2)源域的分类损失Lsoft.

2.6.根据式(3)计算目标域的BNM损失LBNM.

3.end for

4.输出模型MRSEAN_BNM模型,算法停止.

5 实验结果与分析

5.1 数据集

为了减少实验结果的偶然性,本文在office31数据集和ImageCLEF-DA数据集两组公共数据集上进行验证.其中在office31数据集上包含了amazon、webcam、dslr 3组子数据集并进行amazon→webcam,amazon→dslr,webcam→dslr,webcam→amazon,dslr→webcam,dslr→amazon共6组迁移实验;同理,在ImageCLEF-DA数据集下,也包含了3组子数据集,也同样设置了6组迁移实验,共12组迁移实验.A→B即A为源域数据,B为目标域数据.

5.2 参数设置

5.3 分类精度实验

5.3.1 实验流程

Step3.固定Γ1模型中的网络F、网络F*、网络A、和网络C的训练参数作为测试模型Ξ1,同理可生成对应的测试模型Ξ2和Ξ3.

5.3.2 实验结果分析

本实验完成了MRSEAN_BNM模型与当前主流迁移学习方法在ImageCLEF-DA数据集以及office31数据集上精度的比较.为了确保MRSEAN_BNM迁移性能提升的客观性,在12组迁移实验中均设置了MRSEAN,MRAN_BNM,MRSEAN_BNM精度的对比的实验.其中,分类精度的最大值用粗体标识,实验结果如表2和表3所示.

表2 MRSEAN_BNM在ImageCLEF-DA上迁移学习实验数据表Table 2 Experiment of transfer learning for MRSEAN_BNM on ImageCLEF-DA

从表2中可以看到,MRSEAN_BNM除了在I→C实验上的精度略低于RevGrad外,其他实验均优于其他算法.在表3中,MRSEAN_BNM除A→D实验中弱于MADA外,均优于其他算法.表2和表3中,MRSEAN_BNM在I→C和A→D的分类精度分别略低于RevGrad和MADA,其原因为RevGrad和MADA属于对抗学习方法,算法侧重于利用其对抗机制捕获源和目标间的域不变特征学习,MRSEAN_BNM属于度量学习方法,更注重于通过CMMD拉近源域和目标域之间的特征分布,获取源和目标相似特征,提升模型学习能力.而在I→C和A→D实验中数据分布过于离散,利用对抗机制更易进行域不变特征的捕捉,而CMMD以条件概率拉近分布距离的方式较弱,导致获取源和目标间的相似性特征较难,因此精度略高于MRSEAN_BNM.但在表2、表3中,MRSEAN_BNM的平均分类精度均优于所有比较方法.这表明了将挤压激励注意力机制与批量核范数最大化结合的重要性,并验证了MRSEAN_BNM可以更好的学习可迁移表征.

表3 MRSEAN_BNM在office31上迁移学习实验数据表Table 3 Experiment of transfer learning for MRSEAN_BNM on office31

5.4 模型收敛性证明实验

5.4.1 实验流程

Step1.选定5.3.1节中的测试模型Ξ1Ξ2Ξ3,固定测试步数Step后进行测试步数与精度折线图的绘制,生成对应折线图τ1,τ2,τ3.

Step2.将折线图τ1,τ2,τ3导出为表格1,对3组数据进行平均值计算形成折线图数据表2.

Step3.利用2进行折线图绘制,生成折线图τ.

5.4.2 实验结果分析

本实验完成了MRAN、MRAN_BNM、MRSEAN、MRSEAN_BNM在office31数据集上测试步数以及精确度折线图上的绘制,结果如图3所示,图3(a)代表amazon→dslr,图3(b)代表amazon→webcam,图3(c)代表dslr→amazon,图3(d)代表dslr→webcam,图3(e)代表webcam→amazon,图3(f)代表webcam→dslr.

从图3(a)-图3(f)可以看出,MRSEAN_BNM模型在office31的3组数据集amazon、webcam、dslr上均具有良好的收敛性.很显然,MRSEAN_BNM在6组迁移实验中,测试步数位于前1000的时候,精度的提升速度较快,在1000次左右的时候,测试精度波动趋于平缓,模型开始整体进入收敛状态.从图3(b)中可以看出amazon→webcam实验并没有达到最高的精度,是由于amazon数据集的数据背景单一,学习的特征训练出的分类器在进行迁移实验后判别性较弱,不能较好处理复杂背景数据集,如webcam数据集,并且迁移后的分类器存在干扰性,在注意力机制的影响下此域适应过程中发生了负迁移,导致其精度略低于其对比试验.在图3(f)中webcam→dslr实验MRSEAN_BNM表现也存在一些定波动,而MRSEAN模型在最高精度处平稳,其原因为webcam数据集提供的特征较为丰富,在添加注意力机制后正迁移的效果明显,导致图3(f)中达到了最平稳的收敛状态.与MRSEAN相比,MRSEAN_BNM网络的整体结构偏大,参数变多,整体优化难度变大,存在轻微波动.表3中可以看到,在3次平均结果后得到的MRSEAN_BNM能得到分类100%的结果,并不影响其在最高精度的收敛.

图3 MRSEAN模型在迁移实验中收敛性曲线Fig.3 Convergence curve of MRSEAN model in migration experiment

5.5 平衡系数λ对MRSEAN_BNM分类效果影响实验

5.5.1 实验流程

Step1.选取[0.01,0.02,0.05,0.1,0.2,0.5,1,2]共8个数作为的平衡系数λ的值[14].并按照5.3.1流程计算得到分类精度ζ1-ζ8.

Step2.根据λ和ζ关系绘制不同平衡系数下的模型分类精度表σ.

5.5.2 实验结果分析

MRSEAN_BNM涉及的超参数为LBNM的平衡系数,因此本实验选择随机抽样的方法从ImageCLEF-DA数据集以及office31数据集中从各随机选取一组迁移实验作为测试实验,如图4(a)和图4(b)所示.图4(a)表示office31数据集中webcam→amazon的实验,图4(b)表示ImageCLEF-DA数据集中C→P的实验.从图4(a)和图4(b)的结果中可以看到,MRSEAN_BNM模型的分类精度随平衡系数 的递增先增加然后降低,并大概显示为钟形曲线.webcam→amazon实验中,从λ=0.015开始至0.75平衡系数取值的结果均使MRSEAN_BNM的精度超过MRAN.在C→P的实验中,从λ=0.015开始平衡系数取值的结果均使MRSEAN_BNM的精度超过MRAN,由此可证明模型的可靠性.且当λ=0.1左右时,模型的迁移性能达到最佳.

图4 平衡系数λ对MRSEAN_BNM分类效果影响实验Fig.4 Influence of the balance coefficient λ on the classification effect of MRSEAN_BNM

5.6 t-SNE图特征可视化实验

5.6.1 实验流程

5.6.2 实验结果分析

从office31数据集中抽取10个类别,每个类别各10个数据,构成新数据集进行本次t-SNE特征可视化实验.其中子数据集dslr作为源域数据集,amazon作为目标域数据集,之后使用t-SNE来可视化源域数据集以及目标域数据集在进行域适应实验之前的特征分布情况以及在训练了500个epoch的MRAN,MRAN_BNM,MRSEAN,MRSEAN_BNM模型中的特征分布情况.如图5(a)-图5(e)所示.

图5 各模型域适应前后特征可视化分布Fig.5 Visual distribution of features before and after adaptation of each model domain

从图5(a)可以看到,在未进行域适应实验之前,数据特征分布十分杂乱,也观察不出领域之间的适应情况以及分类信息.在图5(b)中,源域数据以及目标域数据均开始聚集,且类内距离较小,但是在图的左下角,存在两个类的数据在分类时产生混淆情况即类间的距离较小.在图5(c)中,也存在与图5(b)一样数据类别混淆的情况.在图5(d)中,可以观察到数据类别混淆得到改善,但是类间距离依旧较大.在图5(e)中,分类时数据类别混淆的情况基本消失,类间距离较大,类内距离较小,源域数据和目标域数据均得到了较好的适应.因此可以说明在其他条件相同的情况下,MRSEAN_BNM拥有更加优越的性能.

6 结束语

为了解决MRAN模型在进行多表征特征提取时对特征只关注其空间结构而忽略通道联系的情况以及UDA中因为目标域缺少标签信息使得决策边界上存在大量游离数据,本文提出了一种基于批量核范数最大化的注意力机制深度域适应网络.该模型通过对MRAN中加入挤压激励注意力模机制,使得网络模型在多表征特征提取部分的通道联系加强,自动根据表征特征重要程度赋予其通道不同的权重大小.依靠矩阵核范数和Frobenius范数互相限制界限以及Frobenius范数和熵存在相反单调性的数学理论,最大化目标域分类输出矩阵的核范数,提高了其MRSEAN_BNM模型的分类精度.在域适应特征可视化的实验中也验证了MRSEAN_BNM模型在UDA分类中的优越性.此外,对于如何进一步提升注意力机制在特征提取中的正向作用并降低其负向作用,提升模型对决策边界上的混淆数据的区分是本文需要进一步研究的问题.

猜你喜欢
特征提取精度分类
基于不同快速星历的GAMIT解算精度分析
同步定位与建图特征提取和匹配算法研究
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
近似边界精度信息熵的属性约简
按需分类
教你一招:数的分类
说说分类那些事
基于曲率局部二值模式的深度图像手势特征提取
电力系统短期负荷预测方法与预测精度
给塑料分分类吧