基于迁移学习的注意力胶囊网络

2021-05-11 19:18朱佳丽宋燕

智能计算机与应用 2021年2期

朱佳丽　宋燕

摘要：胶囊网络（CapsuleNetwork，CapsNet）通过运用胶囊取代传统神经元，能有效解决卷积神经网络（ConventionalNeuralNetwork，CNN）中位置信息缺失的问题，近年来在图像分类中受到了极大的关注。由于胶囊网络的研究尚处于起步阶段，因此目前大多数胶囊网络研究成果在复杂数据集上表现的分类性能较差。为解决这个问题，本文提出了一种新的胶囊网络，即基于迁移学习的注意力胶囊网络。该网络通过使用迁移学习的方法改进传统的特征提取网络，并融合注意力机制模块，进而完成图像分类任务。首先，使用9层采用ELU激活函数的特征提取网络提取特征;然后，将特征提取网络在ImageNet数据集上训练所得参数，通过迁移学习用于CIFAR10数据集上;再者，在特征提取网络后加入注意力模块提取关键特征;最后，在MNIST、FashionMNIST、SVHN和CIFAR10等公开数据集上进行了对比实验。实验结果表明，本文提出的胶囊网络在简单和复杂数据集上都取得了理想的分类效果。

关键词：胶囊网络;迁移学习;注意力机制;图像分类

【Abstract】Inrecentyears，CapsuleNetwork（CapsNet）hasreceivedgreatattentioninimageclassificationbecauseitreplacestraditionalneuronswithcapsulesandovercomesthedefectsoflosingpositioninformationinConvolutionalNeuralNetwork（CNN）.SincetheresearchofCapsNetisstillinitsinfancy，mostresearchresultsofCapsNethavepoorclassificationperformanceoncomplexdatasets.Tosolvethisproblem，anewcapsulenetworkisproposedtocompletetheimageclassificationtask，namedAttentionCapsuleNetworkbasedonTransferLearning，byimprovingthefeatureextractionnetworkthroughtransferlearningandintegratingtheattentionmodule.Firstly，a9-layerfeatureextractionnetworkwiththeELUactivationfunctionisusedtoextractfeatures;secondly，theparametersobtainedfromthefeatureextractionnetworktrainingontheImageNetdatasetareusedontheCIFAR10datasetthroughTransferLearning;thirdly，theattentionmoduleisstackedafterthefeatureextractionnetworktoextractkeyfeatures.Finally，experimentsonpublicdatasetsincludingCIFAR10，SVHN，MNIST，andFashionMNISTshowthattheproposedAttentionCapsuleNetworkbasedonTransferLearningcanachieveidealclassificationaccuracyonbothsimpleandcomplexdatasets.

【Keywords】CapsuleNetwork;TransferLearning;attentionmechanism;imageclassification

作者簡介：朱佳丽（1996-），女，硕士研究生，主要研究方向：图像处理;宋燕（1979-），女，博士，副教授，博士生导师，主要研究方向：大数据算法、图像处理、预测控制。

0引言

自2017年GeoffreyHinton首次提出胶囊网络（CapsuleNetwork，CapsNet）[1]以来，CapsNet受到了广泛的关注并被逐渐应用于计算机视觉的各项任务中[2-3]。CapsNet使用胶囊代替了传统卷积神经网络（ConventionalNeuralNetwork，CNN）中的神经元，利用转换矩阵表示物体之间的位置关系，极大地克服了CNN由池化操作[4-5]带来的信息丢失的缺陷，因此CapsNet在训练样本较少的情况下也能有效地提取出图像的基本特征。与传统的CNN相比，CapsNet能在目标重叠的情况下识别多个目标，并且对仿射变换具有一定的鲁棒性。

目前大部分胶囊网络在复杂数据集上的表现较差，究其原因即在于胶囊网络提取特征仅使用了一层卷积，难以有效提取出目标的有效信息，因此可以利用深度神经网络提取特征。但在深度神经网络上，仅通过CIFAR10这样的小数据集很难学习到好的参数，提取到合理的特征。近年来，迁移学习[6]也迎来了业界研究热潮，这是一种运用已有知识对不同领域问题进行求解的机器学习方法[7-8]。2016年的NIPS会议上，吴恩达指出迁移学习可以在样本不充足的情况下达到较好的分类识别效果，会在未来的人工智能领域占据着举足轻重的地位。但针对大量的特征，如何寻找出关键特征也至关重要。2018年，卷积注意力机制（ConvolutionalBlockAttentionModule，CBAM）[9]的提出，用于特征优化，在计算机视觉的各个领域均取得了显著的效果[10-11]。

因此，本文首先使用一个采用ELU激活函数[12]的深层神经网络提取特征，通过迁移学习将该特征提取网络在ImageNet数据集上训练得到的参数迁移到训练CIFAR10数据集的网络中，可以充分提取CIFAR10数据集上的特征，然后在特征提取网络后引入CBAM注意力模块，提出了一种全新的基于迁移学习的注意力胶囊网络用于图像分类。本文提出的方法具有以下优点：

（1）在特征提取部分使用迁移学习，利用从大型数据集ImageNet训练得到的参数，提取CIFAR10数据集的特征，可以更充分地提取特征。

（2）在迁移学习后面加入注意力机制模块，可以从已提取的特征中提取出关键特征。

（3）使用ELU激活函数，针对ReLU的负数部分进行改进，避免了函数左侧输入为负时，梯度为0的情况。

最后，本文在MNIST、FashionMNIST、SVHN和CIFAR10数据集上进行实验，结果表明无论在简单还是复杂数据集上，本文提出的基于迁移学习的注意力胶囊网络都取得了良好的分类精度。

1胶囊网络

2迁移学习

迁移学习（TransferLearning）[6]是一种机器学习方法，可以在目标任务的高质量训练数据较少的情况下，将之前的一些任务中的知识转移到目标任务中，使得目标任务能够取得更好的学习效果。一般原始任务数据集有大量的标注数据，而目标领域数据集较小，迁移学习方法主要有基于特征的迁移学习和基于参数的迁移学习[13]。其学习过程如图3所示。

2.1基于特征的迁移学习

基于特征选择的迁移学习方法是识别出原始任务与目标任务中共有的特征表示，减少原始任务和目标任务中的差别，并利用这些特征进行知识迁移。首先利用原始任务和目标任务中的共有特征训练一个分类器，接着用目标领域中的无标签样本的特征优化分类器，那些与样本类别相关度高的特征会在训练得到的模型中被赋予更高的权重。

2.2基于参数的迁移学习

基于参数的迁移学习是找到原始数据和目标数据的空间模型之间的共同参数或者先验分布，从而可以通过原始数据的特征进一步处理目标数据，实现知识迁移，在学习原始任务中的每个模型的参数或者先验分布会共享给目标数据。

3卷积注意力机制

卷积注意力模块（CBAM）[9]是一种基于前馈卷积神经网络的注意力模块。对于给定的特征，CBAM模块通过通道和空间两个独立的维度推测注意力特征，将注意力特征与输入特征相乘得到输出特征，实现特征的优化。CBAM可以集成到任意的卷积神经网络中，其结构图如图4所示。

空间注意力模块如图6所示。将通道注意力模块输出的特征图作为输入特征图，首先基于通道进行最大池化和平均池化操作，然后将这2个结果连接生成一个特征描述符。然后经过一个卷积操作进行降维。再经过sigmoid生成空间注意力特征。最后将该特征和该模块的输入特征做乘法得到最终生成的特征。可由如下公式计算得出：

4激活函数

激活函数在神经网络中引入了非线性，是神经网络中不可或缺的一部分。如果不使用激活函数，则神经网络的每一次的输入都是上一层的线性输入，这样的网络无论有多少层，都只能表示是线性关系，但引入了激活函数后，神经网络可以拟合各种非线性函数，大大拓展了神经网络的应用[14]。常用的激活函数有sigmoid激活函数、ReLU激活函数、ELU激活函数等。

對此可做分析概述如下。

（1）sigmoid函数。作为最简单的激活函数，其数学公式可写为：

σ（x）=11+e-x，（7）

但在神经网络进行反向传播时，sigmoid函数容易导致梯度消失和梯度爆炸。

（2）ReLU激活函数。是目前使用最广泛的激活函数。当输入值小于零时，输出值为零。当输入值大于等于零时，输出值等于输入值。其数学公式可写为：

f（x）=max（0，x），（8）

ReLU激活函数训练速度很快，且当输入为正数时，不会造成梯度爆炸。但当x<0时，梯度为0，这样导致了负的梯度置零，该神经元不会再被任何数据激活。

（3）ELU激活函数。针对ReLU的负数部分进行的改进，右侧线性部分能够缓解梯度消失，而左侧能够保证在激活函数输入为负时，梯度不为0。其公式如下所示：

f（x）=x，x>0，α（ex-1），x<0.（9）

5基于迁移学习的注意力胶囊网络

5.1特征提取网络

特征提取在图像分类中起着核心作用，由于CapsNet具有很强的细节解释能力，因此能够很好地处理图像中的重叠问题。但对于复杂数据集，CapsNet反而可能会提取出一些琐碎的、不合理的特征，从而导致分类精度的下降。例如，CapsNet在手写数字数据库（MNIST）上取得了良好的结果，但在CIFAR10数据集[14]上表现较差。

为解决这个问题，本文采用了迁移学习的方法。CIFAR10数据集较小，只有少量的标注数据，在进行训练时，很难通过这类小型数据集学习到合理的参数，参数的不合理直接导致了提取的特征不合理。因此可以利用大量的高质量标注数据如ImageNet数据集，通过预训练模型得到合适的参数用于小数据集的训练，方便提取合适的特征用于分类。

本文采用一个9层的深层网络用于特征提取，该网络包括9个卷积层和3个池化层。其结构如图7所示。由图7可知，所有卷积层均采用相同大小的3×3的卷积核，设置步长为1，填充1个像素，使用ELU激活函数，这样使得每一个卷积层都能与前一层保持同样的大小;池化层利用大小为2×2的矩阵进行最大池化。

CIFAR-10数据集的图像数据原始大小为32×32，为了方便知识迁移，将ImageNet数据集的图像数据大小处理成32×32后作为特征提取网络的输入。前三次卷积操作有64个大小为3×3卷积核，检测二维图像的初级特征;接着进行最大池化后，再使用256个卷积核，进行3次卷积;然后继续进行最大池化操作和3次512个卷积核的卷积操作提取出合理的特征。

5.2基于迁移学习的注意力胶囊网络

通过特征提取网络在ImageNet数据集上的训练，由此得到了该网络的参数，并用于CIFAR10数据集中，在提取出合适的特征后，本文通过增加注意力机制模块来提取关键特征，实现高精度分类，称为基于迁移学习的注意力胶囊网络，网络结构如图8所示。

输入图像通过图8中的特征提取模块，得到8×8×256的张量作为图4中的注意力模块的输入，输出仍然为8×8×256的张量，用于提取关键特征;接着的初级胶囊层的卷积核大小为3×3，步长为1，使用ELU激活函数，输出是32个大小为6×6×8胶囊;最后是数字胶囊层，由10个16维的数字胶囊组成，使用动态路由进行分类，每个16维胶囊代表一个特定的图像类别。

6实验结果与分析

6.1数据集与评价标准

本文借助CIFAR10数据集[15]，验证了所提出的胶囊网络的有效性。CIFAR10是一个真实世界物体的小数据集，图像大小为32×32。与MNIST数据集相比，CIFAR10由真实世界中的目标组成，不仅存在较多的噪声，而且目标的比例和特征不同，给识别带来了较大的困难。在实验中，将学习率设置为0.001，批量大小设置为64。

6.2仿真实验结果分析

不同改进的胶囊网络在CIFAR-10数据集上的分类准确率见表1。由Hinton提出的胶囊网络准确率仅有68.95%，Prem等人[16]提出的胶囊网络的准确率为68.49%，由Xi等人[17]设计的胶囊网络分类准确率达到了71.51%。在实验中，在胶囊网络中分别引入BAM和CBAM注意力机制，精度分别达到74.52%和75.16%，当改进网络中的激活函数，分类精度也略有提升。结合图10中的特征提取网络改进胶囊网络，精度提高至77.84%，结合迁移学习，引入IamgeNet数据集上训练的参数，精度可以达到79.93%。最终结合迁移学习和CBAM注意力机制，本文提出的基于迁移学习的注意力胶囊网络在CIFAR-10数据集分类精度达到了81.34%。

为了说明本文提出的网络的泛化能力，还在其他公共数据集（MNIST数据集、FashionMNIST数据集和SVHN数据集）上进行了实验，结果见表2。

传统胶囊网络以及各改进胶囊网络在简单的MNIST数据集上均达到了很好的效果。而传统胶囊网络在稍复杂的FashionMNIST数据集的分类精度没有特别理想，为88.19%;引入不同的注意力机制后，网络精度达到了90.54%和91.76%;通过改进特征提取网络，分类精度可以达到91.58%，结合迁移学习，精度提高至92.53%;在基于迁移学习的注意力胶囊网络，分类精度最高达到94.07%。传统胶囊网络SVHN数据集上分类精度仅有82.81%，在分别增加BAM注意力机制和CBAM注意力机制后，分类精度大幅提升达到89.69%和91.56%，改进特征提取网络迁移学习，分类精度可以达到92.91%，在基于迁移学习的注意力胶囊网络中，分类精度最高达到94.59%。显然，本文提出的基于迁移学习的注意力胶囊网络在不同数据集上具有最好的效果。

7结束语

本文提出了一种新的胶囊网絡，即基于迁移学习的注意力胶囊网络，该网络充分提取图像的有效基本特征，并筛选出关键特征。本文提取特征时采用迁移学习的方式，利用从大型数据集ImageNet训练得到的参数，提取CIFAR10数据集的特征，此后引入CBAM注意力机制用于提取关键特征。并且所用网络中的激活函数都采用ELU激活函数，有效地避免神经元坏死。通过对比实验证明，无论是在简单数据集MNIST还是复杂数据集FashionMNIST、SVHN和CIFAR10上，论文提出的基于迁移学习的注意力胶囊网络在分类精度达到了理想的结果。下一步，将针对初级特征提取不充分问题，在提取特征的网络上进行改进，构建分类精度更高的胶囊网络。

参考文献

[1]SABOURS，FROSSTN，HINTONGE.Dynamicroutingbetweencapsules[C]//AdvancesinNeuralInformationProcessingSystems.LongBeachm，California，USA：NeuralInformationProcessingSystemsFoundation，Inc.（NIPS），2017：3856-3866.

[2]王弘中，刘漳辉，郭昆.一种基于混合词向量的胶囊网络文本分类方法[J].小型微型计算机系统，2020，41（1）：218-224.

[3]王金甲，纪绍男，崔琳，等.基于注意力胶囊网络的家庭活动识别[J].自动化学报，2019，45（11）;2199-2204.

[4]BOUREAUYL，PONCEJ，LECUNY.Atheoreticalanalysisoffeaturepoolinginvisualrecognition[C]//Proceedingsofthe27thInternationalConferenceonMachineLearning（ICML-10）.Haifa，Israel：ACM，2010：111-118.

[5]SCHERERD，MLLERA，BEHNKES.Evaluationofpoolingoperationsinconvolutionalarchitecturesforobjectrecognition[M]//DIAMANTARASK，DUCHW，ILIADISLS.Artificialneuralnetworks-Icann2010.LecturenotesinComputerScience.Berlin/Heidelberg：Springer，2010，6354：92-101.

[6]PANSJ，YANGQ.Asurveyontransferlearning[J].IEEETransactionsonKnowledgeandDataEngineering，2010，22（10）：1345-1359.

[7]陳炳超，洪佳明，印鉴.基于迁移学习的图分类[J].小型微型计算机系统，2011，32（12）：2379-2382.

[8]洪佳明，陈炳超，印鉴.一种结合半监督Boosting方法的迁移学习算法[J].小型微型计算机系统，2011，32（11）：2169-2173.

[9]WOOS，PARKJ，LEEJY，etal.CBAM：Convolutionalblockattentionmodule[C]//EuropeanConferenceonComputerVision.Munich，Germany：dblp，2018：3-19.

[10]卢玲，杨武，王远伦，等.结合注意力机制的长文本分类方法[J].计算机应用，2018，38（5）：1272-1277.

[11]苑威威，彭敦陆，吴少洪，等.自注意力机制支持下的混合推荐算法[J].小型微型计算机系统，2019，40（7）：1437-1441.

[12]XUBing，WANGNaiyan，CHENTianqi，etal.EmpiricalEvaluationofRectifiedActivationsinConvolutionalNetwork[J].arXivpreprintarXiv：1505.00853，2015.

[13]庄福振，罗平，何清，等.迁移学习研究进展[J].软件学报，2015，26（1）：26-39.

[14]张涛，杨剑，宋文爱，等.关于改进的激活函数TReLU的研究[J].小型微型计算机系统，2019，40（1）：58-63.

[15]ZHANGJunbo，ZHENGYu，QIDekang，etal.Predictingcitywidecrowdflowsusingdeepspatio-temporalresidualnetworks[J].ArtificialIntelligence，2017，259：147-166.

[16]PREMN，ROHAND，STENFANK.Pushingthelimitsofcapsulenetworks[J].Technicalnote，2018.

[17]XIE，BINGS，JINY.Capsulenetworkperformanceoncomplexdata[J].arXivpreprintarXiv：1712.03480，2017.