基于空间注意力的图像分类网络研究

2023-06-22 20:47徐海燕郝萍萍
现代信息科技 2023年2期
关键词:图像分类计算机视觉深度学习

徐海燕 郝萍萍

摘  要:针对以往的图像分类方法利用手工提取的特征(或通过神经网络提取的特征)、空间信息关注不足等问题,文章提出一种基于空间注意力的图像分类网络。该网络利用空间注意力模块,对深度网络提取的视觉特征进行空间约束。利用特征的空间信息,使得网络能够对特征在空间上的重要性加以区分,从而使其更具判别性。采用CIFAR-10和CIFAR-100测试集分别进行测试,测试结果表明,该文提出的图像分类网络的图像分类效果明显优于其他深度学习方法。

关键词:空间注意力;深度学习;计算机视觉;图像分类

中图分类号:TP391.4    文献标识码:A  文章编号:2096-4706(2023)02-0098-03

Research on Image Classification Network Based on Spatial Attention

XU Haiyan, HAO Pingping

(Shandong Huayu University of Technology, Dezhou  253034, China)

Abstract: Aiming at the problems of traditional image classification methods, such as using manually extracted features (or features extracted through neural networks), insufficient attention to spatial information, this paper proposes an image classification network based on spatial attention. The network uses the spatial attention module to spatial constrain on the visual features extracted by the depth network. Using the spatial information of features, the network can distinguish the importance of features in space, thus making them more discriminative. Test with CIFAR-10 and CIFAR-100 test sets respectively, test results show that the proposed image classification network is superior to other depth learning methods in image classification.

Keywords: spatial attention; deep learning; computer vision; image classification

0  引  言

图像分类任务研究图像类别预测,是计算机视觉中的一项基础任务,同时也是机器理解世界的重要途径。传统的图像分类方法主要利用手工设计的特征(例如:尺度不变特征转换(Scale Invariant Feature Transform, SIFT)[1]、方向梯度直方图(Histogram of Oriented Gradient, HOG)[2]等)以及传统的分类器(例如:支持向量机[3]、K-近邻[4])等方法实现图像分类。这些方法在面对简单的图像分类问题时是行之有效的,但是在面对海量图像数据时,实际的实验效果不能令人满意。

近年来,通过深度神经网络(例如视觉几何群网络(Visual Geometry Group, VGG)[5]、ResNet[6])自动学习图像中的特征能够取得优异的分类效果。VGG和ResNet可以作为自动提取视觉特征的网络,在多种视觉任务(例如目标检测、实例分割、语义分割、图像分类)中已经证明其效果明显优于传统手工提取特征。VGG网络通常有16层,而ResNet由于其残差模块的设计,能够解决网络过深时对训练梯度的影响,达到更深的网络层数,例如,ResNet能够达到101层、152层,这使得ResNet对于大型的视觉任务仍具有良好的性能。常见的卷积神经网络[7]有LeNet[8]、VGG、GoogLeNet[9]和ResNet。注意力机制由Google团队于2017年提出,并将其应用于自然语言处理(Natural Language Processing, NLP)[10]领域。基于这种为特征分配权重的思想,一些基于注意力的模型相继提出,如融合了通道注意力的SE-Net、图注意力神经网络(Graph Attention Neural Network, GANN)[11]等。深度神经网络能夠在视觉任务中取得优秀成果的主要原因是其提取的特征更具有判别性,这种极具判别性的信息和图像内容的空间位置具有紧密的联系,例如图像分类任务中,“猫”和“狗”的图像是能够区分开来的。区分的主要依据是图像中“猫”和“狗”所处的区域,而不是图像中的背景或其他区域。然而,普通的深度神经网络对所提取图像的空间信息关注不足,不能很好地描述不同空间位置信息的重要性。因此,本文提出一种基于空间注意力的图像分类网络,该网络通过空间注意力机制对特征图计算空间注意力系数,并将该系数重新作用于视觉特征上,得到具有空间重要性区别的特征,更有助于图像分类。通过实验可知,基于空间注意力的图像分类网络能够获得更优的图像分类效果。

1  基于空间注意力的图像分类网络

基于空间注意力的图像分类网络在传统深度网络的基础上增加了空间约束,通过在空间层面上学习图像中各个区域位置的权重信息,能够获得更具有判别性的图像特征。

如图1所示,基于空间注意力的图像分类网络主要包括三部分:(1)图像特征提取部分;(2)空间注意力特征融合部分;(3)特征分类部分。接下来依次介绍各个模块。

图像特征提取部分的输入为RGB图像,通过ResNet提取RGB图像的视觉特征,表示为X,其维度为C×H×W,其中H和W分别表示特征图的高和宽,C表示通道数,即特征图的深度。对于特征图X,输入空间注意力模块(Spatial attention)。空间注意力模块首先对输入的特征图X沿着通道进行最大池化[12](Maxpool)和平均池化(Avgpool)。图2为最大池化示意图,最大池化是对固定区域求最大值。图3为平均池化示意图,平均池化是对固定区域求平均值。

将池化后的特征图串联起来,通过卷积操作,合并为一个注意力系数矩阵M,将M输入激活函数,得到最终的注意力系数矩阵MS,将MS与特征图X相乘:

(1)

得到经过空间注意力约束后的特征图XS。最后将特征图XS经过池化,得到向量LS,输入全连接网络,得到对图像类别的预测:

(2)

其中,g(g)表示Softmax激活函数,Wg表示全连接层g的参数,y表示类别预测的概率。最后,利用交叉熵损失对模型分类进行约束:

(3)

其中, 表示图像在数据集中的类别标签。模型通过反向传播更新参数。

2  实验分析

通过基于空间注意力的图像分类网络在CIFAR-10和CIFAR-100公开数据集上的实验数据呈现,给出了数据集的基本信息以及基于空间注意力的图像分类网络和其他图像分类方法对比的实验结果。

2.1  数据集介绍

CIFAR-10数据集[13]总共包含10个类别(飞机、猫、狗、青蛙、鸟类等),每个类别包含6 000张图像,其中CIFAR-10数据集的下载地址为https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。

CIFAR-100数据集[13]总共包含100个类别,CIFAR1-100数据集对每张图像标注了细粒度的类别标签和粗粒度的类别标签,共包含20个粗粒度类别。该数据集的下载地址为https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz。

2.2  基于空间注意力的图像分类网络的分类表现

本文采用的主干网络为ResNet网络,将ResNet网络与空间注意力机制相结合,得到基于空间注意力的图像分类网络。在CIFAR-10和CIFAR-100数据集上进行训练和测试,并且与传统方法和基于深度学习的方法(VGG)进行对比。表1为CIFAR-10数据集分类结果,表2为CIFAR-100数据集分类结果。

表1展示基于空间注意力的图像分类网络在CIFAR-10数据集上与其他方法平均准确率的对比,其中,Practical Bayesian为传统的贝叶斯方法,没有利用卷积神经网络,平均准确率为90.5%。VGG-16是卷积神经网络的早期模块,网络层数为16,实现92.22%的准确率。ResNet-18相对于VGG-16加入了残差块的设计,平均准确率为93.02%,ResNet-50相对于ResNet-18网络更深,取得了93.62%的优良效果。Ours(backbone-ResNet-18)表示基于空间注意力的分类网络采用的主干(backbone)网络为ResNet-18,Ours(backbone-ResNet-50)同理。由于空间注意力模块的加入,Ours(backbone-ResNet-18)的平均准确率为94.34%,相对于ResNet-18提升了1.32%,而Ours(backbone-ResNet-50)的平均准确率为95.01%,相对于ResNet-50提升了1.39%。

表2展示基于空间注意力的图像分类网络在CIFAR-100数据集上与其他方法平均准确率的对比,其中,VGG-16获得65.45%的平均准确率,ResNet-18的平均准确率为68.25%。ResNet-50相对于ResNet-18网络更深,取得了70.01%的优良效果。由于空间注意力模块的加入,Ours(backbone-ResNet-18)的平均准确率为70.45%,相对于ResNet-18提升了2.20%。而Ours(backbone-ResNet-50)的平均准确率为72.63%,相对于ResNet-50提升了2.62%。

3  结  论

本文提出基于空间注意力的图像分类网络,利用空间注意力模块,对深度网络提取的视觉特征进行空间约束。由于考虑了特征的空间信息,使得网络能够对特征在空间上的重要性加以区分,得到更具判別性的特征,更有利于图像分类。实验结果表明,基于空间注意力的图像分类网络解决了以往方法对特征的空间信息关注不足的问题,所取得的图像分类效果明显优于其他深度学习方法。

参考文献:

[1] 林陶,黄国荣,郝顺义,等.尺度不变特征转换算法在图像特征提取中的应用 [J].计算机应用,2016,36(6):1688-1691+1698.

[2] D?NIZ O,BUENO G,SALIDO J,et al. Face recognition using histograms of oriented gradients [J].Pattern recognition letters,2011,32(12):1598-1603.

[3] 王周春,崔文楠,张涛.基于支持向量机的长波红外目标分类识别算法 [J].红外技术,2021,43(2):153-161.

[4] CUNNINGHAM P,DELANY S J. K-nearest neighbour classifiers-a tutorial [J].ACM Computing Surveys (CSUR),2021,54(6):1-25.

[5] MEI Y J,JIN H R,YU B,et al. Visual geometry group-UNet: deep learning ultrasonic image reconstruction for curved parts [J].The Journal of the Acoustical Society of America,2021,149(5):2997-3009.

[6] WU Z,SHEN C,VAN DEN HENGEL A. Wider or deeper: Revisiting the resnet model for visual recognition [J].Pattern Recognition,2019,90:119-133.

[7] 陳鑫华,钱雪忠,宋威.基于轻量级特征融合卷积网络的图像分类算法 [J].计算机工程,2021,47(11):268-275.

[8] EL-SAWY A,EL-BAKRY H,LOEY M. CNN for handwritten arabic digits recognition based on LeNet-5 [C]//International conference on advanced intelligent systems and informatics.[S.I.]:Cham,2016:566-575.

[9] ANAND R,SHANTHI T,NITHISH M S,et al. Face recognition and classification using GoogleNET architecture [C]//Soft computing for problem solving. Singapore:Springer,2020:261-269.

[10] ZHANG Y,TENG Z Y.Natural language processing [M].Cambridge:Cambridge University Press,2021.

[11] 鲍鹏,徐昊.基于图注意力时空神经网络的在线内容流行度预测 [J].模式识别与人工智能,2019,32(11):1014-1021.

[12] 王宇航,周永霞,吴良武.基于高斯函数的池化算法 [J].计算机应用,2022,42(9):2800-2806.

[13] 徐海燕.基于通道相似度注意力的图像分类研究 [J].信息技术与信息化,2021(11):78-80.

作者简介:徐海燕(1993.08—),女,汉族,山东德州人,助教,硕士研究生,研究方向:计算机视觉、图像分类、推荐系统研究;郝萍萍(1977.12—),女,汉族,山东德州人,副教授,硕士研究生,研究方向:计算机网络技术、物联网技术。

收稿日期:2022-10-10

基金项目:2021年山东华宇工学院校级科研项目(2021KJ17)

猜你喜欢
图像分类计算机视觉深度学习
基于云计算的图像分类算法
机器视觉技术发展及其工业应用
基于锚点建图的半监督分类在遥感图像中的应用
危险气体罐车液位计算机视觉监控识别报警系统设计
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
一种基于引导滤波和MNF的高光谱遥感图像分类方法
基于深度卷积网络的人脸年龄分析算法与实现