摘 要:为了提高混合架构在细粒度图像分类领域的性能,设计提出了一个判别模块(DM),该模块包括两个部分:判别性特征选择(DFS)和多尺度特征聚合(MFA)。DFS模块通过选取Vision Transformer(ViT)中不同注意力头中Top-K个鸟类物种的代表性特征以关注不同区域特征,促进不同判别区域的协同效应,同时减少特征冗余。MFA模块聚合不同尺度的鸟类判别性特征信息。在开源的鸟类细粒度数据集上进行了实验证明,并与现有方法进行了比较。实验结果表明,所提出的模块在鸟类细粒度图像识别方面取得了一定的改进。
关键词:细粒度图像分类;判别性特征选择;协同效应
中图分类号:TP183 文献标识码:A 文章编号:2096-4706(2024)13-0040-07
Fine-grained Image Classification Based on Multi-scale Discrimination Module
CHEN Bingbing
(School of Computer Science and Mathematics, Fujian University of Technology, Fuzhou 350118, China)
Abstract: In order to improve the performance of hybrid architecture in the field of fine-grained image classification, a Discriminant Module (DM) is proposed, which consists of two parts: Discriminant Feature Selection (DFS) and Multi-scale Feature Aggregation (MFA). By selecting the representative features of Top-K bird species in different attentional heads in Vision Transformer (ViT), the DFS module pays attention to the characteristics of different regions, promotes the synergistic effect of different discriminating regions, and reduces the feature redundancy. The MFA module aggregates discriminant characteristics information of birds at different scales. The experimental proof is carried out on an open source bird fine-grained dataset and compared with existing methods. The experimental results show that the proposed module has achieved some improvement in bird fine-grained image recognition.
Keywords: fine-grained image classification; discriminant feature selection; synergistic effect
0 引 言
鸟类细粒度图像识别是计算机视觉领域的重要任务。同时,该任务对于濒危鸟类的保护和研究具有重要意义。然而,背景干扰和鸟类姿势的任意性等因素增加了鸟类细粒度图像识别的挑战。为了解决该问题,本文提出了建立在混合架构的基础上的判别模块(DM),该模块可以更准确地刻画鸟类物种之间的差异,同时避免特征冗余和过拟合问题。
1 细粒度图像分类
鸟类作为自然界的重要家庭成员,在全球生态系统中发挥着至关重要的作用。有效可行的细粒度鸟类图像分类可以实现鸟类物种的准确识别,便于鸟类种群分布的检测,从而更好地了解鸟类生态和保护需求。然而,鸟类物种之间的外观差异往往很小,并且一些亚种之间的差异是细微的。因此,准确的鸟类识别通常需要详细的特征比较,如颜色、形状和纹理,这使得鸟类细粒度图像分类成为一项具有挑战性的任务。由于细粒度图像类间差异小,类内差异大,不能简单地应用粗粒度图像识别的方法来进行细粒度图像识别。为了解决这个问题,研究人员倾向于在图像中识别具有判别性特征的信息区域,利用部件标注信息,或利用额外的辅助数据。总体上可分为定位分类子网络、外部信息辅助、端到端特征编码三类方法[1]。
早期的定位分类子网络方法利用部件标注、边界框[1]等辅助信息帮助网络快速定位图像中的关键区域,如图1所示。近年来,大多数研究转向采用区域建议网络作为区域提取器[2]。一旦选择了图像区域,它们就会被调整为预定义的大小,并输入到骨干网络中,以学习更多信息丰富的局部特征。然而,这种机制忽略了所提出区域的子部分之间的关系,并且容易生成覆盖大部分对象的边界框,这使得难以捕获有效的细粒度特征以用于最终的对象识别。此外,两阶段网络会使整个训练过程复杂化,并倾向于提供次优性能。
图1 CUB-200-2011数据集示例
基于外部信息的方法中常用的辅助信息包括网络图像数据和多模态数据[3]。众所周知,人工采集和标注图像的成本很高,因此利用互联网上海量的图像资源进行数据扩充是很自然的事情。此外,图像的文本描述,如地理位置信息,也有助于细粒度图像分类。值得注意的是,这些外部来源提供的信息质量是未知和不可控的,有些信息可能与任务无关甚至有害。因此,需要额外的工作和成本来处理这些负面影响。
近年来,Vision Transformer(ViT)[4]因其在图像分类等任务中的出色表现而受到广泛关注。ViT通过以相对较大的固定尺寸表示特征,可以在粗粒度图像识别中获得较高的精度。然而,对于本文所考虑的鸟类细粒度识别等任务,期望能够准确地检测局部区域信息并适当地表示其中包含的判别性特征。Li等人通过精心设计的金字塔结构取得了令人鼓舞的进展,有效地实现了局部到全局的注意力机制[5]。它是一种“CNN+ViT”的隐式混合架构,能够捕捉局部特征,同时建模局部图像区域之间的远程关系,特别适合细粒度图像任务。在局部和全局特征协同提取成功的基础上,本文进一步尝试自适应地检测和表示与最终分类相关的关键局部区域。具体来说,该研究构建了一个判别模块DM来识别多个尺度上的判别区域,使用三个开源的鸟类细粒度基准数据集来验证所提出的方法。
2 多尺度混合架构与判别性特征提取
2.1 多尺度混合架构
CNN基于局部感知的归纳偏置和平移不变性,通过卷积和池化操作,在实现局部特征提取、降维的同时,很好地保留了图像的空间结构信息。相比之下,ViT通过自注意力机制提取和整合全局信息,可以更好地提供图像中的全局语义信息。在ViT中,全局视图非常重要,而一些重要的局部细节可能会被忽略。为了充分发挥两种网络结构的优势,CNN与ViT相结合的想法应运而生。例如,Liu等人提出了Swin Transformer [6],它具有分层设计和滑动窗口。通过计算窗口内的注意力,增强了ViT对相关图E37R5Ir+VohmSTYCpHkZjg==像局部性的表征能力,降低了计算成本。Peng等人开发了Conformer [7],其中包括并行的CNN和Transformer分
支,并利用特征耦合模块集成局部和全局特征,同时保留图像细节。与这种并行架构不同的是,CvT [8]首
先用卷积token embedding取代了原始ViT的position embedding位置嵌入,卷积token embedding本质上是一个卷积层,然后用卷积投影代替线性投影得到自注意力机制所需的Q、K和V。为了增强局部区域信息特征的表示和提取能力,CMT [9]特别设计了两个模块,即局部感知单元(local Perception Unit, LPU)和逆残差前馈网络(Inverse Residual Feedforward Network, IRFFN)。最近,Diao等人提出了MetaFormer [3],它提供了一种简单而有效的方法来联合学习视觉和各种元信息。其中,MetaFormer [3]包括五个阶段,前三个阶段通过CNN引入归纳偏置对视觉信息进行编码,后两个阶段通过ViT将视觉信息与元信息融合。这里的元信息是指涉及图像的文本描述或时空信息等。由于其简单性和SOTA性能,我们将使用MetaFormer作为主干,但不使用额外的元信息。
2.2 判别性特征提取
Zhang [10]等人在经典的R-CNN(Regions with CNN features)框架的基础上,提出了一种基于部件的R-CNN(Part R-CNN),用于细粒度的类别检测。具体来说,Part R-CNN首先通过选择性搜索算法生成大量的多尺度物体或物体部位的候选框,然后利用部位标注和边界框分别训练身体、头部和躯干的三种检测模型。最后,该模型通过从检测到的物体和单个部位提取特征来进行分类。类似的工作,如Branson [11]或Huang [12]等人通过使用部件注释和边界框来快速定位关键部件,以便进行最终分类。与上述依赖人工标记信息来寻找图像中判别部分的方法不同,Yang [13]等人提出了一种自监督模型,具体地说,构建了包含Navigator Agent、Teacher Agent和Censorship Agent的Navigator-Teacher-Censorship Network(NTS-Net)。Navigator可以在Teacher的指导下检测出信息量最大的判别区域,而prospeczer则对Navigator生成的区域进行检查并做出最终的预测。Fu [14]等人设计了一种循环注意力卷积神经网络(Recurrent Attention Convolution Neural Network, RA-CNN),在迭代过程中迭代搜索关键区域并逐渐缩小焦点区域,使模型聚焦于判别部分,最后从整个迭代过程中产生的所有尺度的焦点区域中提取特征并融合进行预测。其中,Zheng [15]等人提出了一种多注意卷积神经网络(MA-CNN),通过聚类具有相似响应区域的通道来获得判别区域。
3 方法设计
3.1 MetaFormer模型
如图2所示,MetaFormer模型由5阶段{S0,S1,S2,S3,S4}组成。在每个阶段的开始,减少图片的输入尺寸并增加通道数量以实现多尺度布局。第一阶段S0是一个简单的3层卷积,S1和S2是具有squeeze-excitation模块的MBConv块。S3和S4是ViT-based的MHSA块,包括Overlapping Patch Embedding和Relative Transformer Block。
ViT首先将图片分割成一个个小的图像patch块,并将这些patch块通过token embedding进行tokenization得到image token。除了这些image token之外,还插入一个特殊的类token(简称cls token)来聚合用于最终分类的全局图像信息。cls token和image token通过concat操作连接在一起。每个图像块的位置信息通过位置嵌入进行叠加。然后将这些tokens输入到由多个编码器块组成的transformer encoder中,每个编码器块包括多头自注意力(MSA)和多层感知器(MLP)。在MSA中,每个token被线性映射到一个维度为d的嵌入空间,并进一步打包成三个矩阵,即Q、K和V。注意力计算操作如下所示:
注意力图 表示输入的tokens之间的关系。特别地,注意力图的第一行对应于cls token相对于所有其他token的注意力,这反映了每个token对最终分类的重要性。然后将多个自注意头的输出送入到MLP中。MLP由两个全连接层组成,中间有一个GELU激活函数。在一系列堆叠的transformer块之后,提取cls token并将其用于最终分类。
3.2 判别模块DM
图3展示了判别模块DM的整体设计,DM包括判别性特征选择DFS和多尺度特征聚合MFA。
3.2.1 判别性特征选择(DFS)
在细粒度图像分类中,最具挑战性的问题是如何识别细微特征,为最终分类提供关键的判别性信息。实际上,多头注意力机制提供了有价值的线索,每个注意头集中在不同的图像区域,为最终任务进行特征提取。在本文中,我们充分利用了注意力图在多阶段设置中的潜力。
具体来说,S3和S4阶段分别有L = 14、2层Transformer encoder,每层Transformer encoder有H = 8个自注意力头。为简洁起见,我们省略了阶段或层的具体索引。特别地,让z = [z0;z1,…,zN]表示输入特征,其中N表示token的总数量,z0表示cls token。第l层的特征表示可以写成如下:
其中 表示层归一化操作。式(2)中MSA的注意力权值可以表示为:
(3)
其中 表示第l层中第i个头的cls token所对应的注意力权重, 表示第l层中第i个头的第j个token所对应的注意力权重。
如我们所知,cls token的注意力图表示每个token对最终分类的重要性。基于cls token的注意力权值来表示判别性信息是很自然的,即:
然而,使用单个层(例如最后一层)提供的注意力权重可能无法很好地表示token之间的相对重要性。因此,这里我们利用同一阶段多个层的注意力权值递归相乘得到的权重,即:
考虑到不同token之间的判别性特征的协同效应,选择多个token对应的判别性特征是合理的,而不是只选择信息量最大的特征。具体来说,根据cls token的权重值,即 中的 ,我们选择得分中的top-K个token,令I (ik)表示第k块信息token在第i个头中的索引,即:[I (i1),…,I (ik),…,I (iK)]。因此,所选择的特征表示可以写成:
在每个阶段,按照这种方式,可以选择最重要的top-K个特征,这可以确保过滤掉混乱的背景,同时保留可以为细粒度任务提供细微差异的局部特征。
3.2.2 多尺度特征聚合(MFA)
当从不同阶段选择了判别性特征后,需要融合这些多尺度特征来完成最终任务。众所周知,图卷积网络(GCN)[16]可以对图数据进行有效的表示学习,并且可以很好地处理缺失或有噪声的数据。在这里,我们利用GCN的优势,将从多个阶段选择的每个patch作为一个节点,考虑多个patch之间的关系来学习特征表示。为了自动捕获节点之间的相关性,我们使用了基于可学习自适应邻接矩阵的GCN。具体来说,我们将从每个阶段选择的特征进行连接和池化以获得 ,并分别使用卷积层从 中提取节点特征qGCN和kGCN:
然后,我们初始化一个可学习的自适应邻接矩阵 ,用较小的值表示每对节点之间的初始相似度,并引入注意力机制。具体来说,我们对 和 进行维度扩展,得到 和 。每个 和每个 之间的相似度是通过 与 之间的差值并通过Tanh()激活函数得到的,从而得到注意力权值 :
同时,引入了一个权重系数 来调节权重。最终自适应邻接矩阵 的表示如下:
将 送入使用自适应邻接矩阵 的单层GCN后,得到新的节点特征:
最后,将所得到的特征送入分类头用于最终的分类。在损失计算时,将原始的特征用于交叉熵损失计算,将经过DM模块后的特征用于对比损失。最终的损失由交叉熵损失和对比损失共同构成。
4 实验设置与结果
为了验证该方法的有效性,我们在三个开源的鸟类基准数据集上进行了一系列实验。我们首先介绍了数据集和训练超参数的设置,然后介绍和讨论了所提出的模型和相关基线模型的实验结果。
4.1 数据集和实验设置
我们使用三个开源鸟类细粒度数据集NABirds [17]、CUB-200-2011 [18]和Ningxia-Birds [19]数据集作为基准进行实验。NABirds总共包含555个鸟类类别,每个类别分别有大约40~60个训练样本和测试样本。CUB-200-2011总共包含200个鸟类类别,每个类别平均分别有30个左右的训练和测试样本。Ningxia-Birds是一个细粒度的宁夏野生鸟类分类数据集,在过去两年中以开源的方式发布。Ningxia-Birds共收录了206个鸟类分类,每个分类平均有60个左右的样本。所有图像都调整为384×384以适应模型。
MetaFormer及其在iNaturalist 2021上预训练的权重被用作我们模型的主干。训练超参数和优化器设置为与MetaFormer相同。即我们使用AdamW作为优化器,并采用cosine decay learning rate scheduler余弦衰减学习率,其中学习率初始化为5×10-5,权值衰减为0.05。我们还使用了MetaFormer使用的数据增强和正则化策略。在挑选判别性特征时其中Top-K激活区域的K值对于CUB-200-2011分别设置为2,对于NABirds和Ningxia-Birds分别设置为3。我们进行300 epoch的训练迭代微调。所有实验均使用Nvidia GeForce RTX3090进行,并使用PyTorch作为工具。
4.2 实验结果
表1给出了所提出的模型和相关SOTA模型在NABirds上的分类精度,其中可以发现,我们的模型DM达到了93.5%的精度,比MetaFormer提供的最后一个SOTA额外提高了0.5%。表2显示了在CUB-200-2011上的实验结果。我们的模型在其他基线上也可以观察到类似的改进:DM达到了93.2%的精度,比最新的SOTA高0.3%。表3显示,所提出的DM在Ningxia-Birds上可以达到96.7%,比MetaFormer高0.2%。结果表明,本文提出的DM可以进一步提高混合架构MetaFormer的性能。
4.3 消融实验
4.3.1 Top-K的设置
为了研究Top-K的最优值,我们讨论了不同的设置(即K = 1,2,3),并在三个数据集上进行了消融实验。实验结果如表4所示。从表4可以看出,不同的K值对不同的数据集有不同的影响。在NABirds数据集中,当K = 3时获得最佳结果。在CUB-200-2011数据集中,当K = 1或K = 2时获得了可比的结果。而在宁夏鸟类数据集中,当K = 3时,获得的结果略好。从这些结果可以得出,使用大于1的K值可以带来一定的改善,这也证明了我们提出的方法的有效性。在区分细微差异时,仅使用判别能力最强的patch往往是不够的,需要使用判别能力较弱的K的辅助协同效应。
4.3.2 DM的影响
为了更好地证明所提出的DM模块的有效性,我们绘制了混淆矩阵来显示DM模块带来的改进。我们在CUB-200-2011数据集上进行了消融实验。图4显示了无DM模块的原始MetaFormer模型对四个极其相似的子类别的混淆矩阵,而图5显示了有DM模块的MetaFormer模型对相同的四个子类别的混淆矩阵。混淆矩阵对角线上的数字表示正确分类的样本数量,其他数字表示错误分类的样本数量。对角线区域的颜色越深,模型正确分类的样本越多。从图4和图5中我们可以看到,带有DM模块的MetaFormer可以提高区分细微差异的能力。虽然DM并没有完全纠正错误分类,但它仍然在一定程度上减少了模型错误的数量。我们认为DM不能完全纠正错误分类的原因是图所示的四个子类别具有非常相似的特征,需要很高的分辨率才能发现一些细微的差异,甚至有些人可能很难用肉眼区分。
5 结 论
在混合架构的细粒度图像分类任务中,我们设计的判别模块DM在三个开源的鸟类细粒度图像分类数据集上取得了一定的提升。通过选取注意力头中Top-K个鸟类代表性特征,有效地提高了对不同区域的关注度,促使不同判别区域协同工作。同时聚合不同尺度的特征信息,增强了鸟类判别性特征的多样性。总体而言,我们的方法让混合架构在细粒度图像分类任务上向前又迈了一步。在未来,我们也希望寻找并设计更好的方案来解决该任务。
参考文献:
[1]WEI X-S,WU J X,CUI Q. Deep Learning for Fine-grained Image Analysis: A Survey [J/OL].arXiv:1907.03069 [cs.CV].(2019-07-06).https://arxiv.org/abs/1907.03069.
[2] REN S Q ,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[3] DIAO Q S,JIANG Y,WEN B,et al. MetaFormer: A Unified Meta Framework for Fine-grained Recognition [J/OL].arXiv:2203.02751 [cs.CV].(2022-03-05).http://arxiv.org/abs/2203.02751.
[4] DOSOVITSKIY A,BEYERL L,KOLESNIKOV A,et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.
[5] LI J P,YAN Y C,LIAO S C,et al. Local-to-global Self-attention in Vision Transformers [J/OL].arXiv:2107.04735 [cs.CV].(2021-07-10).https://arxiv.org/abs/2107.04735.
[6] LIU Z,LIN Y T,CAO Y,et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows [C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).Montreal:IEEE,2021:9992-10002.
[7] PENG Z L,HUANG W,GU S Z,et al. Conformer: Local Features Coupling Global Representations for Visual Recognition [J/OL].arXiv:2105.03889 [cs.CV].(2021-05-09).http://arxiv.org/abs/2105.03889.
[8] WU H P,XIAO B,CODELLA N,et al. CvT: Introducing Convolutions to Vision Transformers [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal:IEEE,2021:22-31.
[9] GUO J Y,HAN K,WU H,et al. CMT: Convolutional Neural Networks Meet Vision Transformers [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:12165-12175.
[10] ZHANG N,DONAHUE J,GIRSHICK R,et al. Part-based R-CNNs for Fine-grained Category Detection [C]//Computer Vision-ECCV 2014.Zurich:Springer,2014:834-849.
[11] BRANSON S,HORN G V,BELONGIE S,et al. Bird Species Categorization Using Pose Normalized Deep Convolutional nets [J/OL].arXiv:1406.2952 [cs.CV].(2014-06-11).https://arxiv.org/abs/1406.2952.
[12] HUANG S L,XU Z,TAO D C,et al. Part-stacked CNN for Fine-grained Visual Categorization [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:1173-1182.
[13] YANG Z,LUO T G,WANG D,et al. Learning to Navigate for Fine-grained Classification [J/OL].arXiv:1809.00287 [cs.CV].(2018-09-02).https://arxiv.org/abs/1809.00287v1.
[14] FU J L,ZHENG H L,MEI T. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:4476-4484.
[15] ZHENG H L,FU J L,MEI T,et al. Learning Multi-attention Convolutional Neural Network for Fine-grained Image Recognition [C]//2017 IEEE International Conference on Computer Vision(ICCV).Venice:IEEE,2017:5219-5227.
[16] KIPF T N,WELLING M. Semi-supervised Classification with Graph Convolutional Networks [J/OL].arXiv:1609.02907 [cs.LG].(2016-09-09).https://arxiv.org/abs/1609.02907.
[17] HORN G V,BRANSON S,FARRELL R,et al. Building a Bird Recognition APP and Large Scale Dataset with Citizen Scientists: The Fine Print in Fine-grained Dataset Collection [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:595-604.
[18] WAH C,BRANSON S,WELINDER P,et al. The Caltech-UCSD Birds-200-2011 Dataset [DB/OL].(2011-07-01).https://www.vision.caltech.edu/datasets/cub_200_2011/.
[19] 魏铭辰,刘立波,王晓丽.2020—2021年宁夏野生鸟类细粒度分类研究图像数据集 [J].中国科学数据:中英文网络版,2022,7(3):142-148.
作者简介:陈冰冰(1999—),女,汉族,福建莆田人,硕士在读,研究方向:细粒度图像识别、自监督学习。