范九丹
摘要:在细粒度识别任务中,良好标注的训练数据难于获取,现有强注释的数据集数量少,由于细粒度图像背景复杂、子类别图像差异细微等问题,导致现有细粒度识别模型精度不高。为此,使用具有图像级标签的免费网络图像作为训练数据,设计了一种融合注意力机制的网络监督细粒度识别模型。首先引入瓶颈注意力机制有效提高网络的表征能力,准确聚焦前景识别主体,减少了背景特征的影响。实验结果表明,提出的模型在Web-Bird(鸟类数据集)、Web-Cars(汽车数据集)、Web-Aircraft(飞机数据集)三个数据集上的ACA指标分别达到82.8%、88.1%和83.1%,在同类型算法中处于领先水平。
关键词:细粒度识别;注意力机制;深度学习;残差网络
一、前言
细粒度图像分类(Fine-grained image categorization)属于图像分类范畴[1],旨在对粗粒度大的图像进行更细致的子类别的细分。因其在智慧城市、商品识别、公共安全、生态保护等领域具有重要的科学意义和应用价值。不同于普通的图像分类任务,细粒度子类别受到微小的类间差异[2]和较大的类内差异以及杂乱背景特征的影响。深度学习在图像中得到的特征具有更强的表达能力,因此在细粒度图像分类上被广泛应用。当前基于深度学习的细粒度分类方法可以大致分为三类:强监督方法、弱监督方法和半监督方法。强监督方法首先检测关键零件,然后集成零件特征作为细粒度分类的最终视觉表示。不仅需要图像级标签,还需要手动注释的边界框或零件注释。由于细粒度类别的手动注释耗时且需要专家性意见,实用性和扩展性受到限制。弱监督方法不再使用边界框和零件标注,只需要在训练期间使用图像级别的标签。例如,朱阳光等[3]提出一种联合残差网络(Residual network,Resnet)和Inception网络通过优化卷积神经网络提高捕捉细粒度特征的能力。蓝洁等[4]根据Tensor Sketch算法计算出多组来自不同通道卷积层的双线性特征向量进行融合学习细粒度鸟类的特征信息。尽管如此,弱监督组方法仍然需要大量正确的图像级别标签。半监督方法涉及利用网络图像训练细粒度分类模型。例如,Xu等人[5]提出利用详细的注释,并将尽可能多的知识从现有的强监督数据集转移到弱监督网络图像,以实现细粒度识别。Niu等人[6]提出了一种新的学习场景,该场景只需要专家标记一些细粒度的子类别,然后借助网络图像预测所有剩余的子类别。半监督方法涉及各种形式的人工干预,可扩展性相对有限。
本文使用网络监督方法解决细粒度问题,利用网络上的免费数据训练细粒度的分类模型。网络图像标签通常源于自动标记系统或非专家注释,存在大量标签噪声。标签噪声分为“类内噪声”和“类外噪声”两种。类内噪声图片的真实标签包含在训练数据集的已知子类别中(参见图1中带有边界框的图像)。类外噪声图片与训练数据集完全无关,它们的真实标签不属于所在数据集中任一子类标签(参见图1中带有紫色边界框的图像)。为解决样本图像中大量标签噪声、背景特征干扰导致的识别效果不理想等问题,主要进行了如下工作:①在特征提取阶段引入瓶颈注意力模块,解决由背景特征干扰造成的识别能力弱的问题。②采用基于确定性的可重用样本选择和校正方法,利用额外的可重复使用样本。③在三个流行的基准细粒度数据集Web-Bird(鸟类数据集)、Web-Cars(汽车数据集)、Web-Aircraft(飞机数据集)上进行测试和评估,结果在同类型算法中处于领先水平。
二、模型框架
本文使用的基于瓶颈注意力机制的网络监督细粒度识别模型如图2所示。本文选取ResNet-50[7]作为特征提取网络,引入瓶颈注意力机制,提高网络的表征能力。首先,特征提取网络预测每个图像的标签,生成标签预测历史并计算每个图像的损失。然后,筛选模块对图像损失值排序,选出一部分低损失的图像。接着,重用模块对剩下的高损失图像计算预测确定性并排序,选择预测确定性大的样本作为可重用样本,并且利用预测历史修改它们的标签。最后,利用以上步骤得到的两部分训练样本来优化模型。下面将详细介绍网络中的各个部分。
(一)瓶颈注意力机制
1.通道注意力分支
2.空间注意力分支
3.注意力分支合并
(二)样本选择及校正
1.基于确定性的可用样本选择
2.基于预测历史的标签修正
三、实验结果及分析
(一)数据集
Web-Aircraft(飞机数据集)包含100个飞机类型的16,836张图像:13,503张图像用于训练,3,333张图像用于测试。
Web-Bird(鸟类数据集)涵盖了200种不同的鸟类子类别,总共包含24,182张图像:18,388张用于训练,5794张用于测试。
Web-Cars(汽车数据集)包含196个汽车子类别,包括29,489张图像:21,448张用于训练,8,041张用于测试。
(二)实验条件
本文所有实验均是在64位的Ubuntu16.04系统中进行,采用的深度学习框架为Pytorch,在训练过程中利用NVIDIA TESLA V100S显卡进行加速,并且采用Python3.7编程语言完成代码的编写。网络优化过程采用SGD优化器,动量为0.9。学习率、批量大小和权重衰减分别设置为0.01、64和0.0003。迭代训练110次,其中预热时期迭代5次。瓶颈注意力中膨胀值d设为4,衰减率r设为16。
(三)评价指标
本文采用平均分类准确率(Average Classification Accuracy,ACA)作为评价指标,分类准确率表示正确分类的样本数量占数据集所有样本数量的比例,计算得出五次实验的平均分类准确率。
(四)模型有效性验证
为验证瓶颈注意力模块在特征提取过程中发挥的作用,本文在数据集上进行了有无瓶颈注意力模块的实验对比,如表1所示。由表1可以看出,BAM在Web-Bird、Web-Cars、Web-Aircraft上的平均分类准确率分别实现了1.3%、0.9%和0.4%的提升,证明BAM模块可以进一步提高特征提取网络的表征能力。
(五)模型先进性验证
为验证本文改进算法的先进性,与目前最新的3种算法对比结果如表2所示。表2为不同方法在Web-Bird、Web-Cars和Web-Aircraft数据集上的结果比较,本文算法的平均分类准确率ACA指标均高于目前先进的对比算法。
综上所述,通过两个方面的实验分析证明,本文改进算法在三个数据集取得优异的检测性能,进而证明了本文算法的有效性和先进性。
四、结语
为应对细粒度识别任务中难以获取良好标记的数据集问题,本文使用网络监督方法解决细粒度识别问题,通过网络免费图像训练细粒度网络。为解决网络监督细粒度识别效果差的问题,本文设计了一种基于瓶颈注意力机制的网络监督细粒度模型。针对复杂背景导致图像前景特征提取不准确的问题,引入了瓶颈注意力机制,有效增加特征提取过程中重要特征的权重,强化网络对于有用特征信息的利用。本文提出的改进算法在各个指标上的结果均较为理想,为后续网络监督细粒度识别工作奠定了较好的基础。今后将进一步针对解决数据集标签噪声相关工作进行研究,提高标签纠错能力,使算法的识别效果得到进一步提升。
参考文献
[1]罗建豪,吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报,2017,43(8):1306-1318.
[2]魏秀参.深度学习下细粒度级别图像的视觉分析研究[D].南京:南京大学,2018.
[3]朱阳光,刘瑞敏,黄琼桃.基于深度神经网络的弱监督信息细粒度图像识别[J].电子测量与仪器学报,2020,34(2):115-122.
[4]蓝洁,周欣,何小海,等.基于跨层精简双线性网络的细粒度鸟类识别[J].科学技术与工程,2019,19(36):240-246.
[5]Zhe X,Huang S,Zhang Y,et al.Augmenting Strong Supervision Using Web Data for Fine-Grained Categorization[C]//IEEE International Conference on Computer Vision.IEEE,2015.
[6]Niu L,Veeraraghavan A,Sabharwal A.Fine-grained Classification using Heterogeneous Web Data and Auxiliary Categories:10.48550/arXiv.1811.07567[P].2018.
[7]He K,Zhang XY,Ren SQ,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE,2016.
[8]Park J,Woo S, Lee JY,et al.BAM: Bottleneck Attention Module:10.48550/arXiv.1807.06514[P].2018.
[9]Sun Z,Yao Y,Wei XS,et al.Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach:10.48550/arXiv.2108.02399[P].2021.
[10]Liu H,Zhang C,Yao Y,et al.Exploiting Web Images for Fine-Grained Visual Recognition by Eliminating Open-Set Noise and Utilizing Hard Examples[J].IEEE transactions on multimedia,2022(24):546-557.
[11]Sun Z,Hua XS,Yao Y,et al.Salvage Reusable Samples from Noisy Data for Robust Learning[J].2020.
作者单位:哈尔滨工程大学信息与通信工程学院