基于深度残差注意力生成网络的数据增强图像分类

2023-05-24 09:06:42张目飞
智能计算机与应用 2023年5期
关键词:残差注意力准确率

张目飞,李 廷,苏 鹏

(1 浪潮云信息技术股份公司 服务研发部,济南 250000;2 山东浪潮新基建科技有限公司,济南 250000)

0 引言

随着个人智能设备和图像相关应用的普及,会产生大量的图像数据,如何高效、合理地对这些图像数据进行合理的分类是一项技术难题。在过去的几年中,深度神经网络(DNN)在计算机视觉和模式识别任务中,如:图像分类、语义分割、对象检测应用广泛。卷积神经网络中的卷积层能够捕获图像的局部特征,以获得与输入维度相似的空间表示,使用全连接层和softmax 分类层生成概率表示,来达到分类效果[1]。He 等[2]提出了深度残差网络ResNet34,引入了残差结构,可以更好地学习残差信息,并在后续层中使用这些残差信息,提高了图像分类的性能,为深度学习领域带来了新的思路和方法。

许多基于深度神经网络,在网络学习过程中添加注意力机制来获得图像中感兴趣区域,通过选择给定输入的特征通道、区域来自动提取相关特征[3]。Woo 等[4]将注意力机 制模块集成 到CNN中,提高网络的特征表达能力,从而提高了图像分类的准确率;Wang[5]提出了残差注意网络,残差结构可以使网络更好地学习图像中的特征,通过添加注意力模块来学习图像中的局部区域特征;Park 等[6]提出了一种新的注意力机制,可以在空间和通道维度上同时进行特征加权,更加准确地捕捉到图像中的重要信息;Xi 等[7]提出用残差注意模块进行特征提取,以增强分类任务中的关键特征,抑制无用的特征;Liang[8]提出将自下而上和自上而下的前馈注意力残差模块用于图像分类。以上工作说明残差结构和注意力机制都可以帮助模型更好地学习图像特征,提高图像分类的准确性。

随着数据集规模的增大和类别的增多,训练一个高准确率的分类模型变得越来越困难。传统的数据增强方法对原始图像进行几何变换或者对图像进行随机扰动,虽然可以增加数据集的样本量,提高分类模型的准确率,但是这些方法无法生成新的数据分布。而生成网络是一种可以学习数据分布的生成模型,可以生成新的样本,从而扩大数据集并且增加数据多样性,从而可以提高分类模型的泛化性[9]。因此,本文提出一个深度残差注意力生成网络来生成图像数据,对数据进行必要的数据增强,利用ResNet34 网络进行图像分类。

1 深度残差注意力生成网络数据增强模型和图像分类

1.1 深度残差注意力生成网络模型结构设计

本文提出了一个深度残差注意力生成网络模型用于图像数据增强,主要结构包括生成器、判别器和残差注意力模块。生成器包含4 个反卷积层(DConv)和3 个残差注意力模型(SPAM),残差注意力模型能够对图像的重点区域进行特别关注,以生成高质量的图像,在生成器的最后一层使用Tanh 函数将数据映射到[-1,1]的区间内;判别器包括4 个卷积层(Conv),能够提取图像细节特征。深度残差注意力生成网络模型结构如图1 所示。

图1 深度残差注意力生成网络模型结构Fig.1 Deep residual attention generation network model

生成网络由生成器和判别器组成。生成器将随机向量Z作为输入,学习真实数据分布p(x)从而合成逼真的图像;判别器区分生成的图像与真实的图像,其输出表示从真实分布p(x)提取样本y的概率。生成网络的最终目标是让生成器生成和真实图像相同的数据分布,而判别器无法判定图像为真实图像还是生成图像,达到一个纳什平衡。在生成器和判别器相互博弈的过程中,生成网络的目标函数定义为公式(1):

其中,p(x)表示真实数据分布;p(z)表示生成数据分布;D(x)表示判别器运算;G(z)表示生成器运算。

本文随机选取Z=100 维的随机数据作为生成器的输入,经过生成器生成图像;判别器网络的输入为生成图像和真实图像,判别器网络指导生成器合成图像,鼓励生成器捕捉更为精细的特征细节,使得生成器生成的图像和真实图像难以区分。

残差注意力模型使具有相似特征的区域相互增强,以突出全局视野中的感兴趣区域,残差注意力模型如图2 所示。通过sigmoid 函数可以得到一个[0,1]的系数,给每个通道或空间分配不同的权重,可以给每个特征图分配不同的重要程度。

图2 残差注意力模型Fig.2 Residual attention model

本文设C × H × W为残差注意力模型的输入,C为特征图的数量,H和W分别表示为图像的高度和宽度;通过卷积和批量归一化运算对输入的特征进行处理,利用Sigmoid函数得到空间注意系数S;将输入的特征图和通过注意力模型得到的特征图利用残差结构进行融合,得到最终的残差空间注意力特征表示,公式(2)和公式(3):

其中,X表示空间注意模型的输入,Conv 表示卷积运算。

1.2 数据预处理和图像分类

首先,对输入图像进行数据预处理,主要包括:将图像裁剪为28×28 的大小,并进行随机旋转和对比度增强;其次,将预处理的数据送入到深度残差注意力生成网络中进行数据增强。深度残差注意力生成网络通过学习图像不变性特征,合成高质量的数据,注意力机制对图像的感兴趣区域进行重点关注;生成器通过学习随机数据来生成感兴趣的图像分布,判别器学习真实样本的分布,辨别生成器生成的图像;同时训练生成器和判别器,促使两者竞争,在理想情况下,生成器可以生成近似于真实的图像数据,而判别器不能将真实图像与生成图像区分,从而达到纳什平衡,达到数据增强的目的;最后,利用ResNet34 网络对增强的图像数据进行分类。

2 实验结果分析

2.1 实验参数设置

本文使用PyTorch 深度学习框架来训练模型,GPU 为NVIDIA Tesla V100,显存为32 GB。采用Adam 算法优化损失函数,采用小批量样本的方式训练深度学习模型,batch_size 设置为64,在训练的过程中采用固定步长策略调整学习率,初始学习率设置为0.000 1,gamma 值为0.85,L2 正则化系数设置为0.000 1,迭代次数为50 000 次。

2.2 数据集

本文采用的数据集为MNIST 数据集和cirfar10数据集。MNIST 数据集一共有70 000张图片,其中60 000 张作为训练集,10 000 张作为测试集,每张图片由28×28 的0~9 的手写数字图片组成;cirfar10数据集由60 000 张32×32 的彩色图片组成,一共有十个类别,每个类别有6 000 张图片,其中50 000 张图片作为训练集,10 000 张图片作为测试集。

2.3 实验结果

使用深度残差注意力生成网络分别对MNIST和cirfar10 数据集中的图像进行图像增强,使得图像的特征更加多样,对MNIST 数据集进行数据增强的效果如图3 所示,对cirfar10 数据进行数据增强的效果如图4 所示。

图3 MNIST 数据集数据增强的效果Fig.3 Effect of data enhancement of MNIST dataset

图4 cirfar10 数据集数据增强的效果Fig.4 Effect of data enhancement on the cirfar10 dataset

从图3 和图4 可以看出,使用深度残差注意力生成网络对MNIST 和cirfar10 数据集进行数据增强,具有很强的视觉可读性,同时也具有较清晰的纹理特征,实现了数据增强,扩充了数据集。

为了验证本文模型数据增强后的MNIST 以及cirfar10 数据在分类方面的效果,选择 CNN、ResNet18、ResNet34、ResNet50 和ResNet101 作为分类网络做对比实验。第一组测试增强数据的分类准确率;第二组,测试原始数据的分类准确率;第三组,将增强数据和原始数据各拿出50%组成新的数据集进行测试,实验结果见表1 和表2。

表1 MNIST 数据集分类准确率实验结果(%)Tab.1 Experimental results of classification accuracy of MNIST dataset(%)

通过表1 和表2 可以看出,使用深度残差注意力生成网络进行数据增强能够提高数据集的分类效果,证明本文提出的模型是切实有效的。利用本文模型进行数据增强的数据和原始数据相结合,在MNIST 数据集上达到了98.95% 的准确率,在cirfar10 数据集上达到了92.68%的准确率。

表2 cirfar10 数据集分类准确率实验结果(%)Tab.2 Experimental results of classification accuracy(%)for the cirfar10 dataset

3 结束语

本文提出了一种深度残差注意力生成网络用于数据增强,从而提高分类的准确率。实验结果证明,该模型在MNIST 数据集上获得了98.95%的准确率,准确率提高了0.93 个百分点;在cirfar10 数据集上获得了92.68%的准确率,准确率提高了0.65 个百分点。本文模型的提出,为数据增强提供了一种解决思路和方式。

猜你喜欢
残差注意力准确率
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32
高速公路车牌识别标识站准确率验证法
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things