DAResNet:基于动态卷积与注意力的鱼类分类算法

2025-02-23 00:00:00尚浩然俞洋
物联网技术 2025年4期
关键词:注意力机制特征提取深度学习

摘 要:针对现有水下鱼类分类准确率低,抗干扰能力和泛化能力差等问题,本研究在ResNet-D模型的基础上,设计了一种名为DAResNet的模型。首先,将主干网络中的部分卷积替换为全维动态卷积模块,以提高网络模型的特征提取能力及网络准确率;接着,通过引入高效多尺度注意力机制进一步增强模型对关键特征的识别和响应能力,以提升模型的抗干扰性;最后,在下采样阶段,引入高斯模糊和挤压激励注意力平滑特征并强化模型对关键信息的提取,以提升泛化能力。相比原始算法,DAResNet在水下鱼类识别任务中准确率提升了3.05%,性能提升明显,证明了所提方法的有效性。

关键词:全维动态卷积;注意力机制;深度学习;特征提取;高斯模糊;挤压激励注意力

中图分类号:TP183 文献标识码:A 文章编号:2095-1302(2025)04-0-05

0 引 言

近年来,随着我国城市化进程的持续推进,取得了许多令人瞩目的成绩。然而,也衍生出一系列不容忽视的问题。其中,水域污染问题和滥捕现象日益严重,已经成为人们关注的焦点[1-2]。为更好地保护水下鱼类,同时确保水域生态系统的安全,水下鱼类鉴定识别尤为关键。

以卷积神经网络为代表的深度学习算法取得了显著进展,显示出解决水下鱼类分类等复杂视觉分类问题的巨大潜力。例如,文献[3]通过改进Res2Net模型的网络结构,结合注意力机制、数据增强方法和CELU激活函数实现了10种淡水鱼的分类。文献[4]通过在EfficientNetV2上引入混合空洞卷积和加装坐标注意力机制的方法,实现了对7种水下鱼类的图像分类。文献[5]提出的ResNet-D模型,通过修改模型结构,改进训练策略,在ImageNet数据集上展现出了卓越的性能。这一进展证明了深度学习在图像识别领域的强大能力,同时也为水下鱼类识别等专项任务提供了新的思路[6]。然而,现有的网络针对水下鱼类的准确识别还存在一些挑战。水下环境的复杂性和多变性问题:光照、水质等因素会对网络造成干扰;图像采集问题:在图像采集过程中,鱼类姿态、方向和角度可能发生变化,导致同一种鱼在不同姿态下呈现出截然不同的外观,从而影响模型的泛化能力[7]。

为解决这些涉及水下鱼类分类任务的问题,本研究基于ResNet-D深度学习模型[8],提出了改进的DAResNet模型,在训练时采用余弦退火学习率调度策略与标签平滑对模型中的超参数进行优化,用以提高水下鱼类分类任务的准确率和工作效率,并能够适应不同水域场景下的水下鱼类识别场景。

1 模型架构

1.1 DAResNet模型简介

为解决水下鱼类分类问题,本文提出了DAResNet网络,该网络在ResNet-34D网络的基础上进行了三处改进。鉴于水下环境复杂多变,鱼类图像特征难以准确提取,本文使用全维动态卷积(Omni-Dimensional Dynamic Convolution, ODConv)替换原模型主干网络中的部分卷积,以强化模型的特征提取能力[9];为更好地适应鱼类姿态的多样性以及随之变化的外观特征,本研究引入了高效多尺度注意力(Efficient Multi-Scale Attention, EMA)[10],通过多尺度捕获鱼类特征,增强模型对鱼类形态多变性的理解以及在复杂环境中的抗干扰能力;为减轻水下噪声对于模型的干扰,在下采样阶段引入高斯模糊和挤压激励注意力(Squeeze-and-Excitation, SE)对信息进行平滑处理[11],提升模型的泛化能力。DAResNet网络结构如图1所示。

1.2 DAResNet模型改进策略

1.2.1 全维动态卷积

传统的卷积神经网络模型(Convolutional Neural Networks, CNN)训练完成后,会生成一套固定的卷积参数。在模型推理阶段,对于不同的输入数据,模型均使用相同的参数进行推理,忽略了不同输入样本之间的特征差异。

为解决上述问题,文献[12]提出了全维动态卷积,该卷积对卷积核的四个维度进行注意力加权,可以根据输入数据的不同而动态调整,使卷积核更好地适应输入数据的特征,形成更强的特征提取能力。为提升水下鱼类分类任务的准确率,本文在算法中引入全维动态卷积ODConv。在利用ODConv提取特征时,首先对输入图像应用全局平均池化(Global Avgrage Pooling, GAP)进行处理,随后通过全连接(Fully Connected, FC)层和ReLU激活函数获取初步的特征表示。引入一种多维注意力机制,对卷积核的四个维度(卷积核、空间维度、输入通道维度、输出通道维度)进行相关计算。ODConv结构如图2所示。

上述四个通道的参数通过多头注意力计算得到。借助这种方式,ODConv卷积可以根据输入数据动态调整卷积,从而提升模型的性能。ODConv卷积的计算如下所示:

(1)

(2)

式中:awi表示卷积核Wi的注意力;asi表示卷积核空间维度的注意力;aci表示输入通道的注意力;afi表述输出通道的注意力;Ai表示经过多个注意力权重加权处理后的卷积核;表示不同维度的乘法计算。上述四种注意力相互补充,因此多维度并行处理的策略允许模型更细致地捕捉和调整卷积核的权重,以满足不同的特征表示需求。使用ODConv可以增强模型的特征提取能力,提高模型的识别准确率。

1.2.2 EMA注意力模块

在水下鱼类分类任务中,研究人员面临的一大挑战是鱼类图像的大小和比例不一致。由于水下环境的不可预测性和拍摄条件的多样性,鱼类可能以不同的尺度和角度出现在图像中,因此难以全面捕捉鱼类特征。为此,本文引入EMA注意力机制来解决这一问题。EMA注意力机制使用并行结构,通过并行子网络的设计,EMA机制实现了对多尺度特征的提取。左侧的分支结构借鉴坐标注意力(Coordinate Attention, CA)机制[13],对输入特征从高度和宽度两个方向进行平均池化,捕捉跨通道的特征信息;右侧的分支结构则通过3×3卷积强化对局部空间特征的捕获能力。最终,通过矩阵乘法整合两个分支的输出,实现对多尺度特征的提取。这种并行子网络结构的设计使EMA能够有效提取和融合全局和局部特征,从而增强模型对水下鱼类图像中的尺度和形态多样性的识别能力。EMA注意力机制结构如图3所示。

1.2.3 池化方法

在处理水下鱼类分类任务时,为减少噪声干扰,本研究在池化前使用高斯卷积核对图像进行预处理[14]。高斯卷积核通过其特有的权重分布实现图像的平滑处理,降低图像中的高频噪声,同时保留重要的低频信息。

(3)

式中:σ为标准差,决定权重分布的宽度;x和y表示距离中心点的水平和垂直距离。

在上述改进的基础上,本文额外引入了SE注意力机制,SE注意力机制通过重塑通道间的权重值,强化对当前任务有益的特征通道的影响力,同时降低对当前任务贡献较小的特征通道的影响力,以进一步提升模型对重要特征的识别能力,从而提高模型的泛化能力。

2 实验方法与结果

2.1 数据预处理

本研究的数据集通过整理Kaggle网站公开的海洋鱼类数据集得到,数据集包括22种鱼类图片,每类有500张图片,共计11 000张图片。本文数据集的特点如下:

(1)类别间差异相对较小,不同鱼类图像存在相似之处,因此容易出现误识别;

(2)数据图像分辨率差异较大,且图像大小不一;

(3)样本图像中干扰项较多,如不同的背景和光线变化,将进一步增加鱼类识别的难度。

针对数据集中存在的问题,本文在将数据进行训练前通过数据增强方法对数据进行预处理[15],以期提升模型的性能和泛化能力。本研究主要采用的数据增强策略如下:

(1)调整图像输入尺寸,将图像尺寸统一缩放到224×224,以确保模型处理相同尺寸的输入图像;

(2)在训练模型时,采用RandAugment数据增强策略[16],该策略随机实施一系列预定义的图像变换方法,如旋转、裁剪和色彩变换等,增加数据的多样性;

(3)对图像进行归一化处理,加速模型收敛并提升其稳定性。

图4(a)为原始图像,图4(b)~图4(e)为应用RandAugment数据增强方法后的图像。

2.2 实验配置

实验平台配置:CPU为Xeon® Platinum 8352V CPU @ 2.10 GHz,搭载4090型号的24 GB显卡,操作系统为Ubuntu20.04,内存120 GB。实验代码均采用Python语言编写,使用深度学习框架为1.11版本的pytorch,CUDA为11.3。

合适的超参数能够有效保证深度学习的准确率,本实验配置的超参数:batch-size设置为128,学习率设置为0.000 1。

损失函数为交叉熵损失函数CrossEntropyLoss[17],训练时[18]设置标签平滑系数为0.1。此外,为进一步提高训练效果,本实验还采用了余弦退火学习率调度策略以确保模型在训练中达到更优的结果。

2.3 实验结果与分析

为验证本实验使用的网络模型在水下进行鱼类识别时的性能,本文选择以混淆矩阵[19]为工具、以准确率为指标对实验结果进行评价。其中,混淆矩阵是用于多分类问题的评估工具,它以表格的形式展示模型预测结果与真实标签之间的对应关系,用于分类正确与错误情况。在混淆矩阵中,行代表真实的标签,列代表预测类别,矩阵的单元格显示模型分类到每个类别的次数。本次任务选择准确率(Accuracy)作为衡量混淆矩阵性能的指标,公式如下所示:

(4)

式中:TP(True Positive)表示正确预测为正类的样本数;TN(True Negative)表示正确预测为负类的样本数;FP(False Positive)表示错误预测为正类的负类样本数;FN表示(False Negative)错误预测为负类的样本数。

消融实验结果对比见表1。

模型训练准确率对比图如图5所示。混淆矩阵结果如图6所示。

观察表1和图5、图6可知,本文提出的DAResNet网络模型在模型的收敛速度、稳定性方面均优于改进前的ResNet-D模型以及原始的ResNet网络。

本文提出的DAResNet模型的最高预测准确率达93.95%,其他模型如加入全维动态卷积的ResNet-D模型准确率较高,为92.5%,采用高斯卷积+下采样的ResNet-D模型准确率为91.05%,加入SE注意力后,准确率提升到92.2%。上述消融实验的结果证明了各项技术对增强模型性能的贡献,也佐证了本文改进方法的科学性与合理性。综上所述,DAResNet模型表现出了卓越的能力,充分验证了本文所提方法的有效性。

3 结 语

为解决水下环境复杂多变而影响水下鱼类识别分类,导致水下鱼类识别准确率较低的问题,本文设计并实现了一种名为DAResNet的深度学习模型,使用RandAugment数据增强策略优化了训练过程。该模型的创新点主要在于以下三个方面:

(1)本研究使用全维动态卷积替换普通卷积,使模型能够更加灵活地提取特征之间的差异;

(2)利用EMA注意力机制,模型能够更准确地识别不同尺度和角度的鱼类图像的关键特征,强化抗干扰能力;

(3)在下采样层,使用高斯卷积核的SE注意力机制提升下采样性能,进一步增强模型的泛化能力。

经过实验验证,本文提出的改进方法显著提升了模型的准确性和泛化能力,使其更适用于水下鱼类的分类识别研究。

综上所述,本文方法不仅在水下鱼类分类识别任务中表现良好,更有望为海洋生态监测、生物多样性保护以及水产养殖等领域带来积极的推动作用。期待这一研究成果能够在实际应用中发挥更大的价值,为相关领域的进步与发展贡献积极的力量。

参考文献

[1]白璐,孙园园,赵学涛,等.黄河流域水污染排放特征及污染集聚格局分析[J].环境科学研究,2020,33(12):2683-2694.

[2]王华.过度捕捞与生态环境:来自太湖的人类学个案[J].原生态民族文化学刊,2022,14(3):31-40.

[3]赵正伟,朱宏进,杨根滕,等.基于改进Res2Net模型的淡水鱼类图像分类研究[J].软件工程,2022,25(7):28-32.

[4]龚瑞昆,赵学智,赵福生.基于EfficientNetV2-HDCA模型水下鱼类图像分类算法研究[J].电子测量技术,2022,45(22):128-134.

[5] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [J]. Computer vision and pattern recognition, 2018(9): 558-567.

[6]曹建荣,庄园,汪明,等.基于ECA的YOLOv5水下鱼类目标检测[J].计算机系统应用,2023,32(6):204-211.

[7]吕俊霖,陈作志,李碧龙,等.基于多阶段特征提取的鱼类识别研究[J].南方水产科学,2024,20(1):99-109.

[8]陈清源,金帆,冯德华,等.基于双模型集成的太阳黑子磁类型分类[J]. 天文研究与技术,2022,19(6):636-644.

[9]严蓬辉,陈绪兵,彭伊丽,等.基于改进YOLOv5s的激光软钎焊焊点缺陷检测算法[J/OL].激光与光电子学进展,1-17 [2024-02-28]. http://kns.cnki.net/kcms/detail/31.1690.TN.20230821.1429.084.html.

[10]王泽宇,徐慧英,朱信忠,等.基于YOLOv8改进的密集行人检测算法:MER-YOLO[J/OL].计算机工程与科学,1-17 [2024-02-28]. http://kns.cnki.net/kcms/detail/43.1258.tp.20231110.1458.002.html.

[11]徐沁,梁玉莲,王冬越,等.基于SE-Res2Net与多尺度空谱融合注意力机制的高光谱图像分类[J].计算机辅助设计与图形学学报,2021,33(11):1726-1734.

[12] LI C, ZHOU A, YAO A. Omni-dimensional dynamic convolution [J]. arXiv preprint arXiv: 2209.07947, 2022.

[13]牛鑫宇,毛鹏军,段云涛,等.基于YOLOv5s室内目标检测轻量化改进算法研究[J].计算机工程与应用,2024,60(3):109-118.

[14]张美玉,刘跃辉,侯向辉,等.基于卷积网络的灰度图像自动上色方法[J].计算机工程与应用,2022,58(7):229-236.

[15]苗永春,何建安,李迎松.基于YOLOv5的病媒图像检测实验教学设计[J].实验技术与管理,2023,40(10):199-205.

[16]王鑫鹏,王晓强,林浩,等.深度学习典型目标检测算法的改进综述[J].计算机工程与应用,2022,58(6):42-57.

[17]郭晓新,李佳慧,张宝亮. 基于高分辨率网络的视杯和视盘的联合分割[J]. 吉林大学学报(工学版),2023,53(8):2350-2357.

[18]刘劲,罗晓曙,徐照兴.权重推断与标签平滑的轻量级人脸表情识别[J].计算机工程与应用,2024,60(2):254-263.

[19]高泽鋆,曹菲,何川,等.基于半监督学习网络的雷达有源干扰识别[J].探测与控制学报,2022,44(6):93-101.

猜你喜欢
注意力机制特征提取深度学习
基于深度学习的问题回答技术研究
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
软件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一个基于知识库的问答系统
Bagging RCSP脑电特征提取算法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34