基于改进MobileNet V3网络的桃子成熟度分级方法

2024-12-31 00:00:00孔淳陈诗瑶冯峰陈维康刘鹏孙博王志军
山东农业科学 2024年11期
关键词:注意力机制卷积神经网络桃子

关键词:桃子;外观成熟度分级;卷积神经网络;MobileNet V3;注意力机制;激活函数

中图分类号:S662.1:S126 文献标识号:A 文章编号:1001-4942(2024)11-0148-08

中国是世界上最大的桃子生产国,种植面积约为90万公顷,其中鲜桃产业的生产规模约为1600万吨,并呈逐年上升的趋势。然而,由于质量参差不齐,出口量仅占世界出口总量的10%。目前我国桃子外观成熟度分级主要依赖基于主观经验的人工方式,这往往会导致同一批次的桃子成熟度具有较大差别,无法达到高品质标准且难以树立良好品牌形象来进一步提高产品价格。因此,实现桃子外观成熟度的智能化分级对提升我国桃子产业规模和效益具有重大现实意义。

在水果智能化分级方面,国内外学者已开展了相关的研究,并提出一些基于机器学习和计算机视觉技术的自动分级方法,可概况为以下几类:

(1)以水果大小为主要依据的分级方法。目前大多方法使用最大果径来估计水果大小,进而实现基于果实大小的分级。Throop等首先利用不同角度的苹果图像计算出苹果的最大直径和最大横截面面积,再将苹果视为一个球体,估算出苹果的大小,进而根据大小进行分级,识别准确率达到97.6%。郑纪业等提出一种基于线性拟合模型的苹果大小分级方法,利用直径像素数估算果实直径用于苹果大小分级,准确率可达92%。应义斌等通过采集水果图像的边界信息来获得待测量水果与图像之间点与点的关系,并提出一种面积修正算法,该方法对水果大小的检测精度达到96%。郑羽纶首先计算苹果的最大和最小半径比,将最大比值的截面作为果径面,然后用果径面的最小外接圆的直径进行苹果大小分级。

(2)以水果颜色为主要依据的分级方法。颜色是水果的重要外观参数,同时也是水果分级任务中需要考虑的重要指标。侯文军用HSI模型来描述苹果颜色,并根据色泽直方图的特点使用4种色度均值来代替苹果的色泽,然后借助BP神经网络实现分级。樊泽泽等借助卷积神经网络提取苹果图像的特定颜色分量,并通过二值化处理对目标轮廓进行精确提取,检测精度达到91.6%。

(3)以水果纹理为主要依据的分级方法。纹理特征可在一定程度上反映水果的成熟度和内部品质。李伟等首先将目标图像进行灰度化,然后根据纹理图像中灰度突变的特点对图像进行锐化处理,通过计算图像的平均灰度值完成水果的纹理分级。Jafari等通过橙子的视觉纹理粗糙度估算橙皮的厚度。Khoje等借助小波变换、遗传算法等实现了水果图像的纹理表征,用于品质分类。

(4)以水果表面缺陷为主要依据的分级方法。水果表面的完整性对其销量有重要影响。杨涛等首先使用K-means聚类算法对猕猴桃外观图像进行分割,然后通过颜色比较确定存在缺陷的果实,最终借助支持向量机(SVM)对猕猴桃进行分级。张婧婧等使用颜色空间聚类方法对苹果果实的外表缺陷进行检测,并实现果实的分级。

综上所述,现有的水果分级方法大多借助传统图像处理技术和机器学习算法实现自动分级检测。然而,此类方法无法实现快速检测,且在检测精度方面仍具有一定的提升空间。因此,为实现高精度、高效率的桃子外观成熟度分级,本研究以卷积神经网络MobileNet V3为基准模型,构建一种改进的神经网络模型CS-MobileNet-P-L,用于桃子外观成熟度自动分级任务中。

1材料与方法

1.1数据采集及处理

本研究选用的桃子品种为莱州蜜桃。为了确保数据的多样性和真实性,一部分桃子图像采自山东省泰安市某种植基地,另一部分图像选自网络公开数据集。为保证图像质量的一致性,对图像进行清洗筛选等预处理操作。预处理后的数据集包含4类共6360张图片,分别对应4种成熟度等级。具体信息如下:A1表示第一等级,即完全成熟,包含1420张图片;A2表示第二等级,即基本成熟,包含1500张图片;A3、A4分别表示第三、四等级,即开始成熟和未成熟两种状态,各包含1800张和1640张图片。4种等级的桃子外观图像如图1所示。按6:2:2的比例将数据集划分为训练集、验证集和测试集三部分,具体信息见表1。

1.2卷积神经网络MobileNet V3

MobileNet V3是Google公司提出的一种轻量级网络,能够在计算资源有限的环境下取得出色的性能。MobileNet V3采用深度可分离卷积(DSConv),并在网络中引入倒残差结构,借助其低秩特性实现更为高效的层结构。为了保证特征提取过程中的精度.MobileNet V3模型中使用了一种新的激活函数H-Swish,该函数定义公式为:

在此基础上.MobileNet V3在倒残差结构中引入SE注意力机制模块,构成Bneck结构,该结构工作原理如图2所示。

1.3改进的卷积神经网络CS-MobileNet-P-L

由于MobileNet V3在桃子外观成熟度分级任务中的准确度还有进一步提升的空间,本研究对其网络结构进行调整和优化,提出改进模型CS-MobileNet-P-L。与原始模型MobileNet V3相比,CS-MobileNet-P-L模型主要在三方面进行了改进:①构建通道位置双重注意力机制模块:②调整网络结构中的激活函数;③改进Last Stage结构。CS-MobileNet-P -L模型的结构参数如表2所示。

1.3.1构建通道位置双重注意力机制模块 Mo-bileNet V3中的SE注意力机制在工作过程中未将输入图像中的位置信息考虑在内,因此,为使模型在特征提取过程中能够快速定位到目标区域,本研究引入多方位协调注意力机制模块CA,通过与SE机制相融合,构建出通道位置双重注意力机制模块,协同进行图像特征的提取,从而提高特征捕获精度和目标区域定位准确性。如图3所示,CA注意力机制将通道注意力信息沿水平和垂直两个方向进行分解,以提取位置信息与通道信息之间的关系,借此增强网络的特征提取精度。为高效利用图像表达的特征信息,本研究引入CA注意力机制,采用注意力协调生成方法来确保特征提取的高效性,充分捕获不同通道间的相关性信息,并利用空间位置信息突出目标区域。

1.3.2调整网络结构的激活函数 为了进一步提高模型的识别精度,本研究用更为高效的PRe-LU(Parametric Rectified Linear Unit)激活函数来替代Bneck结构中原有的激活函数H- Swish和ReLU。其中,H-Swish激活函数计算复杂度较高;ReLU激活函数在较低维度空间内,正数输入时输出等于输入,而负数输入时输出为0,导致一些神经元在训练过程中永远不会被激活,从而降低模型的性能。

PReLU激活函数的最大优点是能够在纠正线性单元参数过程中实现自适应学习,允许神经元在负数输入时具有非零梯度值。模型训练过程中,所有神经元都能够更新其权重,提高模型自适应能力,同时加快模型的收敛速度。PReLU函数的定义如式(2):

式中,yi表示非线性激活函数f在通道i的输入;ai用来控制函数的斜率,通过对ai进行调节,可使不同的通道使用不同的激活函数。由于ai能够进行自适应学习,因此函数定义式(2)可转换为式(3):

通过构建双重注意力机制和调整激活函数,得到改进后的SC-Bneck-P结构,如图4所示。

1.3.3改进Last Stage结构 为了提高网络末端在特征提取阶段将特征映射转化为输出结果的准确性,对MobileNet V3中的Last Stage结构进行了改进。Last Stage结构的主要任务是通过全局平均池化将图像特征进行汇总,并将其转化为固定大小的特征向量,从而降低空间维度,使图像特征转化为全局特征,然后通过全连接层将全局特征向量映射为各类别的分数:这些分数经过Softmax层转化为类别概率分布,表示输入图像属于各类别的概率:输出层选择最高概率得分的类别作为模型的预测结果,从而完成模型的预测。然而,在MobileNet V3的Last Stage结构中,全局平均池化层所处理的图像特征是通过上层的卷积层提取的,但该层卷积核较小,无法捕捉远距离以及全局结构的特征。而本研究所用数据集中的图像特征范围较大,如果仍采用较小的卷积核,某些特征便无法被提取。为解决该问题,对该部分结构进行了改进:首先,将卷积核大小调整为3,以捕捉到更大范围的特征:然后,在该卷积层后又增加一层卷积,以此构建出层次化的特征表示;最后,将两个卷积层中的激活函数皆设置为PReLU,以保证模型处理全局结构或捕获远距离特征时具有更高的效率。以上改进使得模型在处理广泛范围特征时能够提供更加精确的输出结果。改进后的Last Stage结构如图5所示。

1.4性能评估指标

选用准确度(Accuracy,A)、精确度(Preci-sion,P)、召回率(Recall,R)、F1分数(F1)对模型性能进行综合评估。其中,准确度是全部类别中能够正确分类的样本数量在全部样本数量中的占比:精确度表示在预测结果为某一类别的全部样本中,预测结果正确的样本比例:召回率则表示对于某类别,在真实标签为此类别的全部预测样本中,预测结果正确的占比;F1分数通过结合精确度和召回率对模型进行综合评估,是精确度和召回率的调和平均数,可用来衡量模型在精确度和召回率处于平衡时的性能。各指标计算公式为:

式中,TPi表示第i类中被正确分类的样本数量;FNi表示第i类中被错误分类的样本数量;FPi表示其他类样本中被错误分类为第i类的样本数量;TNi表示其他类样本中未被错误分类为第i类的样本数量。四种指标的值越高,说明模型的预测性能越优越,相反,指标值越低,模型的预测性能就越差。

1.5试验环境设置

模型的训练及测试均在Windows 11操作系统上运行,基于Pytorch深度学习框架完成。试验过程中的硬件参数为Intel(R) Core i5-13500HX@4.70 GHz,内存为16 G 4 800 MHz,GPU采用NVIDIA GeForce RTX 4060,显存为8 GB。代码编译环境为Pycharm,Python版本为3.9。

2结果与分析

2.1训练策略对比试验

在深度学习中,训练策略是指模型训练之前设定的一系列参数和配置,它们对于模型的性能和学习图像特征起着重要作用。通过适当调整训练策略,可以更好地让模型学习图像特征,提高性能,并有效避免过拟合,以获得最佳模型。为验证不同训练策略对模型在桃子外观成熟度识别任务中的影响,本研究以CS-MobileNet-P-L作为基准模型,通过修改优化器和损失函数设置了6种不同的训练策略(表3),经试验对比,方案二使用AdamW优化器和CrossEntropyLoss损失函数,展现出优异的整体性能,准确度、精确度、召回率、F1分数分别达到99.32%、99.39%、99.29%、99.33%(表4)。表明对于本研究提出的CS-Mo-bileNet-P-L模型,AdamW优化器比SGD优化器在模型参数优化方面具有更好的效果,同时也体现出CrossEntropyLoss损失函数相对于PolyLoss和FocalLoss在衡量模型的预测标签与真实标签之间差异方面表现更出色,能够鼓励模型产生更明确的分类决策,具有更广泛的适用性。

2.2模型结构改进消融试验

为验证本研究对MobileNet V3模型各项改进的有效性,采用消融试验进行对比分析,具体试验方案如表5所示。其中,方案一为基准模型Mo-bileNet V3,未进行任何改进:方案二是基于方案一将注意力机制模块改进为通道位置双重注意力机制:方案三是基于方案二调整Bneck层中的激活函数为PReLU:方案四是在方案三基础上对Last Stage结构做进一步改进。通过图6(a)可以清晰地观察到,在训练的初始阶段,方案一的准确度不仅升幅较小,而且上升速度相对较慢,而经过改进的方案四呈现出明显的上升趋势,仅经过前10轮训练,准确度就已经达到90%的水平。虽然由于数据噪声或随机性因素影响,方案四的准确度曲线在某些轮次上出现了一些波动,但整体来看稳定性高于其他三种方案。通过图6(b)可以观察到,随着训练的进行,与其他三种方案相比,方案四的Loss曲线下降速度最快,虽然在训练后期存在一些波动,但整体趋于稳定,表明方案四改进的模型取得了良好的性能。总体而言,方案四在整个训练过程中表现更加出色,表明本研究对模型进行的改进有效。

混淆矩阵能够有效地可视化每个类别中错误分类的情况。根据图7展示的各方案混淆矩阵来看,方案四尽管在A2类别上的识别精度略低于方案三,但整体性能表现更佳,对各类成熟度桃子的识别效果都较好。

由表6可知,与其他方案相比,在基准模型MobileNet V3的基础上采用双重注意力机制模块、引入高效激活函数、对Last Stage结构进行优化的改进方式(方案四)将模型的准确度分别提高2.71、1.13、0.45个百分点,精确度分别提高2.55、1.05、0.48个百分点,召回率分别提高2.64、1.11、0.39个百分点,Fl分数分别提高2.64、1.10、0.43个百分点。表明方案四改进模型的性能显著提升,这是因为在Bneck结构中引人多方位协调注意力机制模块与通道注意力机制共同工作,增强了模型对桃子外观图像位置信息的学习能力,使模型对于桃子外观图像成熟显著区域的特征提取能力显著加强,同时借助PReLU激活函数及改进Last Stage结构的方式进一步提高模型精度,最终使得模型在各评价指标上均取得优异成绩,体现出改进方法的有效性。

2.3与传统神经网络的对比试验

为了充分验证CS-MobileNet-P-L模型对不同成熟度桃子外观图像的识别能力,采用相同的训练策略,将其与另外5种传统网络模型Shf-fuleNet、EfficientNet、GhostNet、MobileNetV2、ResNet进行对比试验,结果如图8、表7所示。可以看出,CS-MobileNet-P-L模型随着训练轮次的增加,损失函数快速收敛到较小值,准确度明显提高,且在训练轮次为40时,模型开始处于收敛状态:相比于其他5种模型,损失函数曲线和准确度曲线震荡幅度都较小,说明模型训练过程更加稳定,鲁棒性更好。与其他模型相比,CS-MobileNet-P-L模型的准确度、精确度、召回率、F1分数均最优,分别提高2.24%~9.73%、2.24%~8.42%、2.22%~9.54、2.21~9.51%。综上所述,本研究构建的CS-MobileNet-P-L模型在桃子外观成熟度分级任务中达到了较好的性能。

3讨论与结论

针对我国桃子生产中存在的问题,即依赖人工进行桃子成熟度分级的误差较大,导致不同成熟度等级的桃子混杂在一起,无法达到高品质出口销售标准,本研究提出一种基于MobileNet V3网络改进的桃子外观成熟度分级模型CS-Mo-bileNet-P-L,借助AdamW优化器与CrossEntro-pyLoss损失函数对模型进行训练,成功提升了模型性能:通过构建通道、方位双重注意力机制及调整激活函数等方法对Bneck结构进行改进,显著提高了模型的识别精度;同时对Last Stage结构进行优化,使模型能够更好地捕获图像特征并提高精度。最终,改进后的CS-MobileNet-P-L模型在桃子外观成熟度分级任务中表现出色,准确度、精确度、召回率、F1分数分别达到99.32%、99.39%、99.29%、99.33%,分别比基准模型Mo-bileNet V3提升2.71、2.55、2.64、2.64个百分点,相较于传统的分类网络ShffuleNet、EfficientNet、GhostNet、MobileNet V2、ResNet也都有明显提升,具有稳定的收敛性能和卓越的桃子成熟度分类识别性能。

鉴于桃子品种众多且外观差异较大,未来将收集更多地区和品种的桃子图像,丰富数据集,以提高模型的泛化能力,并致力于开发适用于移动设备的识别软件。

猜你喜欢
注意力机制卷积神经网络桃子
桃子
小太阳画报(2019年8期)2019-09-11 07:01:50
桃子
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
软件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一个基于知识库的问答系统
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
基于卷积神经网络的树叶识别的算法的研究