基于多尺度注意力机制网络的玉米害虫识别方法

2024-07-02 15:01张会敏吉秉彧谢泽奇
江苏农业科学 2024年9期

张会敏 吉秉彧 谢泽奇

摘要:玉米是我国主要的农业粮食作物,害虫严重影响其产量和质量。为快速、准确地识别玉米害虫,针对现有卷积神经网络识别方法需要大量数据集和关键特征易丢失等问题,提出一种基于多尺度注意力机制网络(MCANet)的玉米害虫识别方法。首先,该方法采用空间金字塔循环(SPR)模块提取不同害虫图像的类型和位置信息;其次,在特征融合模块中引入多级通道注意力机制模块,以保障高维语义信息与低维特征的有效融合;同时将多尺度空洞卷积模块引入多级通道注意力网络模型,构建多尺度多通道注意力网络模型,来提取多尺度判别特征,提高模型的识别效率;最后,在1个较小的玉米害虫图像数据集上进行试验,实现对玉米红缘灯蛾、叶夜蛾、玉米黏虫、玉米螟害虫的识别,当训练样本与测试样本之比为90 ∶10时,玉米害虫识别准确率高达91.60%,与多尺度残差神经网络(MSRNN)、改进卷积神经网络(ICNN)、VGG-ICNN、轻量级CNN(LWCNN)相比,识别率分别提高24.40、18.77、8.00、4.40百分比。结果表明,该方法在小训练样本集中具有较强的鲁棒性和较高的识别率,为农作物病虫害智能化防治提供技术支持。

关键词:玉米害虫;多尺度空洞模块;空间金字塔循环模块;多尺度注意力机制网络

中图分类号:TP391.41文献标志码:A

文章编号:1002-1302(2024)09-0241-07

我国是农业大国,玉米是我国典型的农作物之一,稳定玉米产量对粮食安全、农民增收和国民经济具有重要意义,但玉米害虫是降低玉米质量和产量的直接因素[1]。基于人工智能技术的农作物害虫自动识别具有快速、精确、实时等优点,能够协助农耕人员及时采取有效的防治措施[2-4]。因大田中的害虫具有各种形状、姿态和背景干扰等因素,农作物害虫的检测和识别是一项意义重大且具有挑战性的课题。

深度学习在复杂图像的分割和特征提取方面有着明显的优势,在图像检测和识别等方面均优于目前最有效的传统模式识别算法。卷积神经网络(convolutional neural networks,简称CNN)通过训练来学习图像的多层次特征,比如图案、颜色、纹理等。农作物害虫具有这些特征,CNN适用于害虫的检测和识别[5]。因此,CNN是作物害虫检测的一种有效方法。Patel等比较了3种广泛使用的深度学习模型应用于飞行昆虫识别的性能[6]。Nanni等提出一种将显著性方法和CNN相结合的自动分类器,其中采用显著性方法对图像进行预处理,训练4种不同的CNN模型[7]。程曦等分别使用GoogLeNet和AlexNet模型对储粮害虫图像进行识别,准确率均达到95%以上[8]。赵辉等提出将注意力机制与 YOLO v7 模型相结合的害虫识别方法,该方法可抑制复杂背景,更好地获得害虫目标位置信息,并在实际农田中验证算法的有效性[9]。Liu等提出一种基于深度学习的端到端的大规模多类害虫检测分类方法,该方法可以生成各种尺度的高质量融合特征用于目标检测,显著提高了传统检测框架的准确性,但在该方法中,小对象容易在深层丢失,同时上下文线索也会被削弱[10]。作物害虫的检测与识别一直面临着困难,因为田间的小害虫会降低害虫检测的准确性。熊梦园等提出一种基于改进迁移学习模型的玉米叶片病害检测与识别方法,该方法将CBAM注意力机制和FPN特征金字塔网络融入到ResNet模型,取得较好的识别效果[11]。李静等提出一种基于改进GoogLeNet模型的玉米螟害虫识别方法,该方法通过迁移学习将GoogLeNet的Inception-v4

网络结构知识转移到玉米螟害虫识别的任务上,同时利用Inception模块拥有多尺度卷积核提取多尺度玉米螟害虫分布特征的能力构建网络模型,引入批标准化(batch normalization,简称BN)操作加速优化模型网络训练,该方法在玉米螟害虫识别中获得较好的识别效果[12]。汪健等提出一种基于深度残差网络与迁移学习的水稻害虫图像识别方法,该方法主要将迁移学习方法应用到ResNet34网络,并进行算法改进,提升网络性能,对水稻病害虫图像具有较高的识别结果[13]。

基于前人的研究,在多尺度卷积起始模块和注意力机制的启发下,本研究构建了基于多尺度注意力机制卷积神经网络模型的玉米害虫识别方法,旨在降低对模型训练样本量的依赖,实现在有限训练样本条件下获取多类别样本间的共同特征。

1 材料与方法

1.1 图像数据采集

本算法使用的数据集主要通过佳能D7100、华为Mate50等图像采集设备获取。在陕西杨凌农业示范园,采集红缘灯蛾、叶夜蛾、玉米黏虫、玉米螟等4种常见的玉米害虫图像进行试验,在田间采集每种害虫图像各250幅,共1 000幅,每幅害虫图像的分辨率都统一设置为1 024像素×768像素,玉米害虫图像如图1-a所示。

由图1可知,每种害虫的大小、颜色、姿态、背景图像、位置等各有差异。为增加图像集数量,便于加快网络训练,本研究将采集到的每幅图像的分辨率都统一调整为416像素×416像素,转换成RGB 3通道图作为网络的数据输入。为扩大数据集,利用Python图像增强技术将每幅图像分别旋转90°、180°,然后再将图像进行模糊、增加噪声、变亮、变暗、翻转等形式的预处理,将每幅原始图像扩增为18幅,如图1-b所示;最后构建1个包含18 000幅图像的扩展数据集。

1.2 多级通道注意力机制网络模型

1.2.1 通道注意力机制

在CNN学习过程中,不同深度的卷积层获取的特征图不同,其中浅层卷积层能够获取图像的局部特征,随着卷积层的增加,卷积核的局部感受野增大,从而获取图像的全局特征。由于浅层卷积学习的特征对局部特征信息敏感,而深层卷积层对局部信息变化不敏感,因此很可能产生特征丢失现象。为防止网络学习出现特征丢失,采用通道注意力机制,将特征信息的全局分布响应在特征通道中,使浅层卷积能够获取全局感受野,同时深层卷积也可提取到有用的特征信息,且抑制无用的特征。通道注意力机制结构如图2所示,其中H、W和C分别表示卷积核的长度、宽度和通道中的特征图数量,Ftr表示卷积操作,Ftr输出用U来表示,U=U1,U2,…,Uc,Fsq表示特征权重提取操作,F表示特征通道权重更新,Fscale为特征图权重映射,X[DD(-*2]~表示特征映射Uc和标量Sc之间的对应通道乘积。

在具体的通道注意力机制操作过程中,首先使用全局平均池化操作获取每个通道的权重值,然后使用全连接层、ReLU激活函数和Sigmoid激活函数获取不同的特征权重, 最后使用点乘操作获取具有通道注意力机制的特征图。通道注意力机制的计算过程如下。

(1)特征权重提取:

式中:H、W、C分别表示卷积核长度、宽度和通道中的特征图数量;i和j表示特征图中的每个像素点。

(2)权重更新操作:

式中:δ表示ReLU激活函数;σ表示Sigmoid激活函数;Fex表示特征通道权重更新;W1表示降维层参数;W2表示升维层参数;W1∈R(c[]r)×c,W2∈Rc×(c[]r),z∈Rc。

式中:Sc表示通道C中的权重参数;Uc表示特征映射,Uc∈RH×W。

1.2.2 空间金字塔循环结构

在作物害虫图像检测过程中,不同的害虫类型对检测算法的精度有很大影响。因此,在MCANet构建过程中,使用空间金字塔循环(spatial pyramid recirculating,简称SPR)模块提取不同害虫图像的类型和位置信息。使用空间金字塔结构提取多尺度信息,并使用循环神经网络(recurrent neural network,简称RNN)实现不同尺度的信息传递,能够显著增强SPR模块的特征提取能力,空间金字塔循环模块的结构如图3所示。

为了获取不同尺度的特征信息,首先使用双线性插值对输入特征进行尺度调整,然后对每个特征图执行卷积操作,其中所有的卷积核尺寸为3×3,输出通道为256。在构建SPR模块时,需要考虑特征下采样的数量和尺度,当下采样尺度较小时,网络参数将增加,从而导致计算参数的数量增加;如果下采样倍数较大,将造成网络性能下降,因此,在MCANet中使用2次下采样操作来构建SPR模块。由于不同的卷积核可以提取不同的图像特征信息,而不同的特征信息之间存在相互关系,例如类别信息和位置信息等,因此,SPR模块使用RNN建立不同特征信息之间的相互关系,从而增强网络模型的特征提取能力。

1.2.3 卷积特征融合

卷积特征融合模块主要用于不同卷积层的特征融合,其输入为不同卷积层的特征图,而输出为融合后的特征图。卷积特征融合模块的结构如图4所示。在该模块中,使用双线性插值算法对输入的特征图进行4倍上采样,然后将插值结果作为1×1卷积层的输入。为使特征融合模块更好地指导网络检测结果,将浅层低维特征融入高维特征。在特征融合过程中,常用的方法是直接在通道维度上连接具有相同特征尺寸的高维特征和低维特征,然后使用多次卷积运算增加网络的复杂度,其结构如图4-a所示。但是简单的连接方法无法充分使用多个卷积网络层,导致无法有效地组合低维特征和高维特征,为更好地执行特征融合操作,在特征融合模块中引入多级通道注意力机制模块,以保障高维语义信息与低维特征的有效融合,其结构如图4-b所示。

在卷积特征融合模块中,通过连接操作将图像中的高维特征和低维特征进行融合,利用多次卷积操作得到特征F1,然后在特征F1的通道维度上引入注意力机制。卷积特征融合计算公式为

式中:W1表示每个通道的权重值;σ表示Sigmoid函数;F1和F2分别表示卷积层特征和融合后的特征。

1.2.4 多尺度空洞模块Inception

Inception是一个多尺度卷积网络模块,能够并行组合不同的卷积层,由不同卷积层提取的特征在深度、维度上拼接以形成更深的矩阵,提取不同尺度特征,其结构如图5所示。

1.2.5 多级通道注意力网络模型

多级通道注意力网络模型MCANet是基于编码-解码结构(encoder-decoder,简称ED)的端到端的作物害虫检测模型,其中输入为任意尺寸大小的图像,输出为检测结果。MCANet的整体结构如图6所示,包括3组并行的编码-解码结构,用于处理RGB图像

的3个不同通道。在ED中使用卷积(Conv)和反卷积(Deconv)操作,其中卷积阶段使用VGGNet模型作为特征提取网络,随着卷积层的增加,特征图的大小逐渐减小,这可以解释为下采样过程。下采样有利于提取图像的高级特征,但可能导致图像检测过程中特征信息的丢失,因此在反卷积阶段重构得到特征图,并逐渐增大特征图尺寸,直到输出结果为输入大小为止,这可解释为上采样过程。

为提高网络对小目标区域的特征提取能力,在每个池化层的操作前引入通道注意力机制,能够为每个像素点提供全局特征信息,并增强有用特征表达。在每个ED之间使用SRP增强不同大小特征的信息交换。为提高网络提取多尺度目标的能力,尤其是小尺度目标和边缘信息,采用多层次通道注意力机制形成特征融合块,提供更丰富的特征信息,用于融合全局语义信息和局部细节信息,从而获得更好的识别效果。

2 试验

为表明MCANet进行作物害虫识别的有效性,进行试验验证。将MCANet训练的批处理大小设为25,迭代次数设为3 000,学习率设为1.5×10-4,Adam作为模型的优化器。为验证本算法的有效性,试验于2023年9—10月在IBM服务器上进行,试验环境为Ubuntu 14.04操作系统、内存32 G、核心硬件运算平台为Intel i7 CPU Ti GPU1080,深度学习架构为tersonflow 2.0,编程语言为Python 3.9。

对4种网络VGG16[14]、SCapsNet[15]、ACapsNet[16]和本算法进行5折交差验证对比试验,识别率随迭代次数变化结果如图7所示。由图7可以看出,当迭代次数达到1 000次后,本算法趋于收敛,其收敛效果和准确率明显高于其他3种模型。表明空洞Inception收敛速度最快、害虫识别效果更好,引入特征融合模块的卷积层使用空洞Inception可以提高害虫识别的准确率。

从图7可以看出,本算法和SCapsNet的收敛效果明显优于VGG16。主要原因是本算法和SCapsNet引入了多尺度卷积Inception模块,使Inception模块替代了SCNN中的卷积层,解决了CNN中最大池化导致重要信息丢失的问题;本算法与SCapsNet的主要区别在于本算法的卷积层为空洞多尺度卷积Inception,减少了网络训练参数,加速了网络收敛。

为了说明本算法能够在训练样本有限情况下的有效性,将本算法与4种近期的作物害虫识别方法,即多尺度残差神经网络(MSRNN)[17]、改进卷积神经网络(ICNN)[18]、VGG-ICNN[19]和轻量级CNN(LWCNN)[20]在原始图像数据集上进行验证试验,训练样本数与测试样本数之比为m ∶n, 其中m为每类害虫的训练样本数,n为每类害虫的测试样本数。选择迭代次数为3 000次,重复试验5次,平均识别率见表1。

由表1可以看出,当训练样本数越来越少时,基于所有模型的害虫识别方法的识别率越来越低,但轻量级CNN和本算法的识别率比其他3种算法降低幅度小,且本研究算法的降低幅度最小,当m ∶n= 10 ∶90,即训练样本为10幅、测试样本为90幅图像时,本算法识别率达到了83.18%,尽管识别率降低了8.42百分点,但比MSRNN、ICNN、VGG-ICNN、LWCNN分别高42.39、32.80、35.30、34.22百分点,主要原因是本算法可有效提高网络提取多尺度目标的能力,尤其是小尺度目标和边缘信息,采用多层次的通道注意力机制形成特征融合块,提供更丰富的特征,用于融合全局语义信息和局部细节信息,从而获得更好的识别效果。试验结果表明,本算法能够在训练样本比较少的情况下达到较高的识别率。

可视化本算法卷积模块的部分输出如图8所示,可以看出,本算法能够捕获害虫的细节信息,随着网络的加深,网络层提取的特征越来越抽象,低级卷积特征图包含了害虫的基本轮廓特征,即网络的较浅层提取物体的空间特征;而高级卷积特征图包含害虫的细节特征,采用不同卷积核能够学习图像中的不同特征,充分提取关注部分图像的显著区域。同时,特征图分辨率越来越低,表明提取的特征不仅抽象,还具有精细的特点。

3 结论

针对实际大田作物害虫叶片图像较少,包含遮挡和复杂背景,且不同时期害虫的大小、形状和颜色差异较大等特点,本研究提出一种基于多级通道注意力机制网络的玉米害虫识别方法,该方法采用空间金字塔循环模块提取不同害虫图像的类型和位置信息,在特征融合模块中引入多级通道注意力机制模块,以保障高维语义信息与低维特征的有效融合,同时将多尺度空洞卷积模块Inception引入多级通道注意力网络模型,构建多尺度多通道注意力网络模型,提取多尺度判别特征,提高模型的识别效率。结果表明, 本算法具有良好的害虫检测识别率和泛化性,可为其他农作物害虫检测与识别的进一步研究提供参考。

参考文献:

[1]王大庆,禄 琳,于兴龙,等. 基于深度迁移学习的EfficientNet玉米叶部病害识别[J]. 东北农业大学学报,2023,54(5):66-76.

[2]翟肇裕,曹益飞,徐焕良,等. 农作物病虫害识别关键技术研究综述[J]. 农业机械学报,2021,52(7):1-18.

[3]Si M M,Deng M H,Han Y. Using deep learning for soybean pest and disease classification in farmland[J]. Journal of Northeast Agricultural University(English Edition),2019,26(1):64-72.

[4]徐 聪,王旭启,刘 裕. 一种改进可形变FCN的农作物害虫检测方法[J]. 江苏农业科学,2022,50(9):211-219.

[5]Türkogˇlu M,Hanbay D. Plant disease and pest detection using deep learning-based features[J]. Turkish Journal of Electrical Engineering & Computer Sciences,2019,27(3):1636-1651.

[6]Patel D J,Bhatt N. Insect identification among deep learnings meta-

architectures using TensorFlow[J]. International Journal of Engineering and Advanced Technology,2019,9(1):1910-1914.

[7]Nanni L,Maguolo G,Pancino F. Insect pest image detection and recognition based on bio-inspired methods[J]. Ecological Informatics,2020,57:101089.

[8]程 曦,吴云志,张友华,等. 基于深度卷积神经网络的储粮害虫图像识别[J]. 中国农学通报,2018,34(1):154-158.

[9]赵 辉,黄 镖,王红君,等. 基于改进YOLO v7的农田复杂环境下害虫识别算法研究[J]. 农业机械学报,2023,54(10):246-254.

[10]Liu L,Wang R J,Xie C J,et al. PestNet:an end-to-end deep learning approach for large-scale multi-class pest detection and classification[J]. IEEE Access,2019,7:45301-45312.

[11]熊梦园,詹 炜,桂连友,等. 基于ResNet模型的玉米叶片病害检测与识别[J]. 江苏农业科学,2023,51(8):164-170.

[12]李 静,陈桂芬,安 宇. 基于优化卷积神经网络的玉米螟虫害图像识别[J]. 华南农业大学学报,2020,41(3):110-116.

[13]汪 健,梁兴建,雷 刚. 基于深度残差网络与迁移学习的水稻虫害图像识别[J]. 中国农机化学报,2023,44(9):198-204.

[14]Paoletti M E,Haut J M,Fernandez-Beltran R,et al. Capsule networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(4):2145-2160.[HJ2mm]

[15]Chicco D. Siamese neural networks:an overview[J]. Artificial Neural Networks,2021,2190:73-94.

[16]张会敏,谢泽奇,张善文. 基于注意力胶囊网络的作物病害识别方法[J]. 江苏农业科学,2022,50(6):101-106.

[17]何 欣,李书琴,刘 斌. 基于多尺度残差神经网络的葡萄叶片病害识别[J]. 计算机工程,2021,47(5):285-291,300.

[18]鲍文霞,黄雪峰,胡根生,等. 基于改进卷积神经网络模型的玉米叶部病害识别[J]. 农业工程学报,2021,37(6):160-167.

[19]Thakur P S,Sheorey T,Ojha A. VGG-ICNN:a Lightweight CNN model for crop disease identification[J]. Multimedia Tools and Applications,2023,82(1):497-520.

[20]孟 亮,郭小燕,杜佳举,等. 一种轻量级CNN农作物病害图像识别模型[J]. 江苏农业学报,2021,37(5):1143-1150.

收稿日期:2023-10-19

基金项目:国家自然科学基金(编号:62072378);河南省教育厅高等学校重点科研项目(编号:20A520045);信阳农林学院2022年校青年基金(编号:QN2022031)。

作者简介:张会敏(1981—),女,河南漯河人,硕士,副教授,研究方向为计算机应用与图像处理。E-mail:513102773@qq.com。

通信作者:谢泽奇,硕士,教授,研究方向为计算机应用。E-mail:xzq0413@163.com。