基于多尺度注意力残差网络的桃树害虫图像识别

2022-05-10 12:09类成敏牟少敏孙文杰崔恩泉
关键词:图像识别残差桃树

类成敏,牟少敏,孙文杰,崔恩泉

基于多尺度注意力残差网络的桃树害虫图像识别

类成敏,牟少敏*,孙文杰,崔恩泉

山东农业大学信息科学与工程学院, 山东 泰安 271018

自然场景下拍摄的桃树害虫图像,不同种类的害虫个体之间存在尺寸大小差异以及害虫颜色与背景颜色相近的问题,影响害虫图像识别精度。针对以上问题,本文提出了一种基于多尺度注意力残差网络的桃树害虫图像识别模型。首先,将残差网络的第一层普通卷积替换为多尺度卷积,缓解了大卷积核对于小尺寸目标特征的不敏感性,增强多尺度害虫特征提取能力。其次,在残差结构中加入注意力机制选择性内核卷积单元,它通过自适应调整感受野重点提取害虫信息,产生有效感受,抑制背景干扰问题。实验结果表明,本文提出的模型识别准确率为93.27%,取得了较好的识别效果。

残差网络; 桃树害虫; 图像识别

中国是桃的原产国,桃产量居世界第一[1]。桃树种植过程中,易受到害虫的危害,影响桃的品质与产量,虫害早期的准确诊断和智能识别,对防治虫害的发生非常重要。近年来,随着人工智能的发展,深度学习被广泛应用于农作物害虫识别。张博等[2]将空间金字塔池化应用到卷积神经网络中,对作物害虫进行有效识别。Dai Q等[3]提出了一种基于二次注意力和残差密集单元融合机制的生成对抗网络来转换低分辨率害虫图像,提高了分类精度。Lee SH等[4]提出了一个基于Faster R-CNN模型来检测茶叶病变位置和害虫,结果显示对七类茶病虫害的检测有较。Chen J等[5]将在ImageNet上预先训练的MobileNet-V2作为骨干网络,并嵌入注意力机制以及分类激活图,提高了植物害虫图像的识别精度。鲍文霞等[6]提出了一个局部优化注意力模块重点提取水稻害虫的局部特征信息。Zhang Y等[7]提出一种基于DenseNet和注意力机制的方法,改进了传统的DenseNet模型,实现了对脐橙病虫害的准确高效识别。Zhang Y等[8]提出了一种扩张残差网络,其将扩张卷积引入到残差网络中,进一步提高了储粮害虫的识别效果。

虽然深度学习在农作物害虫图像识别中的应用取得了一定进展,但对于桃树害虫图像识别研究较少。尤其是传统卷积神经网络对于输入的多尺度害虫信息不敏感以及自然场景下拍摄的桃树害虫图像存在害虫颜色与背景颜色相近问题,影响害虫的识别精度。因此,本文提出了一种基于多尺度注意力残差网络的桃树害虫图像识别模型,有效提高桃树害虫识别的准确率。

1 实验数据

1.1 数据采集

实验所用的桃树害虫图像采集地点为山东省泰安市桃花峪、道朗镇桃园和宁阳县葛石镇桃园。图像数据均在自然场景中通过手机拍摄获得,拍摄时人为自主调节角度,背景多为枝干和叶片。共采集4种桃树害虫,小绿叶蝉731张、绿象甲478张、黄刺蛾383张、茶翅蝽378张,共计1970张。桃树害虫图像示例如表1所示。

表 1 桃树害虫图像示例

1.2 数据预处理

不同种类的桃树害虫年发生总量存在差异[9],导致采集的样本比例失衡。为了使数据样本数量均衡,将采集的桃树害虫图像数据进行数据增强,包括亮度增强、色度增强、锐度增强、翻转和旋转等增强方式,不同种类的害虫增强比例不同,增强后的图像数据共计9149张。本实验所用的基础网络为ResNet50[10],为满足该网络的输入要求,将图像统一裁剪为224×224像素大小。部分类别害虫图像的增强效果如表2所示。

表 2 桃树害虫图像预处理

2 桃树害虫图像识别模型

本文提出的模型整体架构如图1所示。将ResNet50作为本模型的基础网络,对其进行改进。改进后模型主要由多尺度卷积层、改进的残差模块和全连接层组成。其中多尺度卷积层主要由两个不同大小的卷积核组成,通过提取不同尺度害虫特征以保留更加丰富的信息;原始的残差模块中嵌入了注意力机制选择性内核(Selective Kernal,SK)单元[11],可重点提取害虫特征;全连接层联合提取出的特征信息,最终经Softmax得出分类结果。

图 1 Msk-ResNet网络结构

2.1 多尺度卷积层

传统的卷积神经网络在同一层卷积核大小固定,对于网络输入的多尺度目标特征提取效果较差。因此,本文在ResNet基础上进行改进,将7×7卷积替换为3×3和5×5的多尺度卷积,应对输入图像中桃树害虫的不同尺寸,提取更为精确的浅层特征;所用的激活函数为Relu,只激活非负值的神经元,加快梯度的计算速度;1×1卷积增强特征的复用,提升网络的表达能力,最终将提取的信息输入到下一层。多尺度卷积层结构对比如图2所示。

图 2 卷积层结构对比

2.2 残差结构设计

针对桃树害虫颜色与背景颜色相近问题,在ResNet残差单元内嵌入了注意力机制SK卷积单元,以提高网络模型对桃树害虫图像的识别准确率。

2.2.1 ResNet网络 ResNet网络的核心思想在于残差结构。通过残差结构中的恒等映射,将上一层提取的浅层信息与当前模块提取的深层信息相结合,不仅丰富了每一个模块的输出信息,而且增加了网络深度。ResNet网络由一系列残差模块组成,残差块结构如图3所示。其函数关系如公式:

=ωx+(,) (1)

其中,为当前残差模块的输出,为残差映射函数,为卷积参数,为输入信息,参数ω调整的维度,使两路分支输出的形式相同,方便直接进行加法运算。

图 3 残差模块结构

2.2.2 选择性内核卷积单元通过借鉴人类视觉神经元动态调节感受野的刺激机制,SKNet设计了一个选择性内核单元SK。目的是让神经元在接受不同尺寸的输入信息时可以自适应调整接受野的大小,产生有效感受。其中使用softmax注意力组合并聚合了卷积核大小不同的多个分支,这些注意力由分支中的信息进行权重大小的分配。本文所用双分支的选择性内核卷积结构如图4所示。

图 4 SK卷积结构

一次卷积的计算需要经过分裂运算、聚合运算以及选择运算。

S=(U),=F() (3)

其中,公式(3)中S代表的是的第个元素,S通过空间尺寸×收缩计算;特征经过降维操作的全连接层来实现。

(3)选择运算:使用和这两个权重矩阵对最初得到的两个特征图进行加权操作,得到向量。加权以后的两分支特征权重不再相等,达到了自主选择卷积核的目的。计算公式如公式:

2.2.3 改进的残差模块本文在原始残差块中进行修改,在不破坏原有卷积层的情况下,主干输出层嵌入了SK卷积结构单元,根据输入的不同桃树害虫图像选择不同的权重对卷积核进行加权操作,得到两个不同重要程度的卷积核,并随输入的图像动态选择其中相适应的卷积核,有效提高残差块的特征提取能力。这样特征图经过SK卷积单元后得到更精确的深层害虫特征信息,再与捷径分支传递的浅层信息进行融合,最终得到改进后残差模块的输出信息。添加的批归一化层可以使模型训练速度加快,获得更加精确的训练精度。改进前后结构对比如图5所示。

2.3 损失函数

3 实验及分析

3.1 相关实验参数

本实验的实验环境参数如表3所示。

表 3 实验环境参数

本实验模型训练参数设置如表4所示。

表 4 模型训练参数设置

3.2 评价标准

3.3 对比试验

图6是将ResNet50、ResNet18和ResNet101模型与本文改进模型Msk-ResNet50在训练集上的损失和准确度实验结果对比图。从图6(a)可知,ResNet50后续迭代存在震荡波动现象,模型不稳定。改进模型Msk-ResNet50迭代25次后开始收敛,损失值接近于0.001,相较其他模型损失值最低。从图6(b)可知,本文提出的模型Msk-ResNet50收敛后相较ResNet50等对比模型有较高的识别准确率和较好的鲁棒性。

图 6 模型实验对比

实验选择ResNet18、ResNet50和ResNet101模型进行对比试验,实验结果如表5所示。

表 5 模型实验准确率

在对桃树害虫图像识别任务中,本文模型Msk-ResNet50综合考虑害虫颜色与背景颜色相近和害虫多尺度问题,通过嵌入SK卷积单元以及设计多尺度并联卷积结构来提升网络性能。由表5可知,本文提出的模型Msk-ResNet50识别准确率高于ResNet18等对比模型,与原始模型ResNet50相比识别准确率提升了2.75%,验证了本文模型的有效性。

4 结论

为了提高自然场景下桃树害虫图像识别的准确率,本文在ResNet50的基础上提出了一种基于多尺度注意力残差网络的桃树害虫图像识别模型。首先,多尺度并联卷积适应于不同尺度害虫目标的提取,在浅层特征提取时保留了更为丰富的信息,为后续特征提取提供了较好的基础。其次,在残差块中嵌入选择性内核单元来实现桃树害虫关键信息的提取,获得更加精确的特征。实验表明,本文模型拥有较高的识别准确率。

[1] 王力荣.我国桃产业现状与发展建议[J].中国果树,2021(10):1-5

[2] 张博,张苗辉,陈运忠.基于空间金字塔池化和深度卷积神经网络的作物害虫识别[J].农业工程学报,2019,35(19):209-215

[3] Dai Q, Cheng X, Qiao Y,. Agricultural pest super-resolution and identification with attention enhanced residual and dense fusion generative and adversarial network [J]. IEEE Access, 2020,8:81943-81959

[4] Lee SH, Lin SR, Chen SF. Identification of tea foliar diseases and pest damage under practical field conditions using a convolutional neural network [J]. Plant Pathology, 2020,69(9):1731-1739

[5] Chen J, Chen W, Zeb A,Crop pest recognition using attention-embedded lightweight network under field conditions [J]. Applied Entomology and Zoology, 2021,56:427-442

[6] 鲍文霞,吴德钊,胡根生,等.基于轻量型残差网络的自然场景水稻害虫识别[J].农业工程学报,2021,37(16):145-152

[7] Zhang Y, Liu YP. Identification of navel orange diseases and pests based on the fusion of densenet and self-attention mechanism [J]. Computational Intelligence and Neuroscience, 2021(1):1-12

[8] Zhang Y, Zhong W, Pan H. Identification of stored grain pests by modified residual network [J]. Computers and Electronics in Agriculture, 2021,182(14):105983

[9] 杨雪琳,乔折艳,朱高锋,等.山东烟台地区苹果园和桃园主要害虫及天敌昆虫发生动态[J].植物保护,2022,48(1):240-245

[10] He K, Zhang X, Ren S,. Deep residual learning for image recognition [C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778

[11] Li X, Wang W, Hu X,. Selective kernel networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019:510-519

Image Recognition of Peach Pests Based on Multi-scale Attention Residual Network

LEI Cheng-min, MU Shao-min*, SUN Wen-jie, CUI En-quan

271018,

The peach tree pest image taken in the natural scene has the problem that the pest color is similar to the background color, and the individual sizes of different kinds of pests are different, which affects the recognition accuracy of the pest image. To solve the above problems, this paper proposes a peach pest image recognition model based on multi-scale attention residual network. Firstly, the first layer of ordinary convolution of residual network is replaced by multi-scale convolution, which alleviates the insensitivity of large convolution kernel to the characteristics of small-scale targets and enhances the ability of multi-scale pest feature extraction. Secondly, the selective kernel convolution unit of attention mechanism is added to the residual structure, which extracts pest information by adaptively adjusting the receptive field to produce effective perception and suppress background interference. The experimental results show that the recognition accuracy of the model proposed in this paper is 93.27%, and a good recognition effect is achieved.

Residual network; peach pests; image recognition

TP151.1

A

1000-2324(2022)02-0253-06

10.3969/j.issn.1000-2324.2022.02.011

2021-10-12

2021-11-24

类成敏(1996-),女,硕士研究生,主要从事计算机视觉研究. E-mail:sdau_lcm@163.com

Author for correspondence. E-mail:msm@sdau.edu.cn

猜你喜欢
图像识别残差桃树
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
浅谈图像识别技术在打击绿通假证逃费中的应用
桃树施基肥“五字诀”
桃树秋管 来年丰收
桃树咋样冬剪好
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
基于Resnet-50的猫狗图像识别
图像识别在物联网上的应用