基于改进Yolov5s的水稻叶病检测方法

2024-04-27 04:01项新建郑雨曹光客李旭尤钦寅姚佳娜
中国农机化学报 2024年3期
关键词:注意力机制

项新建 郑雨 曹光客 李旭 尤钦寅 姚佳娜

摘要:水稻叶病防治在提高水稻产量中具有重要作用,针对水稻叶病人工检查速度慢、主观性高的问题,提出一种基于改进Yolov5s的水稻叶病目标检测方法。采用K-means聚类算法得到先验框尺寸,增强检测模型对水稻叶病的适应性;将轻量级空间注意力与通道注意力融合,对高层语义特征信息增强,增强模型对病害信息的感知度;并结合特征金字塔网络,融合多尺度感受野获取目标上下文信息,有效地增強模型对目标周围特征的提取,提高目标检测的准确度。试验结果表明:改进后的Yolov5s算法平均检测精度(IOU=0.5)提高4.3%,F1值提高5.3%,帧率FPS为58.7 f/s。有效提升Yolov5s算法对水稻叶病的检测精度,达到实时检测的需求。

关键词:水稻叶病检测;K-means聚类;注意力机制;多尺度感受野

中图分类号:S435.11: TP391.41  文献标识码:A  文章编号:2095-5553 (2024) 03-0212-07

Detection method of rice leaf disease based on improved Yolov5s

Xiang Xinjian1, Zheng Yu1, Cao Guangke1, 2, Li Xu3, You Qinyin1, Yao Jiana1

(1. School of Automation and Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou,310023, China; 2. Hangzhou Shenhao Technology Co., Ltd., Hangzhou, 310023, China;3. Hangzhou Shengguan Technology Co., Ltd., Hangzhou, 310023, China)

Abstract:

Rice leaf disease prevention plays an important role in improving rice yield. Aiming at the problems of slow manual inspection speed and high subjectivity of rice leaf disease, a target detection method of rice leaf disease based on improved Yolov5s is proposed. The K-means clustering algorithm is used to obtain the prior frame size, which enhances the adaptability of the detection model to rice leaf disease. The lightweight spatial attention and channel attention are fused to enhance the high-level semantic feature information and the models awareness of disease information. Finally, the feature pyramid network is combined with the multi-scale receptive field to obtain target context information, which effectively enhances the models extraction of features around the target and improves the accuracy of target detection. The experimental results show that the average detection accuracy (IOU=0.5) of the improved Yolov5s algorithm is increased by 4.3%, the F1 value is increased by 5.3%, and the FPS is 58.7 f/s. The proposed method effectively improves the detection accuracy of the Yolov5s algorithm for rice leaf disease and meets the demand of real-time detection.

Keywords:rice leaf disease detection; K-means clustering; attention mechanism; multi-scale receptive field

0 引言

水稻病害及时准确识别对农作物增产增收具有重要意义[1]。当前对水稻病害的检测主要通过人工实地观测,不仅速度慢,且病害不同发展阶段纹理信息存在差距,检测者的主观意识对检测结果具有决定性作用。若没有经验的农民对叶片病害种类判断错误,后续进行的防治措施将缺乏意义[2, 3]。

利用高光谱技术的光谱反射原理[4]能够有效地对病害组织进行检测,但野外环境复杂以及此方法检测成本较高,高光谱技术仍停留于实验室研究阶段。随着人工智能和计算机视觉领域的快速发展,采用机器学习和深度学习的方法对农业病害进行检测得到了深入研究,Liu等[5]使用基于支持向量机的方法,实现小麦蚜虫自动识别和计数,但准确率只有75.8%;魏丽冉等[6]使用基于核函数支持向量机检测方法对植物叶片的4种病害进行检测,最高准确率为89.5%。鲍文霞等[7]使用深度分割网络对小麦图像进行分割后使用多路卷积神经网络对小麦赤霉病进行检测,达到了98%以上的准确率。Sun等[8]提出轻量级CNN模型MEAN-SSD对5种苹果叶病进行检测,mAP达到了83.12%。以上方法都存在模型检测精度较低或模型过于复杂导致无法对叶面病害进行准确快速检测。

注意力机制能够从大量信息中选择性的关注对当前目标更重要的信息,SENet、GCNet等在相关神经网络中都取得了可观的效果。曾伟辉等[9]在胶囊网络中引入注意力机制,验证了其在农业病虫害检测的有效性。但相关注意力模块都不可避免的导致模型加深和计算量增大[10]。当前注意力机制中普遍使用平均池化或最大池化的方式,将输入特征编码为同一全局特征,導致网络忽略其局部特征[11]。

水稻叶病害目标宽高比与Yolov5s所使用的COCO数据集中目标并不相似,大规模种植的水稻自然环境复杂,同时存在叶片遮挡晃动,导致病害叶片的目标检测难度上升。针对上述问题,为在实时检测过程中提高水稻叶病的检测精度,引入轻量级Yolov5s[12, 13]作为水稻叶病的检测模型,使用K-means聚类算法对数据集进行分析聚类,得到更为适配的anchors尺寸,引入轻量级空间与通道注意力进行融合,并通过空洞卷积实现多尺度感受野融合,获取目标周围环境信息,提高水稻叶病目标检测精度。

1 改进Yolov5s的水稻叶病检测方法

1.1 目标检测算法

基于深度学习的目标检测算法主要分为一阶段和二阶段,其中一阶段目标检测算法主要有Yolov3、Yolov4、Yolov5、SSD和RetinaNet等[1416],直接对目标的位置和类别进行预测,速度较快。二阶段算法指主要有Faster R-CNN[17]以及Mask R-CNN[18],其精度高,但检测速度慢。近年来,随着目标检测领域的广泛研究,Yolo系列算法在实时性和准确性方面取得了显著的提升。与传统的两阶段方法相比,Yolo算法的一阶段直接对目标的位置和种类进行预测,省去了候选框生成和回归的复杂过程,从而大幅提升了处理速度。

由于水稻叶病检测对实时性的要求,选择了轻量级网络Yolov5s作为检测模型。采用K-means算法聚类数据集,得到优化的anchors尺寸。在网络的低层引入上下文信息融合模块(Context Information Fusion Module, CIFM),结合FPN结构,在Yolov5s颈部与低层信息融合;在高层语义特征SPPF层后引入轻量级语义信息增强模块(Semantic Information Enhancement Module,SIEM),将空间注意力机制与通道注意力融合,对高级语义特征的关键信息进行增强,搭建网络结构如图1所示。

1.2 K-means聚类anchors算法

K-means算法作为一种经典而有效的聚类方法,K-means算法作为一种经典而有效的聚类方法,通过计算样本集中每个样本点与其所属簇的中心点之间的距离,将相似的样本划分为同一类别(簇)。在应用K-means算法时需要关注两个关键问题:(1)样本与样本之间的距离如何表示,需要根据应用场景设计,常见的距离度量方法包括欧式距离等;(2)将样本分为几类,即聚类的簇数。

通过实地调研以及对数据集分析,水稻叶病害根据感染程度不同,病害部分在叶片上的宽高比与COCO数据集图像存在较大差别,原anchors尺寸并不适用于叶面病害的检测。为此K-means聚类算法对标注好的数据集进行聚类,得到改进后的anchors尺寸,增强模型检测能力。

传统K-means聚类算法使用误差平方和(Sum of Square Error, SSE)计算每个样本与每个簇中心的距离。在目标检测领域,样本为图像中的目标物体,因此采用式(1)计算样本之间的距离。

d=1-IOU(bboxes,anchors)(1)

式中:d——样本之间距离;bboxes——真实框;anchors——先验框。

本文簇的个数设置为9,即预测9种尺寸的anchors。每个簇采取不重复采样。之后经过遗传算法(Genetic Algorithm,GA)对K-means聚类得到的anchors进行变异(GA优化在Yolov5中已实现),最终得到训练网络使用的anchors为[47, 29]、[43, 91]、[93, 51]、[89, 132]、[149, 89]、[166, 209]、[108, 458]、[310, 204]、[432, 471],对聚类得到的anchors,计算得到的适应度为74.83%,召回率100%,聚类结果如图2所示。

1.3 语义信息增强模块(SIEM)

注意力机制能够在基本不影响网络运行速度的情况下,从大量信息中选择性的关注对当前检测任务更关键的信息。水稻田具有较为复杂的背景,水稻叶感染程度的不同也会呈现不同特征,引入注意力机制使模型更多地关注目标信息,抑制复杂背景对检测的干扰。在Yolov5的特征提取网络中,高层特征含有丰富的语义信息,底层特征具有更细节的轮廓信息。高层语义信息与低层轮廓信息的融合对提高模型的检测精度至关重要,因此,本文在特征提取网络的SPPF层后引入本文设计的语义信息增强模块,通过改进的空间注意力机制与轻量级ECANet模块融合,对高级语义关键信息进行增强,并在Yolov5的FPN结构中通过上采样,与浅层信息进行融合,使增强后的语义信息引导特征融合。

1.3.1 空间注意力

如图3所示,与已有的空间注意力不同,对于特征提取网络输出特征F,分别通过并行连接的三个1×1卷积,得到WM,WB,WA,其维度为[B×C×H×W],其中B为图片序列,C为通道数,H、W分别表示图片的高和宽,再reshape为[C×HW]形式,将WB的转置矩阵与WM相乘,得到空间注意力图WS[HW×HW],高宽的相乘让图像每个像素点之间都产生了一定的联系,即两个不同空间位置的向量相关性,通过矩阵变换为[C×H×W],并使用激活函数Softmax激活得到权重系数WS。

WS=σ(WBT×WM)(2)

式中:σ——Softmax激活函数。

将权重系数WS输入特征F[C×H×W]相乘得到空间注意力输出特征FC。根据式(3)运算结果,对输入特征赋予权重系数,关键特征得以增强。

FC=WS×(3)

1.3.2 通道注意力(ECANet)

大多数通道注意力趋向于引入复杂结构来增强模型性能,不利于目标的快速检测,因此引入通道注意力模块ECANet,ECANet是对SENet的一种改进,在引入极少运算量的同时,能够提高模型精度,对提升轻量化模型的检测精度具有重要意义。ECANet采用了一种无需降维的局部跨通道交互策略和自适应选择一维卷积内核大小的方法,实现性能的提升,如图4所示,图4中GAP表示全局平均池化。

输入特征在不降维的情况下进行逐通道全局平均池化再传入卷积核大小为k的一维卷积层进行特征提取,实现通道之间的信息交互,如式(4)所示。

w=δ[fConv(1×1)Dk(y)](4)

式中:fConv(1×1)——一维卷积操作;δ——激活函数Sigmoid;y——聚合特征;k——卷积核大小,表示本地跨通道交互范围,即有k个近临通道参与一个通道的特征预测;Dk(y)——全局平均池化操作。

ECA将自适应确定交互范围(即卷积核大小k)與通道维度C(卷积核数量)之间的关系设置如式(5)所示。

C=(k)=2(γ×k-b)(5)

式中:γ、b——常数,本文设置γ=2,b=1。因此给定通道维数C时,即可确定卷积核大小k的值。

k=φ(C)=log2Cγ+bγodd(6)

式中:|x|odd——当前与x最接近的奇数。

1.3.3 注意力融合模块

如图5所示,将空间注意力和通道注意力采用并行连接的方式,将得到的结果进行相加并通过Sigmoid激活得到FSH,将原始输入特征信息通过残差结构与相加融合后的权重相乘,得到输出结果FY,即

FY=δ(FSH+FCS)×F(7)

根据式(7)可以看出,通过全局特征增强残差模块后的输出FY为原输入特征信号F经过加权的结果。

1.4 上下文信息融合模块

增大网络的感受野增大网络训练过程中卷积核相对于原图的视野范围,对于输入特征F,通过空洞卷积层,得到的感受野大小为

RFl+1=RFl+(fl+1-1)×∏li-1Si(8)

式中:RFl+1——计算的目标感受野大小;RFl——上一层特征图对应的感受野大小;i、l——第i、l层;fl+1——当前卷积核大小;Si——对应卷积层的步长。

空洞率的增加一定程度上增加了感受野,能够获取目标周围环境信息,但较大的感受野对小目标的检测性能较差。深度可分离卷积将普通卷积分解为深度卷积与逐点卷积,相较于普通卷积运算,能够减少模型计算参数,Mobilenet模型是深度可分离卷积的经典应用。

为使网络能够对复杂环境下的不同尺寸大小的水稻病害目标都能准确检测,借鉴语义分割任务中常见的ASPP结构,为避免模型加深导致检测速度大幅下降,结合深度可分离卷积,提出上下文信息融合模块。输入特征F首先经过卷积核大小为3×3的深度可分离卷积层(其中深度卷积核为3×3,点卷积核为1×1),并将输出输入到后续空洞率分别为1,3,5,卷积核大小为3×3深度可分离空洞卷积层,对特征进行提取,多个感受野能得到更为丰富的上下文信息,增强特征层对目标周围环境的预测能力;同时将原输入特征F经过残差结构中的1×1卷积,保留原输入信号,最后将四个并行分支的输出在拼接后,通过1×1的卷积实现不同感受野的特征融合,如图6所示。

由于多个感受野的堆叠会带来大量的计算,引入深度可分离卷积能有效降低模型参数,避免模型检测速率的大幅下降。通过融合函数对多尺度感受野获取到的上下文信息进行融合,能有效提高模型检测精度。由于高层特征已具有相对原图较大的感受野范围,为简化模型,结合FPN结构,仅在两个底层特征层后引入CIFM。

2 试验分析

2.1 数据集和训练平台

训练数据集为Sethy等发布的Rice Leaf Disease Image Samples(RLDIS),共5 932张病害图片,数据集中提供4类水稻叶片病害:白叶枯病(Bacterialblight)1 584张、稻瘟病(Blast)1 440张、褐斑病(Brownspot)1 308张、东格鲁病(Tungro)1 600张。采用人工标注方式对数据集图像进行标注,保存为PASCAL-VOC格式。训练服务器环境为Pytorch 1.7.0-GPU,GPU为NVIDIA GeForce RTX2080Ti×3。

2.2 训练分析

2.2.1 模型训练

基于迁移学习的思想,采用Yolov5s预训练模型训练,在第一个epoch已经可以取得很好的效果,因此采用不冻结训练方式。bachsize设置为32,初始学习率设置为0.01,输入图片resize为640像素×640像素,训练100个epoch。训练得到的mAP(IOU=0.5)和Loss曲线如图7所示。由于网络加深,训练开始时收敛速度相比于原Yolov5s下降,但最终检测精度高于原Yolov5s算法。

2.2.2 评价指标

采用在COCO评价指标中目标检测平均精度(Mean Average Precision,mAP,%)(IOU=0.5)作为模型检测精度的评价指标,与准确率(Precision,P,%)、召回率(Recall,R,%)的计算公式如式(9)~式(12)所示。

P=TPTP+FP×100%(9)

R=TPTP+FN×100%(10)

AP=∫10P(R)dR(11)

mAP=1M∑Mi=1AP(i)×100%(12)

式中:TP——正确划为正样本的数量;FP——错误划为正样本的数量;FN——错误划为负样本的数量;M——分类的类别数。

F1是用于衡量二分类(或多任务二分类)模型精确度的指标,如式(13)所示。

F1=2×P×RP+R(13)

2.2.3 模型对比

将本文算法与SSD-300,Yolov3-SPP,Yolov4,RetinaNet以及Faster R-CNN网络进行对比,结果如表1所示,FPS是在配置为:GPU:Nvidia RTX2070;CPU:IntelCoreTMi79750H 2.6 GHz测试结果,APB、APD、APH、APDG分别为白叶枯病、稻瘟病、褐病斑、东格鲁病的AP值。F1B、F1D、F1H、F1DG分别为白叶枯病、稻瘟病、褐病斑、东格鲁病的F1值。

根据对比试验结果可知,本文方法对比Faster R-CNN算法虽精度有所降低,但Faster R-CNN对水稻叶病检测的FPS仅为3.0 f/s。图8为各算法检测效果图,SSD-300、Yolov4、RetinaNet都存在对感染程度低的特征存在漏检现象(图中椭圆圈出)。本文方法检测精度较Faster R-CNN低,但FPS达到了58.7 f/s,检测速度远高于Faster R-CNN。虽存在一个漏检目标,但其他评价参数优于其他算法模型,并满足实时检测的需求。

2.3 消融试验

表2为对本文所设计的模块设计不同的消融试验,相对于未改进的Yolov5s,采用K-means聚类anchors、增加CIFM、增加SIEM时,mAP(IOU=0.5)分别提高了1.6%、0.8%、1.9%,F1值分别提高1.0%、2.7%、2.2%,证明了各模块的有效性,改进后的算法相对于原算法mAP(IOU=0.5)提高了4.3%,F1值提高了5.3%,检测速度虽稍有下降,但检测精度得到了有效的提升,验证了本文方法的有效性。

3 结论

为在水稻叶病实时检测过程中提高检测精度,提出一种改进Yolov5s目标检测模型的方法,以解决当前水稻叶病实时检测精度较低的问题。

1)  采用K-means聚类算法优化得到改进的先验证框尺寸;对Yolov5s网络结构优化,引入轻量级的空间注意力与通道注意力,并将其融合,使模型更好地关注于关键信息;结合深度可分离卷积在减少计算量的情况下,将底层特征通过多尺度的感受野加以聚合,提高模型对目标周围信息的感知。实现Yolov5s算法在引入较少计算量的前提下,有效提高水稻叶病的检测精度。

2)  对比试验表明,改进后的Yolov5s算法相对于原Yolov5s算法,mAP提高4.3%,F1值提高5.3%,FPS为58.7f/s,远高于SSD-300,Yolov3-SPP,Yolov4,RetinaNet以及Faster R-CNN目标检测网络。在提高检测精度的同时,满足实时检测的需求。

3)  设计消融试验对各模块的有效性进行验证,结果表明:采用K-means聚类、增加CIFM、增加SIEM时,mAP分别提高了1.6%、0.8%、1.9%,F1值分别提高1.0%、2.7%、2.2%,证明了本文方法的有效性。

参 考 文 献

[1]Bao W, Qiu X, Liang D, et al. Recognition insect images at the order level based on elliptic metric learning [J]. Applied Engineering in Agriculture, 2021, 37(1): 163-170.

[2]谢锡水. 水稻病虫害防治中的突出问题及其对策浅析[J]. 中国农业信息, 2017(19): 54-56.

[3]Lim S, Kim S, Park S, et al. Development of application for forest insect classification using CNN [C]. 2018 15th International Conference on Control, Automation, Robotics and Vision (ICARCV). IEEE, 2018: 1128-1131.

[4]Zhao J, Fang Y, Chu G, et al. Identification of leaf-scale wheat powdery mildew (Blumeria graminis f. sp. Tritici) combining hyperspectral imaging and an SVM classifier [J]. Plants, 2020, 9(8): 936.

[5]Liu T, Chen W, Wu W, et al. Detection of aphids in wheat fields using a computer vision technique [J]. Biosystems Engineering, 2016, 141: 82-93.

[6]魏麗冉, 岳峻, 李振波, 等. 基于核函数支持向量机的植物叶部病害多分类检测方法[J]. 农业机械学报, 2017, 48(S1): 166-171.Wei Liran, Yue Jun, Li Zhenbo, et al. Multi-classification detection method of plant leaf disease based on kernel function SVM [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1): 166-171.

[7]鲍文霞, 孙庆, 胡根生, 等. 基于多路卷积神经网络的大田小麦赤霉病图像识别[J]. 农业工程学报, 2020, 36(11): 174-181.Bao Wenxia, Sun Qing, Hu Gensheng, et al.Image recognition of field wheat scab based on multi-way convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(11): 174-181.

[8]Sun H, Xu H, Liu B, et al. MEAN-SSD: A novel real-time detector for apple leaf diseases using improved light-weight convolutional neural networks [J]. Computers and Electronics in Agriculture, 2021, 189: 106379.

[9]曾伟辉, 唐欣, 胡根生, 等. 基于卷积块注意力胶囊网络的小样本水稻害虫识别[J]. 中国农业大学学报, 2022, 27(3): 63-74.Zeng Weihui, Tang Xin, Hu Gensheng, et al. Small-sample rice pest identification based on convolutional block attention capsule network [J]. Journal of China Agricultural University, 2022, 27(3): 63-74.

[10]任欢, 王旭光. 注意力机制综述[J]. 计算机应用, 2021, 41(S1): 1-6.Ren Huan, Wang Xuguang. Areview of attention mechanism [J]. Journal of Computer Applications, 2021, 41(S1): 1-6.

[11]陈莹, 龚苏明. 改进通道注意力机制下的人体行为识别网络[J]. 电子与信息学报, 2021, 43(12): 3538-3545.Chen Ying, Gong Suming. Human action recognition network based on improved channel attention mechanism [J]. Journal of Electronics & Information Technology, 2021, 43(12): 3538-3545.

[12]Xu Z, Huang X, Huang Y, et al. A real-time zanthoxylum target detection method for an intelligent picking robot under a complex background, based on an improved YOLOv5s architecture [J]. Sensors, 2022, 22(2): 682.

[13]王文亮, 李延祥, 张一帆, 等. MPANet-YOLOv5:多路径聚合网络复杂海域目标检测[J]. 湖南大学学报(自然科学版), 2022, 49(10): 69-76.Wang Wenliang, Li Yanxiang, Zhang Yifan, et al. MPANet-YOLOv5: Multi-path aggregation network for complex sea object detection [J]. Journal of Hunan University (Natural Sciences), 2022, 49(10): 69-76.

[14]顾宝兴, 刘钦, 田光兆, 等. 基于改进YOLOv3的果树树干识别和定位[J]. 农业工程学报, 2022, 38(6): 122-129.Gu Baoxing, Liu Qin, Tian Guangzhao, et al. Recognizing and locating the trunk of a fruit tree using improved YOLOv3 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(6): 122-129.

[15]Yang R, Li W, Shang X, et al. KPE-YOLOv5: An improved small target detection algorithm based on YOLOv5 [J]. Electronics, 2023, 12(4): 817.

[16]Zheng Z, Qi H Y, Zhuang L, et al. Automated rail surface crack analytics using deep data-driven models and transfer learning [J]. Sustainable Cities and Society, 2021, 70: 102898.

[17]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.

[18]Zhang K, Zhou H, Bian H, et al. Certified defense against patch attacks via mask-guided randomized smoothing [J]. Science China Information Sciences, 2022, 65(7): 170306.

基金項目:浙江省重点研发计划项目(2018C01085);杭州市农业与社会发展科研项目(20200401A05);浙江省大学生科技创新活动计划暨新苗人才计划项目(2020R415032)

第一作者:项新建,男,1964年生,浙江永康人,硕士,教授;研究方向为人工智能、机器人。E-mail: 188002@zust.edu.cn

通讯作者:曹光客,男,1981年生,浙江杭州人,工程师;研究方向为机器人。E-mail: cgk@shenhaoinfo.com

猜你喜欢
注意力机制
基于注意力机制的行人轨迹预测生成模型
基于注意力机制和BGRU网络的文本情感分析方法研究
多特征融合的中文实体关系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法