石璐莹 童顺延 吴婷 冯媛 刘海华
摘 要:农田害虫防控是一项争分夺秒的挑战,在此过程中害虫种类的正确识别是一项极为重要的环节。针对传统识别害虫检测过程中准确率低、检测目标较小的问题,文章提出了一种基于YOLOv5s和注意力机制的农田害虫图像识别模型。将自注意力机制引入YOLOv5s网络,对上下文信息进行建模,通过建立非局部模型提高网络解决图像远距离和多层次依赖关系的能力。实验结果显示,基于YOLOv5注意力模型的农田害虫图像识别具有较高的检测精度,可以有效识别和定位各类害虫。
关键词:农田害虫识别;目標检测;YOLOv5;注意力机制
中图分类号:TP391.4;TP18 文献标识码:A 文章编号:2096-4706(2023)10-0070-05
Abstract: Pest prevention and control in farmland is a race against time challenge, and the correct identification of pest species is an extremely important link in this process. In response to the problems of low accuracy and small detection targets in traditional pest detection processes, a farmland pest image recognition model based on YOLOv5s and attention mechanism is proposed in this paper. Introduce the self attention mechanism into the YOLOv5s network to model contextual information, and improve the network's ability to solve long-distance and multi-level dependency relationships in images by establishing non local models. The experimental results show that the recognition of farmland pest images based on the YOLOv5 attention model has high detection accuracy and can effectively identify and locate various pests.
Keywords: farmland pest recognition; object detection; YOLOv5; attention mechanism
0 引 言
我国是农业大国,在农业生产过程中农作物病虫害是始终绕不开的话题,各种病虫害给农产品产量和品质带来恶劣的影响,每年都会由此造成巨大的经济损失[1]。为了对农田病虫害进行有效的预防和控制,需要收集有害生物信息,在此基础上进行虫情分析。然而,农业害虫种类繁多且信息复杂,传统的利用人工观察统计害虫的方法难以满足现代大规模农业生产对虫害预防工作的需要[2]。近些年来,随着各种新型技术的快速发展,国家愈来愈重视对农业病虫害智能化识别和数字化防控。因此,农作物病虫害智能识别的研究逐渐成为热门。
1 相关研究
近年来国内外对于病虫害自动检测的研究做了大量的工作。张开兴[3]、胡维炜[4]等将机器学习技术与图像处理相结合成功实现了农作物病虫害图像的检测。他们先使用图像分割算法对病虫害病斑图像进行分割,然后提取病斑的区域形状特征及纹理特征[5],再通过反向传播网络[6]、支持向量机分类[7]和K均值聚类[8]等算法对病斑特征进行识别和分类。但此类算法识别的准确率受分割精度的影响较大,且模型通用性较差。王东方等利用迁移学习方法改进深度残差网络SE-ResNeXt-101模型[9],实现了多种农作物病虫害类型共同检测,并且解决了由于样本数据不足导致的模型识别精度低的问题。时文秀对RefineDet算法进行优化[10],提出新的ARM网络架构,在农田害虫检测上取得了一定的识别精度提升。然而这些方法都将复杂的检测任务简化成了分类任务,在目标框回归精度方面并没有提出较好的解决方案。Redmon等创造性地提出了one-stage的YOLO算法[11],将物体分类和物体定位在一个步骤中完成,YOLO仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置,并在输出层回归bounding box的位置和bounding box所属类别,在牺牲较小精度的同时获得了明显的速度提升。但此类算法对于小目标检测任务(分辨率小于32×32像素),存在较高的漏检率。农田害虫体积较小,虫体形态、颜色较为相似,易受到其他相似害虫、枝叶等背景因素的干扰。针对以上问题,本文对YOLOv5模型进行改进实现农田害虫图像的智能识别。
2 网络结构
2.1 YOLOv5网络结构
YOLOv5网络是目标检测常用网络之一,具有推理速度快、检测精度高等优点,该网络包含4种基础结构,分别是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,这些不同的变体使得YOLOv5能很好地在精度和速度中权衡,拥有更广的应用场景。YOLOv5s网络是YOLOv5系列中深度最小,特征图宽度最小的网络,后面3种网络都是在此基础上不断加深、加宽。随着模型复杂度的提升,网络的准确率也会有所提升,但是会消耗更多的计算资源,为了实现病虫害的快速检测和网络轻量化,本文选择使用YOLOv5s网络作为基础模型。YOLOv5网络结构如图1所示。
YOLOv5的Backbone部分的采用的New CSP-Darknet-53结构,该结构由Focus结构、CBL结构、CSP结构以及SPP结构组成,用来提取图像特征。
Focus的作用是进行一个下采样的切片操作,如图2所示,可以减少计算量加快网络速度。CBL的作用是利用卷积层获取特征。CSP是残差结构,可以增强网络的学习能力,可以降低网络计算量和内存成本,使得网络在轻量化的同时保持准确性。
SPP结构是将输入串行通过多个核为5×5大小的MaxPool层,将前面得到的任意大小的特征图转换成固定大小的特征向量,融合不同尺度特征的同时加快计算速度。
YOLOv5的Neck部分采用FPN+PAN的结构,可以更好地利用Backbone提取的特征,对Backbone提取的特征进行再处理和合理应用。一个Neck由几个自底向上的路径和几个自顶向下的路径组成。Neck是目标检测中的关键环节,主要作用是加强网络特征融合的能力和进一步提高网络特征提取的能力。
YOLOv5的Prediction部分通常称为Head网络,作用是对图像特征进行预测,生成边界框以及预测类别。作为一个分类网络,Backbone无法完成定位任务,Head负责通过Backbone提取的特征图检测目标的位置和类别。
2.2 注意力机制
在人们观察事物的时候,首先整体概览,然后根据需求有意识的关注事物的重点区域,找出感兴趣区域。注意力机制的运用可以使得模型基于数据找到其之间的关联性,突出某些重要特征,提高模型的鲁棒性和表达能力,从而有效提高模型的性能。YOLOv5的Neck部分对主干网络中提取的特征进行融合,因此本文在Neck部分的CSP结构之后添加空间通道注意模块(Convolutional Block Attention Module, CBAM)[12],如图3所示,提高模型对重点区域的关注力,提升模型的性能。
2.3 小目标检测层
在YOLOv5原始的Head部分有3个检测头用来检测不同大小的目标,当输入图像尺寸为640×640的时候,输出尺寸为80×80检测头的感受野对应原图为8×8的像素区域,输出尺寸为40×40检测头的感受野对应原图为16×16的像素区域,输出尺寸为20×20检测头的感受野对应原图为32×32的像素区域。由于数据中存在类似于编号为9号的白背飞虱和10号褐飞虱属等体积极小的飞虱类害虫,因此考虑增加1个输出尺寸为160×160的检测头,对应原图的感受野为4×4的像素区域,可以增强网络对小目标的检测能力。改进后的YOLOv5网络结构如图4所示。
2.4 损失函数改进
YOLOv5中的损失函数由定位损失(Location Loss)、类别损失(Classes Loss)和置信度损失(Objectness Loss)三部分组成,其中采用GIoU Loss计算定位损失,使用BCE Loss计算类别损失和置信度损失。损失函数计算公式为:
其中λ1,λ2,λ3为平衡系数。
YOLOv5的定位损失使用GIoU计算,GIoU在IoU损失的基础上,考虑了预测框和真实框的最小外接矩形框,一定程度上解决了IoU不能计算预测框和真实框不重叠的问题,GIoU的计算公式为:
其中A為预测框,B为真实框,C为A和B的最小外接矩形框。
但是GIoU也存在缺点,当预测框完全包围住真实框时,GIoU就会退化为IoU导致检测结果不准确。研究采用CIoU代替IoU计算定位损失[13],CIoU不仅考虑了预测框与真实框中心点之间的距离,还考虑了预测框和真实框之间的宽高比,有效解决了IoU和GIoU中的缺点,CIoU示意图如5图所示。
其中α为权重函数,ν为衡量预测框与真实宽高比的相似性,w gt/ h gt和w / h为真实框和预测框的宽高比,ρ(.)为欧氏距离,b和bgt为预测框和真实框的中心点,c为预测框和真实框最小外接矩形框的对角线长度。CIoU可以更好的度量预测框与真实框之间的关系,有效提高检测的精度。
3 实验与分析
3.1 数据获取与数据处理
本文使用的农田害虫数据集由第十届“泰迪杯”数据挖掘挑战赛提供,共3 015张图像。挑战赛所提供的虫情测报灯采集到的图像文件,用于识别28种对某农作物有害的害虫,具体害虫种类及编号如表1所示。
数据扩充:为扩充数据样本,采用随机裁剪图像的方法增加数据样本量。在每张图像上随机生成500个点,每个点生成一张大小为1 200×1 200的图像,根据图像中害虫标签位置信息计算与生成图像的IoU,若IoU大于0.9则保留该生成图像。
数据增强:采用缩放、色彩空间调整和Mosaic增强三种方式对数据进行增强。Mosaic方法随机使用4张图像,随机缩放后再随机分布进行拼接。随机缩放增加了很多小目标害虫,使网络的鲁棒性更加优越。
3.2 评价指标
判断模型的好坏往往是通过评价指标来得到的。针对害虫识别任务与分类任务,研究使用如精确率(Precision)、准确率(Accuracy)、召回率(Recall)、AP(Average Precision)、mAP(mean Average Precision)等评价指标。各评价指标的计算公式为:
其中,TP为正样本中被正确识别为正样本的数量,TN为负样本中被正确识别为负样本的数量,FP为负样本中被错误识别为正样本的数量,FN为正样本中被错误识别为负样本的数量,C为类别数。
3.3 消融实验
为了验证改进算法的有效性,在YOLOv5s网络基础上的消融实验设计如下,模型1:使用CIoU损失,其余模块保持不变;模型2:使用GIoU损失,添加CBAM模块;模型3:使用GIoU损失,添加小目标检测层模块;模型4:使用CIoU损失,添加CBAM模块,添加小目标检测层模块。在同等训练条件下,以精确率、召回率和mAP作为评价指标,实验结果如表2所示。
从实验结果中可以看出,在原始YOLOv5s的结构基础上,本文针对研究任务提出的损失函数改进,添加注意力模块和添加小目标检测头模块,都有效提升了模型的效果,将三者都添加到模型中之后,效果得到了明显的提升,准确率提升了5.65%、召回率提升了2.72%、mAP@.5提升了1.95%,从而说明本文提出的模型修改部分,可以有效提升模型效果。部分检测结果展示如图6所示。
3.4 对比实验
为了验证本算法与其他算法的有效性,分别在YOLOv5s方法、YOLOv3-SPP方法[14]、Faster R-CNN方法[15]和YOLOX方法[16]上进行对比实验,在同等训练和测试条件下进行验证,实验结果如表3所示。
讨论从实验结果中可以看出,本文针对小目标害虫的检测算法性能更好,相较于其他4种模型,本文算法在精确率、召回率和mAP@.5上均有提升,验证了本算法的可行性,也验证了本算法的优越性。
4 结 论
使用CIoU损失函数计算定位损失,可以很好衡量真实框和预测框之间的关系,提高模型学习能力和鲁棒性;在Neck加入注意力机制重点关注检测目标的有效信息;增加的小目标检测层有助于提取小目标检测物的信息,提高识别性能。通过多个对比实验证明,我们提出的方法具有较为优越的性能,能够胜任害虫智能识别的任务。
参考文献:
[1] 张双.我国农业病虫害防治现状及建议分析 [J].农家参谋,2019(21):13.
[2] 黄平,闭吕庆,莫燕斌,等.基于多尺度特征融合的柑橘病虫害图像识别方法 [J].无线电工程,2022,52(3):407-416.
[3] 张开兴,吕高龙,贾浩,等.基于图像处理和BP神经网络的玉米叶部病害识别 [J].中国农机化学报,2019,40(8):122-126.
[4] 胡维炜.小麦病害图像特征提取与识别方法研究 [D].合肥:安徽农业大学,2017.
[5] 束美艷,魏家玺,周也莹,等.基于朴素贝叶斯分类的柑橘叶片溃疡病诊断 [J].浙江大学学报:农业与生命科学版,2021,47(4):429-438.
[6] 曹丽英,张晓贤,伞晓辉,等.基于图像处理技术和BP神经网络算法的玉米病害诊断方法的研究 [J].计算机科学,2012,39(10):300-302.
[7] 余秀丽,徐超,王丹丹,等.基于SVM的小麦叶部病害识别方法研究 [J].农机化研究,2014,36(11):151-155+159.
[8]李震,洪添胜,曾祥业,等.基于K-means聚类的柑橘红蜘蛛图像目标识别 [J].农业工程学报,2012,28(23):147-153+299.
[9] 王东方,汪军.基于迁移学习和残差网络的农作物病害分类 [J].农业工程学报,2021,37(4):199-207.
[10] 时文秀.基于深度学习的目标检测算法在农田害虫检测识别中的应用 [D].济南:济南大学,2020.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779-788.
[12] WOO S,PARK J,LEE J Y,et al. CBAM:Convolutional Block Attention Module [EB/OL].[2022-10-29].https://developer.aliyun.com/article/1061002.
[13] ZHENG Z H,WANG P,REN D W,et al. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation [J].IEEE Transactions on Cybernetics,2022,52(8):8574-8586.
[14] REDMON J,FARHADI A. Yolov3:An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV].[2022-10-29].https://arxiv.org/abs/1804.02767.
[15] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[16] GE Z,LIU S T,WANG F,et al. YOLOX:Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2022-10-29].https://arxiv.org/abs/2107.08430.
作者简介:石璐莹(1997—),女,汉族,河南郑州人,硕士研究生在读,研究方向:视觉认知计算与医学图像处理;刘海华(1966—),男,汉族,湖北孝感人,教授,博士,研究方向:视觉认知计算与医学图像处理。