改进YOLOv5测量田间小麦单位面积穗数

2023-01-12 13:28周亚男王起帆邱朝阳
农业工程学报 2022年16期
关键词:穗数麦穗计数

黄 硕,周亚男,王起帆,张 晗,邱朝阳,康 凯,罗 斌

改进YOLOv5测量田间小麦单位面积穗数

黄 硕1,2,周亚男1,2,王起帆3,张 晗1,2,邱朝阳4,康 凯4,罗 斌1,2※

(1. 北京市农林科学院智能装备技术研究中心,北京 100097;2. 国家农业智能装备工程技术研究中心,北京 100097;3. 河北农业大学机电工程学院,保定 071000;4. 北京市农林科学院信息技术研究中心,北京 100097)

单位面积穗数是决定小麦产量的主要因素之一。针对人工清点小麦穗数的方法容易受主观因素影响、效率低和图像处理方法鲜有进行系统部署等问题,提出一种注意力模块(Convolutional Block Attention Module,CBAM)与YOLOv5相结合的CBAM-YOLOv5网络结构,通过对特征图进行自适应特征细化,实现更准确的单位面积穗数测量。该研究以本地采集小麦图像数据和网络公开小麦图像数据为数据集,设置输入图像分辨率为1 280,得到CBAM-YOLOv5模型,可以达到0.904的1分数和0.902的平均精度,测试集计数的平均相对误差为2.56%,平均每幅图像耗时0.045 s,综合对比,CBAM-YOLOv5模型具有显著优势。模型放置于服务器,结合手机端软件和辅助装置,形成单位面积穗数测量系统,实现育种小区麦穗图像实时采集、处理和计数,计数的平均相对误差为2.80%,抗环境干扰性强。该研究方法与装置可以实现田间小麦单位面积穗数的实时在线检测,降低主观误差,具有较高的准确率及较强的鲁棒性,为小麦单位面积穗数快速、准确估测提供一种新的技术和装备支撑。

模型;小麦;单位面积麦穗数;深度学习;YOLOv5;CBAM

0 引 言

小麦是世界三大粮食作物之一,种植面积在2.24亿公顷左右,养活了世界大约30%的人口[1],不断提高其单位面积产量一直是现代育种的主要目标。及时、准确地掌握小麦产量信息,可为科研工作者提高育种效率。单位面积穗数作为小麦最重要的产量指标之一[2],以往在生产过程中,经常采用人工计数的方法来获取,不仅人力成本和时间成本较大,而且易受主观因素影响。进行自动估算单位面积穗数的研究尤为必要,其有助于小麦产量预估和表型鉴定的进步,目前,有图像处理、机器学习、深度学习三类技术用于自动测量小麦穗数。

传统的图像处理技术已经被用于计算单位面积穗数,如纹理特征和混合颜色空间,来自颜色、灰度和纹理数据的多特征融合[3]。Fernandez-Gallego等使用限制对比度自适应直方图均衡化算法(Contrast Limited Adaptive Histogram Equalization,CLAHE)增强麦穗热像图中小区域的局部对比度,并选择分析粒子函数过滤并计算检测到的麦穗[4]。李毅念等转换图像颜色空间提取饱和度分量图像,通过图像预处理、去除细窄处粘连、凹点检测匹配分割等算法处理,实现图像中麦穗分割计数,计算籽粒数,完成产量预测[5]。刘涛等利用颜色特征或者纹理特征提取麦穗图像,进行一系列的形态学腐蚀膨胀、空洞填充和细化处理,得到麦穗骨架图像,继而利用角点检测方法计数[6]。图像处理技术的准确性取决于图像的质量,而大田环境较为复杂,难以保证图像质量的统一,通用性较差。

随着机器学习的兴起,研究人员使用支持向量机等分类技术进行麦穗识别,以提升识别的精准度和鲁棒性[7-8]。Fernandez-Gallego等使用拉普拉斯滤波器和寻找最大值的方法定位麦穗,从原始RGB图像及其颜色通道中提取如面积、高度等30个特征,进行训练和分类,完成一种自动计穗系统的设计[9]。Zhou等应用简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)来提取超像素图像斑块,将多特征优化和孪生支持向量机(Twin Support Vector Machine,TWSVM)相结合进行田间条件下的小麦麦穗识别[10]。刘哲等改进K-means算法,充分利用图像麦穗颜色特征,进行大田麦穗计数[11]。杜颖等通过SLIC预处理田间小麦图像,提取并分析出适宜的颜色特征参数训练分类器,对识别结果进行处理,结合角点数和区域统计结果计算小麦穗数[12]。机器学习能够从给定的数据中学习目标特征达到较好的识别效果,因此目标特征选择的准确性决定该类方法的有效性,但需要由研究人员来确定目标特征,存在主观性。

近年来,随着计算机硬件性能的快速提升,深度学习技术得到了广泛应用,许多学者开始使用深度学习方法开展麦穗识别研究[13-15]。Misra等将局部补丁提取网络(Local Patch extraction Network,LPNet)和全局掩码细化网络(Global Mask Refinement Network,GMRNet)相结合,提出一种新的深度学习网络SpikeSegNet,实现麦穗的识别与计数[16]。Xu等采用K-means聚类法自动分割麦穗图像构建数据集,并将其送入卷积神经网络模型进行训练和测试,实现小麦穗部的快速准确识别[17]。鲍文霞等引用拥挤场景识别网络(Congested Scene Recognition Network,CSRNet)搭建麦穗密度图模型,利用公开数据集进行预训练,再用采集的数据集,调整和优化模型参数,构建麦穗计数函数模型,实现穗数估计[18]。段凌凤等基于SegNet架构,训练了PanicleNet深度全卷积网络,对原始图划分的子图进行语义分割,完成对不同品种稻穗的精准分割[19]。深度学习不依靠人工进行特征提取,具有非常强的学习能力,提高了麦穗识别的准确率和鲁棒性。另外,TensorFlow、PyTorch等框架的出现,也让深度学习技术可以广泛地应用于很多平台。

综上可知,目前的研究大多数只是对图像中的麦穗进行识别,但鲜有将方法进行部署与应用,难以直接拍摄小麦群体图像并获取单位面积麦穗数。因此,本文提出一种CBAM-YOLOv5的网络结构,目的在于利用注意力模块进一步提升YOLOv5对重叠、遮挡情况麦穗的识别效果,实现麦穗的快速识别和有效计数,为小麦单位面积穗数测量提供新的解决方法和装置。本文主要工作有:1) 讨论输入图片不同分辨率设置对模型性能的影响,在允许范围内,选用最优参数训练模型;2)将CBAM集成到YOLOv5中,利用注意力机制细化特征,提高识别精度,实现复杂环境下小麦穗数的精确计数;3)开发了一个单位面积穗数测量系统,进行应用测试,软件部分采用C/S架构,将深度学习模型和图片分割算法部署在服务器,手机安装客户端进行人机交互,硬件部分通过PVC管搭建一个1 m2的标准框,辅助计算单位面积穗数。

1 材料与方法

1.1 数据集

1.1.1 数据获取

为提高模型的泛化能力,本研究使用两种数据集。其中,Wheat Spikes Detection(WSD)数据集的小麦图像拍摄于江苏省农业科学院六合动物科学基地(北纬32°29′,东经118°37′)和小汤山国家精准农业研究示范基地(北纬40°10′,东经116°27′)。小麦品种为扬麦29号、宁麦26号、镇麦10号、京花5号,生长过程中正常施氮。小麦图像的拍摄时间是2021年4月28日—5月27日,每隔一个星期选取2 d进行拍摄,覆盖了小麦的灌浆期和成熟期,且包含晴朗、多云等天气。以1.5 h为间隔使用华为mate 40 Pro和iPhone 12 Pro Max手动拍摄6组图片,其中上午拍摄3组,下午拍摄3组。每组包含以20 cm为间隔在小麦冠层上方10~70 cm高度的垂直向下角度拍摄的4张图片。共拍摄576张图片,其中部分图像由于手持手机拍摄存在图像模糊等问题,为降低图像质量下降对模型检测精度的影响,对图片进行筛选后剩余453张图像。WSD数据集具有密度大的特点,其中多数图像中麦穗的数量可达400穗,经过图像数量对比预试验,最终使用68张图片构建WSD数据集,约10 000个麦穗样本,图片均以JPG格式存储,统一分辨率为3 648×2 736(像素)。图1a展示了该数据集图像示例。

第二个数据集是网络公开的Global Wheat Head Detection(GWHD)数据集[20],它包含了4 700张RGB图像(1 024×1 024(像素))和190 000个标记的麦穗。这些图像是通过欧洲、北美洲、大洋洲和亚洲不同品种、不同种植条件、不同气候、不同采集方法获取汇总而成。因此,GWHD数据集具有基因型和环境的多样性,可对提高小麦穗部检测和定位的准确性和可靠性提供帮助。相较于自行拍摄的WSD数据集,该数据集具有拍摄面积小,单幅麦穗较少的特点。从中随机选取152张图片参与模型的训练和评估,图片包含约5 000个麦穗样本。图 1b展示了该数据集图像示例。

图1 数据集的图像示例

将两种数据集分别按照8∶1∶1的比例随机挑选划分为训练集、验证集和测试集,如表1所示。

表1 数据集

1.1.2 数据标注

本文使用Labelimg工具对数据集中的麦穗进行标记。图像中每个麦穗都被一个矩形框完全包裹,且尽量减少多余背景进入矩形框,矩形框的位置由左上角和右下角顶点的坐标确定。在对图像中全部的麦穗进行标注后,生成对应的XML文件,其中包括图像的大小、标签的名称和标签的位置等信息。

数据的标注工作由4名相关研究人员进行,为降低因目标标签不准确导致模型训练和识别性能下降的可能性,研究人员在标注完成后交换进行标注结果校正工作。

1.2 目标检测算法

1.2.1 YOLO模型

YOLO(You Only Look Once)是一种目前广泛应用的目标检测模型,其很好地平衡检测速度和检测精度,且拥有较好的小目标检测能力[21-24]。YOLO对整幅图像进行处理,直接返回锚框的位置及其类别等信息[25]。YOLOv5根据宽度和深度的设置,分为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,它们参数量各不相同[26],其中,YOLOv5l兼具不低的平均精度和较高的速度,在分别用4种网络结构训练麦穗识别模型的预试验中,YOLOv5l的表现也更为出色,因此,本文选用YOLOv5l结构,并以其为基础进行改进。

1.2.2 CBAM注意力模块

Convolutional Block Attention Module(CBAM)是由Woo等提出的一种前馈卷积神经网络的注意力模块,其由通道注意力模块和空间注意力模块组成[27]。如图2所示,对于输入的特征图,沿着通道和空间这两个独立的维度依次计算出注意力图,然后将注意力图乘以输入特征图进行自适应的特征细化。通道注意力模块同时使用平均池化操作和最大池化操作,比单独使用一种操作让输入图像中目标的特征表达进一步突出,模型更容易学习到有意义的特征。空间注意力模块是对通道注意力模块的补充,沿通道轴将特征层连接起来,使目标的特征有效地连接在一起,凸显目标自身和周边区域信息。

1.2.3 CBAM-YOLOv5

基于自定义数据集,使用YOLOv5网络训练出的模型可以识别麦穗,但一些密集麦穗的图片的检测结果并不理想。为改善这类情况,选择CBAM注意力机制模块增强模型的学习能力[28]。虽然CBAM是一种端到端的通用模块,可以无缝集成到卷积神经网络中,但加入在YOLOv5网络结构的其他位置时,难免破坏YOLOv5原本的整体性,无法将组合后的学习效果提升最大化。经过不同加入位置结果对比后,选择将CBAM嵌入到YOLOv5的颈部末端,搭建如图3所示的CBAM-YOLOv5网络结构。CBAM-YOLOv5保留了YOLOv5的网络结构,继承了YOLOv5较强的学习能力,YOLOv5的特征图通过CBAM依次计算出一维通道注意图和二维空间注意图,然后与输入特征图相乘,对YOLOv5得到的特征图进行自适应特征细化,增强特征图中被遮挡目标的特征表达,提高正确特征的提取,抑制无关特征的表达,提高麦穗识别的准确率,尤其是重叠、遮挡情况的麦穗识别效果得到了提升。

图2 CBAM结构

注:Concat为维度拼接操作;slice为切片操作;CONV为卷积操作;BN为批标准化;SiLU为激活函数;add为叠加操作;Maxpool为最大池化操作。

1.3 试验配置

模型的训练是在本地电脑上开展,硬件配置较高,缩短训练时长。模型训练完成后,部署在云服务器,方便手机APP远程访问。配置如下:

本地电脑的硬件配置为Intel® CoreTMi7-10700K处理器和NVIDIA GeForce RTX 3060显卡,操作系统是Ubuntu 20.04.2 LTS 64位系统,并安装了CUDA11.2、Python3.8.5、Pytorch1.8.1。模型的超参数和训练参数设置如下:学习率为0.01,学习衰减率为0.2,动量为0.937,批处理设置为4,输入图片分辨率设置为1 280,轮次设置为300。

云服务器的硬件配置为Intel(R) Xeon(R) Gold 6266C处理器,操作系统是Windows Server 2019 64位系统,并安装了Python3.8.5、Pytorch1.8.1。

1.4 评估指标

为了验证模型的性能,使用1分数(1-score)、平均精度(Average Precision,AP)和计数相对误差作为评估指标对训练后的模型进行评价[14]。

1.5 穗数测量系统的设计

由于手机种类繁多,硬件配置各不相同,为减少使用过程的不便,穗数测量系统选择基于客户端/服务器模式的应用开发,由APP和服务器组成,通过Android SDK构建人机交互图像界面,深度学习模型和数据库放置在服务器。用户可操作手机APP拍摄或从相册选择麦穗图像(须有一个1 m2标准框,框由白色PVC管搭建),上传图像至服务器,服务器先后调用分割算法和深度学习模型,保留图像中1 m2标准框和框内麦穗,进行识别和计数后,将结果反馈给客户端,APP再根据结果换算出亩穗数,如果用户填写单穗质量等参数,还可输出亩产量等信息。

2 结果及分析

2.1 输入图片不同分辨率设置对模型性能的影响

本文的数据集有3 648×2 736和1 024×1 024两种图片尺寸,当输入到网络进行训练和预测时,都需要进行改变大小(resize)操作,改变图像尺寸。大田环境下小麦麦穗与一般的检测目标相比,在图像中的尺寸更小,分布更密集,图像缩得越小,信息丢失越严重。因此,为了确定CBAM-YOLOv5网络最优训练参数,图像尺寸分别设置640、960、1 280像素进行结果对比。模型的评估指标结果如表2所示。由表2可知,设置为960和1 280像素时的评估结果均比设置为640像素时好,与设置为960像素时比,设置为1 280像素的1分数和AP50∶5∶95分别提高了0.003和0.014,AP50降低了0.007。

表2 不同输入图片分辨率设置时模型的评估指标结果

注:AP50指交并比的值为0.50时的AP值;AP50:5:95指IoU的值从0.50取到0.95,步长为0.05,计算AP的均值。下同。

Note:AP50 refers to the AP value for an Intersection over Union (IoU) value of 0.50; AP50:5:95 refers to the mean value of AP, with the value of IoU taken from 0.50 to 0.95 at a step of 0.05. Same below.

系统应用时,手机拍摄带有1 m2标准框的小麦图像后,模型需直接对整幅图像进行预测,计算麦穗数量。因此,此处仅列举WSD测试集的预测结果,如表3所示。置信阈值和IoU阈值均分别设置为0.3和0.45,模型生成的预测框经过置信阈值和IoU阈值的筛选后,统计其个数即为麦穗数量。

从表3中可以看出,图片的实际检测计数过程中,输入图像分辨率设置为1 280在耗时没有变化的同时,计数相对误差的平均值均最低,相对误差的标准差也仅为0.01,说明此参数设置下精度最高,且误差波动小。综合来看,将输入图像分辨率设置为1 280是较好的选择。

表3 不同分辨率设置时模型的测试集计数结果

2.2 模型性能的比较

为了验证本文提出的CBAM-YOLOv5网络的性能,与Faster RCNN、YOLOv4、YOLOv5对测试集小麦穗部的检测效果进行对比。在相同的硬件环境下,通过调整训练参数,使四种模型各自达到最好的效果。表4列出模型1分数、AP50和AP50∶5∶95的结果。表5汇总4种模型的WSD测试集的计数结果。图片预测结果示例如图4所示。

由表4可知,CBAM-YOLOv5在1分数、AP50和AP50∶5∶95这3个指标上都有着更好的表现,比YOLOv5分别提高了0.021、0.021、0.022,比YOLOv4分别提高了0.209、0.190、0.255,比Faster RCNN分别提高了0.308、0.398、0.353。

表4 不同模型的评估指标结果

对WSD数据集的预测结果显示,CBAM-YOLOv5模型计数的相对误差为2.56%,和YOLOv5、YOLOv4和Faster RCNN相比,分别降低了1.44个百分点、9.04个百分点、24.81个百分点,且相对误差的标准差为0.01,说明CBAM-YOLOv5模型计数的相对误差更加集中,麦穗计数的结果较为稳定。另外,CBAM-YOLOv5模型预测一幅图像的平均耗时为0.045 s,远远低于YOLOv4和Faster RCNN的耗时,仅比YOLOv5的耗时多0.003 s。图4中可以明显地看出,YOLOv5和YOLOv4存在大量重复预测框,而Faster RCNN有较多麦穗未识别,与计数结果吻合。

综合来看,CBAM-YOLOv5网络的性能表现最好,其取得较好的效果有以下两个原因:1)在YOLOv5网络结构颈部末端加入CBAM模块。把YOLOv5和CBAM的优势结合起来,将注意力聚焦在目标上,降低复杂背景对目标学习的影响,在不使用过多的参数和计算力的基础上,对密集且小目标有更好的学习效果,在麦穗检测过程中发挥着巨大的作用;2)图像输入尺寸设置为1 280。在3 648×2 736分辨率的图像中,麦穗所占像素值很小,加大了学习与检测的难度,因此,以增大计算量为代价,换取精度的大幅提升是有必要的。

表5 不同模型的测试集计数结果

图4 不同模型的预测结果示例

2.3 穗数测量系统的测试结果

系统测试共分为5个步骤:1)创建试验:填写试验名称,此时还可输入作物品种、大田编号、单穗质量等信息。2)拍摄图片(如图5所示):将由白色PVC管搭建的1 m2标准框水平放置在麦田中,手机从上往下垂直拍摄图片,标准框所占像素比例尽可能大,有助于图像后续成功分割和识别。3)处理图片:利用分割算法完整地将标准框及其内部图像分割出来,图像分割效果不好时,需重新拍摄。4)穗部识别:调用深度学习模型得到1 m2内麦穗的数量。5)继续试验或保存退出。一次试验可以对小区中小麦进行多组拍摄,自动求取平均值,使估算结果更准确。软件使用过程流程图如图6所示。

图5 拍摄图片示例

图6 软件使用过程流程图

在系统测试试验中,针对5个小区分别建立1组试验,每组试验拍摄5张麦穗图片,软件预测结果如表6所示,人工计数和软件平均计数均为每平米的麦穗数量。测试结果表明,尽管不同品种穗数有一定差异,但软件计数的相对误差最小可以达到2.15%,误差平均值稳定在2.80%左右,比测试集的平均值仅高0.24个百分点,因此构建的麦穗检测模型具有良好的检测性能,能够应用于实际生产或其他场景中单位面积穗数统计。

表6 麦穗计数结果

注:计数面积为1 m2。

Note:Counting area is 1 m2.

在构建数据集时,结合WSD和GWHD数据集的特点,选择逐渐增加图片数量参与训练的策略,最终选择220幅图像,这种策略防止因过量麦穗标注工作而浪费研究人员精力这种情况的发生,同时可以保证模型训练成功。根据上述结果可以看出,训练出的CBAM-YOLOv5模型,不仅在1分数、平均精度和计数相对误差这3个指标上表现良好,且在实地试验中,5组试验拍摄的小麦并未参与模型的训练,麦穗计数结果同样精确且稳定,说明基于该模型的系统能对不同品种小麦保持较稳定的检测结果。

3 结 论

本文提出一种基于改进YOLOv5方法的田间小麦穗数计数方法,该方法主要加入注意力模块,对YOLOv5网络提取的特征图沿着通道和空间两个维度进行处理,并将处理结果与输入特征图相乘,从而细化特征。在电脑硬件支持的范围内,设置输入图片分辨率为1280,使图像输入到网络时不会丢失更多的特征信息,使模型可以直接从高分辨率手机图像中检测出麦穗的数量。最终模型1分数、AP50、AP50∶5∶95分别达到0.904、0.902、0.515,与标准YOLOv5、YOLOv4和Faster RCNN相比有了较大的提升。在CBAM-YOLOv5模型训练完成后,模型在测试集上的表现较为稳定,麦穗计数的平均相对误差为2.56%。而在系统测试过程中,麦穗计数的平均相对误差仅为2.80%。因此,该算法在应用中具有准确性和适用性,形成能够为小麦作物表型检测和产量评估的测量装置,对不同应用场景提供可行的技术解决方案。

[1] Eversole K, Feuillet C, Mayer K F, et al. Slicing the wheat genome[J]. Science, 2014, 345(6194): 285-287.

[2] Sadeghi-Tehran P, Virlet N, Ampe E M, et al. DeepCount: In-field automatic quantification of wheat spikes using simple linear iterative clustering and deep convolutional neural networks[J]. Frontiers in Plant Science, 2019, 10(1176): 1-16.

[3] 范梦扬,马钦,刘峻明,等. 基于机器视觉的大田环境小麦麦穗计数方法[J]. 农业机械学报,2015,46(S1):234-239.

Fan Mengyang, Ma Qin, Liu Junming, et al. Counting method of wheatear in field based on machine vision technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(S1): 234-239. (in Chinese with English abstract)

[4] Fernandez-Gallego J, Buchaillot M, Aparicio N, et al. Automatic wheat ear vounting using thermal imagery[J]. Remote Sensing, 2019, 11(751): 1-13.

[5] 李毅念,杜世伟,姚敏,等. 基于小麦群体图像的田间麦穗计数及产量预测方法[J]. 农业工程学报,2018,34(21):185-194.

Li Yinian, Du Shiwei, Yao Min, et al. Method for wheat ear counting and yield predicting based on image of wheatear population in field[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(21): 185-194. (in Chinese with English abstract)

[6] 刘涛,孙成明,王力坚,等. 基于图像处理技术的大田麦穗计数[J]. 农业机械学报,2014,45(2):282-290.

Liu Tao, Sun Chengming, Wang Lijian, et al. In-field wheatear counting based on image processing technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(2): 282-290. (in Chinese with English abstract)

[7] Zhu Y, Cao Z, Lu H, et al. In-field automatic observation of wheat heading stage using computer vision[J]. Biosystems Engineering, 2016, 143: 28-41.

[8] Wei G, Fukatsu T, Ninomiya S. Automated characterization of flowering dynamics in rice using field-acquired time-series RGB images[J]. Plant Methods, 2015, 11(7): 1-14.

[9] Fernandez-Gallego J, Lootens P, Borra-Serrano I, et al. Automatic wheat ear counting using machine learning based on RGB UAV imagery[J]. The Plant Journal, 2020, 103(4): 1603-1613.

[10] Zhou C, Liang D, Yang X, et al. Wheat ears counting in field conditions based on multi-feature optimization and TWSVM[J]. Frontiers in Plant Science, 2018, 9(1024): 1-16.

[11] 刘哲,黄文准,王利平. 基于改进K-means聚类算法的大田麦穗自动计数[J]. 农业工程学报,2019,35(3):174-181.

Liu Zhe, Huang Wenzhun, Wang Liping. Field wheat ear counting automatically based on improved K-means clustering algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 174-181. (in Chinese with English abstract)

[12] 杜颖,蔡义承,谭昌伟,等. 基于超像素分割的田间小麦穗数统计方法[J]. 中国农业科学,2019,52(1):21-33.

Du Ying, Cai Yicheng, Tan Changwei, et al. Field wheat ears counting based on superpixel segmentation method[J]. Scientia Agricultura Sinica. 2019, 52(1): 21-33. (in Chinese with English abstract)

[13] 李云霞,马浚诚,刘红杰,等. 基于 RGB 图像与深度学习的冬小麦田间长势参数估算系统[J]. 农业工程学报,2021,37(24):189-198.

Li Yunxia, Ma Juncheng, Liu Hongjie, et al. Field growth parameter estimation system of winter wheat using RGB digital images and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 189-198. (in Chinese with English abstract)

[14] 陈佳玮,李庆,谭巧行,等. 结合轻量级麦穗检测模型和离线Android软件开发的田间小麦测产[J]. 农业工程学报,2021,37(19):156-164.

Chen Jiawei, Li Qing, Tan Qiaoxing, et al. Combining lightweight wheat spikes detecting model and offline Android software development for in-field wheat yield prediction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 156-164. (in Chinese with English abstract)

[15] Hao Wangli, Yu Peiyan, Hao Fei, et al. Foxtail millet ear detection approach based on YOLOv4 and adaptive anchor box adjustment[J]. Smart Agriculture, 2021, 3(1): 63-74.

郝王丽,尉培岩,郝飞,等. 基于YOLOv4和自适应锚框调整的谷穗检测方法(英文)[J]. 智慧农业(中英文),2021,3(1):63-74. (in English with Chinese abstract)

[16] Misra T, Arora A, Marwaha S, et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging[J]. Plant Methods, 2020, 16(40): 1-20.

[17] Xu X, Li H, Yin F, et al. Wheat ear counting using K-means clustering segmentation and convolutional neural network[J]. Plant Methods, 2020, 16(106): 1-13.

[18] 鲍文霞,张鑫,胡根生,等. 基于深度卷积神经网络的田间麦穗密度估计及计数[J]. 农业工程学报,2020,36(21):186-193.

Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of wheat ears density in field based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-193. (in Chinese with English abstract)

[19] 段凌凤,熊雄,刘谦,等. 基于深度全卷积神经网络的大田稻穗分割[J]. 农业工程学报,2018,34(12):202-209.

Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicles segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202‒209. (in Chinese with English abstract)

[20] David E, Madec S, Sadeghi-Tehran P, et al. Global Wheat Head Detection (GWHD) dataset: A large and diverse dataset of high resolution RGB labelled images to develop and benchmark wheat head detection methods[J]. Plant Phenomics, 2020, 1: 1-10.

[21] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[22] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.

[23] Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL].(2018-04-08)[2021-04-18].https://arxiv.org/abs/1804.02767.

[24] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-04-18] https: //arxiv. org/abs/2004. 10934.

[25] Liu G, Nouaze J C, Touko P L, et al. YOLO-Tomato: A robust algorithm for tomato detection based on YOLOv3[J]. Sensors, 2020, 20(7): 1-20.

[26] 胡根生,吴继甜,鲍文霞,等. 基于改进YOLOv5网络的复杂背景图像中茶尺蠖检测[J]. 农业工程学报,2021,37(21):191-198.

Hu Gensheng, Wu Jitian, Bao Wenxia, et al. Detection of Ectropis oblique in complex background images using improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 191-198. (in Chinese with English abstract)

[27] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision. Munich, Germany: Springer, Cham, 2018: 3-19.

[28] Yang B, Gao Z, Gao Y, et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module[J]. Agronomy, 2021, 11(6): 1-17.

Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5

Huang Shuo1,2, Zhou Yanan1,2, Wang Qifan3, Zhang Han1,2, Qiu Chaoyang4, Kang Kai4, Luo Bin1,2※

(1.100097, China;2.100097, China;3.071000, China;4.100097, China)

The number of spikes per unit area has been one of the main factors to determine the wheat yield. Rapid and accurate acquisition of the number of spikes per unit area is of great importance for the breeding and cultivation in agricultural production. Fortunately, the high-resolution images of wheat spikes can be analyzed by the pre-trained artificial intelligence models to extract the number of spikes per unit area, particularly with the rapid development of deep learning. The consistent data can also be obtained to independently extract the feature, due to the strong learning ability of deep learning at present. In this study, a combined smartphone and server system was proposed to measure the number of wheat spikes. A Convolutional Block Attention Module (CBAM) and YOLOv5 were combined as the core of the CBAM-YOLOv5 model. Among them, the YOLOv5 network structure provided an excellent balance between the detection speed and accuracy for the small and dense targets, suitable for counting the number of wheat spikes. Since the channel and spatial attention modules were contained in the CBAM, the features were processed along both channel and spatial dimensions. The feature representation of targets was then much clearer to identify the overlapping or obscured wheat spikes. The specific procedure was as follows: 1) To manually annotate the self-photographed Wheat Spike Detection (WSD) dataset and the publicly available Global Wheat Head Detection (GWHD) dataset on the web, including 176 images as the training set, 22 images as the validation set, and 22 images as the test set. The generalization ability of the model was improved to introduce the GWHD dataset. 2) The CBAM was added at the neck end of the YOLOv5 network structure in the improved CBAM-YOLOv5 model. The input image sizes of the model were set as 640, 960, and 1 280 pixels. A comparison was then made to obtain the optimal training parameters. 3) The CBAM-YOLOv5, YOLOv5, YOLOv4, and Faster RCNN were trained with the optimal parameters to compare the performance of different network structures. 4) The spikes counting system was developed using the client-server model. Specifically, the images of wheat spikes were taken by smartphones and then uploaded to the server. The CBAM-YOLOv5 model on the server was used to recognize the images. After that, the counting data was then returned to the smartphones for display to the user. The results show that better performance was achieved in the evaluation metrics of CBAM-YOLOv5, when the input image sizes were 1 280 pixels. Among them, the1-score was improved up to 0.904, and the average precision reached 0.902 when the intersection over union was set as 0.50. The CBAM-YOLOv5 was better performed than the YOLOv5, YOLOv4, and Faster RCNN, in terms of evaluation metrics, with an average relative error of only 2.56% in the counting. It infers that the improved model was much more stable and faster. Taken together, the CBAM-YOLOv5 presented a greater improvement. The spikes counting system was simple to use and easy to operate. The relative error of count in the field test was only 2.80%, indicating a relatively stable performance. Therefore, the new system can be expected to serve as the rapid and automatic collection of wheat spike counts without manual intervention in the field. The low-cost and reliable system can also provide an accurate data reference for wheat yield prediction.

models; wheat; number of spikes per unit area; deep learning; YOLOv5; CBAM

10.11975/j.issn.1002-6819.2022.16.026

S126

A

1002-6819(2022)-16-0235-08

黄硕,周亚男,王起帆,等. 改进YOLOv5测量田间小麦单位面积穗数[J]. 农业工程学报,2022,38(16):235-242.doi:10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org

Huang Shuo, Zhou Yanan, Wang Qifan, et al. Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 235-242. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org

2022-04-19

2022-08-03

国家重点研发计划项目(2017YFD0701205)

黄硕,研究方向为智能检测及自动控制技术。Email:huangs@nercita.org.cn

罗斌,博士,副研究员,研究方向为农业智能装备技术。Email:luob@nercita.org.cn

猜你喜欢
穗数麦穗计数
五月麦穗金灿灿
古人计数
2020年度夏玉米行距密度试验研究报告
递归计数的六种方式
古代的计数方法
杂交晚粳稻通优粳1号产量及构成因子分析
小麦黄淮冬麦区北片国家区试品种产量构成因素变异分析
麦穗穗
高产小麦构成要素的解析与掌握
拣麦穗