基于改进型YOLOv4-LITE轻量级神经网络的密集圣女果识别

2021-11-26 06:20陈自均鲍若飞张朝臣王治豪

农业工程学报 2021年16期

张伏，陈自均，鲍若飞，张朝臣，王治豪

张伏1,2,3，陈自均1，鲍若飞1，张朝臣1，王治豪1

（1. 河南科技大学农业装备工程学院，洛阳 471003；2. 江苏大学现代农业装备与技术教育部重点实验室，镇江 212013；3. 机械装备先进制造河南省协同创新中心，洛阳 471003）

对密集圣女果遮挡、粘连等情况下的果实进行快速识别定位，是提高设施农业环境下圣女果采摘机器人工作效率和产量预测的关键技术之一，该研究提出了一种基于改进YOLOv4-LITE轻量级神经网络的圣女果识别定位方法。为便于迁移到移动终端，该方法使用MobileNet-v3作为模型的特征提取网络构建YOLOv4-LITE网络，以提高圣女果果实目标检测速度；为避免替换骨干网络降低检测精度，通过修改特征金字塔网络（Feature Pyramid Networks，FPN）+路径聚合网络（Path Aggregation Network，PANet）的结构，引入有利于小目标检测的104×104尺度特征层，实现细粒度检测，在PANet结构中使用深度可分离卷积代替普通卷积降低模型运算量，使网络更加轻量化；并通过载入预训练权重和冻结部分层训练方式提高模型的泛化能力。通过与YOLOv4在相同遮挡或粘连程度的测试集上的识别效果进行对比，用调和均值、平均精度、准确率评价模型之间的差异。试验结果表明：在重叠度为0.50时所提出的密集圣女果识别模型在全部测试集上调和均值、平均精度和准确率分别为0.99、99.74%和99.15%，同比YOLOv4分别提升了0.15、8.29、6.55个百分点，权重大小为45.3 MB，约为YOLOv4的1/5，对单幅416×416（像素）图像的检测，在图形处理器（Graphics Processing Unit，GPU）上速度可达3.01 ms/张。因此，该研究提出的密集圣女果识别模型具有识别速度快、识别准确率高、轻量化等特点，可为设施农业环境下圣女果采摘机器人高效工作以及圣女果产量预测提供有力的保障。

机器视觉；模型；YOLO；深度学习；图像识别；目标检测

0 引言

视觉识别系统作为果蔬采摘机器人系统的组成部分，在果蔬目标识别定位、自动采摘和果蔬估产等方面[1-2]具有至关重要作用。圣女果（Cherry tomatoes）因其营养价值高、风味独特而被广泛种植。由于圣女果果实高度密集（粘连）、果实小、叶片遮挡严重，且其生长周期长、果蔬高度不一，采收环节成为最费时耗力的工作[3-4]，因此研究圣女果快速精确识别，对实现采摘机器人自动采摘、提高作业效率具有较大应用价值。

近年来，国内外基于传统机器视觉和图像处理技术，对自然环境下果疏目标识别提出了解决方法。马翠花等[5]提出了使用基于密集和稀疏重构的显著性检测方法与改进随机Hough变换识别方法，对番茄果簇中的绿色单果番茄进行识别，识别准确率为77.6%。李寒等[6]通过RGB-D图像和SOM-K-means算法获取果实的位置信息与轮廓形状，该方法对多个番茄重叠粘连识别正确率达87.2%。Payne等[7]提出一种基于机器视觉的芒果产量估测方法，利用RGB和YCbCr颜色空间分割和基于相邻像素变异性的纹理分割方法，从背景像素中有效分割出水果，该方法可计算芒果果实的数量及产量估测。李昕等[8]将边缘预检测、快速定位圆心点等模块添加在Hough算法中，对遮挡油茶果识别率为90.70%。Gong等[9]提出一种改进的8连通性的编码识别算法，进行簇状柑橘的产量预测。Gong等[9]提出一种改进的8连通性的编码识别算法，进行簇状柑橘的产量预测。Xu等[10]采用基于面向梯度直方图（Histogram of Oriented Gradient，HOG）描述符与支持向量机（Support Vector Machine，SVM）分类器相结合的方法，分类器检测率为87%。此外，还有学者对粘连、重叠的果实进行识别研究[11-15]，检测准确率均在90%左右。上述方法利用果实的形状特征、纹理特征与背景颜色差异特征等单特征或多特征组合实现果实的识别，一旦遇到光照改变、果实粘连重叠、枝叶遮挡、相似度高的背景等情况识别准确率会降低。另外，运用传统的机器视觉技术识别果实，受制于自身分类器算法的限制，无法满足当前复杂环境下果实目标识别任务[16-17]。

近年来，随着计算机视觉与深度学习技术在农业领域的广泛应用，深度卷积神经网络（Deep Convolutional Neural Networks，DCNN）在果蔬目标检测中凸显出巨大的优越性，其主要分为两种，一种是以RCNN[18]、Fast RCNN[19]、Faster RCNN[20]为代表的两阶段（two stage）目标检测方法，其算法思想是先获得目标区域建议框再在区域建议框中进行分类。闫建伟等[21]提出改进的Faster RCNN自然环境中不同成熟度和遮挡情况下刺梨果实的识别方法，识别召回率达81.4%，准确率达95.53%，F1值达94.99%，识别速度为0.2 s/张，其模型精度高、泛化能力强，但两阶段（two stage）目标检测方法生成候选区域步骤需占用大量资源，检测时间较长。另一种方法是以SSD（Single Shot MultiBox Detector）[22]、YOLO（You Only Look Once）[23]等为代表的单阶段（one stage）目标检测方法，其算法思想是目标建议框与分类标签在同一网络下完成。成伟等[24]基于改进的YOLOv3网络识别温室番茄，识别模型估产平均精度（mean Average Precision，mAP）为95.7%，单幅图像处理耗时15 ms，并且对密集和受遮挡的果实具有更好的识别效果。吕石磊等[25]通过引入GIoU边框回归损失函数和，使用MobileNet-v2作为模型的骨干网络，构建了基于改进型YOLOv3-LITE轻量级神经网络，对自然环境下密集、叶片遮挡严重的柑橘进行识别定位，在全部测试集上调和均值为93.69%，平均精度值为91.13%，对单张416×416（像素）的图片识别速度为16.9 ms，因此使用YOLO算法对果实进行识别，在保证较高的识别准确率情况下，又具备检测速度快、内存占用少等特点[26-29]。

为解决设施农业环境下密集度高、果实小、遮挡粘连严重的圣女果精确、快速识别问题，提出改进型YOLOv4-LITE轻量级神经网络，在特征融合结构中引入实现对小目标检测的特征层，增加模型细粒度检测，并进行剪枝操作和引入深度可分离卷积结构压缩网络量，加快识别速度，同时通过载入预训练权重并冻结部分层的训练方式提高模型精度，以期为圣女果快速精准识别提供参考。

1 材料与方法

1.1 试验数据获取

圣女果图像的采集地点为河南省洛阳市孟津区某采摘园基地温室内，拍摄时间为2021年3月19日上午10:00-12:00。在白天自然光条件下采集，采集时，使用高清数码单反相机距圣女果果实20～80 cm的距离拍摄，为模拟采摘机器人识别系统，拍摄角度为左侧拍、右侧拍、俯拍、仰拍和正面拍共5个方向角度[30]，共采集成熟圣女果原始图像249张，挑选出214张。所采集圣女果图像大小为6 000×4 000（像素），种类涵盖顺光、逆光、重叠、遮挡、粘连等各种实际温室中圣女果生长环境的图像。温室环境下的部分圣女果如图1所示，可以发现圣女果果实出现重度粘连、遮挡现象。

1.2 数据扩增

在深度学习模型训练阶段，数据采集的越充分、越全面，模型识别效果越显著，因此通过数据扩增方法（Data augmentation）扩充样本数量。为更能模拟复杂场景下拍摄状态和应用到深度神经网络中，在Keras框架下结合Opencv，先对采集数据裁剪和压缩至416×416（像素），再对图像进行平移、随机旋转、镜像翻转、水平翻转、垂直翻转、颜色增强、亮度改变、添加高斯噪音等不同程度与组合的物理变换对图像进行数据增强[18,31]。增强后共得到10 710张图像作为数据集。

1.3 数据集准备

使用LabelImg工具对图像中圣女果果实进行手工标记矩形框。标注时，对完全裸露的圣女果切于矩形框内侧进行标注，对遮挡或粘连的圣女果果实裸露于图像的部分进行矩形框标注，对图像边界出现部分和遮挡的圣女果程度小于10%时进行无标注处理。标注完成后得到包含ground truth的.xml文件，之后将数据集按照9∶1比例划分，其中90%部分再按照9∶1分为训练集和验证集，剩余10%作为测试集，最终得到训练集、验证集和测试集的样本数量分别为8 674、965、1 071张。

2 密集圣女果识别网络

2.1 YOLOv4网络模型

相对于R-CNN、Fast R-CNN、Faster R-CNN等两阶段（two-stage）的目标检测方法，YOLOv4[32]作为经典的单阶段（one-stage）深度识别网络模型，直接在网络中生成预测物体分类（Classification）和边界框（Bounding box），极大提高了目标检测速度，其结构简图如图2所示。YOLOv4网络模型由3大部分组成：主干网络（Backbone network）、颈部网络（Neck network）、头部网络（Head network）。主干网络为CSPDarknet53特征提取网络，由CSP1～CSP5共5个模块构成，每个模块由CSPX模块和CBM或CBL模块相互交替堆叠而成，YOLOv4在主干网络中使用了CSPnet结构，如图2c所示，在残差块X Res unit堆叠的另一边经CMB处理后形成一个大的残差边，增强了CNN的学习能力。在CSPnet结构中又引入Mish激活函数替代Leaky ReLU激活函数，Mish函数具有无上界、有下界、非单调、无穷阶连续性、平滑性等特点，有助于模型实现正则化、稳定网络梯度流。Mish函数表达式为

式中为输入值，tan为双曲正切函数，ln为以常数e为底数的对数函数。

经过CSPDarknet53主干网络得到52×52×256（特征层P3）、26×26×512（特征层P4）、13×13×1 024这3个特征层，其中对13×13×1 024特征层在空间金字塔池化（Spatial Pyramid Pooling，SPP）中分别进行13×13、9×9、5×5、1×1四个不同尺度的最大池化处理，然后通过Concatenate运算整合得到特征层P5，SPP结构极大地增大感受野，获得了更多上下文特征。P3、P4、P5三个特征层先经过特征金字塔网络（Feature Pyramid Networks，FPN）进行自下向上的上采样（Upsample）融合，但FPN融合低、高层特征方法路径长，细节信息传递困难，因此YOLOv4设计路径聚合网络（Path Aggregation Network，PANet）通过下采样（Downsample）对3个特征层完成自上向下的路径增强，极大缩短了信息传播路径，同时利用了低层特征的精准定位信息。YOLOv4使用了Mosaic数据增强、Label Smoothing平滑、CIOU回归损失函数和学习率余弦退火衰减法等训练技巧。

YOLOv4的损失函数Loss包括回归损失函数Loss（coord）、置信度损失函数Loss（conf）和分类损失函数Loss（cls）。损失函数公式如下：

2.2 改进的YOLOv4-LITE网络模型设计

YOLOv4网络含有CSPnet结构的CSPDarknet53网络，虽降低了参数量，获得更快的速度，但模型计算仍复杂，需消耗较多的内存空间。本研究提出一种基于目标检测的轻量级网络模型，在传统的YOLOv4网络基础上，将MobileNet-V3网络作为特征提取主干网络，构建YOLOv4-LITE轻量级网络模型。MobileNet是一种基于移动端和嵌入式设备的高效CNN模型，具有更轻量级、更快速的特点。MobileNet-V3既继承了MobileNet-V1的深度可分离卷积（depthwise separable convolutions），又融合了MobileNet-V2的具有线性瓶颈的逆残差结构（the inverted residual with linear bottleneck）的结构特点，MobileNet-V3由多个block堆叠而成，block的bneck结构如图3所示，其依次经过1×1、3×3、1×1的卷积提升通道数量、进行深度卷积和降低维度。MobileNet-V3在bottlenet结构中引入SE（Squeeze and Excitation）结构的轻量级注意力机制，并基于MobileNet-V2的结构：将头部的卷积核通道数量由32降低至16；在尾部通过avg pooling将特征图大小由7×7降到了1×1，并且舍弃了纺锤形的3×3和1×1的卷积，在减少消耗时间的同时又提高了精度。

圣女果作为识别目标，其尺度各有差异、不尽相同，因此为避免使用MobileNet-V3骨干网络降低对小目标的检测精度，通过修改FPN网络，如图4所示，从YOLOv4-LITE轻量级神经网络的主干网络MobileNet-V3中，输出13×13（特征层P5'）、26×26（特征层P4'）、52×52（特征层P3'）和104×104（特征层P2）共4个尺度，P5'感受野较大适合大尺寸目标检测，P4'适合中等目标检测，在P3'基础上进行上采样，融合P2特征层后获得丰富的浅层信息，使之对小目标检测更加敏感，实现细粒度的检测。在特征传播过程中13×13尺度特征层仍然经过SPP结构得到特征层P5'，本研究将特征层P5'、P4'、P3'和P2在FPN结构中通过上采样进行不同金字塔级别的Feature map结合，每一个特征层经过DBL和Upsample操作变换，获得与上一个特征层相同的尺度和通道数量，然后经过Concatence与上一个特征层融合获得信息更加丰富的Feature map。为防止网络过于冗余，对FPN特征融合后输出的4个特征层进行剪枝操作，也即将FPN输出的104×104尺度特征层不再进行YOLO Head的预测输出，直接在PANet结构中上采样，因此改进算法仍保留了YOLO Head的13×13、26×26、52×52三个尺度的特征层（P5''、P4''、P3''）预测输出。

但在改进FPN网络，增加104×104特征层负责检测小目标的同时，网络数量必然会相应增加，为降低网络运算数量，在PANet结构中引入深度可分离卷积（Depthwise separable convolution）代替原网络Downsample中普通卷积进行下采样，实现自上而下的特征信息交互，有效减少网络计算量和参数；同时深度可分离卷积可由自身的1×1 Filter数量任意决定输出通道数量，解除了普通卷积核个数和步长的限制，代替了池化操作的作用，在节省内存消耗的同时也提高了模型精度[33]。

注：P5'、P4'、P3'和P2为改进FPN+PANet结构的输入特征层；P5''、P4''、P3''为改进FPN+PANet结构的输出。

2.3 模型的训练与测试

2.3.1 试验平台

本研究使用Tensorflow和Keras框架来改进YOLOv4网络。试验环境如表1所示。

2.3.2 密集圣女果识别网络训练

密集圣女果目标检测网络流程如图5所示。通过对比改进模型的不同修改之处进行对比试验，并在相同验证集上验证模型的效果。首先对采集的数据进行预处理，然后在LabelImg工具上进行目标圣女果手工标注，标注时对图像边界出现部分和遮挡的圣女果程度小于10%时进行无标注处理，对标注的图像数据与对应的.xml文件同时进行扩增，并以PASCALVOV数据格式保存，分别采用使用预训练权重、不使用预训练权重的训练方法进行网络模型的训练，使用预权重训练时先冻结预训练权重网络层，将更多的资源放在后面网络的参数训练上，后解冻这部分网络层的训练方式，通过先冻结部分层后解冻的训练方式可有效保证权值。模型训练时，采用Keras训练中的早停法（early stopping）技巧，当模型在训练集上的损失值不再下降时，停止训练，有效防止过拟合。

表1 试验环境

网络训练参数设置。不使用预训练权重训练时，模型超参数设置批样本（batch size）数量为2，动量因子（Momentum）为0.9，权值初始学习率（learning rate）为0.001，衰减系数为0.000 5；使用预训练权重时，模型冻结层超参数设置代训练（epoch）为50，批样本数量为8，动量因子为0.9，权值初始学习率为0.000 1，衰减系数为0.000 5，解除冻结后超参数设置代训练为50，批样本数量为2，动量因子为0.9，权值初始学习率为0.001，衰减系数为0.000 5，总代训练为100。2种训练方式均采用BN（batch normalization）正则化进行网络层权值更新，在训练集上每经过一代训练（epoch）保存一次权重文件，并生成日志文件输出训练集和验证集的损失值。训练集损失和验证集损失曲线如图6所示。

在前50代训练时验证集损失虽在前期出现震荡但总体趋于减小趋势，训练集损失持续下降；在第50代训练时由于解冻训练使训练集损失升高，验证集损失减少；在第50代训练之后由于验证集损失的减小，训练集损失不断减小，当验证集损失不再发生大幅变化时，训练集损失也不再变化，模型收敛。

2.3.3 模型测试

为客观衡量模型对密集圣女果的目标检测效果，使用调和均值F1值（F1-score）、召回率（Recall）、准确率（Precision）、检测速度、网络参数量、权重大小来评价训练后的模型，其中F1、Recall、Precision计算公式如公式（6）～（8）所示。

式中TP为真实的正样本数量，FP为虚假的正样本数量，FN为虚假的负样本数量。平均精度（Average Precision，AP）计算公式如式（9）所示。

式中为积分变量，是对召回率与精确度乘积的积分。AP为PR（Precision-Recall）曲线与坐标轴围成的面积，取值在0～1之间。AP50为重叠度（Intersection Over Union，IOU）=0.5时不同查全率下的精度平均值；AP75为IOU=0.75时不同查全率下的精度平均值。

3 结果与分析

为验证密集圣女果目标识别算法的性能，分别对是否载入预训练权重并冻结部分层方法和不同骨干网络在相同密集圣女果数据集和参数设置上进行训练，之后对提出的模型的部分改进之处进行对比试验分析。

3.1 载入预训练权重并冻结部分层的检测结果

以YOLOv4-LITE网络为对象网络，分别对其进行使用预训练权重并冻结部分层的训练方式和不使用预训练权重的训练方式的2种方式进行训练。不使用预训练权重即在训练集上对所有参数进行初始训练；使用预训练权重并冻结部分层的训练方式为载入COCO数据集的MobileNet-V3权重，初始训练冻结YOLOv4-LITE中的MobileNet-V3网络层，先训练后半部分网络，在训练50代后开始解冻冻结部分网络层，进行全部网络的训练。表2比较了2种训练策略的结果。

试验结果表明，相比于不使用预训练权重，使用预训练权重并冻结部分层的训练方式在IOU=0.50和IOU=0.75时平均精度值提升约3个百分点，同时调和均值和准确率也有不同程度的提升。

3.2 不同骨干特征提取网络的比较

为满足设施农业圣女果采摘机器人与相关嵌入式移动端检测设备的实际生产需求，以MobileNet-V3作为骨干网络设计YOLOv4-LITE轻量级神经网络。为验证设计的YOLOv4-LITE的合理性，在1 071张相同测试集上进行对比试验，试验结果如表3所示。从表3可以看出，相较于原YOLOv4以CSPDarkNet-53作为骨干网络，YOLOv4-LITE以MobileNet系列轻量级网络作为骨干网络，权重大小、检测速度和网络参数量都有大幅改善，但MobileNet-V1和MobileNet-V2作为骨干网络，在IOU=0.50和IOU=0.75时，大部分F1值、AP、Recall和Precision均低于原YOLOv4网络。采用MobileNet-V3作为骨干网络，模型在F1值、AP和Precision指标上均有不同程度的提升，在IOU=0.50时，且相对于原YOLOv4 方法在IOU=0.50时，F1值提升了0.01，AP值提升了1.71个百分点，准确率提升了3.69个百分点，对单张416×416（像素）图像的检测速度高达2.78 ms/张，权重大小减小了142 MB，网络参数量也减少了37.82%，因此YOLOv4-LITE轻量级神经网络在移动设备或嵌入式终端上应用具有明显优势，但在IOU=0.75时的AP为43.94%低于原YOLOv4网络的50.75%，可能是由于在目标识别过程中，对于小目标的特征检测不够充分。

表2 不同方式训练结果比较

表3 不同骨干网络检测结果对比

3.3 FPN+PANet结构的改进结果比较

在原始的YOLOv4算法检测圣女果目标时，其尺度各有差异、不尽相同，往往由于识别目标密集度高、重叠和目标小等问题，出现漏检、误检的情况。因此提出改进型YOLOv4-LITE轻量级密集圣女果识别神经网络模型，具体改进方式如下：①骨干网络替换。以MobiletNet-V3作为骨干网络。②改进FPN结构。在FPN结构中增加104×104特征层。兼顾大、中目标检测的同时，增加了有利于小目标检测的Feature map。③改进PANet。在PANet引入深度可分离卷积，为减少因增加小目标检测Feature map后网络参数量的增大。为验证改进型YOLOv4-LITE中FPN+PANet结构改进的优越性，在1 071张相同测试集上进行对比试验，试验结果如表4所示。

表4 不同改进结构检测结果对比

注：①骨干网络替换；②改进FPN结构；③改进PANet。

Note: ① Replace backbone network; ② Improve FPN structure; ③ Improve PANet.

在YOLOv4基础上改进FPN结构比原YOLOv4的AP50提高了8.29个百分点，AP75提高了15.01个百分点，F1值在相应的IOU阈值下相应提升了0.14和0.24，但其权重大小增加了4 MB，检测速度增加了0.27 ms/张，网络参数量增加了14.85%。与只替换骨干网路(YOLOv4-LITE+ MobiletNet-V3)相比，骨干网路替换+改进FPN结构网络，AP50提高了6.58个百分点，AP75提高了21.82个百分点，F1值在相应的IOU阈值下相应提升了0.13和0.20，但其权重大小增加了146 MB，检测速度增加了2.11 ms/张，网络参数量增加了63.23%。说明YOLOv4和YOLOv4+ MobiletNet-V3通过增加小目标的Feature map提高了模型细粒度的检测，但模型权重大小、检测速度和参数量会相应增大。

骨干网络替换+改进FPN结构+改进PANet网络，在保证F1、AP、Recall和Precision较高的同时，模型权重大小为45.3 MB，检测速度为3.01 ms/张，网络参数量为12 026 685。相比于YOLOv4网络，其模型权重大小减小了198.7 MB，检测速度减少了1.61 ms/张，模型参数量减少了81.33%；相比于YOLOv4+MobiletNet-V3，其模型权重大小减小了56.7 MB，检测速度增加了0.23 ms/张，模型参数量减少了69.97%。说明改进PANet的策略在不影响精度等情况下，可有效减小内存消耗、降低模型参数量、加快模型识别速度。

总体来看，本研究提出的改进型YOLOv4-LITE轻量级网络，与YOLOv4网络相比，在IOU=0.50时，F1值提升了0.15，AP提高了8.29个百分点，准确率提高了6.55个百分点，权重大小约为YOLOv4的1/5，检测速度降低了34.85%。

图7对比了YOLOv4网络与改进型YOLOv4-LITE轻量级网络在设施环境下对密集圣女果的识别结果，图中深色框标注为算法对圣女果的识别结果，浅色框为对识别结果图像的人工标注，表明有个别果实未能识别出来，即算法间对果实识别的差异。从图中可以看出，YOLOv4在识别高密集圣女果时，对高度粘连和遮挡的圣女果果实出现漏检的情况，对较小目标未能成功检测识别，相比之下，本文所提出的算法对高度粘连、严重遮挡和小目标果实有较高识别率和良好的泛化性能。

4 结论

1）提出了一种改进型的YOLOv4-LITE轻量化神经网络检测高度密集、严重粘连的圣女果目标识别算法。利用MobileNet-V3作为骨干网络构建YOLOv4-LITE轻量化网络，在特征融合层（Feature Pyramid Networks，FPN）结构中引入小目标检测的特征层以增加图像检测细粒度，对并在PANet网络中引入深度可分离卷积网络代替传统网络使改进网络更轻量化，更利于嵌入式设备和移动端的部署，为实现采摘机器人自动采摘提供理论依据。并通过采用载入预训练权重并冻结部分层的训练方式比不使用预训练权重平均精度提高约3%。

2）在1 071张相同测试集上以调和平均值、平均精度和准确率为判断依据，通过对比试验验证提出方法的可行性与优越性。与YOLOv4网络相比，通过替换骨干网路、改进特征金字塔网络和改进路径聚合网络，在IOU=0.50时，本文提出的方法调和均值提升了0.15，平均精度提高了8.29个百分点，准确率提高了6.55个百分点，权重大小约为YOLOv4的1/5，检测速度为3.01 ms/张。通过对比试验，验证了该方法具有显著优势。

[1] Tang Y C, Chen M Y, Wang C L, et al. Recognition and localization methods for vision-based fruit picking robots: Areview[J]. Frontiers in Plant Science, 2020, 11: 1-17.

[2] 赵献立，王志明. 机器学习算法在农业机器视觉系统中的应用[J]. 江苏农业科学，2020，48(12)：226-231.

Zhao Xianli, Wang Zhiming. Application of machine learning algorithm in agricultural machine vision system[J].Jiangsu Agricultural Sciences, 2020, 48(12): 226-231. (in Chinese with English abstract)

[3] 林伟明，胡云堂. 基于YUV 颜色模型的番茄收获机器人图像分割方法[J]. 农业机械学报，2012，43(12)：176-180.

Lin Weiming, Hu Yuntang. Image segmentation method based on YUV color space for tomato harvesting robort[J]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43(12): 176-180. (in Chinese with English abstract)

[4] Ochida C O, Itodo A U, Nwanganga P A. A review on postharvest storage, processing and preservation of tomatoes (lycopersicon esculentum mill)[J]. Asian Food Science Journal, 2018, 6(2): 1-10.

[5] 马翠花，张学平，李育涛，等. 基于显著性检测与改进Hough变换方法识别未成熟番茄[J].农业工程学报，2016，32(14)：219-226.

Ma Cuihua, Zhang Xueping, Li Yutao, et al. Identification of immature tomatoes base on salient region detection and improved Hough transform method[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(14): 219-226.

[6] 李寒，陶涵虓，崔立昊，等. 基于SOM—K-means 算法的番茄果实识别与定位方法[J]. 农业机械学报，2021，52(1)：23-29.

Li Han, Tao Hanxiao, Cui Lihao, et al. Recognition and localization method of tomato based on SOM—K-means algorithm. Transactions of the Chinese Society for Agricultural Machinery, 2021,52(1):23-29.

[7] Payne A B, Walsh K B, Subedi P P, et al. Estimation of mango crop yield using image analysis-segmentation method[J]. Computers and Electronics in Agriculture, 2013,91: 57-64.

[8] 李昕，李立君，高自成，等. 改进类圆随机Hough 变换及其在油茶果实遮挡识别中的应用[J]. 农业工程学报，2013，29(1)：164-170.

Li Xin, Li Lijun, Gao Zicheng, et al. Revised quasi-circular randomized Hough transform and its application in camellia-fruit recognition[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(1): 164-170. (in Chinese with English abstract)

[9] Gong A, Yu J, He Y, et al. Citrus yield estimation based on images processed by an Android mobile phone[J]. Biosystems Engineering, 2013, 115(2): 162-170.

[10] Xu Y, Imou K, Kaizu Y, et al. Two-stage approach for detecting slightly overlapping strawberries using HOG descriptor[J]. Biosystems Engineering, 2013, 115(2): 144-153.

[11] 谢忠红，姬长英，郭小清，等. 基于改进Hough 变换的类圆果实目标检测[J]. 农业工程学报，2010，26(7)：157-162.

Xie Zhonghong, Ji Changying, Guo Xiaoqing, et al. Target detection of fruit-like fruit based on improved Hough transform[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(7): 157-162. (in Chinese with English abstract)

[12] Zhao C, Lee W S, He D. Immature green citrus detection based on colour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243-253.

[13] Liu S, Yang C, Hu Y, et al. A method for segmentation and recognition of mature citrus and branches-leaves based on regional features[C]//Chinese Conference on Image and Graphics Technologies. Singapore: Springer, 2018: 292-301.

[14] 卢军，桑农. 变化光照下树上柑橘目标检测与遮挡轮廓恢复技术[J]. 农业机械学报，2014，45(4)：76-81.

Lu Jun, Sang Nong. Detection of citrus fruits within tree canopy and recovery for occlusion contour in variable illumination[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(4): 76-81. (in Chinese with English abstract)

[15] Stein M, Bargoti S, Underwood J. Image based mango fruit detection, localisation and yield estimation using multiple view geometry[J]. Sensors, 2016, 16(11): 1915.

[16] Xu Y, Imou K, Kaizu Y, et al. Two-stage approach for detecting slightly overlapping strawberries using HOG descriptor[J]. Biosystems engineering, 2013, 115(2): 144-153.

[17] Wachs J P, Stern H I, Burks T, et al. Low and high-level visual feature-based apple detection from multi-modal images[J]. Precision Agriculture, 2010, 11(6): 717-735.

[18] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition,Columbus, OH, USA, 2014: 580-587.

[19] Girshick R. Fast R-CNN[C]//IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1440-1448.

[20] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Annual Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 91-99.

[21] 闫建伟，赵源，张乐伟，等. 改进Faster-RCNN 自然环境下识别刺梨果实[J]. 农业工程学报，2019，35(18)：143-150.

Yan Jianwei, Zhao Yuan, Zhang Lewei, et al. Recognition of Rosa roxbunghii in natural environment based on improved Faster RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 143-150. (in Chinese with English abstract)

[22] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European Conference on Computer Vision Springer, Cham, 2016: 21-37.

[23] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016: 779-788.

[24] 成伟，张文爱，冯青春，等. 基于改进YOLOv3的温室番茄果实识别估产方法[J].中国农机化学报，2021，42(4)：176-182.

Cheng Wei, Zhang Wenai. Feng Qingchun, et al. Method of greenhouse tomato fruit dentification and yield estimation based on improved YoLOv3[J]. Journal of Chinese Agricultural Mechanization. 2021 42(4): 176-182. (in Chinese with English abstract)

[25] 吕石磊，卢思华，李震，等. 基于改进YOLOv3-LITE 轻量级神经网络的柑橘识别方法[J]. 农业工程学报，2019，35(17)：205-214.

Lü Shilei, Lu Sihua, Li Zhen, et al. Orange recognition method using improved YOLOv3-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(17): 205-214. (in Chinese with English abstract)

[26] 薛月菊，黄宁，涂淑琴，等. 未成熟芒果的改进YOLOv2 识别方法[J]. 农业工程学报，2018，34(7)：173-179.

Xue Yueju, Huang Ning, Tu Shuqin, et al. Immature mango detection based on improved YOLOv2[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 173-179. (in Chinese with English abstract)

[27] 赵德安，吴任迪，刘晓洋，等. 基于YOLO 深度卷积神经网络的复杂背景下机器人采摘苹果定位[J]. 农业工程学报，2019，35(3)：164-173.

Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)

[28] 张健. 基于改进YOLOv3的果园行人检测方法研究[D]. 镇江：江苏大学，2020.

Zhang Jian. Research on Orchard Pedestrian Detection Method based on Improved YOLOv3[D]. Zhenjiang: Jiangsu University, 2020. (in Chinese with English abstract)

[29] 蔡逢煌，张岳鑫，黄捷. 基于YOLOv3 与注意力机制的桥梁表面裂痕检测算法[J]. 模式识别与人工智能，2020，33(10)：926-933.

Cai Fenghuang, Zhang Yuexin, Huang Jie. Bridge surface crack detection algorithm based on YOLOv3 and attention mechanism[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(10): 926-933. (in Chinese with English abstract)

[30] Hu X L, Liu Y, Zhao Z X, et al. Real-time detection of uneaten feed pellets in underwater images for aquaculture using an improved YOLO-V4 network[J]. Computers and Electronics in Agriculture, 2021, 185: 106135.

[31] 李就好，林乐坚，田凯，等. 改进Faster R-CNN的田间苦瓜叶部病害检测[J]. 农业工程学报，2020，36(12)：179-185.

Li Jiuhao, Lin Lejian, Tian Kai, et al. Detection of leaf diseases of balsam pear in the field based on improved Faster R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 179-185. (in Chinese with English abstract)

[32] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004. 10934.

[33] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]. // IEEE/CVF International Conference on Computer Vision, Seoul, SOUTH KOREA, 2019: 1314-1324.

Recognition of dense cherry tomatoes based on improved YOLOv4-LITE lightweight neural network

Zhang Fu1,2,3, Chen Zijun1, Bao Ruofei1, Zhang Chaochen1, Wang Zhihao1

(1.,,471003,;2.,,212013,;3.,471003,)

Small and hidden conditions of dense cherry tomatoes have posed a great challenge to the rapid identification and positioning of fruits. New key technology with strong robustness is highly demanding to improve the efficiency and yield prediction of cherry tomatoes in the facility agriculture environment. In this study, a novel recognition method was proposed to locate the dense cherry tomatoes using an improved YOLOv4-LITE lightweight neutral network. A mobile Net-v3 easy migration to mobile terminals was selected as the feature extraction network of the model to construct a YOLOv4-LITE for a higher detection speed of cherry tomatoes. A feature pyramid network was set as the modified (FPN) + Path Aggregation Network (PANet) structure, in order to avoid replacing the backbone network to reduce the detection accuracy. Specifically, a 104×104 Future map was introduced to achieve fine-grained detection for the small targets. More importantly, a deep separable convolution was used in the PANet structure to reduce the number of model calculations. The new network was more lightweight, where the generalization ability of the model was improved by loading pre-training weights and freezing partial layer training. A comparison was made on the recognition effect of YOLOv4, F1, and AP on the test set with the same degree of occlusion or adhesion, further to evaluate the difference between the models. The test results show that the improved FPN structure on the basis of YOLOv4 was higher than the AP50of the original YOLOv4 AP75increased by 15.00 percentage points, and the F1 increased by 0.14 and 0.24 under the corresponding IOU threshold. However, the weight increased by 4 MB, while the detection speed increased to 0.27 ms/sheet, and the number of network parameters increased by 14.85%. The improved FPN structure on the basis of YOLOv4+MobiletNet-V3, AP50increased by 6.58 percentage points, AP75increased by 21.82 percentage points, F1 value increased by 0.13 and 0.20 under the corresponding IOU threshold, indicating that YOLOv4 and YOLOv4+MobiletNet-V3 lacked small goals. Fortunately, the Future map of small targets was added to improve the fine-grained detection of the model, but the number of model parameters and weights increased accordingly. As such, the PANet structure was improved to introduce a deep separable convolutional network, while ensuring high F1, AP, Recall and Precision.Optimal performance was achieved, where the model weight was compressed to 45.3 MB, the detection speed was 3.01 ms/sheet, and the network parameters were 12 026 685. Specifically, the new network was reduced by 198.7MB, compared with the original YOLOv4. The data indicated that the improved PANet strategy presented similar accuracy under such circumstances, while effectively reduced memory consumption, and the number of model parameters, but accelerated the speed of model recognition. The F1, AP50, and recall of the proposed recognition model for the dense cherry tree on all test sets were 0.99, 99.74%, and 99.15%, respectively. The improved YOLOv4 increased by 0.15, 8.29, and 6.55 percentage points, respectively, and the weight size was 45.3MB, about 1/5 of YOLOv4. Additionally, the detection of a single 416×416 image reached a speed of 3.01ms/frame on the GPU. Therefore, the recognition model of dense cherry tomatoes behaved a higher speed of recognition, a higher accuracy, and lighter weight than before. The finding can provide strong support to the efficient production forecast of cherry tomatoes in the facility agriculture environment.

computer vision; models; YOLO; deep learning; image recognition; target detection

张伏，陈自均，鲍若飞，等. 基于改进型YOLOv4-LITE轻量级神经网络的密集圣女果识别[J]. 农业工程学报，2021，37(16)：270-278.doi：10.11975/j.issn.1002-6819.2021.16.033 http://www.tcsae.org

Zhang Fu, Chen Zijun, Bao Ruofei, et al. Recognition of dense cherry tomatoes based on improved YOLOv4-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 270-278. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.16.033 http://www.tcsae.org

2021-06-02

2021-08-14

国家自然科学基金资助项目（52075149）；河南省科技攻关计划项目（212102110029）；现代农业装备与技术教育部重点实验室和江苏省农业装备与智能化高技术重点实验室开放基金课题（JNZ201901）；河南省高等教育教学改革研究与实践项目（研究生教育）成果（2019SJGLX063Y）

张伏，教授，研究方向为农业信息化与农业装备仿生技术。Email：zhangfu30@126.com

10.11975/j.issn.1002-6819.2021.16.033

TP391，TP81

1002-6819(2021)-16-0270-09

基于改进型YOLOv4-LITE轻量级神经网络的密集圣女果识别

0 引 言

1 材料与方法

1.1 试验数据获取

1.2 数据扩增

1.3 数据集准备

2 密集圣女果识别网络

2.1 YOLOv4网络模型

2.2 改进的YOLOv4-LITE网络模型设计

2.3 模型的训练与测试

3 结果与分析

3.1 载入预训练权重并冻结部分层的检测结果

3.2 不同骨干特征提取网络的比较

3.3 FPN+PANet结构的改进结果比较

4 结 论

0 引言

4 结论