基于深度学习的甘蔗茎节识别方法

2024-11-09 00:00:00丘刚玮唐伟萍
广西糖业 2024年5期

摘要:甘蔗茎节识别是实现切种机对甘蔗精准切种的重要步骤。高效的甘蔗茎节识别定位能帮助甘蔗切种机提高茎节识别精度、保护蔗芽及减少刀具磨损。文章通过实地调研和文献查阅,了解识别甘蔗茎节特征的方法,分析深度学习在计算机视觉领域的应用效果,旨在实现对甘蔗茎节表面特征进行精准快速高效识别,并基于YOLOv5模型建立智能识别卷积神经网络模型,提出一种甘蔗茎节识别方法(甘蔗茎节识别模型),通过收集的甘蔗训练图像对模型进行训练,并在测试集上验证。训练和测试结果表明,建立的甘蔗茎节识别模型可准确识别甘蔗茎节,识别准确率达90.2%,召回率达90.1%,可在智能化甘蔗切种机开发中参考应用。

关键词:甘蔗切种;茎节识别;深度学习;YOLOv5模型;快速准确定位

中图分类号:S566.1;TP391.4 文献标志码:A 文章编号:2095-820X(2024)05-0354-06

0 引言

甘蔗是重要的温带和热带经济作物,也是我国的主要糖料作物,可用于制作日常生活所需的食用糖,还可作为化工、轻工和食品等行业的原材料,因此,甘蔗在我国国民经济发展和保障食品安全上占据举足轻重的地位[1]。广西是我国甘蔗主产区,甘蔗种植面积和产量均占全国的60%以上,是名副其实的“糖罐子”[2]。甘蔗产业作为广西的重点支柱产业,已形成种植、糖料加工及产品销售的完整产业链,为促进广西经济发展和乡村振兴作出了巨大贡献[3-4]。尽管广西地区的甘蔗产量和种植面积位居全国首位,但总体上仍面临甘蔗种植面积下降、农户种植积极性降低和适宜机械化收割的蔗地面积减少等挑战,亟待探索符合本地特点的甘蔗产业发展之路,从多个方面推动甘蔗产业健康发展。当前,我国广泛使用的甘蔗种植机多为实时切种,存在播种不均匀、劳动强度大和耗费种蔗量大等问题[5],导致种植成本上升,严重制约了甘蔗产业的可持续发展。随着5G、AI和物联网等信息技术赋能现代农业,生产机械化、自动化和智能化已成为智慧农业的重要特征,且在提高生产效率、降低生产成本和改善生产条件等方面发挥着重要作用。就甘蔗生产而言,受甘蔗种植分散、种植规模小和丘陵种植地貌复杂等实际条件的限制,生产技术和生产模式落后、机械化程度不高及主要依赖人工作业是该产业的显著特点。茎节识别是甘蔗种植机械化和智能化的关键所在,准确高效的茎节识别定位能帮助切种式甘蔗种植机提高识别精度,实现高效防伤芽切种;有利于保护甘蔗芽免遭物理损害和减少对收获刀具的磨损并实现甘蔗自动化收割,从而促进甘蔗产业的标准化和智能化,进一步解放生产力。因此,甘蔗茎节识别定位不仅为各种智能甘蔗机械设备提供视觉技术支持,对甘蔗产业现代化也具有重要意义。本研究在实地调研和文献查阅的基础上,分析深度学习在计算机视觉领域的应用效果,基于YOLOv5模型建立智能识别卷积神经网络(CNN)模型,提出一种甘蔗茎节识别方法,为实现对甘蔗茎节表面特征进行精准快速高效识别及智能化甘蔗切种机开发提供参考依据。

1 甘蔗茎节识别相关技术

1.1 甘蔗茎节识别

准确识别甘蔗茎节可大幅提高甘蔗机械化收割效率,降低人工成本,在甘蔗种植和收割各环节实现精细化管理,从而提升甘蔗产量和质量。但提高甘蔗茎节识别准确性面临诸多技术难点,包括茎节在不同生长阶段和环境下表型多样、复杂的背景干扰(如叶片和土壤遮挡)、光照条件变化对图像质量的影响及茎节形态和颜色变动。

计算机技术的快速发展为提高甘蔗茎节识别准确性提供了新方法,包括基于传统图像处理方法(如边缘检测和形态学操作)、基于机器学习方法(如支持向量机和随机森林)和基于深度学习方法(如卷积神经网络和目标检测算法检测模型)。但应用这些方法也存在一定局限性,如传统图像处理方法在处理复杂背景和多样化茎节形态时性能有限,机器学习方法对特征工程依赖较大,难以自动提取复杂特征。

1.2 图像识别

图像识别是计算机视觉领域的一个重要研究方向,主要通过计算机自动分析和理解图像内容[6]。图像识别技术包括传统图像处理方法,如边缘检测、形态学处理和特征匹配及机器学习。这些技术已广泛应用于医疗诊断、自动驾驶、安防监控、工业自动化和智能零售等领域。利用图像识别技术可实现农作物的自动监测和管理,如病虫害识别、作物生长监测及产量预测等,提高农业生产效率,还可减少农药和肥料使用,实现精准农业。在甘蔗生产中,图像识别技术能有效识别和定位甘蔗茎节,为机械化收割及精细化管理提供技术支持,推动甘蔗生产向智能化和自动化方向发展。

1.3 深度学习

深度学习是一种以人工神经网络为基础,旨在通过多层网络结构对数据进行分层表示和学习,从而捕捉数据中复杂模式和特征的机器学习方法[7]。常用的深度学习模型包括卷积神经网络、循环神经网络(RNN)和生成对抗网络(GAN)等[8]。卷积神经网络特别适用于图像处理任务,通过卷积层和池化层操作,能有效提取图像的空间特征[9];循环神经网络擅长处理序列数据,已广泛应用于自然语言处理和时间序列预测;生成对抗网络用于生成高质量合成数据,在图像生成和增强方面作用明显。在农业生产中,利用卷积神经网络可实现对农作物进行病虫害检测、生长监测及产量预测等,如通过分析农作物叶片图像,可准确识别病害类型并进行实时预警;通过监测田间农作物生长状态,可优化施肥和灌溉方案,提高农作物产量和质量。此外,生成对抗网络技术还可用于生成和增强农业数据,提升深度学习模型的训练效果。

综上所述,尽管图像识别和深度学习技术在农业生产中取得了明显进展,但甘蔗茎节的多样性和复杂性,加上复杂的背景干扰及光照条件变化,使得现有的甘蔗茎节识别方法在识别准确性和效率方面存在一定局限性。传统的图像处理技术在应对这些局限性时表现不佳,机器学习方法对特征工程的依赖较大;深度学习方法虽然表现优异,但对数据和计算资源的需求较高。因此,文章提出一种基于YOLOv5的深度学习甘蔗茎节识别模型(以下简称甘蔗茎节识别模型),以解决传统甘蔗茎节识别方法在应对甘蔗茎节多样性和复杂性问题时的局限性,提高茎节识别的效率和准确性。

2 甘蔗茎节图像采集及处理

2.1 图像采集

2023年10月—2024年2月在广西靖西市湖润镇甘蔗基地采集甘蔗茎节图像,甘蔗品种为桂糖8号。采集图像时甘蔗处于成熟期,平均茎粗约2.5 cm。在图像采集过程中,光照、拍摄角度、不同茎节数、不同甘蔗根数和有无蔗叶等是影响视觉识别的主要因素,以其为分类特征采集图像。为更好地模拟甘蔗茎节的多样性和复杂性,分别于9:00、12:00和18:00 3个时间点进行拍摄,覆盖侧光、前光和逆光等不同光照条件。此外,通过调整相机拍摄角度获取不同光线方向甘蔗茎节的照片。在图像采集过程中,以拍摄方向与光传播方向相同、垂直、相反分别模拟前光、侧光和背光条件。通过多角度和多时间段的图像采集,确保数据的全面性和多样性。

2.2 数据采集与增强方法

在野外甘蔗田中,甘蔗叶片经常会遮挡阳光,导致甘蔗下部光线不足;云朵的移动也会导致甘蔗田光线时强时弱。为了增强数据的多样性并提高模型在不同光照条件下的识别能力,需通过对采集的图像进行亮度调节、旋转和镜像翻转等以增强图像数据,应用这些数据增强技术可明显增加训练数据的多样性,提升模型在各种图像场景下的识别性能。其中,通过图像亮度调节,可解决由于数据收集时间短而导致收集不全的问题;通过图像旋转(左右旋转45°)和镜像翻转可模拟甘蔗的多样化生长姿态。

2.3 数据标注工具与标记过程

数据标注是甘蔗茎节识别模型训练中至关重要的环节。标注过程:使用图像标注工具(Labelimg)对甘蔗图像进行手动标记,并绘制边界框,将标注结果保存为YOLO格式;标记的矩形边界框用于识别甘蔗茎节,确保数据集中不包含不清楚的数据,防止神经网络在训练过程中出现过拟合现象。整个数据标注过程需人工仔细检查和确认,确保每个数据标注的准确性和一致性。

3 甘蔗茎节识别模型的实现与优化

3.1 YOLOv5网络架构

YOLO是一种先进的目标检测算法,采用单一前向传递方式进行对象检测,YOLOv5是其升级版,包含YOLOv5x、YOLOv5l、YOLOv5m和YOLOv5s等4个版本,可通过调整depth_multiple和width_multiple 2个参数控制算法模型的深度与宽度[10]。YOLOv5的网络架构包括4个部分:输入端(Input)、骨干网络(Backbone)、颈部网络(Neck)和预测端(Prediction)[11]。YOLOv5将目标检测任务转化为回归问题求解,通过输入原始图像直接得到物体所在位置的坐标及其类别。在目标检测过程中,图像首先经骨干网络提取特征,然后通过特征融合层进行特征增强,最后通过预测层得到目标的位置和类别。

YOLOv5引入了锚框(Anchor boxes)概念,用于预测对象的边界框,每个框负责检测不同尺寸和比例的对象。此外,YOLOv5采用多尺度特征图来处理不同大小的对象,使用非极大值抑制(NMS)算法来消除重叠的边界框,以提高检测精度。

3.2 网络层次结构设计

在甘蔗茎节识别模型中,输入端负责将原始图像输入模型,并通过图像增强和预处理步骤提高模型的泛化能力。骨干网络采用CSPDarknet53结构,通过提取图像的多尺度特征实现对目标的精准识别。颈部网络使用特征金字塔网络(FPN)和路径聚合网络(PAN)结构,对不同层次的特征进行整合。这些特征包括甘蔗茎节在不同光照条件、角度和环境下的形态特征、纹理信息、边缘及形状特征等。特征金字塔网络能将高层次的语义特征与低层次的细节特征结合,路径聚合网络则进一步增强特征传递的效率,从而更好地识别甘蔗茎节在复杂背景中的位置及其形态,提高检测的精准度和鲁棒性。

3.3 输入与输出设置

输入端的主要任务是对图像进行标准化处理,以确保图像在输入至神经网络前处于稳定状态。输入图像的分辨率通常被调整为640×640像素,并进行归一化处理以适应模型要求。在输出端,YOLOv5将每个网格单元预测的多个边界框通过非极大值抑制算法进行筛选,最终输出最可信的目标位置和类别。表1中展示了YOLOv5模型的主要参数设置。

3.4 训练策略与超参数调整

在甘蔗茎节识别模型训练过程中,采用自适应算法(ADAM)优化器来优化损失函数,以实现快速收敛[12]。超参数设置对模型的性能具有明显影响,因此在模型训练过程中通过网格搜索法进行超参数调整,并运用训练策略[数据增强、学习率调度和早停法(Early stopping)等]防止模型出现过拟合或欠拟合现象。图1展示了训练过程中损失函数的变化曲线,通过分析该曲线可看出,由于模型初始化时参数未经调整,因此其训练开始时的损失函数值较大;随着训练轮数的增加,损失值逐渐减小并趋于平稳,说明模型的参数通过梯度下降法逐步得到优化,模型逐渐适应训练数据,其性能趋于稳定。

3.5 数据增强训练的应用

为了提升甘蔗茎节识别模型的泛化能力,需对原始数据集进行多种数据增强处理,包括旋转、镜像翻转和亮度调整。通过这些数据增强方法,可模拟不同光照、角度和环境条件下的甘蔗茎节图像,提高甘蔗茎节识别模型在不同场景下的识别精度。表2展示不同数据增强方法处理后的甘蔗茎节识别模型识别效果。其中,F1值(F1-score)在甘蔗茎节识别模型训练中用于评估经数据增强处理后模型的综合表现,以确定模型在不同光照、角度和环境条件下的识别精度。由表2可知,通过旋转、镜像翻转和亮度调整等数据增强方法处理,模型在增强后的数据集中表现出最高的召回率(R)(90.9%)和F1值(0.88),说明经过全面的增强处理后,模型在各种复杂条件下能较准确地识别甘蔗茎节;在左旋转45°的情况下,召回率下降至85.2%,F1值下降至0.86,说明左旋转处理对提高模型识别甘蔗茎节的能力具有一定重要性;镜像翻转后,准确率(P)上升到88.3%,但召回率略有下降,F1值降至0.87,说明镜像翻转的主要作用体现在提高召回率上,对模型准确率的影响较小;在调整亮度(调整0.7和1.3倍)后,F1值均有所下降,说明亮度调整有助于提高模型在不同光照条件下的鲁棒性和识别效果。

3.6 甘蔗茎节形态特征分析

甘蔗茎节在不同生长阶段的形态、颜色和纹理特征具有差异。为此,需对甘蔗茎节的形态特征进行详细分析,以便模型能更准确地识别和定位甘蔗茎节。通过对大量甘蔗图像进行分析,总结出甘蔗不同生长阶段的特征,并在数据标注时进行详细标注。

3.7 模型估计的优化策略

在甘蔗茎节识别模型优化过程中,采用多种策略来提高检测精度和效率。首先,使用稀疏化训练方法,通过L1正则化约束(对模型参数/权重的绝对值进行约束以减少模型的复杂度),使模型更精简,可减少计算的复杂度。其次,引入多尺度特征图和注意力机制,以提升模型对不同大小和形状目标的检测能力。最后,通过剪枝技术进一步优化模型结构,降低参数量和计算量。

从图2可看出,稀疏化训练开始时损失函数值较高,随着训练轮数的增加,模型的权重逐步优化,损失函数值逐渐减小,直到收敛;在训练后期,曲线逐渐趋于平稳,说明模型已接近最佳状态。由此可见,稀疏化过程可减少冗余参数,提高检测效率。

综上所述,通过甘蔗茎节识别模型的实现与优化,其性能和效率得以有效提高,能在复杂的自然环境下实现对甘蔗茎节的准确识别和定位。

4 甘蔗茎节识别模型准确性和有效性验证

4.1 验证流程

从图3可看出,对甘蔗茎节识别模型的准确性和有效性进行验证,首先是将甘蔗图像数据集划分为训练集和测试集,其次是将训练集数据作为模型训练数据对甘蔗茎节识别模型进行训练,使用ADAM优化器对模型参数进行优化,模型参数达到设定的指定迭代次数时的模型即为训练完成的甘蔗茎节识别模型。

4.2 验证平台

验证平台为台式电脑,处理器为i5-12600K,主频为3.7 GHz,内存32 G,显卡为GeForce RTX3090。平台运行环境为Windows 11,使用Pytorch编写程序,调用Keras和OpenCV库。

4.3 验证数据集的选择与描述

验证数据集选取广西靖西市湖润镇甘蔗基地的甘蔗图像数据。数据集包括2100张甘蔗茎节图像,通过旋转、镜像翻转和亮度调整等数据增强技术扩展为12600张图像。图像分辨率为640×640像素,覆盖不同的光照条件、拍摄角度和生长阶段。数据集按8∶1∶1比例划分为训练集、验证集和测试集,分别用于模型训练、参数调优和性能评估[13]。

4.4 性能评价指标介绍

以准确率、召回率、平均精度(AP)、F1值和平均IoU(Intersection over union)作为全面评估甘蔗茎节识别模型性能的评价指标。其中,准确率是检测出的正样本占全部检测样本的比例,召回率是检测过程中正确识别正样本的比率[14],平均精度是各评价指标精度的平均值,F1值是准确率和召回率的调和平均值(综合表现值)[15],平均IoU是预测框和真实框的重叠度(交并比)。各评价指标的计算公式见表3。

4.5 验证结果分析

4.5.1 甘蔗茎节识别模型在不同场景下的检测结果

由表4可知,甘蔗茎节识别模型在逆光和侧光条件下的准确率分别为88.5%和90.2%,召回率分别为88.1%和89.7%,在前光条件下的准确率达92.3%,召回率为91.5%;在甘蔗不同生长阶段,该模型对幼苗期、中期和成熟期的茎节识别准确率分别为89.1%、91.7%和93.5%;该模型在前光条件下的F1值(0.92)更接近1.00。综合准确率、召回率和F1值表现,甘蔗茎节识别模型的性能在前光条件下表现最佳。

4.5.2 与传统图像处理方法检测性能的比较结果

甘蔗茎节识别模型在不同光照条件、拍摄角度和甘蔗生长阶段检测的性能均优于传统图像处理方法(表5)。传统图像处理方法包括边缘检测、颜色分割和形态学操作等,在部分场景下检测的性能虽表现良好,但总体上不如甘蔗茎节识别模型。其中,甘蔗茎节识别模型检测的准确率(90.2%)和召回率(90.1%)分别高于传统图像处理方法14.9%(绝对值,下同)和18.3%,平均精度提高13.9%,平均IoU提高17.8%。说明甘蔗茎节识别模型在不同场景和复杂环境下均具有较高的检测性能,可大幅提高对甘蔗茎节识别的准确率和效率。

5 结论

甘蔗茎节识别模型通过优化YOLOv5网络架构、引入数据增强技术及采用稀疏化训练与剪枝技术,在甘蔗茎节自动识别与定位上效果明显。在不同光照条件、拍摄角度和甘蔗生长阶段下,该模型对甘蔗茎节均具有较高的识别准确率和召回率,且明显优于传统图像处理方法,可为甘蔗种植和收割机械化领域提供技术支持。未来工作中可进一步优化该模型的结构,结合多模态传感器数据,如激光雷达和多光谱图像,增强模型对复杂环境的适应能力,以提高复杂农业环境下的茎节检测精度和效率。

参考文献:

[1] 秦乐驹. 云南甘蔗糖业发展研究[D]. 湛江:广东海洋大学,2021.

[2] 王学清,张静. 中国甘蔗产业支持政策及相关发展思路[J]. 农业展望,2018,14(1):43-48.

[3] 孙西楠. 广西甘蔗糖业循环经济发展研究[D]. 武汉:中南民族大学,2015.

[4] 贺贵柏,向英,陶尚琨,等. 加快推动甘蔗产业绿色高质量发展的政策措施探讨——以广西百色市为例[J]. 甘蔗糖业,2021,50(1):8-11.

[5] 侯露,邹展曦,何胜创,等. 甘蔗种植机切种控制系统设计[J]. 甘蔗糖业,2015(3):59-65.

[6] 李志. 基于图像识别的大屏幕人机交互系统研究[D]. 合肥:安徽大学,2010.

[7] 王文博. 视觉和文本的跨模态检索和识别研究[D]. 合肥:合肥工业大学,2021.

[8] 乌日娜. 基于无人机的公路路面破损识别与分类方法研究[D]. 呼和浩特:内蒙古工业大学,2021.

[9] 范凌云. 基于卷积神经网络和深度特征融合的学习表情识别[J]. 科学技术创新,2022(11):85-88.

[10] 陈俊. 复杂文档文本检测和文本识别研究[D]. 南昌:南昌航空大学,2021.

[11] 叶欣. 基于深度学习的热轧带钢表面缺陷检测算法研究[D]. 武汉:武汉科技大学,2021.

[12] 谢堂营. 基于DCGAN的图像增强方法研究[D]. 呼和浩特:内蒙古科技大学,2021.

[13] 陈共驰,荣欢,马廷淮. 面向连贯性强化的无真值依赖文本摘要模型[J]. 计算机科学与探索,2022,16(3):621-636.

[14] 席春玲. 基于大规模中文知识库的自动问答系统研究[D]. 郑州:郑州大学,2021.

[15] 樊明亮. 基于深度学习的开放域中文知识问答系统研究[D]. 秦皇岛:燕山大学,2021.

(责任编辑 王 晖)

收稿日期:2024-07-18

基金项目:广西农业职业技术大学自然科学与技术开发计划项目(XKJ2357)

通讯作者:唐伟萍(1983-),女,副教授,主要从事计算机电子信息应用研究工作,E-mail:770497278@qq.com

第一作者:丘刚玮(1985-),男,工程师,主要从事计算机应用及农业信息技术研究工作,E-mail:331872198@qq.com