杨蜀秦1,2,3,王 帅1,2,3,王鹏飞1,2,3,宁纪锋3,4,奚亚军5
(1. 西北农林科技大学机械与电子工程学院,杨凌 712100;2. 农业农村部农业物联网重点实验室,杨凌 712100;3. 陕西省农业信息感知与智能服务重点实验室,杨凌 712100;4. 西北农林科技大学信息工程学院,杨凌 712100;5. 西北农林科技大学农学院,杨凌 712100)
单位面积麦穗数是估算小麦产量的重要指标,对于作物表型参数计算、产量预测和大田管理都具有重要的意义。目前的研究均未以单位面积麦穗图像为研究对象,为准确获取单位面积麦穗数,该研究提出了基于改进YOLOX的单位面积麦穗检测方法,利用采样框直接实现单位面积麦穗计数。首先,设计了一种简单的单位面积采样框,通过训练角点检测网络识别采样框,以提取单位面积小麦区域;其次,针对麦穗检测中存在的目标密集和相互遮挡问题,在麦穗检测网络的特征融合层,采用上下文信息进行特征重组的上采样方法(Content-Aware ReAssembly of Features,CARAFE)代替YOLOX-m模型中的上采样算法,同时结合迭代注意力特征融合模块(iterative Attentional Feature Fusion,iAFF),增加对麦穗空间信息和语义信息的提取。试验结果表明,改进的YOLOX-m模型明显改善了对密集麦穗和遮挡麦穗的检测效果,其精确率、召回率、平均精确度和1值分别为96.83%、91.29%、92.29%和93.97%,与SSD、CenterNet和原YOLOX-m模型相比,平均精确度分别提升了10.26、8.2和1.14个百分点。该研究方法能够直接对复杂大田场景下的单位面积麦穗进行准确检测和计数,为实际生产小麦产量预测中的麦穗智能化计数提供了一种方法参考。
近年来,随着作物表型组学研究的快速发展,通过结合深度学习对单位面积麦穗检测计数的研究也有了较大的进展[18-20]。深度学习从数据集中自动学习特征代替了传统的人工提取特征。Lu等[21]提出深度卷积神经网络TasselNet建立麦穗计数回归模型。Hasan等[22]使用相同的R-CNN结构在4个不同生长阶段捕获的不同数据集上生成4个不同的模型,研究不同生长阶段的麦穗计数。鲍文霞等[23]采集数据时制作40 cm×50 cm的纸盒,用以固定0.2 m2范围内的小麦,同时引入CSRNet网络构建麦穗密度图估计模型,实现对复杂拥挤场景下的麦穗计数。章权兵等[24]采集数据时使用长宽高分别为0.5、0.5、1.2 m的硬纸板围成一个长方体框,将目标区域与外界小麦隔离开,并在Faster R-CNN[25]中引入注意力机制和加权区域建议网络对麦穗进行检测。文献[23]和文献[24]为便于图像获取,采集时使用硬纸板围成一个小面积长方体框,将目标区域与外界小麦隔离开,但均未利用固定面积计算单位面积麦穗数,不能直接实现麦穗的实际测产计数。文献[1]针对单位面积育种小区实现麦穗计数,但不适用于大面积农田场景下的测产。
综上所述,前人针对大面积农田场景下单位面积麦穗图像的研究较少,且在复杂条件下,密集麦穗和遮挡麦穗仍存在识别精度低等问题。因此,本研究以智能手机拍摄含采样框的小麦冠层图像为研究对象,构建一种基于改进YOLOX的单位面积麦穗检测方法。采样框角点特征明显,因此利用模型深度和特征图宽度较小的YOLOX-s训练采样框角点检测网络,获取单位面积区域。改进深度和特征图宽度进一步加深和加宽的YOLOX-m模型,在特征提取层采用上下文信息进行特征重组的上采样方法(Content-Aware ReAssembly of Features,CARAFE)和迭代注意力特征融合模块,有效减少了麦穗漏检情况,提高密集麦穗和遮挡麦穗的检测精度。最后,将其与SSD[26]、CenterNet[27]和原YOLOX-m模型进行对比,验证了本文方法的有效性。
本文试验区域位于陕西省杨凌农业高新技术产业示范区(简称杨凌区)曹新庄试验基地,地理坐标介于东经107°59′~108°08′,北纬34°14′~34°20′之间,如图1所示,杨凌区平均海拔530 m,属东亚暖温带半湿润半干旱气候区。试验区域长约175 m,宽约98 m,面积约17 150 m2,种植的冬小麦为一年一熟制,试验田为小麦育种区,种植多种不同品种的小麦。
图1 试验区域图
为了实现在自然环境下直接对单位面积麦穗进行检测计数,使用两组数据集进行了训练和测试,一组是实地拍摄的不含采样框的麦穗图像,一组是含1 m×1 m采样框的麦穗图像。图像数据是通过华为智能手机(honor V20)在小麦试验田中收集,将智能手机固定在自拍杆上,蓝牙控制手机后置摄像头朝向下方采集图像,试验者手持自拍杆,保持在距离小麦冠层上方0.9~1.1 m处拍摄。数据采集时间为2021年5月21日-2022年6月3日,在晴、阴和多云3种天气状况下,分别对灌浆期和成熟期小麦图像进行采集。共采集不含采样框的麦穗图像600张(图像分辨率为4 000像素×3 000像素),原始图像随机裁剪为3 072张800像素×800像素的麦穗图像。另外采用镜像和旋转对数据集进行增强,将训练集的图像数据从3 072张扩增至9 216张。含采样框的麦穗图像共218张(图像分辨率为4 000像素×3 000像素),2021年采集121张,2022年采集97张,采样框内包含350~520个目标小麦穗,如图2所示。
结合地面调查,采用开源标注软件LabelImg对采样框内角点和麦穗进行人工标注,标注数据集以PASCAL VOC[28]数据集的格式存储,包括:图像尺寸(长宽以及通道数)、检测物体类别、检测框坐标(对应图像中、轴坐标值)等。
YOLO[29-32]系列是目标检测算法的代表性工作,其中的YOLO V3[32]在不同领域得到了广泛的应用。以YOLO V3-SPP作为基础,结合耦合检测头、Mosaic和MixUp数据增强策略、无锚框机制(Anchor-free)的YOLOX目标检测模型,具有检测精确度高和部署灵活的优点[33]。
2.1.1 基于YOLOX-s的采样框角点检测网络
2.1.2 基于改进YOLOX-m的麦穗检测网络
YOLOX-m模型中的最邻近插值上采样难以利用麦穗特征图的语义信息且感知域较小,特征融合模块仅是对特征图的简单拼接。因此,本文通过对YOLOX-m模型的上采样和特征融合模块进行改进,以提高密集麦穗和遮挡麦穗检测精度。改进的YOLOX-m模型的主干分为Input、Backbone、Neck和Prediction 4个部分,每个框表示一个部分。在特征融合网络中,首先采用特征图上采样(CARAFE)方法代替模型原始的上采样方法,利用特征重组模块完成上采样,以保留更多麦穗细节;其次,添加迭代注意力特征融合模块(iAFF),增强对麦穗语义信息的提取。网络结构图如图3所示。
注意力特征融合模块(Attentional Feature Fusion,AFF)主要针对不同网络结构中,不同尺度特征融合时的注意力问题。iAFF针对初始特征集成对于注意力特征融合影响比较大的问题,使用额外一层AFF生成更好的初始特征。本研究针对麦穗相互遮挡的问题,在YOLOX-m算法网络中下采样后的特征融合层使用iAFF,使用了注意力进行特征融合以增加对麦穗空间信息和语义信息的提取,有效提升网络对遮挡麦穗的检测性能。
试验环境操作系统为Ubuntu 16.04,深度学习框架为Pytorch 1.4,显卡为NVIDIA Tesla P100,显存16GB。基于改进YOLOX的单位面积麦穗检测模型训练分为两部分。第一部分为训练采样框角点检测网络,将2021年采集的121张包含采样框的麦穗图像,按8∶1∶1随机划分训练集、验证集和测试集,模型训练50个周期,采用Adam优化器。第二部分为训练麦穗检测网络,9 216张800像素×800像素的麦穗图像,按9∶1随机划分训练集和验证集,121张包含采样框的麦穗图像作为测试集,模型训练100个周期,采用Adam优化器。前50个周期冻结骨干网络参数,只训练模型分类器参数,初始学习率为1×10-3,批处理尺寸为8,权重衰减为5×10-4;后50个周期解冻骨干网络参数,初始学习率为1×10-4,批处理尺寸为8,权重衰减为5×10-4,共迭代850 500次。
本研究采用精确率(Precision,)、召回率(Recall,)、平均精确度(Average Precision,AP)、1分数、交并比(Intersection over Union,IoU)和平均帧率(Frame per Second,FPS)来评估模型的性能。召回率被定义为所有正样本被正确检出的比例;精确率是预测结果中正确的比例;平均精确度和1分数综合考虑精确率和召回率两个指标;IoU用于测量真实框与检测框之间的重叠度,重叠度越高该值越大,相关度越高;本研究对单位面积小麦麦穗进行检测,选择IoU大于50%作为判断是否正确识别麦穗的阈值。在上述评价指标中,模型性能参数的重要性依次为平均精确度、召回率、精确率、1分数和平均帧率。
为了评估模型的计数性能,采用决定系数(2)和均方根误差(Root Mean Square Error,RMSE)评价指标。2表示趋势线拟合程度,它的数值大小可以反映麦穗计数的估计值与对应的实际人工计数之间的拟合程度,数值越接近1,拟合程度越高,趋势线的可靠性就越高;RMSE为预测值与真实值的偏差,表示算法的准确性,RMSE越小,算法准确度越高。
表1 不同模型对采样框内角点检测试验结果
Note:isprecision;is recall;AP is average precision;1 is1score; FPS is frame per second. Same below.
用9 216张不含采样框的麦穗图像分别在SSD、CenterNet和原始YOLOX模型的m、l和x版本以及基于YOLOX-m的改进模型进行同批次的训练。结合YOLOX-s模型对采样框内角点的检测,对比不同模型对单位面积麦穗检测效果,检测结果如表2所示。
表2 不同模型对单位面积麦穗检测试验结果
表3 改进的YOLOX-m算法麦穗检测消融试验
图5 麦穗预测值与真实值的拟合结果
从图5可以看出,2为0.91, RMSE为29.61株/m2,线性拟合线可以有效反映预测值与真实值的关系,拟合程度较高,但是所有图像预测麦穗数量小于真实数量,这是由于严重遮挡情况下依然存在漏检情况导致的。因此,本文提出的基于改进YOLOX的单位面积麦穗检测方法可以准确地对包含单位面积采样框的图像进行麦穗计数,进而实现精准的小麦估产。
Detecting wheat ears per unit area using an improved YOLOX
Yang Shuqin1,2,3, Wang Shuai1,2,3, Wang Pengfei1,2,3, Ning Jifeng3,4, Xi Yajun5
(1.712100,; 2.712100,; 3.712100,; 4.712100,;5.712100)
Wheat production is closely related to the food security in world. The yield forecast of wheat can provide a strong reference for the agricultural production and management, particularly for the decision-making on the rural land policy and grain market. Among them, the number of wheat ears per unit area is one of the most important indicators to estimate the wheat yield, including the crop phenotypic parameters, yield prediction, and field management. However, the traditional image processing and manual counting of wheat ears cannot fully meet the large-scale production in recent years. Particularly, the manual counting is cumbersome, labor-intensive, and highly subjective. It is a high demand to improve the detection accuracy of the traditional image processing. A generalized model is also required for a lot of experience, the robustness to lighting, and sufficient soil conditions in complex scenes. Much effort has been made to combine the deep learning for the detection and counting of the wheat ears per unit area, particularly with the rapid development of crop phenotype research. It is still lacking on the recognition accuracy of dense and occluded wheat ears under complex conditions. Taking the image of wheat ears per unit area as the research object, this study aims to accurately obtain the number of wheat ears per unit area using the improved YOLOX. Firstly, a simple sampling frame was designed to directly realize the counting of wheat ears per unit area. The corner detection network was trained to identify the sampling frame, further to extract the unit area of wheat. The Content-Aware ReAssembly of Features (CARAFE) map was used in the feature fusion layer of the wheat ear detection network. Secondly, the sampling was replaced with the up-sampling in the YOLOX-m model. The iterative attention feature fusion module was also used to increase the extraction of spatial information and semantic information of wheat ears. Thirdly, the wheat canopy images captured by the smartphone were taken as the research object. The images were selected at the wheat grain filling and mature stages under three weather conditions of clear, overcast, and cloudy. A total of 600 images of wheat ears without the sampling frame (image resolution of 4 000 × 3 000 pixels) were collected, where the original images were randomly cropped into the 3 072 images of wheat ears of 800 × 800 pixels. Fourthly, the dataset was augmented after the mirroring and rotation operation, where the image data of the training set was expanded from 3 072 to 9 216 images. There were 218 wheat ears images with the sampling frame (image resolution was 4 000 × 3 000 pixels). Among them, the sampling frame was contained 350-520 target wheat ears. Finally, the performance of the model was evaluated using the precision, recall, Average Precision (AP),1 score, Frame per Second (FPS), determination coefficient(2) and Root Mean Square Error (RMSE). The experimental results show that the improved YOLOX-m model was significantly improved the detection performance of dense and occluded wheat ears. Specifically, the AP value was improved by 10.26, 8.2 and 1.14 percentage points, respectively, compared with the SSD, CenterNet, and original YOLOX-m model. Consequently, the wheat ears per unit area were accurately detected and counted in the natural environment. The finding can provide a strong reference for the intelligent counting of wheat ears in the actual production of wheat yield prediction.
models; target detection; deep learning; unit area; wheat ear
杨蜀秦,王帅,王鹏飞,等. 改进YOLOX检测单位面积麦穗[J]. 农业工程学报,2022,38(15):143-149.doi:10.11975/j.issn.1002-6819.2022.15.015 http://www.tcsae.org
Yang Shuqin, Wang Shuai, Wang Pengfei, et al. Detecting wheat ears per unit area using an improved YOLOX[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 143-149. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.015 http://www.tcsae.org