付虹雨,崔国贤*,佘玮,王辉, 张端智
(1.湖南农业大学苎麻研究所,湖南 长沙 410128;2.保险职业学院,湖南 长沙 410000;3.湖南省浏阳市澄潭江镇人民政府农业农村办,湖南 浏阳 410300)
植株数量是作物重要的田间表型性状之一。植株数量能反映田间作物的覆盖度和密度信息,对农田生产管理过程中光、热、水、肥需求以及种内竞争等多方面都有影响[1-3]。快速准确的作物株数统计对高产栽培、智能测产和良种选育都具有重要价值[4-5]。当前,增加遗传增益的创新主要来自基因组选择和高通量表型技术的结合,快速、精准鉴定作物性状是加速遗传改良和产量增加的重要举措。然而,传统的人工田间计数方法费时费力,具有破坏性,易出现漏数错数的情况。因此,需要开发新的方法提高田间作物植株计数的准确性,协调作物生产管理以及驱动作物产量潜力。
由于计算机视觉和机器学习的发展,基于图像的作物表型分析取得极大进展,有学者提出从RGB高分辨图像中定量作物植株数量的方法[6]。主要方法有特征回归法、目标检测法和密度监测法等[7]。如Fernandez等[8]通过在图像中寻找局部峰值来确定麦穗。Li等[9]结合颜色指数ExG和Laws纹理特征实现麦穗的分割和检测,该方法对穗部的鉴别准确率为80%左右。He等[10]展示了YOLOv4实现小麦计数的潜力,识别正确率为96.71%。Madec等[11]提出了一种利用Fast-RCNN和高空间分辨率RGB图像进行穗密度估计的方法。密度监测通过学习目标特征和相应密度图之间的线性映射,在学习过程中结合空间信息估计作物数量。鲍文霞等[12]采用拥挤场景识别网络构建麦穗密度图估计模型,麦穗的计数准确率为90%左右。Khaki等[13]提出了一种创新的用于小麦数量检测的框架,这个框架首先结合点标记和MobileNetV2特征提取器,然后基于两个分支,生成图像的密度图和定位图,研究显示MAE和RMSE分别为3.85和5.19。
随着高通量表型获取平台的发展,RGB图像可通过手持照相机、地面装置(固定监测塔[14]、农药机械平台[15]、智能移动平台[16])、空中遥感等多种方式获得。其中,基于地面的表型获取装置能在指定田间区域内进行作业,具有高空间分辨率,已被一些学者应用于作物植株信息获取[17]。但是,基于地面的表型获取装置不能满足高通量、快速、大面积田间信息采集的需要,仍需进一步改进[18]。无人机遥感平台具有小型化、实用性、高分辨率以及大众可承受性的优势,已经成为大面积田间作物信息获取的新途径。尽管高通量表型数据采集已成为现实,机器学习的发展为数据处理提供了更加有效的手段[19],但以往的研究多是在单个数据集上构建模型,很难扩展到其他作物。当进行新作物和新情况研究时,从原始数据中提取特征性状用以开发高效、稳定的模型仍具有挑战[20],因为模型的性能很大程度上取决于训练样本数据集的数量和多样性[21],这需要考虑观测条件、基因型差异、发育阶段等多方面的可变性。
基于无人机遥感图像构建的作物植株识别模型对标记样本提出要求。因为样本标记过程十分烦琐,并且数据集中标记样本的数量和质量对模型运行的速度、最终模型效果非常敏感,因此,解决标记样本问题具有一定挑战,如果能大量减少标记将意义重大。为此,有学者提出了用弱监督概念来降低标记样本的成本。如Ghosal等[22]基于弱监督深度学习的方法,展现了在不降低检测模型性能的情况下减少标注训练数据集大小的可能性。Gma等[23]考虑3种类型的弱监督,利用测试时间增强技术提高了高粱头部监测的效果。数据增强是增加不完全监督训练数据的数量,解决大量标记问题的一个可尝试方案[24]。数据增强通过几何改变[25]、电光转换[26]、数据合成[27]等,在保留标签的基础上人为地膨胀数据集,凭借其计算代价低、容易实现的优势,提高深度学习性能和防止过度拟合。
苎麻是重要的纺织工业原料和传统出口创汇产品。苎麻的植株数量与产量有直接的相关性,但苎麻具有生长稠密、冠层覆盖度大等特点,故苎麻植株数统计烦琐。为实现在有限数据集上构建苎麻植株识别模型,本文提出了一种基于数据增强和深度学习方法,达到少标记、易标记即可实现复杂的稠密目标计数手段。研究目标具体包括:评估数据增强方法对苎麻植株计数模型的贡献;评估不同空间分辨率、不同算法模型的计数效果;验证模型应用于多基因型苎麻小区数据的表现,并评估该方案在单独的小样本研究中的可行性。
试验于2020年6—7月在湖南省长沙市芙蓉区湖南农业大学耘园教学基地(28°11′01.981″N,113°04′10.159″E)进行,属于亚热带季风性湿润气候,降水充沛,光热条件良好,苎麻生长良好。该区域地形相对平坦,为无人机进行苎麻遥感监控提供了良好的条件。
研究样本来自2个不同的试验(长期试验和种质资源试验):用于长期试验的田块包括2个不同品种的苎麻(湘苎三号和湘苎七号),每个品种分为12个小区,共24个小区,每个小区面积约为12 m2,4行×8列;用于种质资源研究的田块包含154个小区,共154份种质资源,小区面积2 m×1.8 m,2行×4蔸,蔸间距为0.4 m,行间距为0.6 m,排水沟宽为0.5 m。2个试验区灌溉排水便捷,田间水肥管理一致。为了完成后期模型的重建,提高经纬、高程位置校准的精度,试验地从空间和高度上均匀布置了多个地面控制点(GCP),具体试验小区分布图见图1。
图1 试验小区分布图Fig.1 Locations of experimental plot
研究采用大疆悟2四旋翼无人机遥感平台,搭载的传感器为zenmusex5s 35 mm高清数码相机,该相机有效像素可达2080万,最大分辨率为5280×3956。试验于2020年二季苎麻封行期(6月21日)采集苎麻试验田的冠层图像。无人机遥感系统采取距离地面10 m的高度搭配-90°云台俯仰角进行拍摄。为避免云层遮挡以及太阳光线影响,选择晴朗无风的天气,上午10:00-12:00时间段进行飞行,该时间段光线状况好,有利于后期图像观察和处理。拍摄参数、航线规划在飞行任务执行前设置完成,数码相机的曝光模式选择自动,避免参数对图像产生影响。
长期试验区域内,共拍摄得到49张冠层图像,按照1∶4的比例,其中10张作为训练样本,39张作为测试样本。种质资源试验区域内,获取了40张冠层图像,这部分图像将被用于多基因型苎麻植株监测。
1.3.1 基于SVM分类目标样本
研究利用SVM分类算法快速对10张训练样本进行处理。HOG-SVM算法是一种广泛用于行人检测的算法:首先采用滑动窗口法扫描每幅图片的所有子窗口,进而通过目视检测得到尺寸为90×90 size的单株图像,提取单株图像的RGB特征和HOG特征,并借助SVM分类器实现全部单株图像的采集。图2为获取的单株图像。
图2 单株图像Fig.2 Single plant image
本研究所需要的数据包括训练样本、验证样本和测试样本。采用SVM分类算法获取的单株图像经过数据增强处理后,按照1∶3的比例分为训练样本和验证样本。测试样本为获取的39张冠层原图,采用labelimg软件对测试样本进行标注。
1.3.2 数据增强
Mosaic数据增强是一种在YOLOv5中提出的数据增强方式,被用于事先执行样本数据库的数据转化。这种数据增强方式通过随机缩放、随机裁减、随机排布的方式把4张图片拼接(图3)。采用该方法可以模拟密集场景下植被的状态,丰富检测物体目标及其背景。
图3 数据增强后的样本图像Fig.3 Sample image after data augmentation
1.3.3 地面采样距离计算
地面采样距离(Ground Sampling Distance,GSD)是指地面上测量的两个连续像素中心之间的距离,单位为cm/像素。研究通过改变图像的地面采样距离来模拟不同飞行高度下航拍的结果,计算公式如下[28]:
式中:H—飞行高度,m;Sw—传感器宽度,mm;imW—图像宽度,mm;Fr—镜头焦距,mm。
1.4.1 YOLOv5
目标检测算法包括两类:一类是One-Stage目标检测算法,如YOLO、SSD、CornerNet等,由于无须产生候选区域,One-Stage目标检测算法在速度上占有优势;另一类是Two-Stage目标检测算法,如R-CNN、Fast R-CNN、Faster R-CNN等,这类算法具有更高的准确度。YOLOv5的网络结构包括输入端、Backbone、Neck、Head 4 个部分:
(1)输入端。输入端主要包括Mosaic数据增强和自适应锚框计算。Mosaic数据增强即把4张图片通过随机缩放、随机裁减、随机排布的方式进行拼接。Yolov5通过运用自适应锚框计算,实现不同训练集最佳锚框值的计算。
(2)Backbone。Backbone包含Focus结构和CSP结构。Focus对图片进行切片操作,将输入通道扩充为原来的4倍。CSP结构用于形成图像特征,解决了梯度信息重复问题,将梯度的变化从头到尾集成到特征图中。
(3)Neck。Neck采用FPN+PAN结构来生成特征金字塔。FPN自上而下传递语义特征,PAN自下而上传递定位特征,这两部分的结合提高了特征融合。
(4)Head。Head主要用于最终检测部分。它在特征图上应用锚定框,并生成带有类概率、对象得分和包围框的最终输出向量。
1.4.2 Faster-RCNN
Fast R-CNN于2015年提出,其不仅被广泛地应用于作物表型分析,而且对各种作物和植物器官的检测做出了巨大贡献[29]。Faster RCNN已将feature extraction、bounding box regression、classification整合在一个网络中,使得其综合性能有较大提高,在提高训练和测试速度的同时提高了检测精度。
1.4.3 训练环境
本研究使用的机器为 Thinkpad P15 gen1,CPU为 Xeon W-10885M,8核16线程,GPU为Nvidia RTX5000,16G显存,64G运行内存,Windows10专业工作站版。YOLOv5采用CSPDarknet作为backbone,使用yolov5s预训练权重,SGD优化函数,初始动量为0.937,衰减参数为0.000 5,初始学习率为0.01,batchsize为16。Faster-RCNN采用resnet50作为backbone,使用resnet50的预训练权重,SGD优化函数,初始动量为0.937,衰减参数为0.000 5,初始学习率为0.01,batchsize为16。
在本研究中,Precision、Recall用于评估模型在训练和测试集上的性能。如果检测得到的边界框包含完整的单株植株,则认为其是正确的(true positive,TP),否则视为识别假阳性(FP)。当检测边界框内包含不完整植株时,这种结果视为假阴性(FN)。在此基础上,进行精度和召回度计算。具体公式如下。
均方根误差(Root mean square error,RMSE)和决定系数(Coefficient of determination,R2)用于评估模型在验证集上的性能,并对苎麻植株计数的性能进行量化。
式中:n—测试图像个数;Ri—参考计数;Di—检测计数;Ri—平均参考计数。
研究发现,数据增强方法能在一定程度上优化模型性能。原始单株图像为215个,通过裁切、平移、变换等数据增强,最终增加到1522个。为对比数据增强对模型的影响,在生成增强样本后,关闭Yolov5默认的数据增强方式,训练200次,共耗时19 min。由表1可知,数据增强前模型精度为0.920,增强后为0.981,精度上涨6.606%。模型召回率在进行数据增强处理后,由0.972降低到0.967,下降幅度为0.480%。结果表明,数据增强是在目标检测任务中处理数据量不足、提高目标检测精度的一种非常有效的方法。
表1 数据增强对验证样本检测结果的影响Table 1 The impact of data augmentation on detecting validation samples
如图4所示,数据增强前,模型 R2特别低,仅为0.03,RMSE为27.437。增强后 R2为0.728,RMSE为10.881。RMSE在进行数据增强处理后,降幅为60.342%。
图4 数据增强对测试样本检测结果的影响Fig.4 The impact of data augmentation on detecting test samples
图5为数据增强前后的检测结果,数据增强前,模型的漏检率很高,而数据增强后,目标的漏检率明显降低。这说明数据增强融合原始样本和增强样本进行训练,能提供更加稳健的识别模型,并在验证中得到更高的正确检测率。
图5 使用Yolov5数据增强前后的检测结果图Fig.5 Detection results of Yolov5 before and after data augmentation
采用Faster-RCNN模型进行训练,训练次数为200次,耗时1 h 27 min。由表2可知,YOLOv5和Faster-RCNN两种模型都能准确地识别苎麻:Faster-RCNN在验证集中具有较好的识别性能,检测精度为0.857,召回率为0.709;YOLOv5在指标上稍好于Faster-RCNN,在训练速度方面也明显快于Faster-RCNN。
表2 不同模型下验证样本检测结果分析Table 2 Detection results of validation samples with different models
通过测试集的植株计数准确率来对比YOLOv5和Faster-RCNN的检测效果(图6)。YOLOv5的检测效果明显优于Faster-RCNN,其R2为0.774,比Faster-RCNN提高了44.762%;YOLOv5模型的RMSE为10.549,比Faster-RCNN降低31.183%。因此,YOLOv5在苎麻株数检测任务中表现更加优秀,其更适合复杂情况下小目标作物的识别,以及对象之间存在重叠拥挤的情况。
图6 不同模型下测试集样本检测结果分析Fig.6 Detection results of test sets with different models
对图像原始GSD(0.250 cm/像素)进行缩小和放大。由表3可知,当GSD为0.125 cm/像素时,实际株数和预测株数间的拟合程度最好,决定系数为0.811。当图像的GSD为0.167 cm/像素时,R2达到0.806。对原始GSD进行缩小后,R2得到提升。因此,低GSD能在一定程度上提高预测性能。当GSD为0.500 cm/像素时,实际株数和预测株数间均方根误差最小(RMSE=9.001)。根据RMSE指标对不同GSD下的模型性能进行排序,表现为0.500 cm/像素>1.000 cm/像素>0.167 cm/像素>0.125 cm/像素>0.250 cm/像素。这表明GSD对监测的准确率存在影响,通过确定最佳GSD能够最大化模型的监测性能。另外。随着GSD的减小,测试每张图像所需要的时间逐渐缩短,测试原始样本所需要的平均时间为0.010 4 s,当测试样本GSD为0.125 cm/像素时,测试每张图像所需要的平均时间约为0.009 9 s,速度提升4.808%。
表3 不同GSD下YOLOv5的性能分析Table 3 Performance analysis of YOLOv5 at different GSDs
由图7可知,当测试样本为154份不同苎麻品种资源时,植株数量检测的效果较差,模型的R2为0.109,RMSE为12.422。这表明,基于单一品种、单一生育期或单一环境的作物植株监测具有很大的局限性,如果所构建的模型没有综合考虑各方面的因素,模型是无法推广的。数据增强的效果主要体现在同一品种以及生育阶段的目标检测上。因为其所采用的方式是简单的几何变换和光照变换,当训练集中只存在单一基因型或基因型多样性不足时,数据增强的效果很微弱。
图7 154份苎麻资源植株检测结果分析Fig.7 Analysis results of detecting 154 ramie resources
作物的植株计数有以下几个难点:(1)公共的作物标记数据缺少,阻碍模型在更多作物中的应用;(2)在大田环境中,检测场景更为复杂,除了会出现常见的遮挡问题、光照问题外,还需要考虑不同基因型的变化;(3)作物具有季节变化性,不同生育期作物形态差异明显。同时气候变化(多云、多风等)也会影响到遥感成像。因此,为田间作物建立训练模型的要求更加严格。考虑上述问题,研究确定了田间作物植株数量监测的局限性,同时,试验提出的结合数据增强和深度学习的方案是可行的,能够准确地实现复杂环境的稠密作物的计数。
准确计算大田环境下群体作物的株数对于作物育种、生产管理以及早期估产至关重要。然而当前大多数植株计数研究主要是针对单一品种或单一生育期进行。因此,确定作物计数监测的局限性是有必要的。
在样本量较少的条件下,利用数据增强扩充数据集是有效的。通过训练数据增强之后的样本数据集,苎麻植株计数模型的准确率明显提高。数据增强的优势在于,减少样本标记的工作量,增加训练的数据量,提高模型的泛化能力。当前,绝大多数作物并没有建立完整的大型带标记数据库,研究提出的方案对基于深度学习的研究具有借鉴价值。另外,通过几何变换、光学变换等方式增加噪声数据,还能提升模型的鲁棒性。
样本多样性缺乏是阻碍作物表型分析模型构建以及推广的重要因素之一。在单个试验中,获取包含不同生长环境、基因型以及其他具有可变特征的样本存在难度。利用数据增强或特殊手段创建虚拟样本,将很大程度上降低工作量并提高监测效果。研究测试了计数模型在多基因型下的表现,结果表明,当测试样本为多份不同作物品种资源时,模型的效果很差。数据增强处理解决了样本量不足的问题,使得在单个试验中获取较高的田间作物植株计数准确率具有可行性。但是,在处理样本多样性缺乏问题上,数据增强的作用很微弱。因为数据增强方法主要包括图像的翻转、缩放、位移、添加噪声等,这些操作无法生成不同品种或生育阶段的作物图像。由此可见,构建作物表型分析模型时,最可靠的方式是尽可能获取多样性丰富的原始图像,建立样本数据库。
近年来,越来越多的学者借助图像处理技术和深度学习的交叉应用[30],进一步提高植株计数的精度和计算速度。目标检测方法可以提供更加详细的信息,包括植株数量、单株作物的位置、大小等[31-32],同时,目标检测也进一步提高了作物植株识别的准确率。研究对比了当前常用的2种目标检测算法(YOLOv5和Faster RCNN)的应用效果,结果表明YOLOv5在小对象目标检测任务中具有一定优势。
研究基于无人机遥感系统获取的作物冠层RGB图像,采用深度学习技术统计苎麻植株数量。结果表明,研究检测到的苎麻植株数量与实际植株数量具有很高的一致性。这种方法显著优于传统的人工计数方法:首先,无人机遥感系统能够无损、快速、高通量地得到作物表型信息,降低人工计数的成本,省时省力;其次,无人机作业更多地克服了环境因素,提高了计数的准确性。
高分辨率的获得往往与航拍高度相关,通常来说,飞行高度越低,空间分辨率越大,GSD越小,即遥感影像上能够识别的两个相邻地物的最小距离越小。研究通过改变原始图像GSD来模拟不同航拍高度下获取的冠层图像,同时用于评估GSD对模型效果的影响。研究表明,基于高分辨率图像构建的模型具有更加稳定的性能,能显著提高捕获作物目标的精确度,但不同GSD下模型效果差异性不显著。当GSD为0.125 cm/像素时,YOLOv5被证明具有最佳性能。GSD越大,植株的特征信息越模糊,导致特征信息被忽略,模型的识别性能降低。还有一点需要注意,尽管改变图像GSD能够模拟航拍高度变化,但是飞行器旋转气流产生的运动模糊无法通过改变GSD来实现。在低空飞行下,无人机桨叶旋转产生的气流会导致作物冠层叶片结构不稳定,增加表型分析和检测的难度。因此,应在不影响图像质量的基础上,选择最佳航拍高度,尽可能获取高分辨率图像。同时,在提供高分辨率的同时,尽量控制无人机遥感系统的捕获吞吐量,提高飞行工作效率。
本研究提出了一种基于无人机遥感影像检测苎麻植株数的方法,解决了小样本、复杂作物背景、小而密集的检测目标的问题。结果表明,YOLOv5在小目标监测上具有优势,苎麻植株计数R2为0.728,RMSE为10.881。数据增强可以提高植物计数的效果,增强后识别准确率平均提高了6.606%。当地面采样距离为0.125 cm/像素时,苎麻植株计数模型可以取得最佳性能。无人机遥感与深度学习技术相结合,为作物密度监测提供了一种新的途径,该方法简单快捷,可广泛应用于其他作物类型的植株数量监测。