基于人体姿态估计与场景交互的果园喷施行为检测方法

2023-03-07 03:30宋怀波韩梦璇王云飞陈春堃

农业机械学报 2023年2期

宋怀波韩梦璇王云飞宋磊陈春堃

(1.西北农林科技大学机械与电子工程学院，陕西杨凌 712100；2.农业农村部农业物联网重点实验室，陕西杨凌 712100)

0 引言

近年来，我国果树种植业迈入高速发展时期。在目前的果园管理过程中，化学农药防治是消灭或控制有害生物胁迫的最主要的方法[1-2]，因此实现果园日常农药喷施行为的有效记录与监管对于助推果树种植产业生产的绿色转型、完善果品的溯源体系有重要意义[3-5]。现有果园农药喷施情况的评价和监管主要依赖自主提交的作业记录[6]，存在工作量大、工作效率低、准确性差及主观性强等问题[7]。视频数据具有可长效监测及不易篡改的特点，已成为行为监测研究的热点，实现人体动作及场景交互下的喷施行为自动监测是关键，对于果品溯源体系的完善具有重要意义。

针对果园日常监管过程中人工成本高，规模化种植果园监测难度大等问题，国内外学者开展了相关研究工作[8-9]。ZHAI等[10]提出了一种用于识别喷雾器行程的射频识别装置解决方案，同时设计了喷雾监测和引导系统，能够实现喷雾器行驶方向识别、位置识别、流量及喷雾量信息记录等功能。李震等[11]设计了一款轻巧、小型、便于安装的监测装置，能够获取农机的序列号、累计使用次数、工作时长、运行速率、经纬度位置以及有无故障等情况。

在我国，背负式喷雾器占比98%以上，是目前最为常用的喷药器械[12-13]。如何依据作业场景及操作人员动作信息，实现场景交互的喷施行为检测，对于提升喷施行为的检测精度具有重要意义。在人体行为识别研究方面，计算机视觉以其低成本、高效率、信息丰富稳定等优势得到了广泛应用[14-15]，而基于场景交互的人体行为识别近年来更是在相关领域中发展迅速[16]。在家庭安防、跌倒检测、快递分拣、驾驶安全、摩托车盗窃检测等方面取得了较好的效果[17-21]。场景交互下的行为识别算法充分考虑了目标与活动场景间的关联关系，是未来复杂环境下行为识别的重要研究方向。

综上，本研究拟提出一种基于人体姿态估计与场景交互的果园喷施行为检测方法，首先将喷雾器和果树在训练时进行分类标记，并利用自建数据集训练优化YOLO v5模型，之后采用OpenPose模型完成果园复杂环境下的人体姿态估计，完成人体目标的跟踪和识别。并将相关数据整理组成总特征向量，采用SVM模型完成分类工作，从而实现果园喷施行为的准确识别。

1 果园喷施行为识别数据集构建

1.1 果园喷施行为视频数据集

由于果园喷施行为监控视频的公用数据集较少，因此本研究以西北农林科技大学园艺实验教学基地的苹果园为例，采用自建数据集进行喷施行为识别与评价。为达到在果园内所有果树周围都能够捕捉到操作人员的人体关节点并识别果树和喷雾器的要求，以长宽比为a∶b(a>b)的苹果园为例，设行距为4 m，株距为2.5 m，其摄像头布点方案的俯视图如图1所示：在宽边的每两行果树间布置1个摄像头，确保人体不会被枝叶遮挡；在长边每隔6株果树(15 m)安装焦距为12 mm的1个摄像头，确保监控范围内的果树和喷雾器目标不会因像素过低而难以识别；摄像头布点方案的剖面图如图2所示，监控视频主要是为了识别人体农药喷施行为，因此摄像头高度为2.5 m，略高于人员头顶，同时摄像头安装时向下的倾斜角度在5°～15°之间，确保在监控内人体关节点的角度不会变形，同时最大监控范围可达35～40 m。

图1 果园内摄像头布点方案俯视图

图2 果园内摄像头布点方案侧视图

试验数据采集时间为2021年10月15—25日和2022年5月1—3日，喷雾器选择WDB-20型背负式蓝色电动喷雾器。拍摄设备为海康威视高清夜视户外摄像机，型号为DS-IPC-B12V2-I/PoE，焦距为12 mm，分辨率为1 920像素×1 080像素，拍摄时间为07:30—09:30和16:30—18:30，每段视频拍摄时长平均为8～15 s。果园管理人员的喷施行为示意图与实际场景视频截帧如图3所示，为人体背负喷雾器在果树一侧上下运动手肘进行喷施。本研究共采集包括喷施行为等3种主要情况的92段视频。图4所示分别为存在针对果树的喷施行为(存在喷施动作)，有喷雾器但无果树的其他行为和有果树但无喷雾器的其他行为。

图3 果园喷施行为示意图

图4 果园3种主要情况的视频截帧

同时为验证果园复杂情况下模型的鲁棒性，如表1所示，在具有喷施行为的83段视频中，分别以遮挡、距离变化、光线变化(日出后1 h、日出后2 h、日落前2 h和日落前1 h)和多人出现且1人进行喷施行为等情况为4种主要条件测试喷施行为的识别分类效果，其中距离变化条件中以喷雾器与相机距离近(3～7 m)、中等(7～10 m)、较远(10 m及以上)和持续变化(3～10 m)4种情况加以分类，每种类别的视频均写明该类别中正常光照、逆光和阴天条件的视频数量。该数据集包括了果园众多复杂的干扰因素(光照变化、人或工具遮挡、枝叶遮挡、距离变化和人员复杂等)，使喷施行为的识别分类工作具有实际借鉴意义。

表1 果园喷施行为视频信息统计

1.2 果园喷施行为图像数据集构建

训练果园喷施行为识别模型所需的数据集构建工作包括两部分：

(1)对果树与喷雾器等交互场景目标的识别：从各类别试验视频中随机选取10段视频分解为序列帧，随机选取2 000幅(逆光269幅，阴天961幅，正常光照770幅)图像，分辨率为1 920像素(水平)×1 080像素(垂直)。使用LabelImg标注工具对图像中的果树与喷雾器目标进行人工标注，确保喷雾器的箱体部分与果树的主干部分均在边界框范围内，标注信息包括目标的类别、位置和长宽信息。为实现果树与喷雾器目标的识别与分类，本研究将这些标签图像按照8∶1∶1的比例分别输入YOLO v5目标检测网络进行训练、验证和测试。

(2)对人体关键关节点的识别：喷施行为识别模型所需的人体姿态数据是人体关键关节角度。基于此采用基于PyTorch的OpenPose模型对92段视频进行测试。以ZHE等[22]的关节点标注结果为参考，分别保存视频中每帧图像的18个关节点坐标识别结果和人体检测框数据(位置和长宽信息)。包括18个关节点坐标的数据集将在预处理后作为果园喷施行为识别模型的训练集和测试集，用于检测果园喷施行为模型的相关性能。人体检测框数据作为后续可视化测试结果的参数保存。

本研究使用的开发平台配置如下：CPU处理器为AMD Ryzen 7 4800H with Radeon Graphics；GPU显卡为NVIDIA GeForce GTX 1650 Ti显卡；采用Python语言编程；操作系统为Windows 10。

2 基于人体姿态估计和场景交互的果园喷施行为检测模型构建

本研究采用基于人体姿态估计和场景交互模型的果园喷施行为检测模型，对果园监控视频中管理人员的喷施行为进行识别分类。如图5所示，该模型首先利用图像数据集训练YOLO v5模型，将测试视频中的喷雾箱和果树检测框的位置信息存储，并计算喷雾器和果树检测框中心值的最短距离作为场景交互特征向量输出。同时利用OpenPose模型存储测试视频的18个人体关节点像素值坐标，并计算人体关键关节点角度，完成人体姿态特征向量的提取。之后采用场景交互和人体姿态特征向量训练SVM分类模型，从而实现果园喷施行为的识别。

图5 总体技术路线图

2.1 基于YOLO v5的喷雾器和果树目标检测

果树、喷药器械及作业人员等场景交互信息的准确识别是喷施行为检测的基础。为了避免光照、遮挡等复杂因素的影响，本研究中的交互场景目标识别算法采用YOLO v5轻量级检测模型[23]。YOLO v5使用跨阶段局部网络(Cross stage partial darknet53, CSPDarknet53)作为Backbone，从输入图像中提取丰富的信息特征；它基于Mask R-CNN和特征金字塔网络(Feature pyramid network, FPN)，采用路径聚合网络(Path aggregation network, PANet)和空间金字塔池化(Spatial pyramid pooling, SPP)作为Neck来聚合特征，加强了信息传播；使用YOLO v3的Head实现目标检测。基于YOLO v5实现喷雾器和果树目标检测的主要步骤如下：

(1)数据集准备：对原始视频经过随机截帧获取图像2 000幅，手动标注图像中所有果树和喷雾器目标以完成数据集准备，按照1.2节划分比例进行处理。

(2)YOLO v5目标检测模型的训练。为实现喷雾器和果树目标检测，本研究使用YOLO v5模型训练果园喷施行为数据集，模型内存占用量仅有14 MB。在本研究中使用以COCO数据集进行预训练后的YOLO v5模型，参数设置如表2所示。

表2 参数设置

训练集、验证集和测试集用于训练、验证和测试 YOLO v5喷雾器和果树目标检测。图6显示了训练期间边界框回归损失函数、目标检测置信度损失函数和分类损失函数曲线，可以看出，喷雾器和果树目标检测模型训练的初始阶段模型学习效率较高，训练曲线收敛速度较快，随着训练次数的增加，检测框、目标检测和分类的准确率逐渐增加，训练的斜率曲线逐渐减小。

图6 训练结果相关曲线

采用精确率(Precision)、召回率(Recall)、F1值、交并比(Intersection over union，IoU)为0.5时求得的平均精度(Average precision)AP@0.5和平均精度均值(mAP)mAP@0.5、IoU以0.05为步长从0.5取到0.95时的AP和mAP求平均后得到的AP@0.5:0.95和mAP@0.5:0.95等指标来评价目标检测模型的准确性和有效性。其中IoU是评价边界框正确性的度量指标，表明检测框与真实标签的交集和并集的比值。各项指标数值如表3和图7a、7b所示，结果表明喷雾箱类别的识别效果整体优于果树类别，主要是因为果树的形态多变，检测框与真实框重合度较低和漏检等问题比喷雾箱的识别更容易产生。部分算法训练效果如图7c所示，可以看出在复杂背景下该模型能够识别喷雾器和果树目标，其中严重遮挡的喷雾器依然可以准确检测。同时如图8所示，当喷雾器颜色与工作人员的服装颜色近似时，在暗处和明处的识别效果都比较准确，未能识别的情况均为药箱遮挡严重，而非因颜色相近。该模型的训练结果满足后期对喷施行为识别的要求。

表3 训练结果

图7 目标检测结果

图8 服装与药箱颜色相近时的喷雾器识别结果

(3)提取场景交互特征向量：将试验视频中每帧存储的检测框喷雾器和果树类别与中心位置信息预处理后，提取喷雾器中心坐标(Xs,Ys)和与该向量距离最近的果树中心值坐标(Xt,Yt)共同作为一组特征向量，并计算果园农事操作人员与果树的距离Dst

(1)

为后续喷施行为的识别分类工作奠定基础。

2.2 基于OpenPose模型的人体喷施行为检测

即使实现了喷施人员、果树及喷施器械的精确识别，若无相关喷施动作行为，也无法准确判别是否进行了喷施作业。本研究的人体喷施行为检测算法采用OpenPose算法[22]，OpenPose人体姿态识别算法是基于卷积神经网络和监督学习的开源库，可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人，具有良好的鲁棒性。它的网络结构后半部分为2个平行的卷积层分支：第1个分支实现对人体关键点坐标的预测；第2个分支采用关键点亲和场算法实现人体关键点的连接。

基于OpenPose的人体喷施行为检测步骤如下：

(1)对92个测试视频采用基于PyTorch的OpenPose算法进行人体目标检测，平均检测速度为6.38 f/s，部分检测结果如图9所示。将每帧18个人体关节点坐标和人体检测框数据(位置和长宽信息)存储至文件中，为后续人体关键关节点坐标的角度计算奠定基础。

图9 OpenPose模型检测效果

(2)提取人体姿态特征向量。将包括18个人体关节点的坐标信息进行预处理，通过观察操作人员的喷施行为特点，提取18个关节点中的脖子(X1,Y1)、右肩(X2,Y2)和右肘(X3,Y3)作为关键关节点，人体姿态特征p计算式为

(2)

其中

(3)

从而完成果园农事操作人员的姿态区分。

2.3 基于SVM分类方法的果园喷施行为识别

本研究构建的果园喷施行为识别模型中的行为识别分类部分由SVM完成[24]。本文拟将视频的每帧分为非喷施行为(Not Spraying)、喷施行为(Spraying)和无法识别(Unrecognized)3种结果，因此需要多分类的SVM，其实现是通过在任意两类行为之间设计1个二分类模型，并组合多个二分类器实现多分类器的构造。基于SVM模型的果园喷施行为识别主要步骤如下：

(1)数据集准备。在92段视频中共选取38段视频，共11 244帧图像，对每帧图像的输出结果进行预处理，将场景交互特征向量d和人体姿态特征p作为每帧图像的特征向量，并完成对它们的标注分类，标签为“0”(Not Spraying)、“1”(Spraying)、“2”(Unrecognized)。在进行标注时，对照试验视频的每帧图像实际行为，将手臂上抬和下落完成喷施动作在一定范围，且满足喷雾器与果树距离相近的标注为“1”；将p缺失情况标注为“2”，其他情况均标注为“0”。数据集被划分训练集(8 995组特征)和测试集(2 249组特征)的比例为8∶2。

(2)果园喷施行为识别模型训练。采用PyCharm环境，scikit-learn库中的OneVsRestClassifier实现多分类。由于每个类别仅由1个分类器表示，因此可以通过检查其对应的分类器获取有关该类别的信息[25]。

(3)识别分类结果输出。试验视频采用本研究训练完成的OneVsRestClassifier模型，将检测结果的标签以时间序列标记在该视频中的人体检测框上并输出视频，完成果园喷施行为的识别分类工作。从图10a可以看出，视频5中人员行走姿势被识别为“Not Spraying”，图10b中人员喷施行为被识别为“Spraying”。结果表明，对于操作人员的不同姿势，本研究可以根据对喷雾器和果树的目标检测和对人体姿态角度的计算，利用SVM分类器有效完成对果园喷施行为的识别分类。

图10 识别结果截帧

2.4 模型评价指标

本研究使用的行为识别评价指标为准确度、平均绝对误差、均方根误差、预测标准偏差和性能偏差比，准确度越高表明该方法检测喷施行为越准确，平均绝对误差、均方根误差和预测标准偏差越低则表明该方法在不同光线、不同距离、不同人数和不同遮挡程度等条件下的检测喷施行为稳定性越好，性能偏差比在1.5以上的范围内越大表明模型越好。

3 试验结果与分析

采用表1中的92段试验视频进行了测试。检测结果如图11所示，92段视频的准确度为85.66%。平均绝对误差为42.53%，均方根误差为44.59%，预测标准偏差为44.34%，性能偏差比为1.56。图12a为第11号试验视频的301帧按时间序列排列的行为真实结果，图12b为采用本模型的第11号试验视频的301帧按时间序列排列的行为识别结果，其中蓝色部分表示非喷施行为，黄色部分表示存在喷施行为，红色部分表示无法识别该行为，可以看出图中两种色带基本重合，最终计算可得第11号视频的准确度为96.68%。

图11 试验视频的准确度变化曲线

存在果树喷施行为的83段视频准确度为85.60%，仅有喷雾器的2段视频检测准确度为85.10%，仅有果树的7段视频检测平均准确度为86.48%，表明该模型能够较好完成针对果园操作人员日常行为和喷施行为的区分，动作和农事器具的改变对模型检测结果的影响不大。

在室外环境下，光照的变化会使果树、喷雾器和人体的识别变得更加困难，因为光线变化会改变拍摄视频的色调和明暗，对于识别造成一定干扰，因此需考虑光照变化对识别结果的影响。本研究中分别拍摄了正常光照、阴天和逆光照条件下的45、34、13段视频。3种条件下喷施行为识别分类的准确度分别为86.43%、88.50%和74.70%。试验结果表明，果园喷施行为的识别准确度在正常光照和阴天条件下均表现优秀，但在逆光照条件下准确度较低。

有光线变化条件的正常光照(45段)和逆光照(13段)试验视频共计58段。人体喷施行为识别结果部分检测帧如图13所示，可以看出在不同光线变化下的识别效果均比较准确。在4种光线变化下的识别结果对比如表4所示，行为识别准确率基本在80%以上。在日出后1 h和日落前1 h，光线较为柔和的条件下识别效果更好，而在光线较强时受光斑和阴影干扰，识别效果相对较差。

图13 不同光线条件下的部分识别结果

表4 不同光线条件下人体喷施行为识别结果对比

4 讨论

果园喷施行为的识别检测通常在复杂的室外环境进行，干扰因素较多，同时人体姿态的识别涉及到多个关键关节点，计算难度增加，行为识别困难，因此为验证该模型的鲁棒性，分析对比了影响果园喷施行为识别检测的主要因素。

4.1 本文算法与现有研究结果比较

目前尚未发现对于果园操作人员行为监控识别的相关研究，虽然结合物体特征的人体行为识别类算法取得了一定的效果，但是难以适用于果园环境下人员行为的识别监测。因此本研究采用人体姿态识别和场景交互结合的模型，完成对于果园喷施行为的识别。测试结果表明，平均准确度为85.66%，可为果品溯源体系中果园农药施用等喷施行为的监管提供技术参考。

4.2 距离因素对果园喷施行为识别结果的影响

摄像头与人体的远近变化可能会给果园喷施行为的识别带来一定负面影响。因此，为探索该模型对摄像头距离变化干扰的鲁棒性，本研究需要分析和讨论在具有4类常见距离变化干扰的试验视频中的相关性能。图14显示在不同距离时，采用训练后的YOLO v5模型对于喷雾器和果树的识别结果。可以看出，训练后的YOLO v5模型可以在果园环境中识别到不同距离时的果树及喷雾器目标，为人员行为的识别检测奠定了基础。图15分别显示了在近、中等和较远距离情况下本模型的果园喷施行为识别结果。

图14 不同距离时目标的识别结果

图15 不同距离时行为的识别分类结果

图16为第5号试验视频的3种行为真实结果和采用本模型检测的3种行为识别结果的时间序列可视化对比结果。可以看出，以第5号视频为例，在人体和摄像头的距离快速变化的干扰下，对于人体姿态的捕捉和行为分类结果并未产生影响。结果表明该模型能够适应姿态变化和目标距离变化的两种影响，完成果园内人员喷施行为的识别。

图16 第5号视频行为识别结果对照

如表5所示，该模型在不同距离时的行为分类结果，准确度最低为79.57%，而果园架设摄像头的真实场景中最多出现的中等距离和远距离条件下，喷施行为识别分类结果准确度为91.25%，表明该模型对果园喷施行为识别的距离因素干扰具有良好的鲁棒性。

表5 不同距离时的行为分类结果对比

4.3 遮挡因素对果园喷施行为识别结果的影响

在果园环境中，常见的遮挡干扰因素为喷雾器和人体关节点的遮挡，图17a为第1号试验视频中存在严重遮挡的某帧喷雾箱识别结果，图17b为存在遮挡的某帧人体识别结果。即使在背景复杂的果园室外环境中，该模型的前期训练结果仍可有效识别人体和喷雾箱。

图17 第1号视频中目标检测结果

图18为第2号视频中部分帧的果园喷施行为识别结果。可以发现，该模型成功分类了302帧中94.24%的果园操作人员的行为。

图18 第2号视频中行为分类结果

图19呈现了在时间序列中，第3号试验视频的行为真实结果和采用本模型检测的行为识别结果的可视化对比结果。结果表明，在人体上肢或喷雾器发生严重遮挡时，本研究提出的模型易发生漏检和误检情况，这是因为喷雾器目标或人体上肢关键关节点数据读取不全，发生误判导致的。

图19 第3号视频行为识别结果对照

92个测试视频中，针对有严重遮挡情况的视频模型，模型识别准确度为86.71%，表明该模型可以有效识别在果园发生复杂遮挡时的人员喷施行为。

4.4 人员因素对果园喷施行为识别结果的影响

在果园环境中，人员流动复杂，因此含有多人且单人喷施行为的识别也是模型识别结果的重要考量因素。

该模型主要针对测试视频中单人背负喷雾器的情况进行识别，对于视频中含有多人的情况，将喷雾器与离其最近的人体识别结果相对应存储，再进行后续识别工作。在2段包含3人的试验视频中，模型识别准确度为72.33%，其中第43号试验视频的识别准确度为63.25%，主要原因为该视频中的果树目标识别率较低，影响了喷施行为的识别。测试结果表明，若处在喷施行为中的单人能够在视频初始帧中被首先识别完成并在视频中被持续跟踪，则该模型能够有效识别多人情况中的单人喷施行为。

5 结论

(1)该方法对于试验视频中3类行为的识别平均准确率为85.66%。在光照、遮挡、多人情况下仅一人背负喷雾器和距离变化等4种情况下该方法的鲁棒性较好，能够用于识别果园中的喷施行为。同时该方法在视频环境的光线较弱时更适合，当光线过强时会因光斑和阴影使识别结果产生较大误差。

(2)该方法可以通过视频监控对摄像范围内的果园喷施行为进行识别，摆脱了人为记录喷雾次数导致的疲劳和低信任度。同时，喷施行为的有效识别对于后期判断农药是否科学喷施、是否农药过量、检测农药残留和检测农药有效沉积等均能提供重要参考，进一步帮助果园的智能化和自动化发展，完善果品溯源体系。

(3)在多人情况下，由于方法中尚未涉及目标跟踪和目标重新分配的相关问题，只能对背负喷雾器的一人完成识别，不能识别多人均背负喷雾器时的行为。当逆光严重或人与摄像头的距离过近时，会由于喷雾器和果树距离的距离像素值过高而增加产生误识别的几率，因此摄像头的安装位置会在一定程度上影响行为识别结果。

(4)本研究未针对喷雾器的雾液进行检测与交互，即若监控中果园操作人员仅举着喷雾杆摆动手臂但没有喷施药液的情况下会误判，但该情况发生概率在实际生产中较低，因此未纳入考虑范围。同时，虽然人体可能在镜头下发生一定时间的畸变和消失，但在实际生产生活中，果树的叶面肥料和农药施用仅在镜头死角发生的情况较少，后续通过捕捉视频帧即可判断是否发生喷施行为。因此本研究后续将改进网络，完成分类的实时性、增加对喷施次数的记录、捕捉关键帧和实现多人同时检测的功能，实现对果园喷施行为的实时监测和信息记录。