栽培苜蓿草地智能感知系统关键生物物理指标实时监测及分析算法研究

2023-12-08 15:30苗春丽李仲贤赵志成伏帅高金龙刘洁冯琦胜梁天刚

草业学报 2023年12期

苗春丽，李仲贤，赵志成，伏帅，高金龙，刘洁，冯琦胜，梁天刚*

（1. 兰州大学草地农业科技学院，草地农业生态系统国家重点实验室，兰州大学农业农村部牧草创新重点实验室，兰州大学草地农业教育工程研究中心，甘肃兰州 730020；2. 兰州大学网络安全与信息化办公室，甘肃兰州 730000；3. 宁夏彭阳县畜牧技术推广服务中心，宁夏彭阳 756500）

苜蓿（Medicago sativa）因具有产量高、营养丰富、适口性好、易于家畜消化等特点［1］，成为世界上广泛种植的优良牧草，素有“牧草之王”的美称［2］。随着畜牧业的大力发展以及农业结构的调整，苜蓿作为优质牧草，在我国北方地区大面积集约化种植，极大地促进了苜蓿产业的发展［3］。近年来，我国栽培苜蓿规模化生产优势明显，但与发达国家相比，仍然存在生产管理较粗放，在大部分生产区域尚未实现水、肥、药的一体化精准管控，苜蓿生产过程缺乏数字化、智能化的管理系统，苜蓿生产及管理效率低下，生产成本逐年增加等问题，严重制约着苜蓿产业综合竞争力的提升和高质量发展。

智慧农业是以信息和知识为核心要素，通过互联网、物联网、大数据、人工智能（artificial intelligence， AI）和智能装备等现代信息技术与农业跨界融合，实现农业生产全过程的信息感知、定量决策、智能控制、精准投入、个性化服务的全新农业生产方式，是农业信息化发展从数字化到网络化再到智能化的高级阶段。智慧农业整合生物技术、信息技术、智能装备三大生产力要素［4］。美国、英国、澳大利亚、法国、德国、日本等国家围绕智慧农业进行了广泛的布局，分别出台了“人工智能研发战略计划”“产业战略白皮书”“农业4.0 手册”“农业创新2025”“数字农业”“社会5.0”等政策，预计2015-2025 年全球智慧农业市值将达到683 亿美元［5］。我国 “十四五”规划提出要发展智慧农业，目标是用电脑强化人脑、用机器替代人力、用自主替代进口，实现生产智能化、作业精准化、管理数字化和服务网络化［6］。智慧农业的迅速发展为栽培苜蓿精细化管理提供了新契机。因此，迫切需要加快转变苜蓿产业发展方式，从粗放发展模式向精细管理发展模式转变。利用地面物联网等方法构建栽培苜蓿观测技术体系，建立栽培苜蓿生产大数据分析与决策管理平台，有利于推进栽培苜蓿资源环境数字化，加强栽培苜蓿生产过程监控、灾害动态监测和智能作业，服务宏观管理决策，指导栽培苜蓿生产，推动生产管理的数字化、网络化和智能化发展。

智慧农业包括智能农业装备、智能传感器系统、智能无人机、智能机器人、软件等主要技术。在智能感知系统研发及应用方面，吴文斌等［7］构建了天空地一体化的果园感知系统，开发了天空地遥感大数据驱动的果园生产诊断与作业决策系统，优化果园资源要素配置，提高果园生产率、土地产出率和劳动生产率，打造出了新型的果业生产发展模式；李岩等［8］针对农作物的长势与农业灾害监测需求，集成北斗导航定位、遥感、通信等技术，建成以北斗导航数据与军民高分数据融合应用为主体，研发面向农机监控管理、作物长势监测、农业植保管理的具有区域特色的农业监测应用系统，为农作物长势监测、气象灾害监测、病虫害监控、无人机施药管理、农机态势监测和农作物节水灌溉提供了技术手段；柳平增等［9］针对精准变量播种、施肥、施药及自动灌溉等作物生产关键环节的管理，研究设计了精准农业信息感知系统。然而，已有的田间系统大多数主要侧重于智能传感系统的设计，并且使用的样本来自单一地区，其适用性有限且并没有在后台应用盖度与产量相关算法模型，不能实时分析和计算作物的盖度和产量。

国内外在农作物盖度和产量卫星遥感方面开展了大量研究工作，如张加楠等［10］、伏帅等［11］、周涛等［12］采用不同算法分析了玉米（Zea mays）、天然草地和植被的覆盖度；Li 等［13］使用了无人机RGB 高分辨率遥感影像和Otsu阈值法从裸土中提取马铃薯（Solanum tuberosum）植物对象，开发了半自动化图像分析软件来估计作物出苗情况。研究结果表明，该方法是一种有前途的高通量表型方法，可用于评估马铃薯在出苗阶段的发育情况。邓璐希［14］使用无人机影像技术和支持向量机（support vector machine， SVM）的分类模型，来识别无人机影像中的不同颜色的开花覆盖度，并发现不同颜色的开花覆盖度与传粉者数量呈指数关系。王成波［15］使用无人机遥感技术获取玉米可见光影像，选取不同的植被指数进行可见光图像阈值分割，较好地提取了夏季玉米在四叶期、拔节期、抽穗期和花粒期的植被覆盖度。以上研究均利用无人机影像数据采用机器学习或阈值法对农作物覆盖度进行计算，虽然取得了不错的识别效果，但是普遍存在精度偏低、样本量较少、研究区跨度较小、模型普适性低等问题。针对以上研究的不足，本研究将利用四省区的无人机影像数据集和U-Net 算法为栽培苜蓿智能感知系统建立一个精度和普适性更高的栽培苜蓿盖度估算模型。

近年来，随着无人机和近地表传感器技术的不断发展，越来越多的农业应用场景开始采用机器学习等方法来实现栽培农作物的生长动态监测和产量估算。然而，在苜蓿等作物方面，对于在盖度及产量等关键生物物理指标算法构建及应用方面的探索研究还相对不足。许多学者针对小麦（Triticum aestivum）［16-17］、水稻（Oryza sativa）［18］、玉米［19］、棉花（Gossypiumspp.）［20］、马铃薯［21］、大豆（Glycine max）［22］等大宗农作物开展了长势监测和产量估算研究，费时费力且效果不稳定。已有的研究成果表明，使用机器学习算法可以显著提高栽培苜蓿生长状态的监测精度和可靠性。例如，竞霞等［23］利用高光谱遥感数据，以及贝叶斯岭回归（bayesian ridge regression，BRR）、支持向量回归（support vector regression， SVR）和偏最小二乘（partial least squares regression， PLSR）等方法对广东省钟落潭试验基地水稻进行估产分析，结果表明，当输入参数组合为全波段光谱协同作物群体长势参数、作物养分吸收量时，BRR 模型对产量的估算精度达到最高，R2为0.94。尹瀚民等［24］利用Landsat 影像与双循环神经网络模型对哈萨克斯坦北部地区的春小麦进行了估产分析，春小麦产量与植被净初级生产力（net primary productivity， NPP）相关性分析结果显示，北哈萨克斯坦州、阿克莫拉州和库斯塔纳州决定系数（R2）在0.50 以上，面积占比分别为44%、94%和77%。余新华等［25］利用一种基于多光谱卫星遥感数据和作物生长模型估算农作物产量的模型框架（soil-crop yield model， SCYM）来估测安徽省冬小麦的产量，研究结果显示，2012-2018 年实测单产平均值为6058.00 kg·hm-2，SCYM 估算单产平均值为5984.95 kg·hm-2，且估算产量与实测产量的年际时间序列的相关性为0.822，均方根误差(root mean square error,RMSE）为189.96 kg·hm-2，SCYM 估产框架对安徽省冬小麦产量估算具有一定的可行性，在产量预测方面效果良好。尽管已有研究在栽培苜蓿产量估测方面取得了较高的模型精度，但是仍存在一些问题需予以解决。其中，利用遥感卫星数据的时间分辨率较低，受到云的干扰影响，导致产量模型误差增大；此外，遥感影像数据的采集和处理需要大量人力物力，增大了成本。同时，由于影像过境时间和野外实测时间存在一定的误差，实测产量与影像监测产量不能够实时匹配，限制了监测的准确性。另外，现有模型中的变量多为遥感数据等，基于植物生物物理指标变量的模型研究不足，模型变量较为复杂，不利于栽培苜蓿智能感知系统的快速监测。因此，针对上述问题，本研究将利用机器学习等算法为栽培苜蓿智能感知系统建立一个更为高效、准确和稳定的苜蓿生长状况的动态监测和产量估算模型。

基于以上因素的考虑，本研究将利用四省区2018-2021 年地面大量观测数据和无人机图像及视频资料，采用传统统计方法和机器学习算法，构建用于智能感知系统的统一、标准化的苜蓿盖度和产量动态反演算法，以期为多点位高时频的网络化、自动化和智能化数据实时采集与动态分析提供技术支撑，为栽培苜蓿草地的田间科学管理提供智能化的信息服务。

1 材料与方法

1.1 栽培苜蓿智能感知系统

本研究组装的栽培苜蓿智能感知系统包括多种地基传感器，可实现苜蓿生长环境和关键生物物理信息的快速感知、采集、传输、存储和可视化，可以解决传统栽培苜蓿遥感监测和地面调查中数据时空不连续的难点问题，可显著提高信息获取的保障率和时效性，实现对栽培苜蓿生产信息全天时、大范围、多点位的动态监测与管理。从技术体系看，栽培苜蓿智能感知系统主要由地面传感网智能感知和决策支持系统两大子系统构成：1）地面传感网智能感知系统。通过物联网和传感器技术建立无人值守的固定点位的栽培苜蓿智能感知系统，可自动、连续和高效获取苜蓿植物关键生物物理和生长环境信息。其中，生长环境信息主要包括气象和土壤参数，其中气象因子包括空气温湿度、风速、风向、降水量等指标，土壤因子包括分层温湿度等指标。同时，还可以获取栽培苜蓿返青、开花、刈割等关键时期的长势和产量等信息。地面传感网感知系统的构建，可以为苜蓿生产大数据研究与应用提供基础数据支撑。2）栽培苜蓿草地管理决策支持系统。结合手机、平板电脑、无人机等终端平台，利用人工智能等技术深度挖掘智能感知系统获取的数据，还可以综合分析栽培苜蓿草地产量、品质、病虫害和干旱等方面的信息，为苜蓿产业高质量发展决策提供信息服务。

从功能看，基于物联网的栽培苜蓿智能感知系统主要包括 3 个方面的信息服务内容：1）气象灾害评价。以气象灾害应急管理为目标，利用土壤温湿度传感器和多种气象观测传感器，分析旱涝灾害、低温冻害等气象灾害发生的时间、频率和强度，建立灾情动态监测及其对栽培苜蓿生长和刈割影响评估技术，进行实时监测与快速预警，提升栽培苜蓿产业对灾害的应急管理能力；2）水肥管理。利用地面土壤、气象传感器和图像、视频监测数据，综合分析栽培苜蓿生长发育特征，构建栽培苜蓿水肥诊断模型，研究水肥一体化调控方法，为栽培苜蓿水肥科学管理提供科技支撑；3）生长状况及产量评估。利用苜蓿植物超声波传感器和图像、视频监测数据，构建栽培苜蓿盖度及产量反演模型，实时动态提供诊断分析；基于栽培苜蓿生长发育及其周边微环境变化等因素之间的关系特点，构建栽培苜蓿生长模拟模型，动态监测栽培苜蓿生长过程，为栽培苜蓿适时刈割等管理提供信息服务。生产过程的智能监测与分析是栽培苜蓿生产智能管理的核心。随着传感器技术的发展和成本的不断降低，利用精度更高功能更加完备的传感器（如高清照相机、定制化的多光谱仪等），可以进一步提升栽培苜蓿智能感知系统的功能，对栽培苜蓿病虫害等生物灾害，以及对牧草品质进行诊断和评估。

1.1.1 地面传感网智能感知系统栽培苜蓿草地智能感知系统中的地面传感网智能感知系统是一种单片集成的多传感器系统（图1）。该系统包括土壤温湿度传感器、多项气象指标观测传感器、植物超声波传感器、高清摄像头以及在一片芯片上为每个传感器设计的外围电路（图1）。目前该设备已经在监测点宁夏自治区彭阳县白杨庄村（106.799848° E， 35.997256° N）应用。

图1 地面传感网智能感知系统Fig.1 Ground sensor network intelligent perception system

超声波传感器采用DYP-A16-V1.0，其盲区距离为508 cm，平面物体量程达50～1500 cm，测量精度达±（1+S0.3%）。其拥有防尘防水、远距离测距稳定、低功耗供电、精确度高、带有温度补偿功能、适应户外等恶劣环境、抗干扰强、兼容多种输出方式等优点。主要监测栽培苜蓿的草层高度；高清摄像头传感器运用GoPro 10（https： //gopro.com/zh/cn/shop/cameras）运动相机，采用GP2 处理器，具有2300 万高分辨率像素，传输影像达60 FPS·S-1，具有可同时保证5.3 k 分辨率和360° 6 k 视频功能。此外，GoPro 运动相机的质地轻盈，能更加迅速地捕捉影像。同时具有图像稳定功能，可确保视频画面稳定清晰。该设备主要应用于栽培苜蓿影像的获取，以及苜蓿草地盖度、产量等信息的智能分析。

土壤传感器（VMS-3005-TR-6EC6W6S-N01），主要进行不同分层土壤温湿度的监测；气象传感器采用聚英全自动气象指标采集系统，包括LORA 气象采集网关、无线路由器、气象监控主机箱及各类传感器，可自动观测风速、风向、雨量、太阳辐照度、空气温度、空气湿度、PM 2.5 等指标。

1.1.2 栽培苜蓿草地智能感知与决策系统（web端）栽培苜蓿草地智能感知与决策系统包含设备管理、知识库、智能分析、系统管理等4 个模块，旨在将地面传感网传回的数据进行实时分析。对监测点栽培苜蓿草地的降水量、土壤温湿度、空气温湿度、风向、风速、紫外线等指标进行实时数据传回，其中拍摄的苜蓿植物实时照片和视频，能够对栽培苜蓿的长势、盖度、产量、病虫害等通过后台算法进行实时计算和分析。

1.2 栽培苜蓿智能感知系统数据来源

为了构建我国北方地区栽培苜蓿盖度和产量智能感知算法，本研究采用了2018-2021 年兰州大学草地农业科技学院草地遥感与信息管理研究团队在新疆、内蒙古、甘肃、宁夏等省区开展完成的栽培苜蓿野外观测数据库（https：//herbs.aiplants.cn/）。该数据库包含在栽培苜蓿生长季开展的9 次外业调查数据记录，总计有555 个样方和185 个样地数据（图2，底图无修改）。在外业调查时，样地选在大于10 m×10 m 的苜蓿地块，每个样地内包括均匀设置的3 个0.5 m×0.5 m 的样方，采样点记录的内容包括经度、纬度、高程、苜蓿植物盖度、高度、鲜重、干重等指标，及无人机拍摄的照片编号、文字注记等信息。经度、纬度、高程数据由手持GPS（集思宝）获取，精度为2～3 m。每个样方随机测量10 次栽培苜蓿的自然高度并取平均值作为该样方实测植物高度。在每个样方内，苜蓿留茬高度为5 cm，剪下样方内所有地上部分去除杂质后装入样品袋，称取地上生物量鲜重值。样品带回实验室后经64 ℃烘箱烘干至恒重后记录样方生物量干重。统计每个样地3 个样方生物量平均值作为该样地生物量实测值。

图2 2018-2021 年栽培苜蓿观测样地空间分布Fig.2 Spatial distribution of cultivated alfalfa observation plots from 2018 to 2021

苜蓿植物盖度数据是利用“中国草业与生态大数据服务系统”（http： //ecograss.lzu.edu.cn/）中盖度识别模块和大疆精灵4PRO 无人机（http： //www.dji.com）拍摄的可见光照片（分辨率为4864×3648）计算得到的。该无人机搭载的高清数码相机可获取红、绿、蓝波段范围的可见光光谱信息，并以0～255 的数值形式储存在JEPG格式的图像文件中，每张照片的位置信息储存在照片的属性文件中。在使用无人机进行拍照时，利用飞控系统在样方正上方保持悬停20 m 状态，使相机镜头垂直向下拍摄照片，每个样地拍摄5～9 张无人机照片。样地内所有样方的苜蓿盖度平均值作为该样地的苜蓿草地盖度。

1.3 栽培苜蓿智能感知系统关键指标反演模型构建方法

主要包括以下2 个方面的内容： 1）基于深度学习（deep learning， DL）方法和无人机照片的栽培苜蓿盖度建模与分析，计算野外实测样地的苜蓿盖度，为估产模型构建提供基础数据；2）以样点经度（X）、纬度（Y）、高程（h）等环境因子和苜蓿草高（H）、盖度（C）、草高×盖度（H×C）等草地植物生物物理指标为自变量，构建栽培苜蓿产量多元线性回归（multiple linear regression， MLR）和随机森林（random forest， RF）机器学习模型。在以上模型研究的基础上，评价各类模型的精度和实用性，筛选出适合栽培苜蓿草地智能感知系统实时动态监测分析的最优模型。

1.3.1 盖度估测模型图像处理是深度学习最早尝试的领域，U-Net 网络则是其应用较为广泛的一种。该网络是2015 年由Ronneberger 等［26］基于FCN 提出的一种新型的语义分割网络结构，最早应用于医学图像分割，能够在少量样本的情况下达到相对精确的分割结果。它是一种典型的编码解码结构（encoder-decoder）。编码过程主要进行下采样，实现特征提取，解码过程主要是进行上采样，还原像素尺寸，同时精准定位分割位置。

因此本研究使用深度学习框架Pytorch 构建栽培苜蓿植物盖度反演模型。试验的操作系统为Windows 10，GPU 配置为NVIDIA Quadro P5000，显存为16 GB。根据无人机拍摄图像的颜色、形状和梯度等特征，利用UNet 算法进行裸地和苜蓿的二分类，共计使用了1124 张无人机拍摄的样地照片（分辨率为4864×3648），批处理大小为16，图像尺寸为1080×1080，损失函数是二分类交叉熵函数。生成的标签作为监督信号，计算迭代次数100次，学习率为2e-4，并按照9∶1 划分验证集和训练集，其中验证集的图像与训练集独立，不参与训练。

准确率（accuracy，ACC）表示所有的预测样本中，预测正确的比例。TP（true positive）表示实际为正样本被预测为正样本的数量；FN（false negative）表示实际为正样本却被预测为负样本的数量；FP（false positive）表示实际为负样本却被预测为正样本的数量；TN（true negative）表示实际为负样本预测也为负样本的数量。可以得出（TP+FN）是全部实际的正样本数，而（TP+FP）是所有预测为正样本的数量。

式中：TP 表示实际为苜蓿样本被预测为苜蓿样本的数量；FN表示实际为苜蓿样本却被预测为裸地样本的数量；FP表示实际为裸地样本却被预测为苜蓿样本的数量；TN表示实际为裸地样本预测也为裸地样本的数量。可以得出（TP+FN）是全部实际的苜蓿样本数，而（TP+FP）是所有预测为苜蓿样本的数量。

1.3.2 栽培苜蓿产量统计模型多元线性回归模型可以表述两个或两个以上解释变量的统计依赖关系（公式1）。该类模型具有两个或两个以上的解释变量和明确的参数化表达式，模型自变量参数可用最小二乘方法进行估算。线性回归方程比较简单，模型参数易于估计。在遥感监测中，基于多元线性回归模型的农作物产量估测模型已得到广泛应用［27］。因此，本研究利用MATLAB 2021a 软件，分别构建与栽培苜蓿产量显著相关的不同因素及其组合的多元线性回归模型。

式中：y为栽培苜蓿产量；x1，x2， …，xi为与栽培苜蓿产量有显著相关性的因子，在本研究中包括3 个环境因子（X、Y、h）和3 个苜蓿植物生物物理指标（H、C、H×C）；β1，β2， …，βi+1为模型估测参数；ui为残差项。

1.3.3 栽培苜蓿产量机器学习模型相较于多元线性回归模型，基于机器学习的非参数非线性模型具有更高的估测能力［28-29］。本研究采用的多因素机器学习模型为RF。利用R Studio 软件，分别构建与栽培苜蓿产量显著相关的不同因素及其组合的RF 机器学习模型。

随机森林［30］与传统算法相比在处理非线性和多变量问题方面具有优越的性能，在纠正错误和缺失数据方面有更强的能力，可以规避过拟合和多重共线性问题。RF 算法包括ntree（回归树数量）、mtry（每个节点上测试的预测器的数量）和nodesize（树的终端节点的大小）3 个主要变量。ntree 是基于样本数所建立的决策树数量，ntree越大，模拟结果就越稳定，但会导致计算量增加，本研究设置ntree 为1000；mtry 是随机特征的数量，其默认值是输入变量的平方根，从2～20 进行试验，间隔为 1，本研究采用默认值设置。RF 算法是通过 R 软件中自带的“randomForest”数据包实现［31］。

以上两种算法均使用十折交叉验证方法［32］对苜蓿盖度反演模型、产草量多元线性回归模型和RF 模型进行精度评价。将所有自变量及其对应的因变量以等样本数的方式分为10 组，进行交叉验证。每次选取总体样本数的1/10 作为测试数据集用来验证模型的估测能力，剩下的样本数据作为训练集来构建反演模型。每次构建模型后利用测试集数据计算预测值与实测值之间的决定系数（R2）和均方根误差（root mean square error， RMSE），重复选取测试集和训练集数据10 次，直到所有的样本都在训练集和测试集中出现，模型的估测能力用10 次测试数据计算出来的R2和RMSE 的平均值表示，R2值越大，RMSE 越小，代表模型的精度越好。

R2和 RMSE 的计算公式如下：

式中：n为本研究样本量；y为栽培苜蓿实测产量；yi为栽培苜蓿预测产量；xi为与栽培苜蓿产量有显著相关性的因子，在本研究中包括3 个环境因子（X、Y、h）和3 个苜蓿植物生物物理指标（H、C、H×C）。

2 结果与分析

2.1 栽培苜蓿智能感知系统产量及盖度统计分析

新疆、甘肃、内蒙古和宁夏是我国北方栽培苜蓿的主产区，本研究使用的185 个调查样点基本覆盖了这4 个省区的主要栽培苜蓿草地，调查时间跨度大，野外实测时间为5-9 月，涉及苜蓿生育期的不同时段，由于不同区域的灌溉苜蓿和旱作苜蓿刈割的时间差异较大，受刈割及气象等因素的影响，栽培苜蓿的生物量和盖度时空变化也有较大波动（表1）。统计分析表明，我国北方4 省区栽培苜蓿草地地上生物量和盖度差异较大。与旱作苜蓿相比，灌溉苜蓿在盖度及产量上都表现出一定优势。总体而言，我国新疆、内蒙古、甘肃河西等地区的栽培苜蓿以灌溉为主，地块集中连片、地势平坦，苜蓿草地盛草期为5 月，平均产量和盖度分别达5362.81 kg·hm-2和96.29%，产量标准差为1934.90 kg·hm-2，样点离散程度较大；以旱作生产方式为主的甘肃陇东、宁夏南部地区的栽培苜蓿草地大多种植在山区水平梯田、一年刈割2 次，其盛草期为8 月，平均产量和盖度分别达3987.57 kg·hm-2和91.55%，产量标准差为1436.25 kg·hm-2，误差相对较小。

表1 2018-2021 年栽培苜蓿关键生物物理指标外业观测数据统计分析Table 1 Statistical analysis of field observation data of key biophysical indicators of cultivated alfalfa from 2018 to 2021

2.2 栽培苜蓿智能感知系统盖度模型精度分析

表2 为栽培苜蓿草地盖度反演模型参数，其中栽培苜蓿盖度反演模型为U-Net 模型，样本数量为1124。其中，R2为0.99，RMSE 为1.44%。总体而言，模型精度较高，误差较小，预测效果较好。该模型算法可用于栽培苜蓿智能感知系统，对草层盖度高精度、智能化估测具有实用意义。

表2 栽培苜蓿草地盖度反演模型参数Table 2 Parameters of inversion model for cultivated alfalfa grassland coverage

图3 表示不同时期与地域的部分无人机影像及标签，基于U-net 深度学习算法的栽培苜蓿盖度识别结果较好。对于不同长势不同品种的苜蓿均具有较好的识别结果。

图3 部分影像及标签Fig.3 Some images and labels

2.3 栽培苜蓿智能感知系统产草量模型及精度分析

表3 是基于苜蓿植物生物物理指标及其环境因子的多元线性回归估测模型的十折交叉验证结果，其中环境因子（X、Y、h）、植物生物物理指标（H、C、H×C）对生物量的动态变化响应较好，测试集R2为0.63，RMSE 为1218.15 kg·hm-2。

表3 基于环境因子和植物生物物理指标的多元线性回归估测模型十折交叉验证Table 3 10-fold cross-validation of MLR estimation model based on environmental factors and vegetation biophysical indicators

在基于RF 方法构建的3 类模型中，利用经度、纬度和海拔等环境因子构建的栽培苜蓿产量估测模型精度最差，其测试集R2为0.37，RMSE 为1623.17 kg·hm-2（表4）；而植物生物物理指标对栽培苜蓿产量的动态变化响应较好，测试集R2为0.65，RMSE 为1216.24 kg·hm-2；基于环境因子（X、Y、h）、植物生物物理指标（H、C、H×C）构建的栽培苜蓿产量估测模型精度最高，其测试集R2为0.69，RMSE 为1151.24 kg·hm-2。与多元线性回归估测模型相比，基于3 个生物物理指标和3 个环境因子指标构建的RF 模型精度最高，误差最小。

表4 基于环境因子和植物生物物理指标的RF 估测模型十折交叉验证Table 4 10-fold cross-validation of RF estimation model based on enviromental factors and vegetation biophysical indicators

图4 是不同因素构建的栽培苜蓿生物量RF 估测模型的实测值与预测值统计分析结果，环境因子对栽培苜蓿产量估测的影响较弱（图4a），仅能反映生长季内栽培苜蓿产量30%的变化情况，实测值和预测值分布离散，拟合效果较差。而基于植物生物物理指标和环境因子、植物生物物理指标构建的两种模型对栽培苜蓿产量的估测效果较好，均能反映生长季栽培苜蓿产量60%以上的变化情况，植物生物物理指标在栽培苜蓿生物量的估测中效果较好（图4b），图4c 是基于环境因子、植物生物物理指标构建的栽培苜蓿生物量估测最优模型，其R2为0.63，RMSE 为646.35 kg·hm-2，说明基于环境因子、植物生物物理指标构建的模型在估测栽培苜蓿产量时结果最好，误差较小。

图4 基于不同因素组合的RF 苜蓿产量估测模型模拟Fig.4 Simulation of the optimal alfalfa yield estimation model based on different factors

3 讨论

3.1 栽培苜蓿智能感知系统的应用优势

现今，针对农作物智能感知系统，许多学者已经在不同方面展开研究和探索。其中，陈健等［33］开发了苹果（Malus pumila）精准管理专家系统，实现了对果园环境的实时监控，并且可以对苹果的病虫害和开花期进行预测，但是没有盖度及生物量监测与决策等功能；王旭东［34］基于WSN 的农田智能灌溉系统的实时监测、感知和采集网络覆盖区域内环境和监测对象的信息，再发送到信息采集站或灌溉系统监控服务中心，根据土壤墒情合理计算灌水定额，突破了地域限制，实现了农业智能化监测和灌溉管理，但是该系统功能较为单一，只能动态监测农田的需水情况。郑立华等［35］利用CLARE 专家系统外壳开发了棉花生产管理专家系统，但该系统没有结合互联网技术，可扩展性不强，余国雄等［36］基于物联网的荔枝（Litchi chinensis）园信息获取与智能灌溉专家决策系统具有较强的实时性和较高的准确率，但是，该系统也存在一些缺点，例如人工管理方式比较粗犷，目的性不强，特别是采用漫灌等传统的灌溉方式，导致严重的水资源浪费。对于以上研究的不足之处，本研究提出了一种针对栽培苜蓿的智能感知系统。该系统的地面物联网具有实时连续观测，信息快速传输等优点，但其覆盖范围较小，多应用于固定点位尺度的动态监测和诊断分析。该系统的信息服务内容主要包括气象灾害评价、水肥管理和生长状况及产量评估。该系统通过采用精度更高、功能更完备的传感器（如高清照相机和定制化的多光谱仪等），可以进一步提升系统的功能，对栽培苜蓿病虫害等生物灾害以及牧草品质进行诊断和评估。针对以往研究的局限性，该系统的功能更加全面，并且已经应用于实际生产中。另外，本研究已开发出相应的栽培苜蓿盖度及产量估测模型，具有较高的精度并且已经应用在后台中。

3.2 栽培苜蓿智能感知系统关键生物物理指标智能监测算法

作物的生长状况表现在其生物量、叶面积、覆盖度等特征参数，通过观测这些参数的变化情况，可以监测作物的生长情况，以便作出及时的田间管理决策［37］。而计算机视觉相关技术及设备的出现，恰恰可以解决这些问题。计算机视觉是借助摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，自20 世纪 50 年代出现至今，已广泛应用于各个领域，在农业气象观测方面特别是种子质量检测、农产品分级与加工、植物生长监测、农作物病虫草害监测与防治中的应用也比比皆是［38］，均取得了不错的研究成果。深度学习因为其类似人脑的分层结构模型，对输入数据从底层信号到高层语义的特征提取建立起来的映射关系而受到关注，在图像分类、图像识别、图像分割等领域都取得了很好的性能。吴赵丽等［39］基于无人机遥感影像和基于中值滤波与数学形态学相结合的边缘检测法提取芨芨草（Achnatherum splendens）图像，将其与非芨芨草图像分割，估算结果准确度高达97.3%。赵晓宇等［40］利用可见光波段差异植被指数结合Otsu 来区分植被与非植被。利用无人机可见光影像在红绿蓝3 个波段进行计算，所需的时间较长。针对以上研究中的不足并考虑到由于栽培苜蓿的覆盖度计算结果将用于栽培苜蓿的生物量的计算中，其结果的准确性将直接影响到栽培苜蓿生物量模型的构建及结果，对其精度的要求较高。所以本研究所提到的基于深度学习算法的栽培苜蓿覆盖度模型精度较高，尤其在研究区跨度较广、观测时间较长、地形因素差异大等多种复杂因素的影响下，该模型依然表现出其稳定性与精确性。但是，由于深度学习计算过程复杂度高，数据量大，在计算过程中会表现出延时性，未来研究还需要优化系统，简化深度学习模型。

本研究基于不同因素构建的多元线性回归模型，发现不同因素的组合对苜蓿产量估算的准确性有显著影响。在3 种不同的模型组合中，基于环境因子（X、Y、h）、植物生物物理指标（H、C、H×C）的最优模型对苜蓿产量的估算效果最好。基于不同因素的RF 机器学习模型对苜蓿产量的估计结果与多元线性回归模型相似。然而，这两个模型在估计精度方面表现出显著不同的水平。本研究中利用苜蓿植物生物物理指标的最佳机器学习模型与最优多元线性回归模型相比，R²提高了0.03，RMSE 降低了55.34 kg·hm-2。在基于不同因子组合的不同机器学习模型中，随着输入变量的减少，因子的权重有减小的趋势。与最优多元线性模型相比，基于环境因子和植物生物物理指标的最优机器学习模型R²提高了0.08，RMSE 降低了123.07 kg·hm-2。这说明除了考虑影响苜蓿产量的多种因素外，模型的形式对产量估计也有重要影响。黎锐等［41］利用支持向量机机器学习算法结合Landsat 多时相遥感数据构建了冬小麦产量估算模型，并与多元回归模型相比较，发现支持向量机算法优于多元回归模型。本研究与其相似：与多元线性模型相比，机器学习算法更适合复杂的计算，可以有效地进行变量选择和组合，提高模型预测苜蓿产量的准确性。RF 模型可以组合不同特征的变量，有效解决了“过拟合”多重共线性问题［28，42］。许多研究者利用RF 模型估算作物生物量，结果显示了良好的模拟效果［43］。然而，RF 模型有其局限性，特别是在构建回归决策树方面。它通常低估了训练集以外的高生物量值［44］。此外，由于RF 模型是数据驱动的，它通常需要大量的样本数据，如果数据集很小，可能会影响模型的准确性［45］。崔孟然［46］采用偏最小二乘算法和RF 算法，估算了马铃薯的产量，结果表明，在块茎膨大期，RF 算法构建的建模集实测值和预测值的线性拟合决定系数R2达到0.88，表明RF 机器学习模型具有更高的预测精度。但是该研究的变量包括高光谱数据和地面测量数据，其中高光谱数据是通过高光谱成像仪获取的，包括了马铃薯生长期间的遥感指数及光谱反射率等，该研究模型变量较为复杂，数据获取需要大量的人力物力；杨北萍等［47］使用HJ-1A/B 和Landsat8 卫星遥感数据和随机森林回归算法（random forest regression，RFR）进行水稻产量遥感估算，表明RFR 模型的水稻产量估算精度明显优于多元逐步回归模型，RFR 模型的R2和平均相对误差（mean relative error，MRE）分别为0.730 和0.090，多元逐步回归模型的R2和MRE 分别为0.530 和0.120，该研究使用的变量包括了多时相遥感图像数据和气象数据，未考虑作物生物物理指标，另外该研究中使用的样本来自单一地区，其适用性有限。针对以上研究，本研究以4 省4 年野外实测数据建立机器学习模型，在保证模型精度的同时也提高了模型的普适性与稳定性。另外，模型变量为植物生物物理指标和环境因子，其都具备数据获取简单，能够直接被栽培苜蓿智能感知系统用于模型构建与实时分析，节省了大量的人力物力，并且能够做到栽培苜蓿的连续时序性动态监测。

3.3 本研究的不足及展望

数据、算法和算力是人工智能的三要素。其中，算法是实现智能系统相关功能的关键，数据是构建模型的重要基础。在本研究中，由于团队设计开发的栽培苜蓿智能感知系统的软硬件尚处在测试期，缺乏基于这种系统多点位高时频的栽培苜蓿草地观测数据，因此在苜蓿生物物理指标反演模型构建时使用了2018-2021 年研究团队在新疆、甘肃、内蒙古和宁夏开展的栽培苜蓿草地外业调查数据和无人机拍摄的图像数据。另外，栽培苜蓿生物量还受气候、土壤和人为等多种因素的影响。其中，气候因素包括光照、气温和降水等；土壤因素则包括土壤营养元素、土壤结构以及肥力等；人为影响因素主要体现在灌溉、施肥、喷药等一系列田间管理措施。为了提高反演精度，未来可以考虑气候、土壤等变量参与模型的构建，进一步优化栽培苜蓿草地关键生物物理指标的反演效果。

4 结论

本研究以新疆、内蒙古、甘肃及宁夏4 省区栽培苜蓿为对象，利用无人机影像数据和多元线性回归、深度学习算法和机器学习算法，结合我国北方4 省区的野外实测数据，构建了栽培苜蓿盖度与产量的最优估测模型，对比分析了反演模型的精度与实用性，为栽培苜蓿智能感知系统的数据在线实时分析提供了算法支持。主要得出以下结论：1）总体而言，我国新疆、甘肃河西等地区的栽培苜蓿以灌溉为主，地块集中连片、地势平坦，一年刈割3～4次，苜蓿草地在盛草期的平均产量和盖度达5362.81 kg·hm-2、96.29%；以旱作生产方式为主的甘肃陇东、宁夏南部等地区的栽培苜蓿草地大多种植在山区水平梯田，一年刈割2～3 次，其盛草期的平均产量和盖度达3987.57 kg·hm-2、91.55%；2）利用深度学习算法所构建的盖度模型R2达0.99，RMSE 为1.44%，模型准确度为92%，对栽培苜蓿草地盖度估测效果良好，对自动化在线实时分析具有重要作用；3）在3 类多元线性回归模型中，基于环境因子（X、Y、h）、植物生物物理指标（H、C、H×C）构建的栽培苜蓿产量估测模型效果最佳，其测试集的R2达0.63，RMSE 为1218.15 kg·hm-2；4）与多元线性回归模型相比，利用RF 机器学习方法构建的栽培苜蓿产量的估测结果更好，其中，基于环境因子（X、Y、h）、植物生物物理指标（H、C、H×C）构建的RF 模型精度最高，其测试集的R2达0.69，RMSE 为1151.24 kg·hm-2，训练集的R2为 0.94，RMSE 为536.09 kg·hm-2。

算法是实现智能系统相关功能的关键，本研究基于U-net 深度学习算法构建的盖度模型与基于RF 机器学习方法构建的栽培苜蓿产量估测模型的估测效果良好，可以为栽培苜蓿智能感知系统提供算法依据，为栽培苜蓿盖度及产量的实时、连续和智能监测提供重要支撑。