基于图像特征和随机森林的油菜生物量估算*

2022-01-19 08:34李海同陈旭王刚关卓怀江涛吴崇友
中国农机化学报 2021年12期
关键词:收获期特征参数决策树

李海同,陈旭,王刚,关卓怀,江涛,吴崇友

(农业农村部南京农业机械化研究所,南京市,210014)

0 引言

喂入量是联合收获机的一个最重要设计参数和性能参数,喂入量过大会导致联合收获机作业质量下降,喂入量太小则不能充分发挥收获机的性能导致工作效率低下[1-2]。为实现联合收获机工作参数和状态依据作物田间状态自动控制,首先要对其喂入量进行实时监测,为此许多学者围绕在联合收获机喂入量检测方法开展研究[3-4],而油菜生物量是联合收获机喂入量的重要决定因素。

机器视觉和图像处理技术的进步及其在植被覆盖率、含水率等农业领域的应用,为基于图像处理的油菜生物量计算提供了思路和方法。潘静等[5]通过水稻冠层密度图像光谱分析,以2R+G颜色特征参数值作为收割机喂入密度特征,并与实际测得的喂入密度值进行拟合建立模型,能够实现水稻喂入密度的检测。刘汉青[6]设计了基于机器视觉的油菜收获疏密度检测系统,利用卷积神经网络算法实现油菜疏密度检测,并根据疏密度控制收割机的前进速度使喂入量保持在设定范围内。刘杨等[7]提取马铃薯株高和植被覆盖度,选取6种植被指数和3种农学参数作为特征参数,通过线性回归、偏最小二乘回归、随机森林算法和支持向量机估算马铃薯生物量。陶惠林等[8]基于无人机高清数码影像生成冬小麦的作物表面模型并提取21种数码影像图像指数,构建3种不同时期冬小麦的生物量估算模型并进行对比,挑选出冬小麦生物量估算的最优模型。杨雪峰等[9]通过面向对象影像分析和回归分析等技术,获取区域尺度下胡杨冠幅、树高和密度等森林结构参数,通过生长方程计算得到区域尺度森林地上生物量。利用作物的可见光图像提取与生物量有关的特征,通过回归算法建立作物生物量估算模型可作为生物量计算的依据。

本研究利用无人机拍摄联合收获期油菜的图像并称量单位面积内地上油菜的质量,获取油菜的可见光图像和生物量信息,提取图像的色彩和纹理特征并利用相关性分析筛选出与油菜生物量显著相关的特征参数,分别建立基于随机森林,主分成分析和支撑向量机的油菜生物量估算模型,训练模型并比较3种估算模型的评价指标,探讨利用无人机可见光图像预测联合收获期油菜生物量的方法,为联合收获期油菜生物量智能化检测提供参考。

1 材料与方法

1.1 图像采集与数据集构建

本研究中的图像采集于2020年6月在江苏省盐城市大丰区东方绿洲现代农业园(33°6′7″N,120°48′12″E)内进行试验,如图1所示。

图1 研究区域Fig.1 Location of the study area

采样时试验样品油菜的农艺特性为:种植密度27万株/hm2,植株平均高度1.72 m,茎秆、荚果和籽粒含水率分别为38.4%、19.8%、24.6%,采样时将1 m×1 m 的正方形采样框水平放置于采样区的试验油菜上作为采样区。研究使用的无人机为大疆 PHANTOM 4PRO,相机有效像素为2 000万,无人机在采样框上方15 m处飞行拍摄采集图像,数据采集时间为2019年6月2日,天气晴朗无云,风速小于3级,适合无人机飞行,采集时间为14:00至17:00。每张照片拍摄完成后人工收割采样区内地上部分油菜并称重,得到单位面积内油菜的生物质量,由此获得油菜生物量的实测值。本研究选取生长密度有差异的120个采样区域作为研究对象获得样本图像。

1.2 特征提取和筛选

由于采集的联合收获期油菜图像包括采样区内外两部分,采样框内的区域为本研究所需的图像信息,而采样框以外的区域可视为噪声信息,需将其剔除后提取图像特征,首先通过灰度化、平滑和膨胀掩膜等预处理方法获取采样框区内的图像,如图2所示。

图2 图像预处理Fig.2 Pretreatment of image

根据文献[5]、[10-12]的研究结果,作物生物量可由作物图像的颜色和纹理特征表征,根据油菜图像特征本研究提取样本图像的RGB和HSI颜色空间的颜色分量及归一化颜色分量r、g、b共9个初始图像颜色特征,并构造表1所示的13个可见光图像指数。每次采样时采样框放置的角度难以完全一致,导致采样区域性状和大小不一,因此颜色分量采用均值消除采样区域形态差异的影响。

表1 可见光图像指数及数学表达式Tab.1 Characteristic parameters of optical images

灰度共生矩阵能反映出图像灰度关于方向、相邻间隔、变化幅度的综合信息,本研究首先计算图像的灰度共生矩阵P,然后提取共生矩阵的能量(ENG)、相关度(COR)、对比度(CON)、熵(HOM)和逆方差(IDM)5个纹理特征及其二阶矩,纹理特征计算公式如式(1)~式(5)所示。

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

式中:k——灰度值的级数;

i——行号;

j——列;

p(i,j)——灰度值(i,j)出现的概率。

本研究共提取图像的32个颜色和纹理特征,使用全部特征建模将产生信息冗余,导致数学模型过于复杂且影响运行速度。为降低维度精简模型提高运算速度,首先采用Pearson相关性分析研究油菜生物量和图像特征的相关系数,定量描述油菜生物量与特征参数的相关程度,明确油菜生物量的主要决定因素,与油菜生物量显著相关的图像特征和相关系数如表2所示。

表2 油菜生物量图像特征选择结果Tab.2 Selection results of image features for rape biomass

从相关性分析结果中可以看出,初始图像特征中的能量ENG、熵HOM、对比度CON、对比度二阶矩stdCON、相关性COR、相关性二阶矩stdCOR,逆方差IDM和色调与亮度的比值H/I,8个图像特征与油菜生物量之间达到了极显著水平(P<0.01);能量二阶矩stdENG和逆方差二阶矩stdIDM与油菜生物量之间呈现出了显著的相关性(P<0.05)。

2 油菜生物量估算模型

以提取的 10个显著特征参数作为输入参数,以油菜生物量为输出参数,分别基于随机森林(Random forest,RF)、主成分分析(Principal component analysis,PCA)和支持向量机(Support vector machine,SVM)建立联合收获期油菜生物量的估算模型,获取油菜生物量估算值,挑选 67%样本数据(80个)作为建模集,33%样本数据(40个)作为验证集以此来构建油菜生物量估算模型[14],分别用于模型训练和验证。采用均方根误差(RMSE)、相对误差(RE)和决定系数(R2)3个指标评价估算模型的准确性,3个指标的计算方法如下。

(10)

(11)

(12)

式中:yi′——生物量估算值,kg/m2;

yi——生物量真实值,kg/m2;

n——测试集样本个数。

2.1 基于RF的生物量估算模型

随机森林是由多棵分类回归树(Classification And Regression Tree,CART)构成的组合分类模型,森林中的每一棵决策树之间没有关联,但模型的最终输出由森林中的每一棵决策树共同决定。随机森林是典型的集成学习算法,装袋法的代表模型[13-14],CART决策树模型为弱学习器,采样样本和特征的双重随机抽样构建决策树保证不出现过拟合的现象[15-17]。本研究首先建立基于随机森林的油菜生物量估算模型,根据袋外误差(Out of bag error,oob error)与决策树数量之间的关系确定决策树数量为50。

通过对120个训练样本进行有放回的随机采样,构建出50个采样集,基于50个采样集构建50棵决策树作为油菜生物量估算模型的学习器,CART决策树以最小平方误差作为划分样本的依据。通过网格搜索方法确定决策树的深度h为20,每个节点包含的最小样本数量为2,分裂一个结点需要的最小样本数为2。

2.2 基于PCA的油菜生物量估算模型

主成分分析法采用降维的思想,通过构造原变量适当的线性组合,利用较少的综合指标代替原先的较多的变量,使复杂的信息简单化[18-19]。本研究首先通过主成分累计贡献率选取合适的主成分个数,根据成分的特征值和载荷得出各主成分关于标准变量的函数表达式,再利用回归分析建立油菜生物量与主成分之间的回归方程,最后将方程中的标准变量转化为可见光图像的特征参数,建立基于主成分分析(Principal component analysis,PCA)的油菜生物量估算模型。

本研究利用SPSS 22对10个特征参数进行主成分分析,自变量累积解释因变量的能力如表3所示,成分矩阵如表4所示。X1~X10分别为能量、能量二阶矩、熵、对比度、对比度二阶矩、相关性、相关性二阶矩、逆方差、逆方差二阶矩和色调与亮度的比值10个变量经标准化处理后的标准化变量。

表3 主成分的特征值及贡献率Tab.3 Characteristic value and accumulative contribution rate of each principal component

表4 各主成分的成分矩阵Tab.4 Component matrix of each principal component

由表3可知,前3个特征值大于1的主成分对因变量的累积解释能力达到78.484%,因此提取3个主成分即可表现出10个指标的作用效果。据表3中的特征值和成分矩阵分别得到3个主成分Z1、Z2、Z3的函数表达式

Z1=0.089 9X1-0.211X2-0.936X3-

0.906X4-0.874X5+0.895X6+0.598X7+

0.889X8-0.402X9+0.397X10

(13)

Z2=-0.08X1+0.0897X2+0.105X3+

0.052X4+0.01X5+0.006X6+0.636X7-

0.058X8-0.158X9+0.397X10

(14)

Z3=0.122X1+0.084X2-0.144X3+0.136X4-

0.015X5-0.173X6-0.085X7+0.93X8+

0.396X9-0.844X10

(15)

以提取的3个主成分作为自变量,以与之对应的油菜生物量作为因变量进行线性回归,并将模型中的标准变量转换为提取的10个特征参数,得出基于主成分回归的联合收获期油菜生物量估算模型。

2.3 基于SVM的生物量估算模型

支撑向量机(Support vector machine,SVM)作为一种有监督的学习方法,SVM 通过不同的核函数将线性不可分的数据映射到高维空间,将非线性问题转换为线性可分数据[20-21],在用于回归预测研究中有较多应用,并且有较高的预测精度。本文以联合收获期油菜的图像特征和生物量为训练数据,通过支持向量基(SVM)建立油菜生物量与可见光图像之间的映射关系,获得基于SVM的油菜生物量估算模型。

在SVM中对训练和学习效果影响最大的2个参数为C和δ,其中参数C直接影响模型的稳定性,参数δ反映了支持向量之间的相关程度,决定模型预测的推广能力和泛化性[22]。因此,在对油菜生物量预测时对参数C和δ进行调节和优化,得到较为理想的预测结果。本文对SVM预测生物量准确性的评价通过生物量估算值与真实值之间的误差对比,以误差最小为目标选择最优参数,目标函数可表示为

minε=min|yie(C,δ)-yi|

(16)

式中:ε——估算值与真实值之间的偏差,kg/m2;

yie——第i个训练样本对应的估算生物量,kg/m2;

C——惩罚参数;

δ——核函数参数。

依据相关文献中SVM参数的取值范围,将取值范围作为上下限约束,可表示为

(17)

本文核函数采用线性核函数进行计算,使用5-fold交叉验证对SVM回归模型进行交叉验证,使用fitrsvm自动优化超参数,确定使交叉验证损失减少5倍的超参数由此得出基于支持向量机的油菜生物量估算模型。

2.4 结果与分析

利用上述3个模型估算测试集中40个样本的生物量,油菜生物量的估算值与真实值的关系如图3所示,3个模型的评价指标如表5所示。

(a)基于随机森林的油菜生物量估算模型

表5 不同估算模型的评价指标Tab.5 Evaluation indexes of different prediction models

由表5中估算结果的评价指标可知,油菜生物量在1.0~4.5 kg/m2时,基于随机森林、主成分分析和支撑向量机三种方法的油菜生物量估算模型决定系数R2均大于0.5,可用于联合收获期油菜生物量估算。三种模型的评价指标—均方根误差RMSE、相对误差RE和决定系数R2分别为0.24 kg/m2、0.04%~22.23%、0.87,0.36 kg/m2、0.92%~21.14%、0.71和0.26 kg/m2、0.28%~34.17%、0.84,对比三种估算模型的估算精度可知,基于随机森林的油菜生物量估算结果的决定系数最大且均方根误差最小,最小相对误差最小而最大相对误差稍大于主成分模型的估算结果,表明模型的稳定性和精精度较高,是一种较优的估算模型。

3 讨论

本文探讨了利用联合收获期油菜无人机可见光图像提取与油菜生物量相关性较高的图像特征,主要为纹理特征,建立三种油菜生物量估算模型,这与以往估算作物生物量的方法和结果有所不同。原因是联合收获期油菜叶片已全部脱落,颜色特征差异较小而角果和分枝的粗细、疏密等特征差异较大,因此本文利用可表示出图像色调的深浅亮度的HSI分量和纹理特征检索具有粗细、疏密等方面较大差别的图像。本研究仅用一个地区的联合收获期油菜数据构建生物量估算模型且暂未考虑油菜植株高度对生物量的影响,后续还需采集不同年限、不同地点和不同品种的油菜样本进行分析,并将油菜植株高度融合计算模型提高模型的泛化能力。

4 结论

1)基于无人机可见光提取联合收获期油菜图像的色彩和纹理特征共32个特征参数,通过显著性检验与相关性分析筛选与油菜生物量显著相关的10个特征参数,用于表征油菜生物量。

2)以筛选的显著特征为输入参数,以油菜生物量为输出值,分别建立基于随机森林、主成分分析和支持向量机的联合收获期油菜生物量估算模型;将样本按照2∶1的比例分为训练集和测试集,利用多次交叉验证确定模型参数并估算测试集上的油菜生物量。

3)研究结果表明,三种模型估算联合收获期油菜生物量的3个评价指标RMSE、RE和R2分别为0.24 kg/m2、0.04%~22.23%、0.87,0.36 kg/m2、0.92%~21.14%、0.71和0.28 kg/m2、0.26%~34.17%、0.84;对比结果表明基于随机森林算法的油菜生物量估算模型具有较高精度和稳定性,是一种较优的估算模型。本文基于图像特征和决策树的联合收获期油菜生物量估算方法探究了田间油菜生物量信息快速、无损检测方法,可为油菜联合收获机作业过程中喂入量智能化检测提供参考和依据。

猜你喜欢
收获期特征参数决策树
包头地区紫花苜蓿最适收获期研究
更 正
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
不同收获期对花生种子产质量的影响
基于PSO-VMD的齿轮特征参数提取方法研究
播种量和收获期对饲料油菜产量和品质的影响
基于决策树的出租车乘客出行目的识别