张 佩,陈郑盟,马顺登,尹 帝,江海东※
(1.南京农业大学农业部作物生理生态与生产管理重点实验室、江苏省现代作物生产协同创新中心、国家信息农业工程技术中心,南京 210095;2. 江苏省气象局,南京 210008;3. 福建省烟草公司龙岩市公司,龙岩 364000)
随着数码图像技术的成熟和高分辨率相机设备的普及,通过分析彩色数码图像来描述植物表型性状和生长状况的工作越来越多[1-4]。数字彩色图像包含丰富的植物形态、结构和颜色信息[5-6],已经被用来研究作物叶绿素含量[7]、营养状况[8]、逆境胁迫程度[9]。由于数码图像信息与植物生长已经被证实有着较好的相关性,因此,逐渐有学者开始利用作物图像来开展产量估测[10-11]。
加色混色模型(Red-Green-Bule,RGB)模型是数码图像最常用的颜色分析方法[12],其叶色分布模式有两种:正态分布或者偏态分布[13-15]。在统计学中,常用的偏态分布特征参数有均值、中位数、众数、偏度和峰度等,正态分布是一种特殊的数据分布模式,其特点是均值、中位数、众数三者合一,偏度为0[16]。在以往的多数研究中,研究人员把植株冠层叶色分布当作正态分布或者近似正态分布处理[17-19],这导致获得的统计量只有各通道均值一项,信息量较少,只能以各通道均值及其组合参数近似描述植物叶色深浅情况。同时,也忽略了其他参数在叶色定量描述中的意义,无法真实、准确地描述叶色分布情况,极大地限制了RGB模型的应用。仅有少量研究者开展了叶色色阶按偏态分布进行处理的尝试,发现茶叶新叶和老叶的偏度明显不同[13],玉米叶片中的水分状况跟叶片RGB模型中灰度通道的偏度相关[14],烟草叶片SPAD值(Soil and Plant Analyzer Development)与红色(Red,R)通道均值和偏度相关[15]。这些研究基于偏态分布得到了均值、中位数、众数、偏度和峰度5种共20个常用的RGB模型偏态参数。这些参数不仅极大地拓展植物叶片颜色信息,而且能从颜色深浅、分布的偏向性及集中度三个方面系统地描述叶色。但是这些偏态分布的研究都是器官层面的,在作物生产上的应用需要上升到群体层面。因此,本研究拟进一步验证作物群体图像是否符合偏态分布模式,并探索RGB模型偏态分布模式在大豆产量预估上的应用前景。不同的大豆栽培措施能够产生不同的群体特征并影响最终的产量[20-22]。为了尝试利用RGB模型偏态参数无损快速地预测大豆产量,本研究以大豆新品系曲茎为材料,通过不同的种植密度和氮肥用量处理形成不同的群体,利用无人机分别于花期、荚期和鼓粒期采集冠层图像,分析群体图像色阶偏态分布的特征,然后分别提取RGB图像R、绿(Green,G)、蓝(Blue,B)3个颜色通道及灰度(Gray,Y)图像的正态参数、偏态参数,运用多元回归法构建基于无人机RGB图像偏态参数的大豆产量预测模型,并基于不同栽培措施和不同品种条件下大豆的产量进行验证,以期为无损快速的智能化大豆产量预测提供一种可靠的思路与方法。
大豆新品系曲茎由南京农业大学国家大豆改良中心提供,用于建模和同品种不同栽培措施间验证;徐豆18由江苏徐淮地区徐州农业科学研究所提供,用于不同品种间验证。试验在安徽省滁州市琅琊区三官镇(32°32′N,118°30′E)实施,试验地面积12 m×50 m,壤土,全氮1.01 g/kg、速效磷16.33 mg/kg、速效钾101.3 mg/kg和有机质16.8 g/kg。试验地气象数据来自安徽省气象信息中心。
2020年6月12日播种,10月1日收获。大豆生育期间(6月12日—9月30日)累计降水量为843.6 mm,完全满足生长的水分需求,无灌溉。氮肥基施和花期追肥,以尿素施用。氯化钾150 kg/hm2和过磷酸钙300 kg/hm2基施。行距0.5 m,每穴播5~6粒,留苗3株。小区面积3 m×4 m。
建模试验。试验品种为曲茎,采用裂区试验,主区为种植密度:15×104株/hm2(穴距0.4 m)、22.5×104株/hm2(穴距0.27 m),30×104株/hm2(穴距0.20 m)和37.5× 104株/hm2(穴距0.16 m)。副区为氮肥用量:75、150、225 kg/hm2(以N计,下同)。基追比为5:5。每个试验处理设3个重复小区(下同)。
验证试验1(氮肥运筹)。试验品种为曲茎,采用裂区试验,主区为氮肥用量:75、150、225 kg/hm2。副区为基追比:0:10、5:5和10:0。密度为22.5×104株/hm2(穴距0.27 m)。
验证试验2(不同品种)。试验品种为徐豆18,采用裂区试验,主区为密度:24×104株/hm2(穴距0.25 m)和36×104株/hm2(穴距0.17 m)。副区为氮肥基追比:0:10、5:5、10:0。
每个小区取1 m2大豆植株用于最终产量测定。
无人机数码图像采集于2020年大豆花期(7月29日)、荚期(8月15日)及鼓粒期(9月5日)3 个关键生育期09:00左右进行。7月29 日、8月15日和9月5日09:00天气晴好,气温分别为29.2、34.8 和31.5 ℃,风速分别为1.8、2和1.0 m/s。无人机(Hudsan zino,中国)飞行高度设置为 30 m,静止拍摄,图像采集镜头(Sony,日本)分辨率为3 840×2 160 像素,光圈进光量F=0.8,曝光时间0.05 s,ISO感光度为100,源图像以*.JPG格式保存。
图像色阶分布的偏度和峰度参数均由高阶方程计算得到[16]。在概率论中,矩是用来描述统计样本的某些特征数值,即求平均值,用E表示。中心矩(Central moment)定义为,对于正整数k,如果E(X)存在,且,则称为整体样本统计量X的k阶中心距。其计算公式[16]如下:
其3阶中心距μ3用来定义X的偏度S(x):
其4阶中心距μ4用来定义X的峰度K(x),
式中x为单个样本值,μ为中心矩,f(x)为概率密度函数。
1.5.1 图像处理及其RGB模型颜色特征参数提取
采用Photoshop软件根据试验区域对样品原始图像进行切割,并将切割后的图像保存为.JPG图像格式。参照Chen等[15]的方法,采用MATLAB 2016R软件对叶片图像色阶分布进行偏态分析,共得到叶色偏态参数(20个),即R通道色阶的均值(RMean)、中位数(RMedian)、众数(RMode)、偏度(RSkewness)及峰度(RKurtosis),G通道色阶的均值(GMean)、中位数(GMedian)、众数(GMode)、偏度(GSkewness)及峰度(GKurtosis),B通道色阶的均值(BMean)、中位数(BMedian)、众数(BMode)、偏度(BSkewness)及峰度(BKurtosis),及Y图像色阶的均值(YMean)、中位数(YMedian)、众数(YMode)、偏度(YSkewness)及峰度(YKurtosis),其中RMean,GMean,BMean,YMean构成叶色正态参数(4个)。
1.5.2 不同通道色阶分布的正态检验
采用MATLAB运用lillietest及jbtest函数分别对大豆冠层彩色图像R、G、B三个通道及Y图像色阶分布情况进行Lilliefors和Jarque-Bera 正态性检验。
1.5.3 色阶累积直方图制作
采用MATLAB运用imhist函数获取图像色阶累积直方图。
1.6.1 方差分析
选取建模试验的36个小区样本,以3个发育期(花期、荚期和鼓粒期)为分类因子,采用SPSS软件对20个叶色偏态参数进行方差分析,采用最小显著性差异(Least-Significant Difference,LSD)方法及杜肯(Duncan’s)方法[23]进行多重比较(显著水平α=0.05)),以分析花期、荚期和鼓粒期大豆冠层图像的叶色偏态特征参数的差异性。
1.6.2 回归模型构建
选取曲茎36个小区样本建模,采用SPSS软件,以大豆产量作为因变量,分别以3个发育期的叶色正态参数(12个)、叶色偏态参数(60个)作为自变量,采用基于最小二乘法的逐步回归方式[24]建立线性模型F1、F2(表1)。当回归方程显著性检验P≤0.05时,自变量移入回归方程;当回归方程显著性检验P≥0.1时,自变量移出回归方程。同时,对备选回归模型进行决定系数优选、回归模型及回归系数显著性检验、回归模型自变量共线性诊断[23],最终确定最佳回归模型表达式。
表1 大豆产量预测模型结构 Table 1 Structure of prediction model for soybean yield
1.6.3 模型预测准确度比较
为了验证预测模型的准确度,运用模型对建模试验组样本和2个验证样本组(氮肥运筹试验样本和品种试验样本)产量进行预测,并对其预测准确度进行计算,如式(4)[25]所示:
式中PA为模型预测准确度,%;yP为模型计算得到的产量预测值,kg/hm2;y为产量实测值,kg/hm2。
随机选取一个建模小区分析大豆群体冠层无人机图像的色阶累积分布情况,结果如图1所示。
图1 所示,不同生育期大豆群体冠层图像红(R)、绿(G)、蓝(B)三个通道及灰度图像色阶累积直方图均呈现偏态分布;参照色阶值为100的标志线可看出,不同生育期、不同通道的分布直方图还表现出不同的偏离程度,花期后随着生育期的推移,各通道色阶分布先向横坐标轴0端移动后向255端移动。进一步对各通道色阶分布数组进行Lilliefors和Jarque-Bera 正态性检验,结果表明,两种检查的正态假设统计量H值均为1,即否定正态分布假设;而统计量分布概率检测显著性P值均为0.001,小于0.05,说明不同生育期大豆群体冠层图像不同通道的叶色色阶分布均不符合正态分布,结合图1可以看出,叶色分布为偏态分布。
不同生育期大豆群体冠层具有不同的外观表型,反映到叶色参数上,则呈现出在不同生育期间的差异性,且不同参数的变化特征不同(表2)。从叶色深浅来看,R、G、B三个通道及Y图像的均值、中位数及众数在花期-荚期-鼓粒期呈现先降后升的变化特征,其中,三个生育期冠层图像R、G通道及Y度图像色阶众数和B通道色阶平均值、众数间具有显著差异,荚期冠层图像R、G通道及Y图像的平均值和中位数显著低于花期和鼓粒期。
表2 不同生育期大豆冠层图像的叶色偏态特征参数差异 Table 2 Differences of leaf color skewness characteristic parameters of bean population images at different growth stages
从色阶分布偏向性来看(表2),R、G、B三个通道及Y图像的偏度与均值、中位数、众数呈现相反的变化特征,二者在花期-荚期-鼓粒期一致呈现先升后降的变化特征,且R、G、B通道和Y图像色阶偏度在三个生育期间均具有显著差异。
从色阶分布集中度来看(表2),与偏度类似,各通道峰度在花期-荚期-鼓粒期也呈现先升后降的变化特征,且荚期各通道色阶峰度和其他2个生育期间均具有显著差异。
由此可以看出,花期、荚期和鼓粒期大豆群体冠层图像具有不同的颜色特征,基于偏态分析得到的20个偏态参数可全面系统地反映这些差异特征,这为将RGB模型的偏态参数用于预测大豆产量提供了生理解释及数学基础。
分别以叶色正态参数和叶色偏态参数为自变量,构建叶色参数与大豆产量的多元回归模型,并综合考虑方程的拟合优度及自变量共线性检测结果,确定最优模型。结果发现,采用花期、荚期和鼓粒期三个时期12个冠层RGB图像正态参数无法建立大豆产量的预测模型,这可能是由于正态参数反映的大豆冠层叶色信息有限,只反映了颜色的深浅,无法全面地表达大豆冠层叶色信息特征。采用花期、荚期和鼓粒期三个时期共60个冠层图像偏态参数构建的叶色偏态参数-大豆产量的预测模型F2,如式(5)所示:
式中F2为大豆产量,kg/hm2;PRKurtosis为荚期冠层RGB图像R通道色阶的峰度;PYKurtosis为Y图像色阶的峰度。从模型的拟合效果来看,模型F2的决定系数R2为0.235,P=0.012且P<0.05,通过了回归模型显著性检验,可用于产量预测。 采用式(5)计算建模组大豆产量预测结果,如表3所示,对建模组36个处理小区的预测准确度普遍超85%,平均为91.30%,其中23个小区的预测准确度超90%,13个小区样本的预测准确度不小于95%。
表3 建模集基于回归模型的大豆产量预测准确度 Table 3 Accuracy of regression model for soybean yield prediction based on establishment dataset
应用模型F2分别对2个验证组(氮肥运筹试验样本和不同品种试验样本)的产量进行预测,比较预测产量与实测值,结果见表4。
表4 验证集基于回归模型的大豆产量预测准确度 Table 4 Accuracy of regression model for soybean yield prediction based on validation dataset
由表4可知,本文模型对氮肥运筹试验18个处理小区的预测准确度普遍超85%,平均为87.33%,其中8个小区的预测准确度超90%,4个小区样本的预测准确度超95%;对不同品种试验18个处理小区的预测准确度平均为78.69%,其中6个小区的预测准确度超90%,3个小区样本的预测准确度超95%。结合建模组和验证组总体看来(表3和表4),采用叶片偏态参数的模型对大豆产量的预测准确度平均可达85.50%。
基于RGB模型进行植物生长性状评估及产量估计已在水稻、小麦、玉米等作物中广泛应用[14,26]。传统的图像色阶分析方法是基于正态分布的假设前提下对数据进行分析,它是一种方便的近似取值的方法,所能获取的颜色信息较少,主要以R、G、B等三个颜色通道的色阶均值为主,虽然有不少研究人员提出了这三个基础参数的多种组合参数,但仍不能全面、真实地反映叶色的分布情况[27],也无法描述叶色变化的生理学意义[13-14],限制RGB模型的更广泛应用。在本试验条件下,花期、荚期和鼓粒期等三个生育期只有12个冠层RGB图像正态参数,无法运用多元逐步回归法拟合大豆产量的线性变化,这可能是由于正态参数只是反映了冠层颜色的深浅,不能反映其他生长特征。
单张叶片图像RGB模型的各通道色阶遵循偏态分布[13-15]。而本研究应用大豆群体冠层图片,验证了大豆在花期、荚期和鼓粒期三个不同生育期的冠层数码图像的RGB模型色阶同样遵循偏态分布。本研究中三个生育期各通道色阶峰度均小于3(见表2),说明了色阶分布曲线较扁平[16],即冠层叶色色阶值分布分散,集中度低,反映田间大豆个体植株长势存在一定不均一性。不同生育时期各通道色阶的偏度在-0.5~0.5之间(见表2),说明各通道色阶近似正态分布[16],但有一定的偏向性。可见基于偏态分析得到的叶色参数可系统地从叶色深浅程度、分布偏向性和集中度3个方面定量地描述冠层颜色信息。进一步分析不同生育期大豆冠层图像颜色的偏态参数特征发现,大豆冠层图像颜色的5类偏态参数在花期、荚期和鼓粒期间普遍具有显著差异,且反映叶色深浅信息的色阶均值、中位数、众数从花期至鼓粒期的变化趋势与反映叶色偏向性的偏度和反映叶色集中度的峰度相反。这说明基于数码图像RGB模型的色阶偏态参数在各生育期具有不同的特征,它们可较精准地反映各生育期大豆冠层颜色特征,为将RGB模型色阶的偏态参数用于预估大豆产量提供了生理解释及数学基础。
对3个生育时期的60个偏态参数进行逐步回归分析,可构建基于大豆荚期冠层RGB图像R通道色阶的峰度(PRKurtosis)和Y图像色阶的峰度(PYKurtosis)的多元逐步回归方程,且方程通过了显著性水平检验。这可能是由于作物群体是由许多个体有机组成的,个体与群体之间、个体与个体之间彼此制约、相互影响[28-29],从而形成有着不同叶色均匀程度的冠层结构,反映到参数值上,表现为不同的峰度。同时,模型在建模组和验证组均具有较高的预估精度,其中对建模组(曲茎)预测准确度平均达91.30%,各处理小区的预测准确度普遍超85%;对不同栽培措施(氮肥运筹)处理的的预测准确度也普遍超85%,平均为87.33%;对不同品种的预测准确度略低,平均为78.69%。
同时也发现,基于偏态参数构建的大豆产量预测模型虽然通过了显著性检验,但R2较低,这说明模型精度还有更多地提升空间。除了RGB模型参数外,基于数码图像可提取的颜色信息还包括 HSV颜色模型参数(色调、饱和度和明度)[30]、Lab颜色模型参数(亮度、a通道值及b通道值)[31];而除了颜色信息外,还可提取叶面纹理参数(如对比度、相关度、熵、同质性和对角二阶矩)[32]。这些多维参数能够更加全面准确地反映大豆冠层图像信息,可以为产量预测模型的构建提供更多的信息输入因子,可能进一步提高模型精度,为利用图像信息进行大豆产量模型构建提供更多的可能。
综上所述,基于偏态分布模式的RGB模型能提供更详细的大豆冠层图像信息,系统地从深浅程度和分布偏向性、集中度3个方面定量地描述冠层颜色信息,从而建立具有较高准确性的产量预测模型,可广泛用于不同生产条件的大豆产量预测。同时无人机[33]和数码相机的使用提高了图像获取的效率并降低了图像获取的成本,更有利于本方法的推广应用。
本文探索了偏态分布模式加色混色(Red-Green-Bule,RGB)模型在大豆产量预测上的应用。结果如下:
1)大豆冠层数码图像的光学三原色RGB模型色阶遵循偏态分布。通过偏态分析得到的偏态参数可很好地表征不同生育期冠层颜色信息特征,且不同类型叶色信息参数随着生育期推移呈现不同的变化规律。
2)基于RGB模型偏态参数可构建大豆产量预测模型,模型通过了显著性检验。且模型对不同品种和不同栽培措施下大豆产量预测效果均较好,预测准确度平均达85.50%。基于大豆冠层图像信息进行实时、快速和无损地预测大豆产量,可弥补传统实地取样测产耗时耗力、破坏性和主观误差大等不足。
模型精度还有更多的提升空间。未来将继续探索可描述冠层信息的其他颜色参数和纹理参数,为产量预测模型的构建提供更多更全面的冠层信息,最终为无损快速的智能化的大豆产量预测提供更多的思路与方法。
致谢:感谢加拿大卡尔顿大学的安子越使用MATLAB软件对数据作处理。