刘彦岑,郭俊先,*,郭 阳,史 勇,黄 华,李龙杰,张振振
(新疆农业大学 a. 机电工程学院;b. 数理学院,新疆 乌鲁木齐 830052)
叶绿素是负责吸收光辐射并驱动光合作用的主要色素,其含量直接关系植物的光合能力和初级生产力,可用作反映植物生理状态的重要指标[1]。叶绿素的主要组成元素为氮元素。研究发现,多种经济作物叶片的叶绿素含量与其叶片氮浓度有较强的相关性[2];因此,利用叶绿素含量估算作物营养状况并结合土壤测试技术可为作物的精准施肥提供依据[3-4]。
传统地,叶绿素含量主要通过化学分析法获取,但该方法具有延时破坏性[5]。随着传感器的发展,基于测量叶片反射率的高光谱、多光谱仪器能够实现对叶绿素含量的快速无损检测,但此类设备价格昂贵,对测量环境的要求较高[6]。相对而言,便携式手持叶绿素仪(SPAD仪)价格低廉,携带使用方便,且测量结果与叶绿素含量具有高相关性,可作为作物叶绿素含量的相对值,在农业研究领域中应用广泛[7];但是,SPAD仪的单次测量面积较小,在实际生产中不适宜大面积的快速检测。植物冠层的叶绿素含量变化与冠层颜色变化息息相关,但这些变化十分细微,人眼难以察觉。近年来,一种低成本监测作物叶绿素含量的方法迅速兴起,该方法利用高精度可见光传感器获取作物冠层图像,结合数字图像处理技术提取与叶绿素含量具有高相关性的颜色特征,进而实现对作物叶绿素含量的快速无损检测[8-9]。程立真等[10]基于数字图像技术提取了苹果冠层叶片RGB空间内的颜色特征参数,发现叶绿素含量与B/R、B/(R+G+B)等9种颜色特征具有高相关性,并基于颜色特征建立了叶绿素含量的支持向量机(SVM)模型,可用于快速估测苹果叶片叶绿素含量。Sánchez-Sastre等[11]基于数字图像技术提取了甜菜冠层图像的25个颜色特征,发现(R-B)/(R+G+B)等颜色特征与甜菜冠层的叶绿素含量具有高相关性,利用主成分分析对颜色特征进行预处理后建立了甜菜冠层叶绿素含量的逐步回归检测模型,该模型可为甜菜收获期氮含量的廉价估测提供方法支持。娄卫东等[12]从RGB和Lab颜色空间提取油菜冠层图像颜色特征,发现颜色特征G、L与冠层叶绿素含量的相关性极高,并基于两颜色特征建立了油菜冠层叶绿素含量的线性检测模型,其决定系数(R2)分别为0.916、0.919。目前,在小麦、青菜、黄瓜等作物上都已证实,基于数字图像技术提取的图像颜色特征可实现对样本叶片叶绿素含量的快速无损检测[13-15]。然而,在实际生产中,冠层叶片的空间位置交错复杂,样本叶片虽来自于冠层但却未必能如实反映冠层的情况。此外,除颜色特征外,图像本身还蕴含着丰富的纹理特征,其价值也值得挖掘。
基于上述背景,为探寻一种快速无损监测作物整个冠层相对叶绿素含量的方式,本文以大田哈密瓜为研究对象,在田间铺设导轨,利用自制小车搭载高精度相机获取不同生长期大田哈密瓜的完整冠层图像,在对图像进行处理后提取图像的纹理特征和不同空间的颜色特征,分析图像特征与冠层相对叶绿素含量的相关性,并建立不同时期大田哈密瓜相对叶绿素含量的预测模型,以期为大田哈密瓜的生长评价与精细化管理提供技术支持。
供试哈密瓜品种为金华蜜25号,俗称新86。试验于2021年6月至2021年9月在新疆哈密市巴里坤哈萨克自治县三塘湖乡中湖村开展。该地区年降水量仅46.1 mm,属典型的温带大陆性冷凉干旱气候。
为增加样本多样性,对哈密瓜进行水肥调控。以当地常规水肥管理(灌水总时长115 h,总施肥量260 kg·hm-2)为对照(CK),另设低水(102 h,简记为W1)、高水(128 h,简记为W2)2个灌水总时长水平,及高肥(300 kg·hm-2,简记为N1)、中肥(280 kg·hm-2,简记为N2)、低肥(234 kg·hm-2,简记为N3)3个总施肥量水平。所有处理的肥料均分两次施用,在伸蔓期施用总施肥量的40%,在膨果期施用总施肥量的60%。灌水平均流量在9.0~9.5 m3·h-1,施用肥料为以色列进口的Haifa化肥(P2O5的质量分数为52%,K2O的质量分数为34%)。每个处理重复3次,处理间均设置保护行,共计21个区块(图1)。
图1 试验小区示意图Fig.1 Schematic diagram of experimental plots
利用自制的小车搭载AT-200CL型3CCD面阵相机(丹麦JAI公司)获取哈密瓜伸蔓期、开花期及膨果期的冠层图像。为减小自然光的影响,获得最佳成像效果,将小车外部密封,底部用铝箔材料遮挡,内部采用白色背景,搭载两个HLND-500SW2-R型条形稳定光源(美国CCS公司),设置光照角度为60°。为尽量避免拍摄时对试验区作物造成损坏影响后续试验结果、统一拍摄高度(1.4 m),在试验区铺设导轨,导轨两两齐平,保证小车在相同高度,且拍摄过程中能够平稳步进(图2)。
1,试验地;2,导轨;3,挡光铝箔;4,光源开关;5,镜头;6,面阵相机;7,图像采集小车;8,电脑;9,固定光源;10,冠层叶片。1, Test site; 2, Guide rail; 3, Light blocking aluminum foil; 4, Light source switch; 5, Lens; 6, Area array camera; 7, Image acquisition car; 8, Computer; 9, Fixed light source; 10, Canopy blade.图2 冠层图像采集装置示意图Fig.2 Schematic diagram of canopy image acquisition device
拍摄时,人工推动小车滑动到指定位置,待小车固定平稳后利用CentreM6100t型计算机(联想集团有限公司)控制拍摄图像。每个时期采集2次图像,每个小区采集3张图像,每个时期共采集126张图像。使用随机抽样法以2∶1的比例划分建模训练集与测试集。
单次图像获取后,利用SPAD-502P-叶绿素计(日本Konica Minolta)标定对应区域的相对叶绿素含量,每个区域选取10片叶进行测量。由于该仪器单次测量面积小,故在测量时避开叶脉选取叶片左、中、右3个位置测量3次[16],取平均值作为该叶片的值,最后取10片叶的平均值作为对应图像的冠层相对叶绿素含量(SPAD)。
在图像采集过程中,为确保获取的图像来自统一光源且独立于光线变化,每次拍摄前利用CmaExpert软件以白色背景板为参照标准对图像进行白平衡预处理。
基于Matlab2021a软件开发一款图像处理及特征自动提取程序。图像处理包括图像分割、图像开运算以及图像中值滤波。其中:图像分割基于二进制阈值分割原理来消除土壤背景,提取主要感兴趣区域(ROI),阈值范围利用Matlab软件中的Color Thresholder工具获取冠层叶片RGB像素的3D云图并利用多边形选定确定;图像开运算是为了消除图像分割后ROI区域中残余的与哈密瓜冠层叶片主体离散的像素,运算结构选取3×3的正方形结构元素,迭代一次。为提取更精确的冠层图像ROI,在图像开运算后采用中值滤波去除离散噪声点,选取的滤波模块大小为3×3,迭代一次。
数字图像通常包含颜色和纹理两种视觉特征:图像颜色特征是对图像表面蕴含的颜色信息的统计描述;图像纹理特征反映的是图像颜色在同一空间内排列产生的纹理规律,是图像颜色的一种区域性特征[17]。
叶绿素是冠层叶片的主要色素,其含量决定着作物冠层的颜色状态。由于大田哈密瓜存在个体差异,加上本研究进行了水肥调控,因此不同时期的大田哈密瓜冠层图像颜色状态差异较大。为充分挖掘图像颜色信息,提取ROI区域后,利用程序计算ROI区域的R、G、B三通道均值,通过色彩空间变化和代数运算得到32种颜色特征(表1)。为深度挖掘图片的信息,进一步提取ROI区域的6种纹理特征(表2)。最终,共获得38种图像特征,用于后续分析与建模。
表1 颜色特征的基本信息Table 1 Brief introduction of color features
表2 纹理特征的基本情况Table 2 Brief introduction of texture features
首先,分析各时期图像特征与测得的冠层相对叶绿素含量的相关性。由于各参数为连续变量,所以选择皮尔逊(Pearson)相关系数。然后,通过主成分分析对各时期的输入变量进行降维。
最后,采用多元线性回归(MLR)、支持向量机回归(SVR)、随机森林(RF)模型,分别建立3个时期冠层相对叶绿素含量的预测模型,并利用R2、均方根误差(RMSE)对模型的预测效果进行评价。
采用Excel 2016软件整理数据。采用SPSS 20.0软件进行方差分析和Pearson相关性分析,对有显著(P<0.05)差异的,采用最小显著差数法(LSD)进行多重比较。
将不同处理下各时期哈密瓜冠层的相对叶绿素含量整理于表3。整体上看,从伸蔓期到膨果期,冠层的相对叶绿素含量呈增长趋势。方差分析结果显示,在同一时期,不同处理的冠层相对叶绿素含量有显著差异,说明不同水肥处理对冠层叶绿素的合成具有显著影响。
表3 不同处理下大田哈密瓜的冠层相对叶绿素含量Table 3 Relative chlorophyll content of field cantaloupe canopy under treatments
大田哈密瓜冠层的原始图像及经过预处理的图像如图3所示。可见,用本文提出的方法能够有效去除土壤岩石等背景,以及经过颜色分割后黑色背景里残留的与冠层叶片亮度接近的噪声点。
图3 原始图像及经过处理的大田哈密瓜冠层图像Fig.3 Images of field cantaloupe canopy before and after image processing
对各时期的颜色特征、纹理特征与冠层相对叶绿素含量进行相关性分析(表4):在颜色特征方面,总体上看大部分颜色特征在不同时期都与冠层相对叶绿素含量有较强的相关性,相关系数普遍大于0.7且至少在P<0.05水平上具有显著性。在RGB模型内,R、G在3个时期都与冠层的相对叶绿素含量有较高的相关性,仅含有加减运算的颜色特征与各时期冠层相对叶绿素含量的相关性也较高,但带有乘除运算的颜色特征与各时期相对叶绿素含量的相关系数普遍低于0.5。HSV、NTSC模型中的部分颜色特征在伸蔓期后特别是膨果期出现相关性骤降的现象。Gray模型和YCbCr模型与3个时期冠层相对叶绿素含量的相关性较为稳定,相关系数的绝对值普遍大于0.75。在纹理特征方面,平均值在3个时期都与冠层的相对叶绿素含量有较高的相关性,且相关性极显著(P<0.01);一致性和熵在伸蔓期和开花期与冠层相对叶绿素含量的相关系数也都大于0.7,且相关性极显著,说明纹理特征在解释冠层相对叶绿素含量时也能提供较为丰富的有用信息。
表4 不同时期图像特征与冠层相对叶绿素含量的相关系数Table 4 Correlation coefficient between image features and relative chlorophyll content of field cantaloupe canopy at different growth stages
输入变量作为构建模型的关键,其本身的独立不共线性决定着模型的精度和稳定性。为构建高稳健性的模型,还需要探明各图像特征之间的线性关系。为此,对各图像特征进行相关性分析,结果如图4所示,每个小方块的颜色代表对应两个图像特征的相关性,颜色越深,相关性越强。在本文选定的3个时期,特别是伸蔓期,有较多深红色和深绿色的方块堆积,说明大部分图像特征之间具有较强的相关性,需要对其做进一步处理。
R、G、B分别表示RGB模型的红、绿、蓝三基色;Gray表示灰度模型的灰度值;H、S、V分别表示HSV模型的色调、色饱和度和明度;YNTSC、I、Q分别表示NTSC模型的光亮度、色调、饱和度;Y、Cb、Cr分别表示YcbCr模型的亮度分量、蓝色色度分量、红色色度分量;m,平均值;S,标准偏差;F,平滑度;T3,三阶矩;U,一致性;e,熵;D,相对叶绿素含量。“*”表示相关性达到显著水平(P<0.05)。R, G, B represent the red, green and blue primary colors of RGB model, respectively; Gray denotes the gray value of the grayscale model ;H, S, V represent the hue, color saturation and value of HSV model, respectively; YNTSC, I, Q represent the brightness, hue and saturation of NTSC model, respectively; Y, Cb, Cr represent the luminance component, blue chromaticity component and red chromaticity component of YcbCr model, respectively; m, Mean; S, Standard deviation; F, Smoothness; T3, Third moment; U, Consistency; e, Entropy; D, Relative chlorophyll content of canopy. “*” indicate significant correlation at P<0.05.图4 不同时期图像特征及冠层相对叶绿素含量的相关性Fig.4 Correlation of image features and relaitve chlorophyll content of field cantaloupe canopy at different growth stages
由于多数图像特征间存在着较强的相关性,无法满足输入变量独立非共线性的要求,特采用主成分分析对图像特征进行降维(表5),以期得到相互独立的主成分。在本文选定的3个时期,前5个主成分的累积方差贡献率均接近或超过95%,前10个主成分的累积方差贡献率均超过99%,基本可以涵盖所有图像的特征信息。基于此,本研究选取前5个主成分构建多元线性回归模型(MLR)。为最大限度地保留信息,选取前10个主成分构建非线性的SVR和RF模型。
表5 主成分的方差贡献率Table 5 Variance contribution rate of principal components
2.5.1 MLR模型
线性模型MLR对有用信息的提取能力有限,因此增加蕴含信息量较少的输入,不仅不会提高模型精度,反而会导致模型的输入维度增加,降低稳健性[18]。为此,选择前5个主成分作为输入变量构建MLR模型:
D=β0+β1P1+β2P2+β3P3+β4P4+β5P5。
(1)
式(1)中;D代表SPAD值;β0~β5是各主成分的回归系数,将其值整理于表6。
表6 建模参数表Table 6 Modeling parameters
2.5.2 SVR模型
SVR是一种基于统计学习理论的机器学习方法,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略是使得间隔,即支持向量最大化,并最终转化为求解凸二次规划的问题,具有运算简单、稳健性高的特点[19-20]。为最大限度地保留原始图像的特征信息,选取前10个主成分作为SVR模型的输入,构建冠层相对叶绿素含量的预测模型。SVR模型选用RBF核函数,采用网格搜索法选取最佳核函数参数g和惩罚因子C。
2.5.3 RF模型
RF模型是通过Bootstrap法随机取样生成多个决策树,综合各决策树得出最终结果的集成算法,能高效处理高维度数据,克服了单一决策树过拟合的问题[21]。选取前10个主成分作为RF模型的输入,建立各时期冠层相对叶绿素含量的预测模型,模型参数ntree表示RF模型中的决策树个数,mtry表示分类树每个节点用以二分数据的自变量个数,采用网格搜索法选取最佳核函数参数ntree和惩罚因子mtry。
2.5.4 模型效果对比
以最优参数分别建立冠层相对叶绿素含量的预测模型,对比各时期各模型的效果(表7)。对于MLR模型来说,开花期冠层相对叶绿素含量预测模型的RMSE值最小,在测试集上,其RMSE值相较于伸蔓期与膨果期分别下降了29.36%、16.04%;但膨果期冠层相对叶绿素含量预测模型的R2值最大,在测试集上,其R2值相较于伸蔓期与开花期分别提升了28.57%、18.03%。对于SVR模型来说,膨果期冠层相对叶绿素含量预测模型的精度最高,在测试集上,其RMSE值相较于伸蔓期与开花期分别下降了24.74%、21.51%,而R2值分别上升了14.08%、5.19%。对于RF模型来说,同样以膨果期冠层相对叶绿素含量预测模型的精度最高,在测试集上,其RMSE值相较于伸蔓期与开花期分别下降了3.88%、25.00%,而R2值分别上升了4.00%、2.63%。
表7 建模效果对比Table 7 Comparison of modeling effect
对比3个模型的性能:在同一时期,非线性的SVR、RF模型对冠层相对叶绿素含量的预测精度均明显优于线性的MLR模型,其RMSE值更小,而R2值更大,说明相较于线性模型,非线性模型对于高维度复杂数据的解析能力更强。在非线性模型之间,SVR模型与RF模型在各时期的R2值虽然相差不大,但SVR模型在训练集与测试集上的RMSE值均更小。综上,基于图像特征建立的哈密瓜关键生育期冠层相对叶绿素含量的SVR预测模型效果最好,基于该模型对3个时期大田哈密瓜冠层叶绿素含量的预测结果构建回归散点图(图5),伸蔓期、开花期、膨果期的R2分别为0.73、0.73、0.83,RMSE分别为0.90、0.91、0.76,各时期样本点具有较为明显的线性关系,且异常点较少。
RMSE,均方根误差;R2,决定系数。RMSE, Root mean square error; R2, Coefficient of determination.图5 不同时期支持向量机回归(SVR)模型预测值与实测值的回归散点图Fig.5 Regression scatter diagram of the predicted value by support vector regression (SVR) model and the measure value at different growth stages
作物冠层叶绿素含量与作物的营养累积能力息息相关,作物冠层叶绿素含量的快速无损获取可为作物科学的田间管理提供技术支持。本研究利用自制的图像采集小车获取不同时期大田哈密瓜的冠层图像,并基于数字图像处理技术提取图像的颜色和纹理特征。相关性分析发现,在RGB颜色空间内,红、绿两颜色的特征以及这两个颜色特征的组合与冠层相对叶绿素含量的相关性较为稳定。这与李修华等[22]用冠层图像特征预测玉米叶绿素含量的研究结果一致。HSV颜色空间是图像处理中常用的颜色空间。本研究发现,HSV空间颜色特征与哈密瓜冠层的SPAD值具有显著相关性。这与孙玉婷等[23]对水稻冠层图像的研究结果一致。另外,本研究发现,Gray与YCbCr颜色空间与3个时期大田哈密瓜冠层相对叶绿素含量的相关性较为稳定,相关系数普遍大于0.75。部分颜色特征在伸蔓期后,特别是膨果期,出现了与冠层相对叶绿素含量相关性骤降的现象。这可能是因为随着生长期的后移,一部分叶片老化,同时也有新叶生长,因此冠层叶绿素含量随着新老叶的分布差异化产生了异常值,而这些异常值对相关系数的影响较大。
本文在对图像特征进行主成分分析后,分别建立了基于图像特征的大田哈密瓜不同时期冠层相对叶绿素含量的MLR、RF、SVR预测模型,其中,非线性模型的建模效果明显优于线性模型。在非线性模型之间,RF与SVR模型的R2值虽然相差不大,但SVR模型的RMSE值要明显更小。这是因为,RF模型对于超出训练集数据范围的数据处理能力较差,因此在对测试集中某些数值较大或较小的样本数据进行预测时易出现过拟合问题,从而导致预测精度变差。本文基于图像特征利用SVR建立的哈密瓜冠层相对叶绿素含量预测模型的效果最好,其在伸蔓期、开花期、膨果期的预测值与实测值回归的R2值分别为0.73、0.73、0.83,RMSE值分别为0.90、0.91、0.76。
图像特征,特别是纹理特征还有丰富的信息值得挖掘,建模方法也存在着优化空间,后续研究将会围绕上述内容开展,以期为哈密瓜的田间管理提供更精准的技术支持。