基于无人机多光谱图像的水稻品种鉴定

2023-10-17 09:26:28陈裕锋冯佩雯凌金生张书琪余振鹏熊琳琳刘洪谢家兴
南京农业大学学报 2023年5期
关键词:植被指数灰度光谱

陈裕锋,冯佩雯,凌金生,张书琪,余振鹏,熊琳琳,刘洪,谢家兴,3,4*

(1.华南农业大学电子工程学院(人工智能学院),广东 广州 510642;2.华南农业大学农学院,广东 广州 510642;3.岭南现代农业科学与技术广东省实验室,广东 广州 510642;4.广东省农情信息监测工程技术研究中心,广东 广州 510642)

近年来,随着无人机以及多光谱技术在农业领域的普及和应用,许多学者针对其展开了大量的研究。目前针对无人机多光谱研究主要涉及模型设计[1]、品种鉴定[2]、病害鉴定[3]、含水量检测[4]等。刘伟等[5]应用多光谱图像采集设备获取水稻的多光谱图像,基于最小二乘支持向量机建立谷粒品种鉴别模型;朱圣等[6]通过无人机拍摄图像对水稻田间杂草可见光图像进行比较,对水稻田间杂草图像进行分类,从而区分杂草和水稻,获取杂草的分布信息;朱伟等[7]利用无人机超低空航拍获取清晰、完整的水稻秧苗图像,在秧苗图像的基础上利用GoogLeNet模型训练数据,经过多维对比得到最佳网络识别模型,对秧苗进行形态识别;高振宇等[8]通过设计多光谱信息融合识别模型,提取树种的关键信息点,完成树种的识别鉴定;唐渲运等[9]通过无人机搭载光谱相机组成的遥感监测系统,使用大面积遥感试验数据对元素含量进行反演,实现快速获得植被元素含量。

相关研究目前主要集中在水稻田的杂草和秧苗识别检测上,而利用水稻植株多光谱图像对水稻进行品种鉴别分类的研究较少。因此,本研究针对水稻智能种植需求,以拔节孕穗期和成熟期2个时期的水稻多光谱图像为主要研究对象,建立一种水稻鉴别模型。考虑到水稻多光谱图像数据量较少、非线性强等数据特征,无法满足卷积神经网络对大规模数据集的要求[10],故选用在小样本数据分类中具有分类优势的传统机器学习分类方法[11]并进行算法间的对照试验。本研究采用线性拟合(linear discrimination analysis,LDA)[12]、多层感知器(multilayer perceptron,MLP)[13]、径向基函数(radial basis function,RBF)[14]和随机森林(random forest,RF)[15]4种学习算法模型,建立的水稻品种鉴定模型为大规模水稻种植中的品种分类提供参考。

1 材料与方法

1.1 试验区概况

试验地点位于华南农业大学增城试验基地(广东省广州市,23°14′N、113°38′E,基准WGS84)。试验区属于亚热带季风气候,年平均气温21.9 ℃。水稻种子由华南农业大学农学院提供,包括小白谷、沼稻瘟和丽江新团黑谷等591个品种,种植的水稻品种按照《植物新品种特异性、一致性和稳定性测试指南 水稻:GB/T 19557.7—2004》中的性状进行区分,属于表型各异的水稻品种,主要用水稻叶色与SPAD作为指标进行表达。试验水稻于2021年6月下旬播种,每一个方形框代表不同品种的水稻。水稻试验区的水稻分布如图1所示。

图1 水稻拔节孕穗期和成熟期图Fig.1 Map of jointing booting stage and maturity stage of rice

于2021年9月14日和11月4日对水稻试验地进行RGB图像和多光谱图像采集,数据采集设备为大疆精灵4无人机多光谱版,结合地面站软件DJI GSPRO进行航线规划。

1.2 仪器设备及数据采集

1.2.1 仪器设备及软件采用的多光谱图像采集系统如图2所示。多光谱图像采集系统由多光谱相机、GPS接收器、遥控器、监视器、多光谱标定板和叶绿素含量测定仪(SPAD-502)构成,多光谱相机具有红(660 nm)、绿(550 nm)、蓝(450 nm)、红边(750 nm)和近红外(850 nm)5个光谱通道和RGB可见光。采用多光谱图像分析软件ENVI 5.3获取图像数据,采用IBM SPSS Statistics 26、MATLAB R2016a、R3.5.1软件进行数据分析。

图2 试验设备图Fig.2 Experimental equipment diagram

1.2.2 水稻SPAD数据采集SPAD值能够指示作物叶片中叶绿素含量的相对值,SPAD 值越大,表明叶片叶绿素含量越高[16]。叶绿素含量能够反映水稻叶色。本试验采用五点取样法对每一个水稻品种的植株进行测量,测量位置为水稻叶片上、中、下3个部分,每个部分测量2次数据,取各部分SPAD 值的平均值作为该水稻品种叶片的 SPAD 值,得到1个点的样本数据,通过5个点的测量可在一个品种获得5个样本数据。分别在2021年9月14日、11月4日正午时间(12:00—14:00)测量水稻叶片SPAD 值,2次取样总共得到167个有效样本数据。

1.2.3 多光谱图像采集为排除太阳照射角度对多光谱图像的影响,本研究选择在中午时分、多云无风的时候对水稻田进行多光谱图像采集。利用无人机搭载多光谱和可见光相机对14种不同种类的水稻进行多光谱图像拍摄,可见光相机传感器具有红、绿和蓝光谱通道,多光谱传感器具有红、绿、蓝、红边和近红外光谱通道。无人机飞行前根据水稻田的水稻分布进行无人机的航线规划,设置航高20 m,航向重叠度75%,旁向重叠度60%,飞行速度2 m·s-1,可见光相机选择自动拍照模式,多光谱相机设置快门速度1/1 000 s、感光度50、间隔拍照2 s等参数。进入航线前先拍摄多光谱标定板影像,用于多光谱影像信息值的定标,通过Agisoft PhotoScan Professional 软件进行无人机可见光和定标的多光谱影像的拼接处理,生成对应的高清数字正射影像(digital orthophoto map,DOM),在多光谱影像中计算标准白板在各波段的DN(digital number)值,利用公式R1=DN1/DN2×R2进行多光谱影像的辐射校正,其中R1为目标地物反射率,DN1为目标地物数字量化值,DN2为标准白板数字量化值,R2为标准白板反射率。可见光影像的空间分辨率为0.007 m,多光谱影像的空间分辨率为0.004 m。生成的正射影像DOM导入ENVI5.3软件中,以地面实测取样点为中心,划分感兴趣区域(ROI),将ROI区域内水稻叶片样本的平均反射光谱作为该取样点的光谱反射率,获得不同波段的水稻冠层光谱反射率数据。

1.3 图像预处理

为降低田间背景对观测数据的影响和提高数据准确性,需要对获取的图像数据进行预处理。无人机获取遥感图像的数据预处理包括3个步骤,分别是离群点分析[17]、图像平均灰度特征提取[18]和平均灰度值归一化处理[19]。预处理流程如图3所示。首先将获取到的水稻数据的可见光图像数据和多光谱图像数据先通过离群点分析消除偏差数据,再将其导入ENVI 5.3软件并提取感兴趣区域的平均灰度值,最后再通过归一化灰度处理消减土壤裸露田间背景和天空颜色等自然环境因素带来的影响。

图3 图像预处理流程Fig.3 Image preprocessing process

图4 植被指数相关性分析Fig.4 Correlation analysis of vegetation indexMNIR:多光谱近红外波段Multispectral near infra-red;RGRI:红绿比指数Red green ratio index;MG:多光谱绿光波段Multispectral green;MR:多光谱红光波段Multispectral red.

1.3.1 离群点分析离群点是系统受外部干扰而造成的,通过离群点分析可以锁定采集到的数据中的“坏值”并对其进行筛选[20]。离群点分析主要通过Python使用Z-score方法来实现;Z-score方法是以标准差为单位去度量某一原始分数偏离平均数的距离,可以用3δ原则来筛选数据[21],通常把Z-score大于3的数据点视作离群点。

1.3.2 灰度提取图像平均灰度特征提取主要在ENVI 5.3软件中完成,主要过程为导入离群点分析之后需要处理的图片数据,在此基础上选取感兴趣区域的水稻多光谱图像,由软件生成感兴趣区域的平均灰度数据,以便进行下一步的数据处理。

1.3.3 灰度归一化处理为了降低天空光对影像灰度的影响,需要对提取的水稻可见光和多光谱高清DOM的单通道影像灰度进行归一化处理,其中可见光DOM具有红(red,R)、绿(green,G)和蓝(blue,B)通道灰度,多光谱DOM具有红(multispectral red,MR)、绿(multispectral green,MG)和近红外通道灰度(multispectral near infra-red,MNIR)。归一化处理的公式[22]:

r=R/(R+G+B)

(1)

g=G/(R+G+B)

(2)

b=B/(R+G+B)

(3)

m1=MR/(MR+MG+MNIR)

(4)

m2=MG/(MR+MG+MNIR)

(5)

m3=MNIR/(MR+MG+MNIR)

(6)

式中:r、g、b为可见光影像R、G和B通道影像灰度进行归一化处理后的影像灰度;m1、m2、m3为多光谱影像MR、MG和MNIR通道影像灰度进行归一化处理后的影像灰度。

1.4 分类模型

1.4.1 线性拟合(LDA)分类模型线性拟合是曲线拟合的一种形式[23]。设x和y都是被观测的量,且y是x的函数:y=f(x;b),当函数y=f(x;b)为关于b的i线性函数时,称这种拟合为线性拟合[23]。本模型将多光谱绿通道灰度(MG)、多光谱近红外通道灰度(MNIR)、修正红绿植被指数(modified green red vegetation index,MGRVI)、超红植被指数(excess red,EXR)作为自变量,SPAD作为因变量进行线性回归分析。线性拟合模型训练、预测速度非常快,可推广到大数据集,对稀疏数据处理也很有效。但线性模型存在非线性数据预测精确度不高的问题。以SPAD作为因变量建立函数时,LDA模型自变量MG、MNIR、MGRVI、EXR的线性系数分别为-88.162、29.751、-95.994、-130.185。

1.4.2 径向基函数(RBF)分类模型本模型使用的径向基函数为高斯核径向基函数,可以表示为k(‖x-xc‖)=exp{-‖x-xc‖2/(2*σ)2}。式中:xc为核函数中心;σ为函数的宽度参数,控制了函数1的径向作用范围。径向基函数网络引入RBF函数,当输入值偏离基函数中心时,输出逐渐减小,并很快趋于零[24]。

1.4.3 多层感知器(MLP)分类模型MLP网络由感受层(S)、联想层(A)、响应层(R)构成[25]。S、A、R均由同类神经元构成。通过训练优化,使网络形成有序并具有决策能力的稳定结构[26]。多层感知器神经网络能够得到更好的表达效果,但是想要获得更精确的近似复杂的函数,神经网络就有可能会产生梯度扩散问题。

1.4.4 随机森林(RF)分类模型随机森林模型通过随机采样(bootstrap)方法随机有放回地抽取k个样本,并进行Ntree次采样,生成Ntree个训练集,分别训练Ntree个决策树模型的过程。本模型设置样本容量为126,水稻的种类作为大树(因变量),植被指数作为不同的限定条件(自变量)。随机森林模型无需特征筛选也能得到较高的正确率,对特征具有较好的鲁棒性,与传统的分类器相比,随机森林需要很少的参数调整,并且在准确率方面有很大的优势[27]。

1.5 模型评价指标

1.5.1 平均准确率采用平均准确率作为LDA模型、RBF模型、MLP模型评价指标。为减小误差,本研究共采用2个时期的水稻多光谱图像和SPAD值作为变量,由于2个时期采集的样本数不一致,最终决定以平均准确率为模型评价指标。T1为水稻拔节孕穗期样本的正确判断数量,T2为水稻成熟期样本的正确判断数量,TS为样本总数167。平均准确率的计算公式如下:

(7)

1.5.2 Kappa值Kappa值作为评价判断的一致性程度指标,Kappa系数值越大越接近1,说明2种结果的一致性越高,它作为判断一致性较为理想的指标,在各领域得到了广泛应用[28]。对于随机森林模型,采用准确率以及Kappa值作为模型评价指标。随机森林准确率的计算公式如下:

(8)

式中:TP(true positive)为真阳性,表示实际类别为正,算法输出类别也为正;FP(false positive)为假阳性,表示实际类别为负,样本输出类别为正;TN(false negative)为假负性,表示实际类别为负,算法输出类别也为负;FN(false negative)为假阴性,表示实际类别为正,算法输出类别为负。

2 结果与分析

2.1 光谱反射率与水稻品种的相关性

采用统计分析软件IBM SPSS Statistics 26对蓝波段、绿波段、红波段、红边波段和近红外波段的光谱反射率与相应的水稻品种进行相关性分析,发现其相关系数分别为0.095、0.376、0.633、-0.070和-0.254,其中红波段、绿波段和近红外波段的相关性达到显著水平,而蓝波段和红边波段的相关性未通过显著性检验。SPAD-502的工作原理为叶绿素的吸收峰主要在蓝光和红光区域,在绿光区域是吸收低谷,并且在近红外区域几乎没有吸收。基于此,选择红光区域和近红外区域测量叶绿素。许多研究表明绿光波段对品种鉴定的影响较大,故将绿光波段作为模型输入[29]。结合相关性分析结果与叶绿素的吸收波段、SPAD-502的工作原理等多方面因素,选取红波段、绿波段和近红外波段作为敏感波段用作水稻品种鉴定模型的研究。

2.2 数据预处理

在ENVI软件中提取多光谱图像得到R、G、B、MR、MG、MNIR数据,R、G、B三原色图放入ENVI得到的三色图灰度,处理后分别得到归一化后的r、g、b数据。同理,用相同的方法对MR、MG、MNIR数据进行归一化处理得到m1、m2、m3,将归一化后的r、g、b、m1、m2、m3以及MR、MG、MNIR数据作为计算参数,依照计算得出相应的植被指数。植被指数及其计算公式如表1所示。

表1 植被指数及其计算公式Table 1 Vegetation index and its related calculation formula

将各植被指数与SPAD值进行Pearson相关性分析,筛选出与SPAD值相关性高的植被指数,再将SPAD值与水稻品种进行线性拟合。植被指数相关性分析如图 4所示。本研究共选取6种植被指数进行筛选,最终根据相关系数高低选出相关性分别为-0.648、-0.592、-0.559、-0.507的植被指数MG、EXR、MGRVI、MNIR。

本试验旨在筛选出鉴定准确率高的植被指数组合,为了简化植被指数的表示方式,采用编号表示植被指数组合(表2)。应用枚举法遍历所有组合共15种输入方式,目的在保证分类准确率高的情况下减少输入变量个数,进而节省资源消耗。

表2 植被指数的变量组合Table 2 Variable combination of vegetation index

2.3 分类结果与分析

对相同数据集进行归一化处理和剔除异常值后,得到水稻拔节孕穗期和成熟期共167个样本数据集,数据集的集中趋势不明显、离散程度大。由多光谱图像提取的植被指数组合后作为自变量分别输入LDA、RBF、MLP以及RF分类器进行分类,其中LDA分类器是将SPAD值作为中间变量进行分析,通过SPAD值与水稻品种的线性判别式计算得到品种鉴定结果。而RBF、MLP、RF分类器是直接将水稻品种作为因变量进行分析,直接辨别水稻品种。对分类器的分类结果进行统计,并以决定系数R2作为模型的评价指标,最后对分类器的多次参数调整试验得出分类准确率高的判别模型。

2.3.1 LDA模型4种植被指数对水稻品种的判别影响程度不同,为了综合考虑这些影响,采用SPAD值作为中间变量通过SPSS 26建立水稻种类鉴别模型。LDA模型中SPAD值与水稻品种拟合模型的R2为0.707,植被指数与SPAD值拟合模型的R2为0.728。通过多光谱图像中提取到的植被指数运用线性拟合模型计算得到SPAD值,再通过SPAD值与水稻品种的线性判别式鉴别水稻品种。SPAD值与水稻品种的线性判别式如表3所示。由于植被指数呈现出一定的非线性,而线性分类模型对非线性数据的预测分类精确度不高,最终LDA模型对水稻品种判别的平均准确率仅为53.84%。

表3 SPAD值与水稻品种的线性判别式Table 3 Linear discriminant between SPAD value and rice variety

2.3.2 RBF分类模型通过SPSS 26软件,用MG、MNIR、EXR、MGRVI作为输入变量构建水稻品种鉴别模型,筛选出最优植被指数组合的结果为MNIR、EXR。RBF模型中采用高斯核径向基函数解决本研究非线性映射问题,隐藏层激活函数为高斯函数,隐藏层的单位数为14。最终径向基函数对2个时期水稻品种鉴别的平均准确率为86.32%。

2.3.3 MLP分类模型通过SPSS 26软件,建立水稻品种鉴别模型。将MG、MNIR、EXR、MGRVI组合后作为输入变量进行分类判别。为了使模型结果具有可比性,MLP模型隐藏层的单位数与RBF模型保持一致。MLP模型中隐藏层和输出层的激活函数分别为双曲正切函数和SoftMax函数。最终多层感知器模型对2个时期水稻品种鉴别的平均准确率为94.87%。

2.3.4 RF分类模型通过R3.5.1软件,建立随机森林分类判别模型。RF模型训练的随机森林中决策树数量为500,特征层层数为6,随机迭代次数为2 000。随机森林评价指标Kappa值为0.769 2。

3种机器学习不同输入变量的平均准确率如图5所示。通过多次参数调整,当输入变量为MG、MNIR、EXR、MGRVI时,LDA算法的平均准确率最高。当输入变量为MG、EXR时,RBF算法的平均准确率最高。当输入变量为MG、MNIR、EXR、MGRVI时,MLP算法的平均准确率最高。当输入变量为MG、MNIR、MGRVI时,RF算法的平均准确率最高。因此,结合4种模型可知,当输入变量为MG、MNIR、EXR、MGRVI时,MLP算法平均准确率最高,为95.7%。4种模型的平均准确率如表4所示。

表4 4种模型的平均准确率Table 4 Comprehensive classification accuracy of four models

图5 3种机器学习不同输入下的水稻品种鉴别平均准确率Fig.5 Average accuracy of rice variety identification by three kinds of machine learning under different inputs图中横坐标表示植被指数的15种输入变量组合如表2所示。The horizontal coordinate in the figure represents the combination of 15 input variables of vegetation index,as shown in Table 2.

由表4可以看出,4种模型的平均分类准确率都超过50%,其中RBF模型、MLP模型、RF模型的平均分类准确率超过70%,说明这些模型均能在一定程度上反映植被指数与水稻品种的关系,实现水稻分类判别的功能。但线性分类模型的准确率明显低于其他3种模型;随机森林模型中容易出现过拟合的情况且在实际应用中会出现对个别水稻品种判别准确率较低的情况;径向基函数分类准确率较高,但该神经网络在应用中存在学习速度慢,无法满足实时性要求的缺点。经过多次比对,最终选用多层感知器(MLP)分类模型,该模型对平均分类准确率为4种模型中最高,且能较好满足应用场景中实时分类的需求。

3 小结

本研究利用水稻叶片光谱数据对水稻品种进行鉴定,具有准确率高的优点,可以解决水稻品种鉴定困难的问题。本研究对从14个水稻品种叶片光谱数据提取得到的植被指数进行分类,分别输入4种分类模型中,综合比较最优变量数、训练集正确率及预测集正确率,得出MLP的分类性能优于其他3种方法,其中分类性能最好的光谱特征变量组合是MG-MNIR-MGRVI-EXR。

本研究虽然取得了较为理想的结果,但是仍然存在以下不足:1)仅仅应用水稻拔节孕穗期和成熟期的实测光谱数据进行水稻光谱特征分析以及识别,所得结论是否适用于整个生长周期还有待于进一步的研究;2)样本量在一定程度上影响着模型精度。本文所使用的样本数仍然较少,在以后的研究中需要进一步增加样本量;3)本研究中只应用实测多光谱数据进行分析,在下一步研究中将结合叶片形态特征和纹理特征进行分析。

猜你喜欢
植被指数灰度光谱
基于三维Saab变换的高光谱图像压缩方法
采用改进导重法的拓扑结构灰度单元过滤技术
基于灰度拉伸的图像水位识别方法研究
高技术通讯(2021年3期)2021-06-09 06:57:48
AMSR_2微波植被指数在黄河流域的适用性对比与分析
河南省冬小麦产量遥感监测精度比较研究
基于最大加权投影求解的彩色图像灰度化对比度保留算法
自动化学报(2017年5期)2017-05-14 06:20:56
基于灰度线性建模的亚像素图像抖动量计算
星载近红外高光谱CO2遥感进展
中国光学(2015年5期)2015-12-09 09:00:28
主要植被指数在生态环评中的作用
西藏科技(2015年1期)2015-09-26 12:09:29
基于MODIS数据的植被指数与植被覆盖度关系研究