崔美娜,戴建国,王守会,张国顺,薛金利
(石河子大学信息科学与技术学院/兵团空间信息工程技术研究中心,新疆石河子 832000)
【研究意义】病虫害的发生与蔓延给农业生产带来不可忽略的损失[1-3]。据统计,世界粮食生产每年因病害损失10%,虫害损失14%;棉花产量因病害损失14%,虫害损失16%[4]。新疆作为我国最大的优质棉生产基地,播种面积占全国的30%左右,产量占全国的40%以上,出口量占全国的 70%以上[5]。而棉叶螨是棉花主要害虫之一,对棉花生产危害极大,对其进行大面积快速监测是及时治理的重要前提。传统的病虫害识别、定位与监测方法主要是田间人工调查,该方法耗时、费力,适合于小面积种植的管理,难以满足新疆大面积规模化种植的要求,影响了虫情监测的及时性[6],降低了防治效果。因此,快速、准确地对大面积棉花进行棉叶螨虫情监测,及时掌握棉叶螨发生动态,对于减少棉花产量损失有重要意义。【前人研究进展】在大面积农作物病虫害遥感监测方面,常用的方式和手段主要有近地遥感以及卫星遥感[7]。竞霞等[8]基于PLS算法和变量投影重要性(VIP)准则筛选出了棉花黄萎病病情严重度遥感估测的特征因子,利用高分辨率卫星影像实现了棉花黄萎病病情严重度的遥感监测。Jonas等[9]通过对Quickbird影像进行处理和分析,在实验区域内对小麦白粉病和条锈病的发生进行了监测识别,监测制图精度达到88.6%。Zhang等[10]基于多时相环境星可见光、近红外、短波红外和热红外通道计算相关特征,建立了结合生境信息的小麦白粉病发病概率预测模型。但卫星遥感受时间分辨率、空间分辨率和光谱分辨率的影响,在监测的及时性和准确性上较为受限。近年来随着无人机在农业领域的广泛使用,成为农作物病虫害监测的新手段。陈雯等[11]阐述了无人机遥感在地块面积估测、生长状况以及灾害监测中的应用现状,为无人机在作物监测领域的应用提供了依据。刘良云等[12]利用无人机多时相高光谱数据构建病害光谱指数,实现了冬小麦条锈病病害程度与发病区域监测;乔红波等[13]通过无人机航拍数码图像,建立基于HSV色彩空间的颜色特征模型,实现了小麦全蚀病的识别与等级分类。【本研究切入点】利用无人机遥感进行农作物分类、长势监测、病虫害识别等已逐渐成为农业领域的研究热点,但目前在棉叶螨监测方面的研究还未见报道。研究机载多光谱影像提取棉田螨害光谱特征,建立监测模型,以期获得棉叶螨无人机遥感的监测识别方法。【拟解决的关键问题】基于无人机获取高分辨率影像数据,结合受害棉田的光谱响应规律,筛选特征光谱指数并建立分类模型,形成基于无人机多光谱遥感的棉叶螨识别方法,实现大面积棉田的高效、快速监测,为新疆棉花种植的稳产和高产提供技术支持。
1.1.1 研究区概况
研究区位于新疆生产建设兵团146团六分场二连,是北疆地区棉花生产基地之一。该区为典型的温带大陆性干旱气候,冬季长而严寒,夏季短而炎热,光热资源丰富,日照率 60%~80%,降水少、蒸发量大[14]。田间种植模式单一,灌溉设施齐全,全连以棉花为主要经济作物,种植品种为新陆早162号,种植模式采用66 cm+10 cm宽窄行设计。在研究区拍摄的无人机多光谱影像,影像覆盖田间面积大约8 500 m2。棉叶螨作为研究区主要虫害,于2017年7月初开始点片发生。图1
图1 研究区影像
Fig.1 Map of research area
1.1.2 无人机多光谱数据的获取与处理
无人机平台为大疆Spreading Wing S1000+八旋翼无人机,整机重量4.4 kg,有效载荷3 kg,悬停功耗1 500 W,具有质量轻、体积小,系统操控简单,轻便灵活等特点。无人机搭载的传感器是美国Tetracam公司生产的Micro MCA12 Snap多光谱相机,该相机可同时获取包含可见光与近红外在内的12个波段数据。前5个波段位于可见光区域,波段6、7位于红边区域,最后的5个波段位于近红外区域。其中波段8、5、3、1分别近似TM 影像的4、3、2、1波段[15],可进行相应指数的计算。表1,表2
无人机多光谱数据的获取于2017年8月8日进行,时间为上午12:00~14:00,研究区域面积8 500 m2,飞行时光照条件良好且风力小于3级。在进行无人机航拍实验前,设置多个地面控制点,并放置一块1 m×1 m大小的白板,用于像元值的相对定标。数据获取时,根据预定的航线垂直拍摄,范围覆盖整个研究地块。飞行航高80 m,巡航速度5m/s,所拍摄影像空间分辨率为0.04 m,影像旁向重叠率为80%,航向重叠率为60%,满足后期影像处理需求。无人机影像的拼接处理使用Pix4D Mapper软件。处理过程中首先进行自动空三加密,再结合相应的地面控制点数据利用3阶多项式模型对影像校正,结果输出数字正射影像(Digital orthophoto map,DOM),最后对得到的影像再进行几何校正和辐射定标[15-16]。由于图像边缘数据产生的畸变较大,光谱信息异常,因此预处理结束后再对研究区域进行图像裁剪,剔除边缘区域。
表1 Micro MCA12 Snap 传感器波长及波段特征Table 1 Wavelength and band features of MicroMCA12 Snap
1.1.3 螨害调查数据获取
在获取无人机多光谱数据的时间点附近(8月7日~8月9日),同步进行螨害的地面调查。在研究区内随机、均匀布设采样点,分散覆盖整个研究地块,并控制受害点和健康点数量基本相同,每个样点调查20株。地面螨害分级标准参照《棉花叶螨测报技术规范》(GB/T 15802-2011)[17]国家标准中进行划分,0级:无为害;1级:叶面有零星黄色斑块;2级:红色斑块占叶面1/3以下;3级:红色斑块占叶面1/3以上。并通过统计样点棉叶数以及各棉叶螨害级别,计算平均螨害级数,以此作为螨害发生情况(发生螨害、健康)的依据。当平均螨害级数为2级以上(包括2级)时,认为达到当地防治要求,即将该采样点标记为螨害发生点,否则标记为健康点。同时在各个样点中心使用全球定位系统(global position system,GPS)精准定位,获得坐标信息。实验共布设180个调查样点。图1
1.2.1 建模因子的选取
棉花受螨害胁迫后,会在外部形态及内部生理上发生一系列变化,反映在植物的反射光谱上为可见光与近红外波段反射峰的改变。选取影像中6个可见光、近红外波段数据,结合作物病虫害遥感监测中常用的14个植被指数,共得到20个初选特征因子,作为棉叶螨识别的建模变量。表2
1.2.2 逻辑回归模型的构建
逻辑回归 (Logistic Regression,LR)分析实际上属于判别分析,用于处理因变量为分类变量的数据。同时,二值逻辑回归法可以很好的解释在一定条件下事件发生的概率[18]。在逻辑回归分析中,因变量是二分类变量,通常使用0和1代表两种不同的状态。同时螨害发生与否是非线性的变化过程,因此螨害监测问题属于非线性的二分类问题,建立如下logistic逻辑回归模型:
(1)
其中,β0为常数项或截距,β1,β2,…βp为logistic模型回归系数。X1,X2,…,XP表示p个自变量,P表示在p个自变量的作用下发生的条件概率,即在影响Y取值的p个自变量作用下螨害发生的条件概率为P=P(Y=1|X1,X2,…,XP)。
对式(1)作logit变换(逻辑变换),logistic回归模型可以变成下列线性形式:
(2)
从式(2)可以看出,回归系数(β)是在控制了其他因素的条件下变量的影响能力,响应变量Y是一个二分类变量,其取值Y=1和Y=0,分别代表发生与不发生,P为发生概率,以0.5作为分界点,当P≥0.5,逻辑为真,表示发生螨害,当P<0.5表示健康(未发生)。
表2 光谱指数及其定义Table 2 Summary of spectral indexes used in this study and definition
1.2.3 赤池信息准则
赤池信息准则也被称为AIC准则(Akaike’s Information Criterion) 。该准则于1973年提出,它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性[33]。AIC由两部分组成,一部分反映模型的拟合精度,一部分反映了模型中参数的个数,即模型的繁简程度。AIC值由下式确定:
VAIC=-2lnA+2B.
(3)
式中A为模型的极大似然函数;B为模型参数个数。
赤池信息准则的思想是:在一组可供选择的模型中,AIC最小的模型通常是最佳模型。当式(3)中构成AIC值的两部分之间存在较大的差异时,这个差异主要体现在第1项,即似然函数项,而当作为似然函数的第1项不出现显著性差异时,第2项模型复杂度则起作用,从而参数个数少的模型是较好的选择。
一般而言,当模型复杂度提高(B增大)时,似然函数A也会增大,从而使AIC变小。但当B增大到一定程度时似然函数增速减缓,当似然函数增速小于B的增大速度时会导致AIC增大,此时说明模型过于复杂造成了过拟合现象。而AIC值小的模型在模型拟合度和复杂度之间找到了合适平衡点,在保证似然函数尽可能大的同时,复杂度尽可能的小,也就是在尽可能提高模型拟合度的同时,使模型参数尽可能少,降低了模型过拟合的可能性[34]。因此AIC值是模型选择的重要指标。
对于线性回归模型,AIC准则可表示为:
(4)
由于所建logistic回归模型经过logit变换(逻辑变换)后成为线性模型,因此可以根据上述AIC准则公式对模型进行对比分析,从而求得最佳模数参数和模型方程。
1.2.4 模型评价
评价分类器性能的指标一般是分类准确率(Accuracy),其定义是:对于给定的样本数据集,分类器正确分类的样本数和总样本数之比。对于二分类问题常见的评价指标是精确率(precision)、召回率(recall)和F1值[35]。
通常以关注的类为正类,其他类为负类,分类器在样本数据集上的预测或正确或不正确,一共4种情况分别是:
TP—将正类预测为正类数(TruePositive);
FN—将正类预测为负类数(FalseNegative);
FP—将负类预测为正类数(FalsePositive);
TN—将负类预测为负类数(TrueNegative)。
其中,准确率、精确率、召回率和F1值四种指标的计算公式分别如下:
(5)
(6)
(7)
(8)
利用ArcMap空间分析工具,结合调查点的螨害调查情况和包含坐标信息的矢量文件,提取影像中对应区域的光谱指数,再分别与螨害发生情况作相关性分析,研究表明,除了B3与B6与螨害发生不存在显著关系,其他光谱指数与螨害发生均表现较好相关性,其中ARI与螨害发生存在显著关系,剩余的光谱指数与螨害发生存在极显著关系(P< 0.01)。B1与B5与螨害发生呈极显著正相关,B7、B8、NDVI、NDGI、GNDVI、RENDVI、RVI、DVI、RDVI、MSR、SAVI、OSAVI、MSAVI、TVI与EVI与螨害发生呈极显著负相关。按照|r|对光谱指数与螨害发生之间的相关系数进行排序,相关性由大到小依次为:TVI、DVI、RDVI、SAVI、B7、MSAVI、B8、RVI、MSR、OSAVI、NDVI、GNDVI、EVI、NDGI、RENDVI、B5、B1、ARI、B3、B6。因此,根据|r|的大小,后续可进行模型的变量选择分析。表3
表3 螨害发生情况与光谱指数之间相关性Table 3 Correlation between the occurrence of spider mite and Spectral Indexes
注:**和*分别表示0.01,0.05的显著水平,NS表示不显著
Note:**and*represent significant at the 0.01 and 0.05 levels of probability respectively,NS represent insignificant
在模型训练之前,为使得所有参与建模的特征值在同一尺度下,对特征变量进行归一化处理,在180个地面调查点中,均匀地选取出总样本数的2/3即120个样本数据(螨害点与健康点各60个)用来训练,而剩余的1/3 即60个样本数据(螨害点与健康点各30个)用来测试。根据相关性大小,顺序增加光谱指数个数作为输入因子构建逻辑回归模型,同时计算模型的AIC值。如表4所示,随着自变量的不断引入,AIC值发生了从大到小再变大的过程。当引入1个特征因子时,AIC值为35.5。当引入3个特征因子时为18.5,其值最小。在超出6个特征因子后,AIC值仍在增加,并且7个特征变量时增大异常(7个特征时为304.4,20个特征时为42)。根据赤池信息准则,AIC值最小的模型是最好的模型。由TVI、DVI和RDVI建立的logistic回归模型可以认为是最优模型。
基于AIC值选择有代表性的回归模型进行评价比较。表5为分别选择1个、3个和全部特征因子(20个变量)所建模型分类结果的混淆矩阵。AIC值为18.5(3个变量)的模型在识别效果上最好,而AIC值为35.7(1个变量)的模型在准确率、精确率、召回率和F1值上都要低于前者。全部特征因子建立的模型在训练数据集上表现出了最好的准确率,但在测试数据集上的准确率却下降明显,而其他两个模型在测试数据集上的准确率却变化不大。 这说明用全部特征因子建立的回归模型变量过多,模型过于复杂,存在过拟合问题,导致在测试集上表现较低的准确率。因此,由TVI、DVI和RDVI所建立的模型是最佳螨害监测模型,其分类准确率达到95%,精确率、召回率分别为93.5%,96.7%,F1值为95.1%。表5
表4 不同自变量所建的逻辑回归方程的AIC值Table 4 AIC value of logistic regression equations built by different independent variables
表5 模型分类结果比较Table 5 Comparison of model classification results
注:n表示变量个数
Note: n represents the number of variables
得到的螨害监测模型对整个研究区进行了监测识别,螨害基本上分布在棉田东部以及中部以北区域,这是因为研究区的东部是靠近路边区域,杂草较多,因此在其附近一侧,螨害易发生和扩散。同时,棉田中部以及以偏北部地块,棉花长势较弱,导致螨害成片发生,这与实地调查情况相一致。图2
图2 研究区棉花螨害的识别结果
Fig.2 Identification of cotton mite damage in research area
对于统计学习算法,选择合适的特征变量能够提高模型整体精度,但特征因子过多会发生过拟合现象,因此确定自变量是模型优化的关键之一。研究使用AIC准则对模型进行比较分析和筛选,确定了建模特征和模型方程,从分类结果可以看出,AIC值最小的模型的确具有更好的分类精度和识别效果。但研究建模所采用的特征是基于光谱信息构造的光谱指数,变量之间不可避免存在多重共线性,导致特征之间可能存在相关性冗余,而AIC准则并没有从变量之间的相关性角度出发去除冗余特征,消除变量间的多重共线性问题,因此,后续可以从这个方面做深入研究。
在棉叶螨点片发生的初期,螨害级数一般为1级,螨害点片发生的采样点在光谱响应上的变化表现较小,整体采样点接近于健康情况,与完全健康点的光谱差异很难区分。因此,实验在取样时,将平均螨害级数达到2级以上(包括2级),归类为螨害发生。由此可见,这种处理方法可能会对模型精度造成影响,导致螨害早期轻微发生的区域无法得到有效判别。因此,如何改进方法,提高模型分类精度,尤其是提高螨害早期监测精度,还需进一步讨论。
地面螨害分级参照国家标准《棉花叶螨测报技术规范》(GB/T 15802-2011)进行了划分,但针对新疆地区独特的棉花种植模式和农田生态环境,国家标准危害级别和防治指标与新疆棉田实际危害情况并不完全一致。而且由于新疆地区棉叶螨危害特点和规律也不同于其他地区,与国家标准制定的棉叶螨危害程度有所差别。因此,在参考国家标准进行地面调查实验时,结合棉区实际情况确定更适合当地特点的螨害监测分级阈值是需要进一步研究的问题。
以无人机获取的多光谱数据为基础,利用AIC准则进行特征因子的筛选,得到用于建立螨害监测模型的最佳光谱指数TVI、DVI和RDVI,并把平均螨害级数达到2级以上(包括2级)作为判别螨害发生的依据,建立了logistic回归模型,模型分类准确率为95%,F1值为95.1%。经检验表明,该模型可以较好的实现对棉田棉叶螨的识别。