王鑫野,冯 洁,李欣庭
(云南师范大学 物理与电子信息学院,云南 昆明 650500)
马铃薯是世界性的粮食作物,在各个国家的饮食组成中占据重要地位。晚疫病是马铃薯众多病害中最主要的病害,病情多见于多雨、冷凉的地区,一旦有田块发病其病株率可达40%~80%,在流行年份可致全田毁灭。该病害不仅限于马铃薯植株,还会使薯块腐烂变质,若用病薯种植则会导致幼苗腐烂致死,同时还会侵染其他茄科作物的健康[1]。目前针对马铃薯晚疫病的诊断大都是采用传统的经验定性诊断方法,由于会受到多种因素的影响,要进行精确分析还存在一定的困难[2]。高光谱成像技术将图像和光谱信息结合,能同时反映待测物内部外部光谱信息和空间信息,使该技术在植物检测方面得到广泛应用[3]。
利用高光谱成像技术,潘冉冉等基于光谱信息提取特征并建立识别模型对油菜和杂草进行了区分,识别率达100%[4]。程术希等基于可见/近红外光谱技术对不同水稻稻瘟病染病的叶片进行了分析,全波段建模的识别率达96.7%[5]。梅慧兰等利用光谱信息对柑橘的黄龙病进行了鉴别和初期预测,识别率达96.4%[6]。 Kumar等基于光谱信息利用高光谱和多光谱技术对柑橘的绿霉病进行了研究,识别率达87%[7]。Bauriegel等利用高光谱的空间信息对小麦的镰刀菌进行了初期检测,识别率为87%[8]。Tian等利用高光谱空间信息对黄瓜的霜霉病进行了检测,识别率接近90%[9]。Baranowski等用高光谱的空间信息对苹果的初期瘀伤进行了检测,确定了波段范围为400~5 000 nm[10]。以上人员通过使用高光谱成像技术,用光谱信息或空间信息对植物的各项指标进行了探究,均达到了不错的效果,但是采用光谱信息和空间信息对比来研究马铃薯晚疫病的方法却鲜有报道。本文用高光谱相机采集马铃薯晚疫病的高光谱数据,从空间信息和光谱信息两方面分别提取特征波段,再基于特征波段反射率和主成分图像灰度值结合BP(back propagation)神经网络、K最近邻(k-nearest neighbor,KNN)分类算法、决策树(decision tree,DT)对采集的数据进行对比分类识别。
实验材料为云南师范大学生命与科学学院马铃薯种植基地种植的88马铃薯叶片(C-88),生长时间为80 d,共计60片。随机对其中40片接种晚疫病病菌,其余20片做对照,将60片叶片置于光照培养箱内连续培养6 d,每隔24 h采集一次高光谱图像,连续采集7 d。
成像系统观测的几何条件采用CIE 15:2004推荐的45°/垂直的双向几何条件。相机可采集256个波段,波段范围为400~1 000 nm,高光谱成像系统如图1所示。
图1 高光谱成像系统Fig. 1 Hyperspectral imaging system
为避免采集的图像出现失真,根据光源的照度调整好系统的参数。通过反复测试优化,最终CCD相机的曝光时间确定为5.3 ms,步进电机的速度为0.6 mm/s,相机到载物台的垂直高度为23 cm。每次只放1个样本,CCD相机对载物台上的样本进行线扫描,平台在水平方向进行移动。为减少光源产生的颜色失真,对采集的样本进行黑白校正。图2为校正后连续7 d测得的高光谱图像(0 d表示病菌未接种,形成自身对照样本;1~ 6 d表示感染病菌,形成试验样本)。所有高光谱图像数据的采集均基于Specview软件平台,数据处理采用ENVI 5.1、MATLAB R 2016a软件。
图2 接种病菌后每天的图像Fig. 2 Images of each day after inoculation
采用MATLAB软件绘制出每天的平均光谱反射率曲线,如图3所示。
从图3 中可以看到,健康马铃薯叶片和病害马铃薯叶片的光谱曲线大致相似,在550 nm处存在1个反射峰,680 nm附近存在1个吸收峰,而在680 nm后反射率数值急剧升高,使得近红外波段的反射率明显高于可见区域,与孙红等[11]用高光谱采集马铃薯叶片的光谱特征相符。
图3 健康叶片与病害叶片的反射率曲线Fig. 3 Reflectivity curves of healthy leaves and disease leaves
高光谱信息既包含空间信息又包含光谱信息,特征的提取可以从空间和光谱两个方面进行。由于6 d的病害特征最为明显,本文针对6 d的病害叶片进行特征提取。
2.2.1 针对光谱信息提取特征波段
对光谱信息特征波段提取的方法有连续投影算法、最小二乘法、二阶导数等。其中二阶导数(second derivative, 2nd der)在特征提取方面应用较广泛,可以大幅降低变量间的相关性,突出光谱曲线中的特征峰值,从而确定和选择特征波段[12]。采用db小波对光谱曲线进行平滑去噪,之后求取光谱的二阶导数曲线,选取曲线的极值作为特征值。经过筛选可得到9个特征波段:529.26 nm、567.52 nm、624.91 nm、672.73 nm、682.29 nm、691.86 nm、710.99 nm、902.28 nm和911.85 nm。通过二阶导数特征提取,将256×256数据立方体压缩到9×9,本文为了进一步得到最优最少数据,再对选取的9个特征波段图像进行主成分分析(principal component analysis,PCA),分析其权重系数。最终通过二阶导数结合主成分分析(2nd der-PCA)将特征波段压缩为3个,即:672.73 nm、691.86 nm和710.99 nm。
2.2.2 针对空间信息提取特征波段
基于空间信息提取特征波段的方法是采用最具代表性的主成分分析方法。该方法通过线性变换提取数据主要特征信息,最大程度保留了数据原有信息,是一种经典的数据分析方法[13]。显著特征波段点的选取位置是在权重系数曲线的波峰或者波谷处,区别感兴趣特征波段时该位置贡献最大。将采集的数据进行掩膜处理,以降低背景的影响。针对马铃薯晚疫病样本的高光谱图像进行主成分分析,通过分析主成分图像的权重系数,筛选得到了6个特征波段:546.00 nm、663.16 nm、672.73 nm、727.73 nm、624.91 nm和684.69 nm。基于6个特征波段进行第二次主成分分析,将其压缩为3个特征波段。最终通过PCA-PCA选取的3个特征波段为:624.91 nm、663.16 nm和684.69 nm。
BP人工神经网络在处理非线性问题及分类方面有良好的效果,适合解决病害诊断的问题。K最近邻分类算法(KNN)应用简单,容易实现,不需要估计算法参数和训练,可快速对病害样本进行分类识别[14]。决策树算法(DT)主要推断数据特征,学习决策规则,创建一个预测目标变量值的模型,是一种简单的、广泛应用的非参数分类方法[15]。
利用高光谱成像技术图谱合一的特点,用空谱选取的特征波段的光谱反射率和主成分图像灰度值结合BP神经网络、KNN和DT建立模型,对马铃薯叶片的不同病害时期进行识别。相比全波段光谱曲线建立的识别模型,针对特征波段建立的模型能有效地减少数据冗余,降低工作量,且具有更好的识别效果。
0 d和1 d在光谱反射率曲上无明显差异,且在图像上也无病害显现,因此将病害叶片分为3个阶段:2 ~3 d为初期,4 d为中期,5 ~6 d为晚期。在这3个阶段中,分别随机抽取45片叶片作为训练集,病害与健康比例为2 : 1,其余的作为测试集并建立BP神经网络。之后将所有样本作为样本集进行KNN和DT分类。
基于特征波段反射率所建立模型的测试结果如表1所示。由表中数据可知,以特征波段的反射率作为研究对象,识别效果均超过了80%。对于初期病害,识别效果最佳的是基于PCA-PCA结合KNN建立的模型,识别率达85.7%;对于中期病害,识别效果最佳的是基于PCA-PCA结合DT建立的模型,识别率达88.9%;对于晚期病害,识别率最佳的是基于PCA-PCA结合KNN建立的模型,识别率为89.4%。PCA-PCA提取的特征波段结合3种模型的平均识别结果均高于2nd der-PCA提取特征波段结合3种模型的识别结果。
表1 基于特征波段反射率识别结果Tab. 1 Identification results based on characteristic wavelength reflectance
主成分图像既涵盖了图像特征又滤掉了噪声影响,因此可将主成分图像的灰度值作为研究对象进行模式识别。基于3个特征波段进行主成分分析,选取病害区域对比度最大的主成分图像,两种方法提取的特征波段的最佳主成分图像均为第二主成分图像(PC-2),如图4所示。图4(a)为基于PCA-PCA提取的特征波段的PC-2,图4(b)为基于2nd der-PCA提取的特征波段的PC-2。
图4 第二主成分图像Fig. 4 Second principal component image
基于特征波段的PC-2图像的灰度值所建立模型的测试结果如表2所示。由表中数据可知,以主成分图像的灰度值建立的识别模型,其识别率均高于88%。初期、中期和晚期病害识别效果最佳的均为基于PCA-PCA结合BP神经网络建立的模型,识别率分别达到94.1%、97.6%和98.0%。以PCA-PCA结合主成分图像建立的3种模型中BP神经网络和KNN的识别率较高,分别为96.6%和91.8%,以2nd der-PCA结合主成分图像建立的DT模型的识别率较高为91.6%。
由表1和表2可知:基于特征波段主成分图像的灰度值结合3种模型的识别效果优于基于特征波段反射率建立的3种模型;BP神经网络和KNN模型中,以PCA-PCA所提取特征波段的PC-2图像的灰度值作为研究对象的识别率最高分别为96.6%和91.8%;DT模型中,以2nd der-PCA所提取特征波段的PC-2图像的灰度值作为研究对象的识别率最高为91.6%。
基于特征波段反射率建立的模型识别结果未超过90%的原因:个别样本特征波段对应位置的反射率较为接近或有重叠,会对识别结果产生一定影响;采集数据时,由于培养环境的湿度较大,叶片上残留的水分也会对识别结果产生影响。
表2 基于主成分图像灰度值的识别结果Tab. 2 Results of recognition base on gray value of principal component image
本文从空间和光谱两方面对高光谱数据进行处理均得到了良好的压缩效果。二次主成分提取的特征波段为624.91 nm、663.16 nm和684.69 nm;二阶导数结合主成分提取的特征波段为672.73 nm、691.86 nm和710.99 nm。在建立的识别模型中:基于二阶导数结合主成分提取特征波段的PC-2的灰度值建立的DT模型的分类结果最高,为91.6%;基于二次主成分提取特征波段的PC-2的灰度值结合BP神经网络和KNN模型的识别率最高,分别为96.6%和91.8%。对病害的初期、中期、晚期进行识别,识别率是晚期识别率>中期识别率>初期识别率,且识别率均超过80%。初期、中期和晚期识别率最高均为基于二次主成分提取特征波段的PC-2的灰度值结合BP神经网络建立的模型,识别率分别为:94.1%、97.6%和98.0%。综上,主成分图像的灰度值相比波段反射率所建立的3种模型的精度得到了有效的提升,同时降低了噪声的影响。由此表明,利用特征波段的主成分图像的灰度值来检测马铃薯晚疫病病害的方法是可行的。此方法可为检测马铃薯的晚疫病提供参考。