(1.西北农林科技大学机械与电子工程学院, 陕西杨凌 712100; 2.农业农村部农业物联网重点实验室, 陕西杨凌 712100;
3.陕西省农业信息感知与智能服务重点实验室, 陕西杨凌 712100)
温室黄瓜因处于大棚高湿环境而极易发生病害。其中,黄瓜霜霉病发病快、传播迅猛,是温室黄瓜的主要病害之一[1]。霜霉病病原体侵染黄瓜植株的过程分为接触期、侵入期、潜育期和发病期。在侵入期和潜育期,无法通过肉眼发现病原菌在寄主体内的扩展蔓延。一旦进入发病期,病害便迅速传播扩散,其防治难度大、成本高[2]。因此,早期进行黄瓜霜霉病害的检测识别对于病害防治具有十分重要的意义。
目前,在基于图像和光谱技术的病害早期检测中,基于可见/近红外光谱分析的定量分析精度受参考理化分析精度的影响,误差较大[3-5];热红外技术受环境温湿度影响较大,对高温高湿的温室环境适应性差。高光谱成像技术具有光谱分辨率高、波段数多和图谱合一等优点[6-8],可以反映对象内部的细微变化,适于病害早期植物体内部不明显的病变信息提取,且受温室环境影响很小,受到了研究者的广泛关注。文献[9]借助高光谱成像技术,在400~1 000 nm范围内针对玉米产毒真菌病害进行了早期检测研究;文献[10]基于高光谱成像技术实现了大豆花叶病早期检测与分级,提出了一种基于CNN模型的大豆花叶病早期检测方法;文献[11]研究了基于高光谱成像技术的大麦真菌病害早期检测,实现了48 h内光谱分析病害检测及72 h内微小病斑的识别。
研究表明,利用高光谱成像技术进行植物病害早期检测是可行的,实验室检测大多先采摘叶片、再采集信息,使叶片受到永久性损伤,而田间环境下叶片受光照、自然辐射、风速等影响较大。目前,对田间采集的病害早期特征提取的研究较少,且病害早期有效特征波段选择方法很难兼顾病害信息全面和数据量少的要求。本文以温室黄瓜的霜霉病为对象,对田间黄瓜叶片从健康至发病连续采集图像,利用高光谱技术分析病害发病早期与健康叶片的光谱差异,提出一种融合病害差异信息改进的竞争性自适应重加权算法(CARS)与连续投影法(SPA)结合的优化特征提取方法,建立黄瓜霜霉病早期检测的偏最小二乘-支持向量机(LS-SVM)模型,以实现对温室黄瓜霜霉病早期的高精度检测。
实验采用盆栽培育黄瓜幼苗20盆,共计40株。黄瓜品种为北方大部分地区普遍种植的津优绿褔168,以陕西霖科生态工程有限公司的种植基质进行培植。室外大田搭设小型温室大棚模拟环境,棚内放置温湿度计和小兴看看Q720型无线高清智能摄像机,实时监控并记录棚内温湿度变化及黄瓜植株生长状况。午间高温时段敞棚通风降温和加湿器补充水分,夜间低温时段闭棚保温保湿,根据实时监控温湿度变化调控环境,保证黄瓜健康生长、避免自然感染病害,待生长至结果期、真叶完全伸展至成年人手掌大小时,进行霜霉病病菌接种。于西北农林科技大学北校区园艺场温室黄瓜大棚中采集感染霜霉病的黄瓜活体叶片,进行病菌孢子分离,制成悬浮液,对实验黄瓜叶片进行喷洒接种,接种维持棚内相对湿度75%以上,确保病菌成功侵染叶片。
采用四川双利合谱科技有限公司GaiaSky-mini型推扫式高光谱成像系统便携式高光谱相机,相机及内置控制器质量1.5 kg,光谱范围为400~1 000 nm,光谱分辨率3.5 nm,共256个光谱通道,单幅拍摄速度10 s,全幅图像像素分辨率为1 920(空间维)×1 440(光谱维)。
1.3.1高光谱图像采集
对侵染霜霉病菌后的叶片进行高光谱图像信息采集。根据植保专家建议,将接病操作后的第3天作为黄瓜叶片成功接染霜霉病第1天,按成功染病后天数和染病程度将高光谱图像分为染病1 d、2 d、3 d、4 d(肉眼不可见)、5~6 d(肉眼可见颜色变化)、7~8 d(肉眼可见小病斑)、9 d后(病害严重)共7类。
相机采用日光光源,考虑到霜霉病从黄瓜中底部叶片开始发病,为方便拍摄,采用如图1所示的图像采集方式。用支架固定高光谱相机,设置高光谱镜头斜向下45°与叶片垂直距离30 cm架设,并在镜头旁绑定标尺以保证镜头与叶片距离固定,手托扶叶片进行拉展和垂直镜头采集图像。图像采集时间分别为每天10:00—11:00光照良好时段和16:00—17:00光照较弱时段,以提高后期所建立识别模型的不同光照条件适应度。每次采集图像前先对白板和黑板采集记录,从20盆黄瓜中选出生长状态良好、叶片平展宽大的10盆共32片叶片。首先采集染病前的健康叶片;再对接种黄瓜霜霉病菌后的叶片逐天连续采集12 d,得到共384幅高光谱图像。将图像在ENVI 5.1软件中读取,剔除肉眼可见因设备或叶片抖动导致图像模糊的异常样本,如图2a所示,对比每幅图像的叶片区域光谱曲线,剔除光谱曲线明显差异于黄瓜叶片光谱曲线的异常样本,如图2b红线所示,对剩余286幅样本图像进行实验。
图1 图像采集示意图Fig.1 Image acquisition diagram1.高光谱相机 2.固定支架 3.样本叶片 4.操作人员手持托扶架
图2 异常样本Fig.2 Abnormal sample
1.3.2高光谱图像预处理
原始高光谱图像包含大量的噪声和背景干扰,需进行预处理以消减噪声,并去除背景、提取感兴趣区域。先用SpecView软件对叶片高光谱图像进行黑白校正以消减光照影响,再通过ENVI 5.1软件读取高光谱图像并分离背景后,对整片叶部分提取感兴趣区域。
图3a为叶片样本在某一波段的高光谱图像,对比目标叶片区域与背景的光谱曲线(图3b)可知,在670~750 nm之间黄瓜叶片的光谱曲线出现一个较大跃变,而背景区域的光谱全波段内变化较小。因此,对第120个波长671.0 nm与第150个波长744.6 nm的光谱求取波段比,根据波段比差异可分离叶片与背景区域;通过腐蚀去除背景部分;膨胀后再腐蚀得到整体目标叶片的二值掩模,如图4a所示;将掩模图像与原图像的400~922 nm共217个波段的图像相乘得到目标整体叶片的感兴趣区域,如图4b所示。感兴趣区域的平均光谱如图4c所示,将它作为该样本的光谱数据。
图3 目标叶片区域与背景分割Fig.3 Target leaf area and background segmentation
图4 感兴趣区域提取与平均光谱计算Fig.4 Region of interest extraction and average spectral calculation
从高光谱图像所有波段中选择可分性好的波段子集,保留有用信息,不仅能降低数据维度,还能提高分类识别精度[12-13]。
在常用特征提取算法中,CARS结合蒙特卡洛采样及偏最小二乘(Partial least squares, PLS)回归系数筛选的特征波段优选方法[14-15],以达尔文进化论的“适者生存”法则为指导理论[16],在校正集中利用蒙特卡洛采样法选取样本,对样本进行偏最小二乘回归(PLSR)分析,利用自适应重加权算法(Adaptive reweighted sampling, ARS)选择波段变量回归系数绝对值大的波段点,对于绝对值小、权重较小的波段点,采用衰减指数法(Exponentially decreasing function, EDF)确定个数并去除,对选取的权重较大的波段变量建立PLS模型,利用交互验证选出均方根误差(Root mean square error of cross validation, RMSECV)最小的模型,其所对应的波段变量即为所选特征波段[17-20]。
CARS算法可用于提取感染霜霉病害的样本与健康样本相比变量权重变大的特征波段,但CARS算法的随机采样使该算法本身存在不确定性,每次提取的特征波段数量及位置随机性很大,所提取的特征存在漏选及冗余问题,无法作为病害特征进行建模。为解决该问题,在CARS算法中加入变量稳定性计算的循环迭代,通过多次执行CARS提取特征波段,将结果合并以解决漏选问题,同时比较并删减各次提取结果中位置相似的特征波段,以解决冗余问题。多次执行加入变量稳定性计算的算法后强制筛选出特征波段作为CARS算法提取的特征波段。
但CARS算法提取特征波段同时会保留因噪声引起的变量权重变大的波段。SPA是一种稳定的前向变量选择算法[21-22],从原始光谱信息中筛选寻找出冗余信息最少的波段变量组来概括代表大多数样本的光谱信息,使变量的共线性最小,明确样本特征[23-25]。SPA可以消除光谱冗余信息,进一步简化筛选CARS算法提取出的特征波段,便于建模,提高模型检测精度。
1.5.1Dis-CARS-SPA特征提取方法
由于图像通过便携式高光谱相机于户外棚间采集,光照强度变化导致采集到的图像光谱数据存在光谱反射率的差异和较多波动,而CARS结合SPA的特征提取算法仅对随机提取的波段样本中权重较大的进行选取与筛选,因此采用传统的CARS-SPA算法对全波段光谱提取特征波段,易将反射率的波动差异作为权重较大的波段变量提取为病害特征,影响真正病害特征的选取。
光谱差异波段的分析与提取主要用于植被种类识别、土壤有机质与含水率的检测和水质分析等领域,文献[26]通过包络线变换前后的光谱曲线提取鄱阳湖湿地植被的光谱差异波段,利用马氏距离法检验了植被识别效果;文献[27]通过去包络线方法提取反射光谱特征差异,建立了土壤水分含量高光谱预测模型;文献[28]探讨相同树种叶片SPAD变化时的光谱差异和相同SPAD不同树种叶片的光谱特征,分析植物健康状况。本文借鉴光谱差异分析思想,在CARS-SPA特征提取算法前加入病害差异波段的提取,提出Dis-CARS-SPA特征提取方法,使CARS-SPA算法融合病害差异信息,在准确表征病害的波段范围中进行CARS-SPA的特征提取,有效避免因采集环境、不同光照强度或其他病害所导致的光谱出现差异的影响,提高模型准确性。
1.5.2病害差异波段提取
同一叶片随病害侵染的严重程度的不同,高光谱曲线呈现不同程度的差异。黄瓜霜霉病叶片与健康叶片出现光谱差异的波段范围,即病害差异波段。
图5为叶片从健康到染病9 d后病害严重的逐日各阶段光谱曲线。
图5 叶片健康至染病严重逐日光谱曲线Fig.5 Spectral curves from leaf health to serious disease day by day
由图5可知,在450~720 nm的波段范围内光谱曲线存在较明显差异变化,其中550~650 nm的差异变化尤为显著,正是由于该范围对应可见光谱的黄色及黄绿色,霜霉病的侵染导致叶片的叶绿体死亡减少,逐渐枯黄,因此在该波段范围内反射率增大;而750 nm后出现了光谱曲线较多波动及反射率的不同,是由于每天光照强度不同导致最终趋于平稳的光谱反射率有高有低;存在的较多波动是由于拍摄环境及设备自身的噪声影响。这两种影响采用一般的光谱预处理方法无法消除,反而易消减病害带来的光谱差异,因此本文通过对病害差异信息的提取来改进CARS-SPA特征提取方法,以提高特征提取的针对性。
在光谱曲线相似的情况下,直接从中提取光谱特征不便于计算。为了更加精准地确定病害的差异波段范围,避免肉眼观察的主观性和不准确性,通过包络线消除法[29]确定光谱吸收曲线。
包络线消除法可以有效突出光谱曲线的吸收、反射和发射特征,并将其归一到一致的光谱背景上,有利于和其他光谱曲线进行特征数值的比较。其算法步骤如下:通过求导得到光谱曲线上所有极大值点。以最大极大值点作为包络线的一个端点,计算该点与长波和短波方向各个极大值连线的斜率,以斜率最大点作为上包络线下一个端点,斜率最小点作为下包络线下一个端点,再分别以此点为起点循环,直至最后一点。连接所有端点,可形成曲线的包络线,用实际光谱反射率去除包络线上相应波段的反射率值,可得到包络线消除法归一化后的值。
将病害早期检测作为一个分类识别问题,利用融合病害差异信息的Dis-CARS-SPA特征提取方法选取的特征波段训练LSSVM作为病害检测模型。LSSVM通过优化目标中的线性约束,只求解一个线性方程组来代替SVM中的二次规划(QP)问题,通过解决等式约束以及最小二乘问题,简化求解过程。模型参数包括惩罚因子gamma和核参数sig2,通过粒子群优化算法[30-31](Particle swarm optimization, PSO)进行寻优选取。最后,用测试集的检测识别率P和模型混淆矩阵计算得到的召回率R作为模型评价标准,识别率计算为
(1)
式中NMod——模型检测正确的健康与染病样本数
NAct——实际输入的样本数
召回率计算公式为
(2)
式中NTP——健康或染病样本模型正确识别的样本数
NFN——健康或染病样本模型错误识别的样本数
通过包络线消除法选择病害的差异波段,包络线包括上包络线与下包络线,通过上包络线与实际光谱曲线相减得到光谱吸收曲线对比寻找病害差异波段。首先绘制健康与染病叶片的上包络线如图6所示,为凸显染病叶片与健康叶片的光谱差异,方便更好地识别并选择病害差异波段,染病叶片选择染病9 d后发病严重的样本图像。
图6 健康与染病叶片光谱曲线上包络线Fig.6 Envelopes on spectral curves of healthy leaf and diseased leaf
由图6可见健康与染病叶片存在较大差异,将上包络线与实际光谱曲线相减得到光谱的吸收曲线如图7所示,健康叶片吸收光谱与染病叶片吸收光谱作差,得到吸收光谱差异曲线如图7所示。
图7 健康与染病叶片吸收光谱及差异曲线Fig.7 Spectral absorption and difference curves of healthy leaf and diseased leaf
根据健康与染病叶片的光谱吸收差异曲线与零轴的交点确定霜霉病的病害差异波段,并且去除774 nm后的不相关干扰波动波段,得到病害差异波段为431~552 nm及571~774 nm范围,即图7中吸收光谱差波动较大的部分。
使用CARS算法在选取的431~552 nm及571~774 nm的病害差异波段内提取特征波段,将染病1 d至严重7个类别的样本定为染病叶片,与健康叶片进行特征波段的提取,得到共18个特征波段,RMSECV最小值为1.132 0。由于不同染病阶段之间也存在较大的光谱差异,提取特征波段均方根误差较大,识别效果不佳。因此采取对染病的7个不同阶段分别提取特征波段再组合的方法。
以染病1 d叶片的特征波段提取为例,设置蒙特卡洛采样次数为50,为解决CARS算法的随机性问题,加入变量稳定性计算的循环迭代,即对CARS算法每次随机采样提取的特征波段位置进行判定选取,使选取的波段位置稳定。本文通过预实验,设置循环提取次数为3,3次CARS提取的特征波段位置如图8所示,提取的特征波段数量分别为31、22、23;由图8可见,3次选取的特征波段位置相近,满足稳定性要求。将这3次的特征波段合并并去除重复项,得到共48个特征波段;以提取的每个特征波段为基准,对比其前后位置提取的特征波段序号(高光谱相机共256个波段,裁剪后剩余217个波段,序号即提取的217个波段中第几个波段),若该波段序号与前后提取的波段序号为相邻序号,则取3个波段的平均即中间波段,舍去前后提取的2个波段(如提取波段为第88、89、90个波段,则保留第89个波段,舍去第88、90个波段);若该波段序号仅与前后提取的波段之一的序号为相邻序号,则取相邻波段中较小一个,舍去较大一个(如提取波段为第88、89、91波段,则舍去第89个波段,保留第88、91个波段)。通过该方法对相似位置波段进行筛选,得到共30个特征波段。按该方法再重复进行2次特征波段的选取,分别得到29、31个特征波段,可见加入变量稳定性计算后CARS算法提取得到的特征段稳定在30个左右,降低了随机性,且提取到的特征波段几乎相同。
图8 算法3次提取的特征波段位置Fig.8 Position of feature bands extracted by CARS for three times
强制变量筛选是选取3次加入变量稳定性计算后CARS算法均提取到的相同的特征波段,即从上述得到的30、29、31个特征波段中寻找相同特征波段,结果得到28个特征波段,如图9所示,即为本文算法选取的染病1 d的特征波段。
图9 染病1 d融合病害差异信息的CARS算法提取的特征波段Fig.9 Feature extraction by CARS based on fusion of disease difference information in one day after infection
CARS计算过程如图10所示,包括样本变量个数(Number of sampled variables, NSV)、交叉验证均方根误差(RMSECV)和回归系数(Regression coefficients)随蒙特卡洛采样次数的变化趋势。在RMSECV最小的点取最优变量个数26(图10c中的星号竖线),将回归系数绝对值大的波段保留,即为提取的特征波段。将染病1 d到严重7个阶段分别提取的波段组合作为CARS算法所提取特征波段。
图10 CARS计算过程Fig.10 CARS calculation process
使用SPA算法对7个阶段的CARS特征波段分别进行降维再提取,将各波段组合后共得到47个特征波段,即为基于全波段的CARS-SPA提取的特征波段。如图11所示,特征波段都集中于霜霉病害的病害差异波段范围内,更准确代表霜霉病害的特征,消除了光谱末段噪声等干扰。
图11 Dis-CARS-SPA提取特征波段Fig.11 Dis-CARS-SPA extracted feature bands
将286个样本按2∶1划分为建模集与测试集,健康叶片及染病1 d到发病严重7个阶段建模集样本数分别为16、32、30、23、28、30、20、13;测试集样本数分别为8、16、15、11、14、15、9、6。为验证模型从样本中识别出染病叶片的能力,将健康叶片样本作为正例,7个不同染病阶段的叶片样本分别作为反例,建立Dis-CARS-SPA-LSSVM模型,同时建立未融合病害差异信息,基于全波段提取特征波段的CARS-SPA-LSSVM模型,作为对比分析检测效果。用PSO算法选择模型的惩罚因子gamma和核参数sig2,不同染病阶段建模集与测试集样本数不同,PSO选择的参数不同,结果如表1所示。
表1 不同染病阶段模型参数选择Tab.1 Selection of model parameters in different stages of infection
为验证模型稳定性,按2∶1比例随机划分建模集和测试集,重复实验3次,将3次实验的识别率求平均,结果如表2所示。
未融合差异信息建立的CARS-SPA-LSSVM模型对各染病阶段的准确识别率虽均达到90%以上,然而随染病程度加深,模型的识别效果并不稳定,由表2可见,该模型对染病2 d的测试集识别率达到95.65%,而对染病9 d的测试集识别率只有92.86%。这是由于未融合病害差异信息提取的特征波段有较多集中在750 nm之后,为光谱的随机性波动,并非霜霉病的病害特征,模型识别准确性受到影响,无法作为黄瓜霜霉病害的早期检测模型。
表2 不同模型对各染病阶段识别结果比较Tab.2 Comparison of recognition results of different models for each infection stage
而本文提出的融合病害差异信息改进的CARS-SPA提取特征波段所建立的Dis-CARS-SPA-LSSVM模型对染病2 d(不可见)到染病9 d后发病严重等6个阶段的识别率均达到100%,相较于CARS-SPA-LSSVM模型均有提高,能够很好地实现对黄瓜叶片霜霉病害的早期及后期识别。表明融合病害差异信息提取特征波段能有效避免光谱干扰性波动带来的影响,针对病害差异波段区域提取特征,更准确地表征黄瓜霜霉病害。
提出的Dis-CARS-SPA-LSSVM模型对染病1 d的样本,测试集识别率达到了95.83%,比CARS-SPA-LSSVM模型的识别率高4.16个百分点;其混淆矩阵如表3所示,计算健康样本的召回率为87.50%,染病样本的召回率为100%,表明能将染病叶片全部检测识别,仅会出现将健康叶片误判为染病的情况,而对于病害的早期检测及防治问题,染病样本的召回率更为关键,部分健康叶片误检测为染病是可以容忍的。该结果表明该模型对黄瓜霜霉病害具有很好的早期检测识别能力,可将黄瓜叶片霜霉病害的早期检测时间提前到染病后1 d的时间点。
表3 Dis-CARS-SPA-LSSVM模型染病1 d混淆矩阵Tab.3 Dis-CARS-SPA-LSSVM model confusion matrix for 1 day after infection
利用高光谱成像技术对温室黄瓜霜霉病进行早期检测,提出了融合病害差异信息改进的CARS-SPA特征提取方法。先用包络线消除法选出表征病害特征的病害差异波段,通过CARS算法提取特征波段后再用SPA算法降维,既保证了对病害特征信息的有效提取,又保证了对冗余波段的剔除降维。在提取的431~552 nm及571~774 nm的病害差异波段范围以CARS-SPA精确提取表征黄瓜霜霉病害的特征波段,通过最小二乘支持向量机建立的Dis-CARS-SPA-LSSVM病害识别模型对7个染病阶段的病害叶片进行检测,实验结果显示,融合病害差异信息改进的CARS-SPA特征提取方法进行特征波段提取,避免了非病害因素引起的特征波段光谱波动的影响;对染病仅1 d的叶片平均检测精度达到95.83%,比单纯的CARS-SPA特征提取方法建立的CARS-SPA-LSSVM模型高4.16个百分点,染病样本的召回率达到100%;对染病2 d之后的叶片检测精度均达到100%。
本文提出的融合病害差异信息改进的CARS-SPA特征提取方法能有效利用病害差异信息,在精确表征病害特征的基础上有针对性地进行特征波段的提取。据此方法建立的Dis-CARS-SPA-LSSVM模型能有效提取温室黄瓜霜霉病害高光谱特征,将黄瓜霜霉病害早期检测的有效识别时间点提前到染病第1天。该方法适用于实际农业生产中的复杂环境,也可用于其他病害的田间早期检测。