刘媛媛 张 凡 师 琪 马倩云 王文秀, 孙剑锋
(1.塔里木大学现代农业工程重点实验室,阿拉尔 843300;2.河北农业大学食品科技学院,保定 071001)
库尔勒香梨因营养丰富,香气馥郁、皮薄肉脆,果肉丰富多汁而深受消费者喜爱[1-2]。然而香梨易受病原菌的侵染,造成果实品质下降,腐烂率极高。黑斑病是梨的三大病害之一,是一种由链格孢属真菌Alternariaalternata引起的病害[3]。实现黑斑病胁迫下库尔勒香梨的快速诊断与检测,尤其是潜育期的早期识别具有重要意义。
目前库尔勒香梨黑斑病检测尚停留在抽样基础上的主观经验判断、分子生物学评价等阶段。主观经验法通过目测对有明显病症的样品进行识别,方便快捷,但对病害潜育期及症状不明显的样品辨识能力有限;分子生物学方法灵敏准确,但存在检测效率低、结果滞后、前处理繁琐、分析过程复杂等弊端,不适合于快速实时检测[4]。高光谱成像技术融合了图像和光谱信息,具有分辨率高、波数较多、“图谱合一”的特点,可同时获取被检测对象各波长的图像信息和各像元的光谱信息。目前,利用高光谱技术检测水果病害感染已有较多先例[5-10]。现有研究证明高光谱技术是水果病害等级区分的有效手段,但大多针对水果病害的显性病症进行识别,对更深层面的潜育期早期诊断仍需要深入研究。
化学计量学方法是高光谱定性判断水果病害程度分析中的重要组成部分,常用的分类器算法包括K最近邻法(K-nearest neighbors,KNN)、最小二乘支持向量机(Least squares-support vector machine,LS-SVM)、随机森林(Random forest,RF)、线性判别分析(Linear discriminant analysis,LDA)等[11]。单一分类器往往具有泛化性能不佳的缺点,有学者提出将多个弱分类器集成为强分类器以完成高精度分类任务的集成学习方法[12]。其中,Stacking集成学习策略是一种异构分类器集合的技术,能增强模型的准确性、鲁棒性和整体归纳能力,在夏玉米覆盖度估测[13]、黑枸杞快速分级[14]等研究上表现出较好的预测能力。鉴于Stacking集成学习策略较强的特征学习能力,将其与高光谱成像技术结合,有望实现潜育期病害样品的正确识别。
综合上述分析,本文基于高光谱成像特征,结合Stacking集成学习框架,解析潜育期不同病害程度黑斑病库尔勒香梨的图谱特征,提取表征样品性质的特征光谱信息,构建香梨黑斑病早期快速诊断模型,以期为香梨黑斑病潜育期快速诊断和发病过程实时监测提供一种新的方法。
实验所用梨品种为库尔勒香梨,购于河北省保定市农贸市场。挑选234个成熟度、尺寸、质量相近且无明显缺陷、物理损伤、疾病感染的新鲜香梨,立即运输至河北农业大学食品科技学院实验室,用自来水冲洗后,再用75%酒精擦拭果实表面,最后用蒸馏水冲洗香梨3次,自然风干后备用。
选择自然发病的黑斑病香梨果实,切取染病组织后将其移入到马铃薯葡萄糖琼脂(PDA)培养基上,放置到25℃恒温培养箱培养7 d。然后,用无菌接种环挑取培养基中茁壮的菌落,接种到新的PDA培养基上继续培养3 d,向其中加入10 mL含0.5%Tween-80的0.85%无菌生理盐水,并用平板涂布器反复刮擦PDA培养基上的病菌菌落,使病原菌的孢子脱落。随后,将制备好的菌悬液移入无菌三角瓶中,振荡15 s,再用4层纱布进行过滤,加入适量的无菌生理盐水使孢子悬浮液菌体浓度调节至1×106个/mL备用。
制备黑斑病香梨样品时,先用75%酒精擦拭健康香梨果实表面,再用无菌水淋洗3次后放入超净工作台中进行紫外线灭菌,待果皮表面干燥后,在梨的赤道线附近使用注射器注射20 μL孢子悬浮液,另注射20 μL无菌生理盐水作为对照样品。将接种好的样品放入恒温恒湿培养箱中,保证环境相对湿度为80%,温度为(25±2)℃。为获得不同病害程度的香梨样品,每天接种17个样品,整个实验持续10 d,最终获得170个接菌的香梨样品和64个健康样品用于后续分析。接种3 d后,大部分果实表面开始出现显现的病斑,说明库尔勒香梨经历3 d的潜育期后开始发病。培养过程中,采用十字交叉法记录每个果实的病斑直径,参照文献[9]以病斑直径40 mm为重度发病的阈值,结合库尔勒香梨平均表面积,制定表1的分级标准,将样品分为健康、潜育期、轻度发病、重度发病。
表1 库尔勒香梨的分类标准Tab.1 Classification standards of Korla pear
本研究采用的高光谱成像系统如图1所示,主要包括SPECIM FX 10型高光谱相机(Specim公司,芬兰)、光源、镜头、位移平台、步进电机和计算机等。光谱范围为400~1 000 nm,光谱分辨率为5.5 nm,像素尺寸为8 μm×8 μm,焦距为15 mm,光源为一对12 V、100 W的卤素灯。
图1 高光谱成像系统Fig.1 Hyperspectral imaging system1.相机 2.镜头 3.位移平台 4.计算机
图2 感兴趣区域选取示意图Fig.2 Schematic of ROI selection from hyperspectral image
经过前期实验,将位移平台速度、相机曝光时间和采集距离分别设置为7.5 mm/s、50 ms和300 mm。采集样品时,首先将仪器预热30 min以确保实验的稳定性,然后将6个样品按照2行×3列病斑朝上的方式放置在位移平台上,高光谱相机连续线扫描,完成一幅高光谱图像的采集,在ENVI 5.2中进行批处理图像切割,得到单个样品的图像。为了减弱相机暗电流和光强变化对图像的影响,对原始高光谱图像进行黑白校正,即
式中I——校正后的高光谱图像
I0——采集的原始高光谱图像
W——扫描标准白板得到的图像
B——旋上相机镜头盖采集得到的黑色图像
利用高光谱系统,得到234个样品的光谱图像立方体,每个像素点有224个波长处光谱信息。在图像中选择感兴趣区域(Region of interest,ROI)进行光谱信息的提取,ROI的选择对后续模型的性能具有重要的影响。如图2(图中λ表示波长)所示,以香梨损伤接种点为中心,横向像素个数设置为150,选择方形感兴趣区域,通过ENVI 5.2获取ROI内22 500个像素点的平均反射光谱,即可得到样品的反射光谱曲线。由于相机有低和高光输出以及量子效率的存在,在整个光谱范围内,靠近两端光谱噪声比较大,因此最终选择的波长范围为444~1 000 nm。依次提取所有样品的平均光谱,由此得到234×206(样品数×变量数)的光谱矩阵用于后续分析。
所提取的光谱中包括一些与待测样品性质无关的因素带来的干扰,如光的散射、杂散光、仪器噪声等影响,导致光谱产生基线漂移和光谱的不重复[15],因此需对提取的光谱进行预处理。对比研究采用标准正态变量变换(Standard normal variate transformation,SNV)、一阶导数(First derivative,FD)、二阶导数(Second derivative,SD)及组合使用(SNV+FD、SNV+SD)对光谱及建模结果的影响。其中,SNV可用来校正样品间因散射引起的光谱误差,微分处理能消除基线漂移、强化谱带特征、克服谱峰重叠等。
由于获取的光谱存在冗余和多重共线性问题,因此采用主成分分析(Principal component analysis,PCA)对光谱进行降维。首先对光谱数据矩阵进行奇异值分解,得到一系列正交的变量(得分矩阵、对角矩阵和载荷矩阵),然后选取大特征值对应的特征得分矩阵替代原始光谱数据矩阵用于后续建模分析。主成分数的确定采用累计贡献率法,本研究取主成分的累计贡献率达到99%以上时主成分的数目。
1.6.1基于单一分类器的建模分析
首先,利用Kennard-Stone算法将234个健康和不同病害程度的库尔勒香梨按照比例3∶1分为校正集C(176个样品)和验证集P(58个样品),其中校正集包括48个健康、41个潜育期、62个轻度发病和25个重度发病的香梨,验证集包括16个健康、13个潜育期、21个轻度发病和8个重度发病的香梨。然后,利用KNN、LS-SVM和RF算法,分别建立基于单一分类器的病害诊断模型。KNN是以同类样品在模式空间内较为靠近为依据的分类方法,对待分析的样品,逐一计算其与校正集样品间的距离,找出最近的K个样品进行判别,本研究中K值设置为4。LS-SVM是适用于小样本的非线性机器学习算法,是支持向量机的一种扩展。RF是一种包含多个决策树的分类器,对于待分析样品,由每一棵决策树进行分类,最后取所有结果中最多的分类。本研究决策树数量为500,分裂属性集中的属性数量为12。
1.6.2基于Stacking集成学习的建模分析
Stacking是一种通过元模型将多个单一模型进行组合的集成策略,其学习框架由两级分类器组成,其中低级别的分类器称为基学习器,而高级别的称为元学习器。基于Stacking集成学习的建模分析过程如图3所示,包括基于基学习器的基模型建立和基于元学习器的元模型建立两部分。具体步骤包括:
(1)利用上述基于单一分类器建模分析中的校正集C和验证集P,按照五折交叉验证的方式先将176个校正集样品随机分为5个子集(C1、C2、C3、C4、C5)。
(2)选择某一基学习器,以C2、C3、C4、C5中样品为校正子集建立模型,对C1和P中样品进行预测,记为x1和y1。
(3)重复上述步骤,以C1、C3、C4、C5中样品为校正子集,对C2和P中样品进行预测,记为x2和y2。以此类推,得到校正集样品C的预测值X1(由x1、x2、x3、x4、x5进行列合并所得)和验证集样品P的预测值Y1(由y1、y2、y3、y4、y5取众数所得)。
(4)选择其他基学习器,重复步骤(2)、(3),分别得到X2、X3、Y2、Y3等。
(5)将第1层得到的结果合并,得到X={X1,X2,X3}和Y={Y1,Y2,Y3}。分别以X和Y作为校正集C和验证集P样品的新输入特征,以样品的实际类别Clabel和Plabel为输出特征,采用元学习器构建判别模型生成最终结果,实现对基模型能力的综合和特征的堆叠。
图3 Stacking集成学习模型Fig.3 Stacking ensemble learning model
上述分析过程中,基分类器和元分类器的设计至关重要。选择基分类器时应充分考虑学习器的充分性和多样性,使建立的基模型之间相互独立,实现模型间信息的有效互补。本研究以KNN、LS-SVM和RF算法为基分类器,以建模效果最好的基分类器作为元分类器进行第2层模型的训练。
采用总体判别准确率和各类判别准确率对模型性能进行评价,分析过程在ENVI 5.2和Matlab 2012b中完成。
健康和链格孢菌侵染不同时间的库尔勒香梨及病斑面积如图4和表2所示。对比图4a、4b,在潜育期内,链格孢菌在香梨寄主体内吸收营养和水分并不断繁殖和扩展,形成局部侵染,使寄主部位新陈代谢发生改变,对寄主内部细胞及色素含量、水分和细胞间隙产生影响,但果实外表并未出现明显的可见症状。随着侵染时间的延长,链格孢菌从香梨果实组织中获取生长所需的营养物质,致使梨果实的结构和生理机能发生变化,表面开始出现肉眼可见的黑褐色圆形小点(图4c)。病原菌在香梨内部不断繁殖,产生溶解酶(纤维素酶、果胶酶等)和毒素(交链格孢酚等),使香梨果实细胞的超微结构(细胞膜、叶绿体等)发生改变,病斑区域逐渐扩大,发病样品的病斑面积范围为0.19~36.30 cm2,且稍有凹陷,部分病斑为同心轮纹斑(图4d)。
图4 不同病害程度库尔勒香梨Fig.4 Korla pear with different disease degrees
表2 不同病害程度库尔勒香梨病斑面积统计信息Tab.2 Statistical information of diseased spot area of Korla pear with different disease degrees
图5 不同病害程度库尔勒香梨原始及预处理光谱Fig.5 Original and pretreated spectra of Korla pear with different disease degrees
分别提取健康和不同病害程度黑斑病香梨高光谱图像ROI内的原始光谱,如图5a所示。可以发现,健康和潜育期样品光谱曲线较为相似,随着病害程度加深,光谱的反射率整体呈下降趋势。光谱反射率的降低表示梨果实中蔗糖、果糖、葡萄糖等成分含量在发生变化[10]。其中,波长680 nm处可见明显的吸收峰,与梨果皮和果肉中的叶绿素吸收有关;波长740 nm与O—H键伸缩的3级倍频有关;波长980 nm处可见明显的吸收峰,该吸收峰源于O—H键伸缩振动的2级倍频,与水分子结构密切相关[16]。潜育期香梨和健康香梨的光谱总体差异相对较小,与发病样品的差异较大。这可能是因为链格孢菌侵染初期,在表皮蜡质层和组织细胞壁的防御作用下,梨果实发生的变化相对较小。随着链格孢菌侵染时间的延长,病原菌含量增加,同时释放出寄主特异性毒素等代谢产物,香梨防御层遭到破坏,各种酶活性降低,梨果实中的果糖、葡萄糖、蔗糖、还原糖、总糖、总酸、水溶性蛋白质等化学成分减少。在病原菌和香梨自身变化的综合影响下,光谱反射率整体降低,在波长550、680、730、980 nm处较为明显。对健康和不同病害程度黑斑病香梨光谱进行Kruskal-Wallis显著性差异分析,其渐近显著性P<0.000 1,表明不同等级样品的光谱信息存在差异,为后续分类模型的建立提供了理论依据。
经过5种不同方法预处理后的光谱如图5b~5f所示。SNV预处理有效减小了样品间因散射引起的光谱误差(图5b);微分是消除基线漂移、强化谱带特征的常用方法,经FD处理可有效去除与波长无关的漂移(图5c),波长525、690 nm处的吸收峰更加明显,而经SD处理能有效去除同波长线性相关的漂移(图5d)。将SNV处理与微分处理结合,能在散射校正的同时有效提高谱图信息。如图5e、5f所示,SNV+FD和SNV+SD处理后的光谱与FD和SD处理后的光谱总体趋势保持一致,数值上有较大差异。
图6 主成分分析结果Fig.6 Principal component analysis results
由于光谱数据量较大,因此对其进行PCA处理,只取其中的主成分进行投影分析,在最大程度保留有效信息的基础上,通过减少特征维度来提高计算速度。所选取的各主成分之间彼此相互正交,从而使数据从高维空间向低维空间投影时能尽可能多地保留有用信息。以原始光谱为例,前10个主成分的贡献率和累计贡献率如图6a所示,前3个主成分的累计贡献率超过85%,前6个主成分的累计贡献率超过99%。为了尽可能多地利用光谱特征信息,选取前6个主成分用于后续分类建模。前3个主成分的载荷如图6b所示,载荷反映了各主成分在光谱范围内不同波长处的相关系数,波峰或波谷表示局部最大绝对权重系数。由图6可知,波长480、530、550、650、680、720、745、805、925、970、980 nm处具有较高的权重系数,其中480 nm与类胡萝卜素有关;波长530 nm和550 nm反映梨果实的绿色信息;波长650~680 nm由梨果表皮叶绿素吸收差异引起,反映了香梨从健康到发病后表皮颜色的变化;波长720 nm与O—H键3级倍频有关;波长745 nm与CH2伸缩振动有关;波长805 nm与N—H键3级倍频有关;波长925 nm与C—H键3级倍频有关;波长970 nm反映了C—H键2级倍频的吸收,与果实中糖分的吸收密切相关[17-18];波长980 nm则与果实中含水率密切相关。不同病害程度梨果实的颜色、水分、化学成分之间具有差异,所选主成分能够反映待测样品特征信息。以第1和第2主成分进行投影分析,健康和不同病害程度黑斑病梨果的空间分布如图6c所示。从图中可知,直接采用主成分分析投影,为4类样品的正确区分提供了有效信息,但健康和潜育期样品区分效果较差,且轻度发病和重度发病样品边缘区域的区分效果不好。因此,基于所选前6个主成分,进一步采用分类器算法进行不同病害程度梨果的区分和潜育期梨果的识别。
将健康、潜育期和不同病害程度黑斑病库尔勒香梨分别赋予类别标签1、2、3、4,以所选主成分特征变量为输入,分别采用KNN、LS-SVM和RF算法建立分类模型,结果如表3所示。可以发现,基于预处理光谱的总体和各类判别准确率均优于原始光谱建模,表明采用合适的预处理方法能有效减少光谱采集过程中无关变量和噪声的干扰,对于有效信息的保留、模型稳健度的提高有重要的意义。对比不同方法预处理后的建模结果可知,导数处理后的建模结果优于SNV预处理后的建模结果,尤其是对提高潜育期样品的识别准确率较为明显,表明微分处理可以放大局部谱峰信息,分辨重叠峰,提高分辨率和灵敏度,对易混淆为健康和轻度发病的潜育期样品具有较好的识别效果。在SNV预处理的基础上增加FD或SD处理能有效提高模型的判别准确率,且SNV+SD处理后的总体和各类判别准确率相对更高。
对比不同分类器算法的建模结果发现,LS-SVM算法的分类效果较好,验证集和潜育期的判别准确率分别为93.10%和76.92%。利用KNN和RF算法建立的模型,验证集总体判别准确率分别为91.38%和89.83%。LS-SVM算法致力于将香梨主成分光谱特征映射到高维特征空间中,通过寻找一个超平面将不同病害程度的香梨样品分开。模型建立过程中,通过对径向基核函数边界参数和核宽度的优化,较好地解决了本研究中的小样本、高维度的分类问题。KNN算法通过计算待分析香梨与训练集香梨主成分特征之间的空间距离,由最近邻的K个样品“表决”确定其归属情况。RF算法通过在香梨主成分特征空间的多次采样和变量空间的随机选择构建多个决策树模型,投票确定其所属的类别。后两种算法在对待测样品归类时,受各类别样品数量不一致的影响,容易使信息增益的结果偏向于具有更多样品数量的特征。而本研究中不同类别香梨样品的数量有所不同,从而使KNN算法和RF算法较LS-SVM算法稍差。
表3 不同分类模型的总体判别准确率和各类判别准确率比较Tab.3 Comparison of classification accuracy for total samples and each category samples by using different classification models %
由表3可知,基于SNV+SD预处理后的光谱数据,利用LS-SVM的建模结果最优。为进一步明确该模型对不同类别库尔勒香梨的识别效果,利用混淆矩阵对结果进行分析,如图7所示。在混淆矩阵中,用颜色代表样品数量,颜色越深,表示数量越大。对角线上数字表示被正确识别的样品数量,对角线以外的数字表示被错误识别的样品数量。如图7a所示,校正集176个样品有4个识别错误,其中1个健康香梨识别为潜育期,2个潜育期香梨分别识别为健康和轻度发病,1个轻度发病香梨识别为潜育期。如图7b所示,验证集58个样品中有4个识别错误,其中,3个潜育期样品分别被识别为健康(1个)和轻度发病(2个),1个轻度发病样品被识别为重度发病样品。这说明潜育期香梨和健康、轻度发病尤其是发病初期的样品光谱较为相似,判别时会相互影响。同时,未出现潜育期判别为重度发病的样品,表明此二类样品之间差别较为明显,更适合于选择最优信息点,建立分类模型时误差降低,从而提高分类准确度。总体而言,验证集中潜育期样品的判别准确率最低,仅为76.92%,因此进一步采用Stacking集成学习的方法,提高模型的预测准确率。
图7 LS-SVM算法的混淆矩阵 Fig.7 Confusion matrix of LS-SVM model
上述分析可知,利用SNV+SD预处理光谱的建模结果整体上优于其他预处理方法,LS-SVM算法的识别效果优于KNN和RF。因此,基于SNV+SD预处理光谱,以KNN、LS-SVM和RF作为第1层分类器算法,以LS-SVM作为第2层分类器算法,进行Stacking集成学习的模型构建,预测结果的混淆矩阵如图8所示。由图可知,Stacking集成学习模型表现出良好的分类性能,校正集中各类别样品的判别准确率均为100%,验证集中健康、潜育期和重度发病样品的判别准确率均为100%,轻度发病样品中有1个判别为重度发病,准确率为95.24%,总体准确率为98.28%,比基于单一分类器建模的准确率高5.18个百分点。该判别错误与临界样品有关,处于轻度发病和重度发病阈值点附近的样品被错误分类。与单一分类器模型相比,Stacking集成学习的多模型组合策略可以减少总误差,提高单个模型的性能,在潜育期样品的识别上具有显著的优势,判别准确率高23.08个百分点。因此,基于高光谱结合集成学习算法建立的库尔勒香梨黑斑病模型能较好地实现潜育期样品的正确识别。
图8 Stacking集成学习模型的混淆矩阵Fig.8 Confusion matrix of Stacking ensemble learning model
本研究Stacking集成学习的分类器组合模型第1层选择了学习能力较强、差异度较大的KNN、LS-SVM和RF作为基分类器,3种算法的组合使用有助于优势互补地提升模型的预测效果。第2层学习器采用泛化能力较强、建模效果最佳的LS-SVM模型,用于纠正多个分类器算法对于校正集的偏置情况,并通过集合方式防止过拟合效应的出现[19]。元模型构建过程中采用五折交叉验证进行训练,缓解了过拟合风险。目前已有较多研究证明集成模型的性能优于单一模型[20-21],本研究的实验结果得到相同的结论,即与单一分类器模型相比,Stacking集成学习模型能提高对不同病害程度黑斑病库尔勒香梨的识别效果,尤其是针对潜育期样品,模型的预测准确率有较大幅度的提升。这可能是因为,单一分类器在训练过程中极易陷入局部最优点,导致模型泛化性能不佳,而Stacking集成学习集合多个基分类器,能够在保持高可信度和稳定性的前提下兼顾一定的泛化能力,有效减少了陷入局部最优点的风险[22]。
(1)基于高光谱成像技术和Stacking集成学习算法,构建了库尔勒香梨黑斑病的早期快速诊断模型,实现黑斑病潜育期和发病过程的实时检测。
(2)对比分析了健康、潜育期、轻度发病和重度发病的黑斑病库尔勒香梨的光谱曲线,健康和潜育期样品光谱较为相似,随着病害程度加深,光谱的反射率整体呈下降趋势。对不同病害程度黑斑病香梨光谱进行显著性差异分析,光谱信息存在显著性差异,为分类模型的建立提供了理论依据。
(3)以KNN、LS-SVM和RF为基学习器,以LS-SVM为元学习器,构建了黑斑病病害程度的Stacking集成学习预测模型。该模型对健康和不同病害程度黑斑病库尔勒香梨的总体判别准确率为98.28%,对潜育期香梨的判别准确率为100%。
(4)Stacking集成学习算法充分结合了多个学习器的能力,能实现模型间信息的有效互补,具有较强的特征学习能力。该方法集成多个基分类器,有效减少了陷入局部最优点的风险,结果相比单一分类器具有明显的提高。