张佐经,付新阳,陈柯铭,赵遵龙,张仲雄,2,3,赵娟,2,3
1(西北农林科技大学 机械与电子工程学院,陕西 杨凌,712100)2(农业农村部农业物联网重点实验室,陕西 杨凌,712100) 3(陕西省农业信息感知与智能服务重点实验室,陕西 杨凌,712100)
苹果霉心病是导致苹果品质不佳的主要病害之一,患有霉心病的苹果,其果心出现霉变,引起落果、果实腐烂等问题,不仅给苹果种植者、营销者和消费者带来损失,还对企业、苹果产业以及国家声誉造成巨大影响[1]。此外,由于霉心病发于果心,无法从表面识别。因此,利用先进的无损检测技术来提高对苹果霉心病的检测效率和准确率,对于保障苹果品质,提高苹果商品价值具有重要意义。
目前已有生物阻抗特性检测技术[2]、核磁共振检测技术[3]、成像检测技术[4]、机器智能感官仿生检测技术[5-7]等方法应用于苹果霉心病无损检测,但上述方法存在实验仪器昂贵、检测成本较高、分析过程较为复杂、耗时等不足。近红外光谱技术具有分析效率高和成本低等优点,在苹果霉心病无损检测领域得到了诸多应用。采用透射光谱进行霉心病检测,准确率均在90%以上[8-12],但透射方式的检测结果受果径大小的影响,需要进行复杂的模型修正[9],此外由于透射检测方式中检测光源与信号接收器分布在苹果两侧且检测光源所需能量较高,根据其原理开发的检测设备通常存在体积较大、能耗较高等问题。采用漫反射光谱可以实现苹果霉心病的无损检测,但相比于透射检测方式判别准确率较低[13-14]。此外,李芳等[2]研究发现霉心病苹果密度和可溶性固形物含量较健康苹果均有所下降;张卫园[7]采用机器视觉结合图像处理方法获取苹果密度数据,并利用密度数据判别苹果是否患霉心病,模型准确率达88%;张建超[15]发现从健康苹果到重度霉心病果平均密度依次减小且差异显著,以上研究表明密度可以作为霉心病判断依据之一。
针对上述情况,本文提出一种融合密度与漫反射光谱的霉心病多因子无损检测方法,通过提取能够反映霉心病苹果与健康苹果差异的漫反射特征光谱,将密度数据与特征光谱关联作为模型因子,利用多种算法构建霉心病判别模型,以期提高漫反射光谱对苹果霉心病判别准确率。
于2019年10月在陕西省宝鸡市扶风县某果园内,挑选果径75~90 mm、外观无损伤的苹果样本195个,将其运回西北农林科技大学机械与电子工程学院农业物联网重点实验室,并放置8 h使其恢复至室温条件(23~25 ℃,湿度35%~45%),消除温度对光谱产生的影响。
WLD-600型密度仪,万利多(称重范围:0.01~600 g,仪器精度:0.001 g/cm3),图1为本实验所用密度仪,通过分别获取苹果在空气中和水中的质量计算苹果的密度值。利用光谱仪(Maya200 Pro型,Ocean Optics,美国),有效波长范围200~1 100 nm,分辨率0.48 nm和光源(HL-2000型,Ocean Optics,美国),波长响应范围360~2 400 nm,额定功率28.8 W搭建漫反射光谱数据采集平台。
a-空气中;b-水中图1 密度仪及密度数据获取Fig.1 Density meter and histogram of density data distribution
搭建的漫反射光谱数据采集平台如图2所示,在光谱信息采集软件上对光谱仪参数进行设置:积分时间为10 ms,光谱平均次数为5次,并选择启用暗噪声校正、非线性校正。样本为沿轴向放置,使其赤道部位与检测探头方向垂直,并沿轴向转动,每隔120°采集1次光谱信息,共采集3组光谱信息,以3组光谱的平均光谱作为该样本的漫反射光谱。光源发出的光经光纤传输至检测探头并垂直照射至样品表面,反射光经光纤传回光谱仪,光谱仪对反射光进行采样并将采样信息传回至计算机,计算机对采样信息进行保存和分析。
图2 光谱数据采集平台Fig.2 Spectral data acquisition platform
1.3.1 数据预处理与样本集划分
由于获取的光谱数据不仅包含被测样品的成分信息,还含有各种噪声等无关信息,为减弱甚至消除各种噪声对检测信号的影响,需要在分析数据前对其进行预处理[16]。本文采用标准正态变量变换(standard normal variable transformation,SNV)方法来消除粒径、表面散射和光程变化对光谱的影响,提高模型预测能力。
采用Kennard-Stone(KS)算法实现样本集划分。KS算法通过计算样本之间的欧几里得距离实现对样本集的划分[17],该方法可保证训练集中样本按欧式距离均匀分布,从而保证训练模型更能代表整个数据集。
1.3.2 特征波长提取
利用竞争性自适应重加权采样法(competitive adaptive reweighted sampling,CARS)与连续投影算法(successive projection algorithm,SPA)相结合提取特征波长。CARS算法[18]根据进化论适者生存理论,挑选出PLS回归模型中权值较大的波长点,再利用交互验证方式选出使均方根误差达到最小的变量集作为提取出的特征波长集合。SPA算法[19]能够去除数据集中的冗余变量,最小化变量之间的共线性,减少建模所用变量数量,从而提升建模的速度和效率。本文首先利用CARS算法对特征波长进行粗略提取,再利用SPA算法对由CARS算法得到的特征波长进行进一步提取,使数据压缩率达到最高。
1.3.3 建模方法
采用偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)、Fisher判别、支持向量机(support vector machine,SVM)和最小二乘支持向量机(least squares support vector machine,LS-SVM)4种方法建立霉心病判别模型。
PLS-DA是多元数据分析技术中的一种用于类别判别的分析方法,其通过适当旋转主成分,有效区分组间观测值,找出导致组间差异的影响变量。
Fisher判别是一种基于方差分析思想的线性判断法,它能将高维空间的点投影至低维空间,能更好地区分每一个总体。在进行Fisher判别时需要计算在投影空间上的分割阈值y0,本文通过公式(1)求出Fisher模型的分割阈值:
(1)
SVM[20]是一种基于机器学习理论来最大限度地提高其预测精度,同时避免对数据的过度拟合的分类和回归预测工具。SVM判别函数见公式(2):
(2)
LS-SVM[21]是对标准SVM的改进。LS-SVM与SVM的不同之处在于:LS-SVM将SVM中的凸二次优化问题转变为求解线性方程组问题,方便了拉格朗日乘子α的求解,提升了模型求解速度。
1.3.4 模型评价指标
以健康苹果正确判别率、霉心病苹果正确判别率和总体正确判别率作为模型主要评价指标,对模型进行综合评价。
所有数据处理操作均基于MATLAB 2018b软件,其中PLS-DA采用libPLS_1.98工具箱,Fisher采用MATLAB软件自带的相关判别函数,SVM采用libsvm-3.23工具箱,LS-SVM采用lssvm-labv1.8工具箱。
对获得的密度数据进行正态分布检验,以确定其可用于进一步分析。检验结果如图3所示,本实验所采集的密度数据基本符合正态分布特性,具有统计分析意义。霉心病苹果密度整体低于健康苹果密度,说明密度可作为判别苹果是否患霉心病的依据之一,这与前人研究结论一致[2,7,15]。
图3 密度数据正太分布检验Fig.3 Test for normal distribution of density data
原始光谱见图4-a,采用SNV对光谱进行预处理,结果如图4-b所示。经过处理后,光谱之间趋于紧密化,使样本性质相同的波长点更加趋于一致,性质不同的光谱之间的差异增大。
a-原始光谱;b-经过SNV算法预处理的光谱图4 原始光谱和经过SNV算法预处理的光谱Fig.4 Original spectra and spectra pretreated by SNV
首先将样本划分为健康样本集和霉心病样本集,其中健康样本集共117个样本,霉心病样本集共78个样本,比例为3∶2。之后对2个样本集分别采用KS算法,为保证训练集和测试集的健康苹果和霉心病苹果比例与整体比例保持一致,在基本符合训练集和测试集样本比例约为3∶1的前提下,取经KS划分后健康样本集的前90个样本和霉心病样本集的前60个样本合并作为训练集,共150个样本,将剩余样本合并作为测试集,其中健康样本27个,霉心病样本18个,共计45个。
通过对CARS算法设置交互验证次数10次、聚类数25次,提取到特征波长9个,考虑到CARS提取的部分波长点之间较为接近,依然存在冗余,因此利用SPA对其进行二次特征提取,最终得到特征波长5个,仅占全光谱的0.3%,图5为特征波长提取的结果,提取的特征光谱避开了谱线重叠严重的区域,有效地反映了霉心病果与健康果的差异信息,为之后建立稳定可靠的霉心病判别模型奠定基础。
图5 特征波长分布及霉心病果与健康果特征光谱对比Fig.5 Distribution of feature wavelengths, comparison of feature spectra of moldy core apple and healthy apple
将提取到的特征波长(394、422、448、474、541 nm)处对应的光谱数据与密度数据合并作为模型因子用于模型的建立,同时分别仅以密度、特征光谱数据作为模型因子建立模型与前者进行对比,分析融合密度因子对模型的影响。
2.4.1 模型参数的选择与设定
建模时需要对各模型参数进行合理设定,以使模型效果达到最优。利用PLS-DA进行建模时,需要合理选择主因子数量,防止模型“过拟合”或“欠拟合”的产生,本文通过交互验证方式求取最佳主因子数;通过公式(1)求取Fisher模型的分割阈值y0;SVM模型类型选择C-SVC型,并选择高斯核作为SVM模型的核函数,同时采用网格搜索法对SVM模型惩罚因子C、核函数参数g进行寻优,图6为SVM参数寻优过程图;同样选取高斯核作为LS-SVM模型的核函数,并采用工具箱自带的优化函数对模型参数(正则参数γ、平方带宽σ2)进行优化。各模型求得的最优参数如表1所示。
图6 SVM参数寻优过程Fig.6 SVM parameter optimization process
表1 各模型最优参数Table 1 Optimal parameters for each model
2.4.2 模型验证
为检验各模型的效果,将测试集的45个样本数据代入各模型,各模型的判别结果如表2所示。以密度+光谱作为模型因子的模型判别率均高于分别以密度、光谱作为模型因子的模型判别率,且以密度+光谱作为因子的4个模型对健康苹果的正确判别率均为100.00%,仅将个别霉心病苹果错误分类,其中,SVM总体判别率和霉心病苹果判别率均最高,分别为95.56%和88.89%,分类效果最好,对霉心病苹果的识别效果也最佳,PLS-DA、Fisher与LS-SVM总体判别率与霉心病苹果判别率均持平,分别为93.33%和83.33%。图7为SVM分类效果及判错样本,模型仅将2个霉心病苹果误判为健康苹果,分类效果良好。
表2 各模型判别结果Table 2 Discriminant result of each model
图7 SVM分类效果及判错样本图Fig.7 SVM classification effect and judgment error sample
2.4.3 讨论
霉心病发病后,果实的化学成分及其含量可能发生变化,漫反射检测到这种变化,进而判别出苹果是否患病。结合图5可看出,霉心病苹果与健康苹果在波长394、422、448、474、541 nm处光谱差异较大,以上5个特征波长均在可见光范围内,而可见光常用于颜色评估和色素分析[22]。随着霉心病病害程度的增加,苹果表皮中叶绿素a、叶绿素b和类胡萝卜素含量逐渐降低[23],黄酮素和花青素含量逐渐升高,苹果表皮颜色变黄,说明漫反射光谱可能通过获取苹果表皮颜色和色素信息进行霉心病判别。
另外,发病程度不同的霉心病苹果密度范围不同,且密度从健康果到重度果依次减小[15],因此,将这种差异作为霉心病判别依据之一具有理论可行性,经实验证明此方法对于提高漫反射光谱的霉心病判别率具有积极作用,但仍存在个别霉心病苹果被误判的现象。通过分析,认为原因主要在以下两点:(1)样本发病程度较为轻微,表皮色差、密度变化均不明显;(2)密度测量原理为排水法,方法本身存在一定程度误差,此误差覆盖了样本的密度特征。由图7中4个模型均判错的85号样本和96号样本,两样本发病面积均不足10%,与健康苹果的光谱和密度值没有显著性差异,从而导致模型出现误判。
本文所建立的融合密度与光谱的模型判别准确率较优于文献[13]中仅基于漫反射光谱的模型判别率,并可以达到部分基于透射光谱建立的霉心病判别模型效果,但与雷雨等[12]建立的模型判别率(96.7%)仍存在一定差距,说明融合密度因子对漫反射模型判别率有一定的提升作用但可能也受到苹果内部品质如糖度、硬度、酸度等因素影响,后期要继续提高漫反射模型判别率可以考虑如何消除这些因素的影响。
基于漫反射检测原理建立了融合密度特征的苹果霉心病理论判别模型,若基于此模型开发苹果霉心病无损检测设备,可有效避免透射无损检测设备中检测结果受果径影响、设备体积较大、不易携带、检测能耗高等问题,因此,此模型对实现苹果霉心病无损、快速、便捷检测具有重要意义,同时为实现苹果内部病害和品质一体化无损检测提供了可能。然而,本文采用排水法原理测定苹果密度数据,测定过程较为复杂耗时,后期欲开发基于此模型的无损检测设备的学者可考虑利用近红外光谱对物质化学特性和物理特性的良好预测能力,探索光谱与苹果密度之间的关系,建立光谱-密度预测模型,将预测出的密度值与特征光谱融合后用于苹果患霉心病的判别。
针对漫反射光谱对苹果霉心病判别率较低的问题,提出一种融合密度特征与漫反射光谱的无损检测方法,运用CARS与SPA组合提取到漫反射光谱中可以区分霉心病苹果与健康苹果的5个特征光谱,仅占全光谱的0.3%,有效减少建模变量的维度。融合密度与特征光谱分别建立PLS-DA、Fisher、SVM和LS-SVM判别模型,同时仅基于密度、特征光谱分别建立同种模型做对比。结果表明,融合密度与特征光谱的模型判别率普遍高于仅基于密度、特征光谱的模型判别率,说明融合密度特征可以提高漫反射光谱判别霉心病的准确率。4个模型中,以密度+光谱作为因子的SVM模型分类效果最好,较仅基于密度特征的模型测试集判别率提高13.34%,较未融合密度特征的漫反射特征光谱模型测试集判别率提高4.45%。综上,将密度特征与漫反射光谱融合用于判别霉心病的方法可行,相比于仅基于密度或漫反射光谱的霉心病判别效果有所提高,并为开发基于漫反射检测原理的苹果内部病害与品质一体化无损检测设备提供了理论基础。