吉海彦, 任占奇, 饶震红
(1. 中国农业大学 现代精细农业系统集成研究教育部重点实验室, 北京 100083; 2. 中国农业大学 农业部农业信息获取技术重点实验室, 北京 100083; 3. 中国农业大学 理学院, 北京 100083)
菠菜是我国普遍栽培的品种,为极常见的蔬菜之一,以其鲜、嫩的品质以及较高的营养价值,深受广大消费者喜爱,市场需求量大且较容易种植,具有很好的经济价值。在菠菜的生长过程中,有的农户为保证其免受各种病虫害影响,会使用多种农药或杀虫剂,农药大部分都残留在菠菜叶子上,即使采取专业的清洗也难以消除其表面的农药[1]。更可怕的是有些农户在刚打完药后没多久就采摘进行销售,这样就会进一步增加农药残留的量,长期食用含有农药残留的蔬菜,会诱发各种疾病,甚至可能导致癌症和基因突变[2]。菠菜中的农药残留是否达标是评判菠菜质量的关键因素之一,而农药残留检测中鉴别有无农药残留及农药残留的种类是农药残留检测的前提[3]。果蔬表面的农药残留检测有许多成熟可行的方法,例如:气相色谱法和高效液相色谱法,但这些方法有检测时间长、需要依赖化学试剂、对样品有一定的损坏、操作复杂等缺点[4]。高光谱成像技术具备图像和光谱的双重优势,检测过程无损、无污染、样品无需预处理且检测效率较高,在现代农业检测分析方面得到了广泛的应用[5-8]。
李增芳等用高光谱成像技术无损检测赣南脐橙表面不同稀释浓度的农药残留[9];Shao 等通过使用近红外高光谱成像技术无损检测微藻上的农药种类[10];Sun等运用高光谱图像技术检测桑叶表面的农药残留[11];刘民法等运用近红外高光谱技术鉴别长枣表面的农药种类[12];Qiao等利用短波高光谱图像技术对真菌污染的花生进行分类鉴别[13];Sun等利用高光谱成像技术结合CARS和RF-RFE等特征波长选择算法并建立支持向量机回归模型定量检测莴苣叶片上的农药残留[14];陈欣欣等利用高光谱成像技术对库尔勒梨的早期损伤进行识别[15];Huang等用高光谱技术对不同年份的玉米种子分类进行了研究[16];Barbin 等运用高光谱图像技术结合主成分分析技术研究了对猪肉的等级进行分类[17]。国内外的研究表明,高光谱成像技术被广泛用于农产品品质检测,但将高光谱成像技术结合特征选择算法和多种分类建模算法用于菠菜叶片表面多种类农药鉴别的研究未见报道。
本文以不含农药的菠菜叶片及分别含有常用4种农药(菊酯、乐果、灭多威、辛硫磷)残留的菠菜叶片为研究对象,利用高光谱成像技术、光谱预处理技术、主成分分析技术、卡方检验特征提取算法和分类机器学习算法对菠菜叶片农药残留种类鉴别进行研究,并结合10折交叉验证技术选择出了最佳特征波段和分类模型,减少了模型的运行时间,实现了快捷无损识别出菠菜叶片上的农药残留种类。
实验用的菠菜购于北京某批发市场,实验农药为:氯氰菊酯、乐果、灭多威和辛硫磷。对乐果农药,用蒸馏水将其配置成1∶500的溶液;由于氯氰菊酯、灭多威和辛硫磷这3种农药难溶于水,所以用甲醇分别将其配置成1∶500的溶液。甲醇作为一种溶解剂被添加进来,它可能会影响到含有农药叶片的真实光谱信息,但其作为背景因素对农药残留种类的判别影响很小。如图1为只喷洒甲醇的菠菜叶片的平均光谱曲线。把同浓度的农药和蒸馏水均匀喷洒到125个菠菜叶片表面,每种类喷洒25个叶片,将叶片放置12 h后晾干,采集高光谱图像。
图1 喷洒甲醇后菠菜叶片的平均光谱曲线
高光谱成像系统采用北京卓立汉光公司的GaiaSorter“盖亚”高光谱分选仪,核心部件包括高光谱成像仪、均匀光源、电控移动平台、计算机及控制软件等部分,如图2所示。光谱相机是采用卓立汉光公司Image-λ谱像系列,该相机能获取900~1 700 nm波长范围内共256个波长点的灰度图像,光源由4个200 W的溴钨灯构成。高光谱成像系统的工作原理是通过光源照射在放置于电控移动平台上的待测样品,样品的反射光通过镜头被光谱相机捕获,得到一维的影像以及光谱信息,随着电控移动平台的移动,最终能获得一个包含了影像信息和光谱信息的三维数据立方体,电控移动平台的移动速度由软件控制。
图2 高光谱成像系统示意图
采集高光谱数据时,将样品放置于电动平移台上,为了得到清晰的图像需要多次的相机调焦和平台运动速度的调整,经过多次调试,最终确定平台的运动速度为0.3 cm/s,曝光时间0.08 s。采集到的高光谱成像数据为样品的光谱数据和图像数据组成的三维数据立方体,为了尽可能降低图像噪声和暗电流的影响,需要将采集的原始高光谱图像进行黑白校正[18],在采集高光谱数据时将相机对准白板采集的数据为W,盖上CCD相机镜头采集的数据为D,其校正公式为
(1)
式中:R为校正后的高光谱图像;I为原始高光谱图像;D为全黑的标定图像;W为全白的标定图像。校正的工具为高光谱系统自带的软件SpecVIEW。后续所用到的分析软件包括:Matlab 2016b、Envi5.1、IBM SPSS Statistics 22.0和python3.6。
首先利用Envi5.1软件选取菠菜叶片上的感兴趣区域(Region of interest,ROI),为了充分利用每个菠菜样品同时增加模型训练样本数,每个菠菜叶片样品选取4个ROI,ROI的选取避开主茎干,选取ROI的位置如图3所示。ROI选取的像素点数为50个,计算出ROI内像素点光谱的平均值,以该平均值作为该样品其中的一条光谱记录,最后一共搜集到500条光谱曲线,每类样品100条。为了清晰分辨出不同种类的样本之间的光谱信息差异,对每类样品100条光谱曲线求平均,平均光谱曲线如图4所示。从图4中可以看出,不同种类农药残留的菠菜叶片光谱反射率有一定的差异,与正常叶片不同,滴过农药的叶片的光谱反射率在某些波段明显低于正常叶片,而不同种类的农药残留叶片光谱反射率也有一定的差异。目前已有相关研究表明:农药胁迫会导致植物的某些生理生化指标(如植物内部的组织形态、叶绿素、可溶性多糖等)发生改变[19-20],这些改变将会影响近红外波段的植被反射率[21],所以可以利用光谱信息来判别菠菜是否有农药残留及残留农药的种类。
图4 无残留和不同种类农药残留菠菜叶片表面ROI平均光谱曲线
在菠菜叶片高光谱数据的采集过程中,所测样品的色泽差异、叶片表面的不平整性、叶片的水分含量以及质地不完全相同等因素可能会引起样品发生散射现象进而掩盖与农药相关的光谱信息。农药残留分析属于痕量分析的一种,因此由于散射所引起的光谱差异可能会大于农药种类不同所引起的光谱差异,所以需要用多元散射校正算法(Multiplicative scatter correction,MSC)对原始光谱曲线进行校正,MSC可以消除漫反射光谱的基线漂移,对样品不均匀性造成的噪声也有较好的效果,经过散射校正后能最大程度消除光谱散射的影响[22]。校正前后光谱曲线的对比如图5所示。
图5 原始光谱曲线(a)和MSC校正后的光谱曲线(b)
主成分分析(Principal components analysis,PCA)是通过线性数据转换的方法提取最重要的信息,从而降低数据的维度,被广泛应用于高光谱数据降维和分析中[23]。在本文中,利用PCA对不同菠菜样品的光谱数据进行可视化判别,如图6所示,前两个主成分的累计贡献率达到了96.5%,故用前2个主成分能较好地表示出原来的高维光谱数据,从图中可以看出在经过多元散射校正后不同种类菠菜样品光谱数据分布差异明显,因此,PCA可以更直观地对五类菠菜样品进行定性识别。但PCA是无监督算法,它分析出来的结果只和样品的光谱数据有关而和样品的类别无关,那些贡献率小的主成分对于叶片残留农药种类的鉴别也可能很重要,经过PCA降维后的数据也失去了原数据的意义,不适合用于日后在线分析检测的研制。综上,有必要使用有监督的学习算法对其进行研究。
图6 含有不同种类农药残留菠菜样品的高光谱数据PCA分析
本研究中需要处理的菠菜叶片的高光谱图像的特征维数高达256维,有必要对其进行特征选择以剔除冗余的特征,从而减少模型的运行时间,为日后在线检测设备的研制提供便利。为了选择出最优的特征波长子集和分类预测模型,本文尝试了统计学上的卡方检验特征选择方法并结合常用的4种机器学习分类算法,分别为:支持向量机(Support vector machine,SVM)、朴素贝叶斯模型(Naive bayesian model,NBM)、决策树(Decision tree)和线性判别分析(Linear discriminant analysis,LDA)。卡方检验(Chi-squared test)是分类问题常用的特征选择方法之一,该方法采用了统计学上的卡方检验,需要计算并排序各维特征与类别间的相关程度,然后只保留最相关的k维特征,k可由程序设定[24-26]。为了增加模型的稳定性,采用了10折交叉验证的方法对样本进行划分训练集和测试集,取10次交叉验证预测准确率的平均值和标准差对模型进行评估。如图7中实心浅蓝线和实心红线所示,红线的长度代表标准差的大小,标准差为0时红线消失,结合模型的预测准确率和选择的波长个数,蓝色虚线画出了各个模型的最优参与分类的特征个数占总特征个数的百分比,具体的波长选择结果及模型的预测性能如表1所示。
图7 卡方检验结合不同分类模型预测结果示意图。(a)卡方检验结合支持向量机;(b)卡方检验结合朴素贝叶斯;(c)卡方检验结合线性判别分析;(d)卡方检验结合决策树。
注:图中横坐标为卡方检验筛选出的变量个数百分比,纵坐标为该模型预测的准确率。
Note: The abscissa is shown in the percentage of the number of variables selected by chi-squared test, the ordinate is the accuracy of the model prediction.
表1 波长的选择结果及模型的预测性能
从表1的分析可以得出,Chi-squared test结合LDA的判别模型相比其他模型选出的特征子集的个数最少,选择波长的范围为1 439.3~1 462 nm共8个波长,分别为:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm, 预测的准确率达到0.993,预测准确率的标准差为0.009,故可认为Chi-squared test结合LDA的判别模型为判别菠菜叶片上的农药残留种类的最佳模型。
基于高光谱成像系统利用PCA对菠菜叶片上的农药残留种类进行可视化的判别分析,结果表明PCA可以直观地对菠菜叶片上的农药残留种类进行定性识别。PCA虽然有比较直观的优点,但对本研究也有不利的地方,基于此,采用了Chi-squared test结合常用的4种分类建模算法筛选出了最佳波段和最优的LDA判别模型。筛选出的8个特征波长为:1 439.3,1 442.5,1 445.8,1 449,1 452.3,1 455.5,1 458.7,1 462 nm,缩短了模型的运行时间。将这8个特征波长代入LDA模型结合10折交叉验证技术,预测准确率达到0.993且10次交叉验证的标准差为0.009。本研究中,从将准备好的样品送进实验室开始到检测结束,平均每个样品花费时间2 min左右,未来可考虑将实验流程实现自动化从而进一步提高检测效率。
本研究可基于高光谱成像技术、光谱预处理多元散射校正技术、Chi-squared test特征选择算法和分类建模算法准确鉴别出菠菜叶片表面的农药残留种类,为菠菜叶片的农药残留种类在线检测提供了参考。