基于高光谱图像的小麦脱氧雪腐镰刀菌烯醇含量等级鉴别

2016-10-31 02:56杜莹莹陈小河徐剑宏沈明霞
食品工业科技 2016年17期
关键词:波长毒素光谱

杜莹莹,陈小河,梁 琨,*,徐剑宏,沈明霞,卢 伟

(1.南京农业大学江苏省智能化农业装备重点实验室,江苏南京 210031;2.江苏省农业科学院食品质量与检测研究所,江苏南京 210014)



基于高光谱图像的小麦脱氧雪腐镰刀菌烯醇含量等级鉴别

杜莹莹1,陈小河1,梁琨1,*,徐剑宏2,沈明霞1,卢伟1

(1.南京农业大学江苏省智能化农业装备重点实验室,江苏南京 210031;2.江苏省农业科学院食品质量与检测研究所,江苏南京 210014)

以6种不同脱氧雪腐镰刀菌烯醇(DON)含量等级的小麦样本为研究对象,利用高光谱图像结合化学计量学方法实现DON毒素含量的鉴别。采集180份小麦样本高光谱图像,利用改进格拉姆斯密特算法(MGS)与遗传无信息变量消除算法(GAUVE)对400~1021 nm波段光谱信息提取特征波长,分别利用线性判别分析(LDA)、随机森林(RF)、支持向量机(SVM)、最邻近结点(KNN)算法建立模型预测小麦脱氧雪腐镰刀菌烯醇含量等级。结果表明,利用MGS算法和GAUVE算法能有效地提取特征波长,降低波长变量数,提高运算速率,4种算法建模时准确率均高于85%,其中MGS-SVM模型鉴别效果最优。研究表明,高光谱图像结合化学计量方法与现有检测方法相比,可以快速无损地鉴别6种不同小麦DON毒素含量,为小麦DON毒素快速、无损、智能检测提供研究方法。

小麦,高光谱图像,脱氧雪腐镰刀菌醇,识别模型

小麦是中国的第二大粮食作物,也是世界上最主要的农作物。赤霉病是小麦的主要病发症之一,而脱氧雪腐镰刀菌稀醇(DON)是引发小麦赤霉病的主要真菌毒素,DON毒素不仅对小麦细胞组织有毒害作用,感染小麦作为食品或饲料时对人和牲畜的健康也将造成危害[1-3]。为了避免DON毒素对人畜造成潜在的健康风险,含DON毒素超标的小麦必须在加工之前被处理掉。目前高效液相色谱法(HPLC)和气相色谱(GC)可以精确地对小麦中的DON毒素进行定性定量分析,但是操作繁琐、重现性较差。而且这两种方法所需色谱仪、检测器等价格昂贵,样品处理比较复杂,操作时需要专门的技术人员,不便推广应用,也不适合大批量样品的检测[4]。

近年来,高光谱成像技术在农产品无损检测中的应用发展迅速。外国学者Barbedo等提出了使用高光谱成像技术检测镰刀菌素头疫病(FHB)小麦,利用基于高光谱图像的处理算法,采用数学形态学操作和光谱波段操作实现对小麦FHB的快速自动检测[5]。薛利红等提出了基于可见近红外高光谱的菠菜硝酸盐快速无损测定研究,利用PLS和PCR模型较好地预测了菠菜硝酸盐含量[6];柴阿丽等实现了基于高光谱成像和判别分析的黄瓜病害识别,采用逐步判别分析和典型判别分析两种方法进行降维,利用选择的光谱特征参数建立病害识别模型,为实现可见光谱范围内黄瓜病害的田间实时在线检测提供了可能[7];王志辉等实现了基于叶片高光谱特性分析的树种识别,利用光谱微分法对原始光谱数据进行处理,选择差异较大的波段用于鉴别不同树种,利用欧氏距离和所选择的波段检验识别不同树种[8]。这些学者的研究成果为本文实现小麦的DON含量快速无损分类识别奠定了理论基础。

因此,本文基于高光谱成像技术,结合化学计量学方法实现小麦赤霉病感染DON含量等级的快速鉴别。分别采用改进格拉姆斯密特(MGS)与遗传无信息变量消除(GAUVE)算法提取特征波长,基于特征波长分别建立基于线性判别分析(LDA)、随机森林(RF)、支持向量机(SVM)、最邻近结点(KNN)的四种识别模型,实现小麦DON含量的快速、无损、智能鉴别。这对保障小麦食用安全具有重要的意义。

1 材料与方法

1.1材料与仪器

小麦6种不同毒素含量的小麦样本均来自江苏省农业科学研究院食品检测研究所。样本DON毒素含量测定:称取5.0 g小麦粉于100 mL锥形瓶中,加入25 mL的提取液(乙腈∶水=84∶16),置于180 r/min振荡摇床30 min后,2500 r/min离心,5 min后取上清液;将净化柱连接到固相萃取装置上,加入3 mL的提取液过柱,流速2 mL/min,对柱子进行活化,取3 mL提取的样品过柱,流速1 mL/min,收集滤液;重复洗涤1次后,把两次的滤液合并至氮吹仪吹干后,加入1 mL色谱纯甲醇重溶,过0.22 μm微孔滤膜,转移至进样瓶,然后利用AB SCIEX 公司型号为3500 QTRAP色谱仪-液相色谱质谱联用仪进行毒素含量测定。

液相色谱条件为,流动相:A:5 mmol/L醋酸铵水,B:甲醇,按表1的梯度浓度进行操作,流速:0.6 mL/min,进样量:5 μL。毒素检出限为20 ppb。

表1 DON含量检测梯度浓度

6种小麦样本检测DON毒素含量依次为:0.00、432.50、929.33、1394.93、2195.75、3115.00 ppb,分别标为类别1、类别2、类别3、类别4、类别5、类别6,将每个类别的小麦每称重30 g作为一个样本,并依次标号。6个类别共180份小麦样本,每个类别30个样本,其中22个样本为建模集样本,8个样本为验证集样本,最终建模集样本有132个,验证集样本有48个。

图1为高光谱图像采集系统图。GEV-B1621M-TC000型CCD照相机美国Imperx公司;Imspector型光谱仪芬兰Specim公司;镜头德国schneider公司;21V/150W线性卤素灯光源美国Illumination公司。

图1 高光谱图像采集系统Fig.1 Hyperspectral imaging system

1.2实验方法

1.2.1高光谱图像采集与校正高光谱成像波段为358~1021 nm。为了得到清晰的无畸变图像,在高光谱图像采集前,经反复测试后将曝光时间设置为30 ms,传送带速度为3 mm/s,样本与镜头的距离为250 mm。样本图像采集时,将约30 g小麦样本平铺于白纸上,并置于移动平台表面以获得高光谱图像信息。为了消除光源强度分布不均和暗电流噪声的影响,需要对图像进行黑校正和白校正,获得最终的高光谱图像。

1.2.2高光谱数据的提取利用美国RSI公司的ENVI 4.8软件对高光谱数据进行提取。首先确定每个样本的感兴趣区域(ROI),统一手动选取样本中每粒小麦的轮廓区域内光谱信息作为感兴趣区域。将每个样本ROI区域的平均反射率值作为该样本原始光谱数据,在美国MathWorks公司出品的MATLAB R2012a中进行后续处理。

1.2.3数据处理与建模提取的波段光谱信息存在与DON毒素含量等级无关的冗余波段,为了消除这些波段,提高模型效率,需要对预处理后的数据进行特征波长提取。本文利用改进格拉姆斯密特算法(MGS)和遗传无信息变量消除算法(GAUVE)两种方法提取特征波长,以消除冗余信息提高模型的鲁棒性。其中,MGS特征波长提取算法是根据投影原理在原有正交基的基础上构造一个新的正交基,得到第一特征波长后,循环迭代直到特征波长数达到要求[9]。而GAPLS算法[10]是一种有效的全局搜索算法,可用于高光谱特征波长的选择与优化。由于遗传算法对初始种群的选取和遗传操作算子的执行过程带有较强随机性,通过遗传算法选出的特征波长存在局部重复,经遗传算法提取得到的特征波长数一般较多。为了使特征波长数进一步减少,本文将采用UVE算法[11]对经GAPLS提取得到的特征波长进行二次筛选。本文分别利用线性判别分析(LDA)、随机森林(RF)、支持向量机(SVM)及最邻近结点(KNN)算法建立小麦赤霉病感染DON含量等级的识别模型,并比较不同模型的识别精度,以实现小麦赤霉病快速、无损、智能检测。其中LDA[12]分类算法又称Fisher分类算法,它通过寻找一个最好直线方向及实现最好方向投影变换使各类样品投影到直线后最好地分开,完成分类过程。RF算法是一种包含多个随机形成的决策树的分类器,输出类别由个别树的输出类别的众数决定,本文RF[13]算法中最佳决策树棵树由穷举法获得。SVM算法是通过统计学习理论进行模式分类的,算法中的惩罚参数和核函数参数的选择对SVM分类结果有很大影响,本文采用交叉验证和网格搜索[14]的方法确定最佳惩罚参数和最佳核函数参数。KNN[15]是以同类样本在模式空间相互靠近为依据的分类算法。近邻数K值的大小对分类结果有影响,本文将采用交叉验证的方法确定近邻数K的值。

2 结果与分析

2.1样本光谱特征

实验所采用光谱仪采集的波长范围为358~1021 nm,小于400 nm波段存在大量干扰噪声,因此采用400~1021 nm波段范围内的286个波长作为后续数据处理区域。图2为180个样本在400~1021 nm波段范围的感兴趣区域平均反射光谱曲线,从图中可以看出所有样本的光谱曲线轮廓基本相同,从436 nm到696 nm反射率值迅速上升,从496 nm到884 nm反射率上升速度放缓,866 nm之后曲线趋于平稳。为了探明小麦不同DON毒素含量与高光谱数据之间的相关性,为鉴别小麦DON毒素含量鉴别提供理论依据,分析了不同种类的DON毒素含量与反射光谱的相关性,图3为6种不同种类DON含量与光谱反射率的相关性分析,可见在416 nm之前DON含量与光谱反射率成负相关,在416 nm之后DON含量与光谱反射率成正相关。416~478 nm之间相关系数随波长迅速增加,478~679 nm相关系数随波长缓慢下降,679 nm之后相关系数平缓上升,在1021 nm处达到最大值0.372。为消除光线等干扰造成的噪声影响,采用SNV算法对原始光谱数据进行预处理,图4为SNV预处理后的光谱反射率曲线,预处理后算法可以消除样本籽粒大小、表面散射和光程差异对光谱的影响[16]。

图2 所有小麦样本反射光谱曲线Fig.2 Raw spectra of all wheat samples

图3 DON含量与光谱反射率相关性Fig.3 The correlation between DONcontent and spectral reflectance

图4 SNV算法预处理后建模集光谱Fig.4 Spectra of calibration set after SNV

2.2样本特征波长提取

2.2.1基于MGS特征波长提取本实验通过MGS算法得到的9个特征波长(406、408、422、430、436、440、767、771、778 nm)。这些波长集中在400~450 nm和750~800 nm之间,说明蓝光和红光与分类信息相关。MGS算法筛选后,波长数仅为原波长数的3.1%,大大压缩了用于后续建模的特征波长数量。

2.2.2基于GAUVE特征波长提取经GAPLS算法提取特征波长后,波长变量降到了65个。采用UVE算法对65个特征波长进行二次筛选,筛选结果如图5所示,图中垂直实线左边表示65个波长变量,实线右边表示加入的65个随机噪声变量。两条虚线为上下阈值,阈值的取值设定为随机变量最大稳定值的0.99倍。阈值内为无信息变量,阈值外为被选中的特征波长。处理后得到了14个特征波长(408、410、414、422、443、463、476、480、482、505、577、681、756、888 nm),RMSECV值为0.458。因此GAUVE算法进行特征波长提取后,特征波长数量为原来的4.9%,有效减少了后续建模的特征波长数量。

图5 UVE算法选择的特征波长Fig.5 Wavelengths selected by UVE

2.3模型建立

为了实现小麦6种不同DON毒素含量的鉴别,将MGS提取得到的9个特征波段的反射光谱数据作为输入,分别建立线性判别分析(LDA)、随机森林(RF)、支持向量机(SVM)、最邻近结点(KNN)模型,模型的识别结果如表2所示。在利用RF算法建模时,利用穷举法得到RF算法最佳决策树棵数为100。建立基于SVM算法的鉴别模型,采用交叉验证和网格搜索的方法确定最佳惩罚参数为4,最佳核函数参数为4。采用交叉验证的方法确定KNN算法近邻数K为3。由表2可知,4种模型算法的建模集样本的准确率和验证集样本的准备率均到达90%以上,其中SVM算法的预测集识别率最高为97.92%,RF的建模集识别率最高为100.00%。分类识别结果说明经MGS算法提取特征波长结合LDA算法、RF算法、SVM算法、KNN算法建模能有效的鉴别6种小麦DON毒素含量。

表2  基于MGS算法特征波长提取后识别准确率(%)

将GAUVE优选的14个特征波长作为输入,分别建立LDA、RF、SVM、KNN模型,分类识别结果如表3所示。其中RF算法中的决策树棵树为150;SVM算法中的最佳惩罚因子为64,最佳松弛变量为0.25;KNN算法中的近邻数K为5。由表可知SVM算法识别效果最好,建模集样本准确率为99.24%,预测集样本准确率为95.83%。LDA算法识别效果稍差,建模集样本准确率为92.42%,预测集分类准确率为87.5%。总体上4个模型识别准确率均达85%以上,分类识别结果说明经GAUVE算法提取特征波长结合LDA算法、RF算法、SVM算法、KNN算法建模能有效的鉴别6种小麦DON毒素含量。

表3 基于GAUVE算法特征波长提取后识别准确率(%)

综上,比较MGS与GAUVE算法提取特征波长建模后的分类识别效果,MGS算法提取特征波长建模的分类识别效果优于GAUVE算法,这说明MGS算法得到的特征波长反映的有效信息高于GAUVE算法,相比较之下GAUVE算法处理后光谱包含了更多的噪声信息。经比较发现,MGS与GAUVE算法得到的特征波长大部分不相同。这是因为MGS算法在选择出一个特征波长的同时消除了这个特征波长对后续特征波长选取的影响,因此两种算法得到的特征波长在后半部分存在较大差异。两种算法得到的均是包含较多与DON含量相关信息的波长,因此这些波长在后续建模中都有重要作用,且MGS算法得到的特征波长作用更大。此外MGS提取得到9个特征波长比GAUVE提取得到的14个特征波长少了5个,因此MGS算法提取的特征波长在模型中的计算速度快于GAUVE算法。在模型的建立中,SVM算法在MGS与GAUVE提取得到的特征波长建模中均取得了最优的分类识别效果,且基于MGS特征提取方法下的SVM模型分类识别效果为所有模型中的最优,这是因为在小样本数据和非线性情况下,SVM算法具有更好的鲁棒性。表4和表5分别为SNV-MGS-SVM和SNV-GAUVE-SVM模型的识别混淆矩阵。由表可知,类别3与类别6小麦存在信息重叠,在分类过程中易被错分。

表4 基于SNV-MGS-SVM算法识别模型混淆矩阵

表5 基于SNV-GAUVE-SVM算法识别模型混淆矩阵

3 结论

高光谱图像鉴别了6种不同小麦DON毒素含量时,利用MGS算法和GAUVE算法能有效的提取特征波长,降低了波长变量数,提高了运算速率,其中MGS算法提取得到的特征波长数少于GAUVE算法,对模型简化效果更好。LDA算法、RF算法、SVM算法、KNN算法建模时准确率均较高,其中MGS算法得到的特征波长建模后分类识别效果均优于GAUVE算法,其中SNV-MGS-SVM算法为最优分类识别效果,建模集分类识别率为99.24%,预测集分类识别率为97.92%。高光谱图像结合化学计量方法,可以避免现有定量检测方法的繁琐过程,快速地鉴别6种不同小麦DON毒素含量,为小麦DON毒素快速、无损、智能检测提供研究方法。

[1]Dillmacky R,Jones R K. The effect of previous crop residues and tillage on fusarium head blight of wheat[J]. Plant Disease,2000,84(1):71-76.

[2]刘新琼. 小麦赤霉病菌毒素研究进展[J]. 湖北植保,1997(3):23-24.

[3]Mirocha C J,Xie W,Xu Y,et al. Production of trichothecene mycotoxins by Fusarium graminearum and Fusarium culmorum on barley and wheat[J].Mycopathologia,1994,128(1):19-23.

[4]江湖,熊勇华,许杨,等. EDC法制备黄曲霉毒素B_1人工抗原的研究[J]. 食品科学,2005,26(7):125-128.

[5]Barbedo J G A,Tibola C S,Fernandes J M C. Detecting Fusarium head blight in wheat kernels using hyperspectral

imaging[J]. Biosystems Engineering,2015(131):65-76.

[6]薛利红,杨林章. 基于可见近红外高光谱的菠菜硝酸盐快速无损测定研究[J]. 光谱学与光谱分析,2009,29(4):926-930.

[7]柴阿丽,廖宁放,田立勋,等. 基于高光谱成像和判别分析的黄瓜病害识别[J]. 光谱学与光谱分析,2010,30(5):1357-1361.

[8]王志辉,丁丽霞. 基于叶片高光谱特性分析的树种识别[J]. 光谱学与光谱分析,2010,30(7):1825-1829.

[9]谢传奇,方孝荣,邵咏妮,等. 番茄叶片早疫病近红外高光谱成像检测技术[J]. 农业机械学报,2015,46(3):315-319.

[10]Leardi R. Application of genetic algorithm-PLS for feature selection in spectral data sets[J]. Journal of Chemometrics,2000,14(5-6):643-655.

[11]Centner V,Massart D L,Noord O E D,et al. Elimination of uninformative variables for multivariate calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.

[12]Mika S,Ratsch G,Weston J,et al. Fisher discriminant analysis with kernels[J]. Neural Networks for Signal Processing IX,1999(9):41-48.

[13]Rodriguez-Galiano V,Mendes M P,Garcia-Soldado M J,et al. Predictive modeling of groundwater nitrate pollution using Random Forest and multisource variables related to intrinsic and specific vulnerability:a case study in an agricultural setting(Southern Spain)[J]. Science of the Total Environment,2014,476-477(4):189-206.

[14]Minowa Y. Verification for generalizability and accuracy of a thinning-trees selection model with the ensemble learning algorithm and the cross-validation method[J]. Journal of Forest Research,2008,13(5):275-285.

[15]Cover T,Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Informat,1967,13(1):21-27.

[16]Barnes R J,Dhanoa M S,Lister S J. Standard Normal Variate Transformation and De-Trending of Near-Infrared Diffuse Reflectance Spectra[J]. Applied Spectroscopy,1989,43(5):772-777.

Identification of deoxynivalenol content in wheat based on the hyperspectral image system

DU Ying-ying1,CHEN Xiao-he1,LIANG Kun1,*,XU Jian-hong2,SHEN Ming-xia1,LU Wei1

(1.Jiangsu Province Engineering Lab for Modern Facility Agriculture Technology and Equipment,Nanjing Agricultural University,Nanjing 210031,China; 2.Institute of Food Quality and Safety,Jiangsu Academy of Agricultural Sciences,Nanjing 210014,China)

Identification of wheat samples with six different levels of deoxynivalenol(DON) content by hyperspectral images,integrating stoichiometric method was studied in this paper. Hyperspectral images of 180 wheat samples were obtained,a Modified Gram-Schmidt algorithm(MGS)and a genetic uninformative variable elimination algorithm(GAUVE)were used to select sensitive wavelengths across the wavelength range of 400~1021 nm. Linear discriminant analysis(LDA),random forest(RF),support vector machine(SVM)and the K-nearest neighbors algorithm(KNN)models were established and developed to predict the DON content level of wheat samples. The results indicated that the MGS algorithm and GAUVE algorithm efficiently select the sensitive wavelengths,reduce the number of wavelength variables,and improve the operation rate. The accuracy rate of LDA algorithm,RF algorithm,SVM algorithm and KNN algorithm were found to be higher than 85%. Among all the identification models studied,MGS-SVM model obtained the best identification accuracy. This study research indicated that hyperspectral images combined with a stoichiometric method can accurately identify wheat kernels with six different levels of DON content,hence,offering a methodology for rapidly,non-destructively,intelligently detecting of wheat’s DON toxin.

wheat;hyperspectral image;deoxynivalenol;identification model

2016-03-16

杜莹莹(1994-),女,在读本科生,研究方向:农产品无损检测,E-mail:duyingying2016@126.com。

梁琨(1983-),女,博士,讲师,主要从事农产品无损检测方面的研究,E-mail:lkbb2006@12.com。

国家自然科学青年基金项目(31401610);中央高校基本科研业务费专项资金(KJQN201557);江苏省农业科技创新基金(CX(16)1059);江苏省科技支撑项目(BE2014738);江苏省农业科技自主创新项目(CX(14)2126)。

TS201.1

A

1002-0306(2016)17-0054-05

10.13386/j.issn1002-0306.2016.17.002

猜你喜欢
波长毒素光谱
基于三维Saab变换的高光谱图像压缩方法
What Makes You Tired
一类具有毒素的非均匀chemostat模型正解的存在性和唯一性
毒蘑菇中毒素的研究进展
双波长激光治疗慢性牙周炎的疗效观察
日本研发出可完全覆盖可见光波长的LED光源
严苛标准方能清洗校园“毒素”
星载近红外高光谱CO2遥感进展
便携式多用途光波波长测量仪
苦味酸与牛血清蛋白相互作用的光谱研究