吴静珠,李 慧,刘翠玲,王克栋
(北京工商大学计算机与信息工程学院,北京100048)
基于近红外的蔬菜农残快速定性检测技术研究
吴静珠,李 慧,刘翠玲,王克栋
(北京工商大学计算机与信息工程学院,北京100048)
将基于统计学理论的支持向量机(SVM)和近红外光谱(NIR)技术相结合,用于蔬菜上有机磷农药残留的快速检测分析。实验以蔬菜上常用的毒死蜱农药为分析对象,配制了浓度为0.005~5mg/kg共86个模拟的蔬菜农残样品,分别采用含量梯度法和Kennard-Stone法挑选训练集样品,以0.05mg/kg为检测阈值,建立基于样品近红外光谱的支持向量机定性识别模型,通过对惩罚参数的调整取得了满意的鉴别效果,为实现对蔬菜上的农药残留分析进行快速检测提供了一条可能的途径。
近红外光谱,支持向量机,定性分析,农药残留
Abstract:This paper presented a novel classifier built by support vector machines( S ∨M)and near infrared spectroscopy(NIR)to identify pesticide residue in vegetable rapidly.86 unit Chlorpyrifos samples were confected from 0.005mg/kg to 5mg/kg,which simulated pesticide residue samples of vegetables.According to the national standard,the detection value of Chlorpyrifos was 0.05mg/kg.The experimental samples were selected by content of the gradient and Kennard-Stone respectively.The satisfying classifier can be built by adjusting the penalty parameter of S∨M.Results indicated that the combination of S∨M and NIR can detect pesticide residue on the vegetable directly and lossless,it also provided a possible way of rapid detection on vegetable in the future.
Key words:NIR;S∨M;qualitative analysis;pesticide residue
农药的发明和使用大大提高了农作物的产量。但是随着农药的大量和不合理使用,农作物中农药残留对人体健康的危害及农药的使用对环境造成的负面影响也日益暴露出来,特别是蔬菜中由于使用高毒农药或禁用农药而引起中毒事件时有发生。目前广泛应用于农药残留检测的方法主要有气相色谱法、高效液相色谱法和气相色谱-质谱法等经典方法[1]。这些方法精度很高,但是费时长、检测费用高,难以实现对蔬菜中农残进行现场快速检测。因此研究一种快速、预处理简单的农残检测技术是当前亟待解决的问题。近红外光谱分析技术是20世纪90年代以来发展最快、最引人注目的分析检测析技术,快速、无破坏性和多组分分析以及分析过程的绿色化使该技术具有典型的时代特征。该技术目前已经在我国农业、食品等品质检测领域的应用得到了迅速的发展,尤其是在线检测和现场检测方面,NIR技术具有很大的发展潜力和应用空间。目前,李文秀等利用高残留农药敌百虫和敌敌畏在蔬菜汁溶剂的红外吸收情况,可以直接对蔬菜上的农药残留进行检测[2]。周向阳等以农药甲胺磷为主要研究对象,分析了各种蔬菜样品近红外光谱图的差异,采用差谱技术、导数预处理等进行指认,与GC-MS法比对,取得满意的鉴别效果[3]。本工作探索将基于统计学理论的支持向量机[4]和近红外光谱技术相结合,以蔬菜上常用的农药毒死蜱为分析对象,根据其农残样品的近红外光谱,建立支持向量机农残定性识别模型,为实现对蔬菜上的农药残留快速检测提出一种可能的途径。
支持向量机(SVM)是一种新的通用的机器学习方法,以其小样本下良好的推广能力而被广泛用于各种模式分类问题。支持向量机的基本思想是通过事先确定的非线性映射将输入向量映射到一个高维特征空间中,然后在此高维空间中构建最优分类面。在最优分类面中采用适当的内积核函数K(xi,xj),就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加。此时,SVM分类函数形式类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量,如图1所示。
图1 支持向量机示意图
设训练集为{xi,yi},i=1,…,n,xi∈Rn,yi∈{-1,1},则SVM分类器的一般形式如下所示:
已有证明,如果训练集中的样本能被SVM建立的最优超平面完全划分,则在测试未知样本的最大出错概率,即支持向量机期望风险的上界为:
上式表明,支持向量的数目越少,支持向量机期望风险的上界越小,该支持向量机泛化能力越强。
以1mg/mL的毒死蜱和甲醇溶液的标准物质(来自国家标准物质样品信息中心)为母液,以甲醇和水作为稀释溶液,分别配制毒死蜱浓度范围为0.005~5mg/kg的样品共86个。配制时,每个样品的背景溶液甲醇和水的比例均作正交设计。考虑到蔬菜中可能含有的维生素和糖,因此每个样品都随机添加蔗糖、维生素C来模拟蔬菜汁溶液。将所配不同浓度的溶液样品分别装入20mL茶色螺口小瓶中。
感量0.1mg的电子天平预热15min,将每个小瓶在加入稀释液之前,除皮,然后加入水、甲醇、维生素C及蔗糖共20g,再使用移液枪把毒死蜱和甲醇的标准品加入小瓶中,标准品的量视所配浓度而定。
实验采用德国BRUKER公司生产的MATRIX-F型傅立叶近红外光谱仪,光纤探头长2m,光程池1mm。测量时,在室温下液体光纤探头插入装有样本溶液的茶色小瓶中,采用透反射采样模式,对12500~4000cm-1谱区扫描,分辨率为 8cm-1,每个样品扫描32次。图2所示是在MATRIX-F上采集的86个农残样品的近红外采光谱图。
图2 86个农残样品的近红外谱图
近红外光谱建模分析中,首先考虑的是训练集和测试集样本的划分。为了充分考虑可能存在的偶然因素,本文分别从浓度差异和光谱差异两个角度来划分训练集和测试集样品,并且分别建立定性模型进行农残鉴别。从浓度差异划分,采用含量梯度法,以2∶1的比例划分训练集和测试集的样品。从光谱差异划分,采用 Kennard-Stone 法[5]。
SVM核函数主要有三类:多项式核函数;高斯径向基函数(RBF)核函数;Sigmoid核函数。根据文献所述[6],RBF径向基函数是SVM首先的核函数。因此,本实验以RBF径向基函数为支持向量机的核函数,在其他参数保持不变的情况下,讨论惩罚参数c的选择对SVM定性模型性能的影响。本文在Matlab 6.5中调用SVM模式识别与回归的软件包LIBSVM(http://www.csie.ntu.edu.tw/~ cjlin/下载)实现 SVM的训练和预测过程。由于支持向量机适合处理高维数据,其计算复杂性与输入模式的维数没有直接关系,因此实验中直接将训练样品原始光谱集归一化后作为SVM的输入。
依据中华人民共和国农业行业标准NY/T743-2003中规定的绿色食品绿叶类蔬菜卫生指标,毒死蜱的检出值应≤0.05mg/kg,因此将所有毒死蜱含量低于0.05mg/kg的样品标记为-1,反之则标记为1。
在化学计量学中,评价定性判别模型的效果和预测精度通常使用识别率和预测率。所谓识别率,即是在训练中得到的正确判别率,而用测试集所得到的正确判别率则称为预测率,一般说来,预测率对模型好坏的判别比识别率更重要[7]。
对样本集86个样本采用含量梯度法划分训练集的样品个数为58个,测试集样品个数为28个。由于SVM参数的选择对SVM的预测能力有着重要影响,但是目前SVM方法参数的选择,国际上还没有形成一个统一的模式。本实验中采用LIBSVM软件包参数设置如下:SVM类型采用C-SVC,核函数采用RBF函数,首先以默认的惩罚参数(默认为1)建立SVM模型。
根据模型的定性识别结果,在其他参数保持不变的情况下,调整惩罚参数在0.1~1000的范围内分别建立SVM模型,以期找到一个稳健的且定性鉴别结果可行的SVM模型。实验结果如表1所示。从表中可以得出,当惩罚参数为100和1000时建立的SVM定性识别模型的识别率达到了100%,而预测率也达到了92.85717%(26/28,即28个预测样品中有26个分类正确),且支持向量数为16。因此根据浓度差异划分的训练集样品建立的SVM定性识别模型达到了较高的识别率和预测率。
表1 含量梯度法划分的SVM模型
对样本集86个样本采用Kennard-Stone法划分训练集的样品个数为56个,测试集样品个数为30个。同上选取了在惩罚参数0.1~1000的范围内分别建立了SVM模型。实验结果如表2所示。根据式(3)得出结论:支持向量的数目越少,支持向量机期望风险的上界越小,该支持向量机泛化能力越强。从表中可以得出,当惩罚参数为10时,支持向量数为20,建立的SVM定性识别模型的识别率达到了100%,而预测率也达到了96.6667%(29/30,即30个预测样品中有29个分类正确),此时的模型鉴别结果可行且泛化能力较强。因此根据光谱差异划分的训练集样品建立的SVM快速定性识别模型达到了较高的识别率和预测率。
表2 Kennard-Stone法划分的SVM模型
本工作以蔬菜上常用的毒死蜱农药为分析对象,通过实验配制了浓度0.005~5mg/kg共86个模拟的蔬菜农残样品。分别采用含量梯度法和Kennard-Stone法挑选训练集样品,以0.05mg/kg为检测阈值,建立基于样品近红外光谱的支持向量机模型,通过对惩罚参数的调整建立快速定性识别模型,均取得了满意的鉴别效果。该方法为实现对蔬菜农药残留的快速检测提供了一条可能的途径。
[1]王朝瑾,蔡琦.农产品中农药残留的检测趋势[J].现代科学仪器,2006(1):106-108.
[2]李文秀,徐可欣.蔬菜农药残留检测的红外光谱法研究[J].光谱学与光谱分析,2004,24(10):1202-1204.
[3]周向阳,林纯忠,胡祥娜.近红外光谱法(NIR)快速诊断蔬菜中有机磷农药残残留[J].食品科学,2004,25(5):151-154.
[4]张学工.关于统计学理论与支持向量机[J].自动化学报,2000,26(1):32-34.
[5]吴静珠,王一鸣,张小超.近红外光谱分析中定标集样品挑选方法研究[J].农业机械学报,2006,37(4):80-82.
[6]B Sholkopf,K Sung,CJ C Burges,et al.Comparing support vector machine with Gaussian kernels to radial basis function classifiers[J].IEEE Trans Signal Processing,1997,45:2758-2765.
[7]梁逸增,俞汝勤.化学计量学[M].北京:高等教育出版社,2003:
191-202.
Study on rapid qualitative analysis of pesticide residue in vegetable based on near infrared spectroscopy
WU Jing-zhu,LI Hui,LIU Cui-ling,WANG Ke-dong
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
TS207.3
A
1002-0306(2010)10-0377-03
2009-04-23
吴静珠(1979-),女,博士,讲师,主要从事基于近红外光谱的农产品品质检测技术研究。
北京市自然科学基金项目(4073031);北京市优秀人才资助项目(20081D0500300130)。