王 欢,胡乐乾,尹春玲,宋 颖
(河南工业大学 化学化工学院,河南 郑州 450001)
食品品质的追溯是构建食品品质系统的首要方面.通过创建国内食品品质的可追溯制度,不但有利于避免食品质量问题的出现,还可以实时妥善地解决食品质量监督和管理过程中出现的问题,对追查原因、确定责任,完善食品安全制度有很大帮助.但是,可追溯制度的确立是以已经创建好的一个覆盖食品从半成品到最终商品各个阶段资料的信息库为基础,并且经过全面的识别管制来实现的[1-2].而对于很多缺少标记信息、没有完成具体信息实名备案的食品,想达到商品原产地、种类等一些相应食品信息的溯源,就需要确立一套更为可靠和确切的分析分类方案,以便在没有完整商品信息的情况下完成商品的追溯调查.
食盐是人类生存生活过程中最常用也是最需要的物质,它已经完全地融入了人类生存生活的各个方面.目前,我国针对食盐还没有确立完善而有效的可追溯体系,正因如此,建立一种对于食盐产地、原料品种等产品信息的识别分析技术,对实现食盐产地、品种溯源,加强地理标识产品以及品种保护,都具有非常重要的意义.就食盐本身而言,产地是影响食盐品质的主要要素之一.不同地域生产出来的食盐成品在质量方面具有一定的区别,因此对食盐的经济价值也会带来一定程度的影响.由此,产品的产地和种类溯源是食盐可追溯体系中的重中之重[3].
近红外光谱分析技术相对于与其他分析技术,具有分析速度快,分析过程中不破坏样本、不引入污染等优点,除此之外,还具有近红外光谱数据量大、光谱特性稳定、有良好的重复性等特点[4],在品种鉴别[5]、产地溯源[6]等诸多应用领域前景广阔.本研究以近红外光谱技术为基础,结合不同的化学计量学分析方法如PLS、SVM[7-8]等,以市场上销售的不同产地或不同原料品种的商品食盐为研究对象,尝试建立食盐产品的品种分类模型,并确立一种食盐品种和产地溯源的新方法.
XDS Rapid Content Analyzer 型红外光谱仪、配套样品池:丹麦福斯(FOSS)公司;数据处理软件MATLAB.
喜马拉雅山脉克乌拉盐矿的矿物盐、巴基斯坦所产矿物盐、天津汉沽盐场精制盐、哈密无碘天山湖盐、澳洲海晶盐5 种食盐样品:市售.
将不同产地的食盐样本适当研磨,各称取2.0 g 用超纯水完全溶解,并定容于50 mL 容量瓶中,配制成0.04 g/mL 的样品溶液.然后完成近红外光谱的采集,所采集光谱波长确定在400~2 498 nm,间隔为2 nm,每种产地的食盐样本重复扫描50次.最后把所获得的近红外光谱数据进行数据分析.
支持向量机(SVM)是由Cortes 和Vapnik 于1995 年提出的一种基于结构风险最小化原理的学习算法.SVM 算法的高效性和良好的稳健性已经在分类及回归预测问题中得到了广泛的验证[9-10].
对于分类问题,SVM 的思路是:假如是一个两种样本的判别分类问题,可以找到一个或者一组分类边界把它们分开,在二维空间中该分类边界表现为一条线,在三维中表现为一个平面,一般计算过程是在高维(三维以上)空间中进行,此时对应的分类边界称为超平面,在众多的超平面中,与分类样本间隔最大的超平面称作最优超平面,SVM的本质就是找到该最优超平面.要找到最优超平面就得使距离超平面最近的样本点的间距最大,最终问题可以转化成二次规划问题求解.SVM 在解决非线性问题时是将低维空间不能分开的数据转化到高维空间,然后在高维空间中用线性函数解决,引入核函数可以解决从低维向高维映射时可能出现的维数灾难问题.由于不同核函数背后的映射方法不同,因此选择核函数对于数据分类的结果非常重要,由于径向基函数具有较强的非线性逼近能力,同时线性函数在计算过程相对简单,所以作者拟用这两种函数对5 种食盐进行鉴别:
(1)线性核函数:k(u,v)u′v;
偏最小二乘(PLS-DA)是在响应变量X 和目标变量Y 之间基于隐变量建立起来的一种数学建模工具,最早由H.Wold 提出,其思想是利用降维技术对原始变量进行降维,以剔除变量中冗余的信息.和主成分分析不同的是,PLS 同时对响应变量X 和目标变量Y 进行主成分分析,因此较主成分分析可以更加充分地提高算法的分类或者回归能力.在PLS 中一般利用交互检验确定隐变量数,借助隐变量使变量中的主要信息与误差分离.偏最小二乘算法可以用下面的式子简单描述:
式中:T、t 及P、p 为响应变量的得分变量和载荷变量;U、u 及Q、q 为目标变量的得分变量和载荷变量;E 和F 代表变量误差.
经过非线性迭代后给出回归系数B,B=XTU(TTXXTU)-1TTY,由回归系数可以对新的目标变量进行预测:=XB.
偏最小二乘分类分析方法已经应用于很多种食品品质的分类分析过程中,效果显著,例如法国白兰地[11]和洋葱粉[12]等.
图1 5 种食盐的近红外光谱图Fig.1 Near infrared spectra of 5 kinds of the salt
在试验过程中所检测的食盐样本中,超纯水作为溶剂占比较大,溶解在其中的食盐成分则相对偏少,因此食盐样本中的O—H 键居多,由此会带来较为强烈的近红外光谱,相比之下溶质食盐中所含物质的红外吸收则非常弱.从图1 中可以看出,5 种食盐样本的近红外光谱图相互重叠严重,这说明几乎所有样本的近红外吸收均来自水以及晶体食盐中的相似成分.同时,不同产地的食盐,经过取材和加工处理后,都会保留下来一些矿物质和其他盐类物质,如氯化镁和碳酸钙等.正是由于这些矿物质和盐类物质的存在,对不同产地的食盐样品的近红外光谱产生影响,使其近红外光谱出现差异,由此便可以利用近红外光谱技术对食盐进行产地的溯源研究.
每种食盐均随机选择34 个样品作为校正集构建模型,另外16 个作为测试集验证模型准确度.依次把喜马拉雅山脉克乌拉盐矿的矿物盐、巴基斯坦所产矿物盐、天津汉沽盐场精制盐、哈密无碘天山湖盐、澳洲海晶盐标记为1、2、3、4、5.
若使用所得近红外光谱的全部信息来构建分类模型,其识别的准确率不高,原因是溶剂本身对光谱影响比较大,弱化了不同食盐之间的差别,这样的模型并不能准确地识别出5 种食盐,考虑选择干扰小且尽可能多的数据,最终把波长确定在400~1 198 nm 范围内,间隔2 nm 扫描的400 个数据建立模型.
选择分类问题中常用的C-SVC 模型和非线性映射径向基(RBF)核函数构建食盐识别模型,惩罚参数c 和核函数参数g 用网格寻优的方法寻找,寻优后的等高线如图2 所示,在c 值为256,g 值为84.448 5 时,代入模型中进行计算,获得预测准确率95.02%为最佳.
图2 参数选择的等高线Fig.2 The contour graph of the parameter selection
测试组中的5 种食盐,每组均有16 组样品,预测情况见表1,可以看出,只有喜马拉雅山脉克乌拉盐矿的矿物盐和哈密天山无碘湖盐识别准确率为100%,能与其他3 种食盐准确分开.除此之外,巴基斯坦所产矿物盐识别准确率为93.8%,有一个误判成了喜马拉雅山脉克乌拉矿物盐;澳洲海晶盐识别准确率为93.8%,有一个误判成了天津汉沽盐场精制盐;天津汉沽盐场精制盐识别准确率为87.5%,有两个误判,分别误判成了哈密天山无碘湖盐和澳洲海晶盐.因此,这3 种食盐没有能够准确地分开.
表1 SVM对5种食盐的预测情况Table 1 Prediction identification results of 5 kinds of salt by SVM
由此可见,利用SVM 建立针对不同产地所生产的食盐样本的鉴别模型,识别效果一般,误判出现较多.
为了进一步优化PLS-DA 对食盐样品的预测效果,在开始建立模型前,需要对所得到的近红外光谱数据进行处理,所用到的前处理方法有标准正态变量校正法(SNV)、多元散射校正法(MSC)、一阶求导、二阶求导,通过这4 种前处理方法分别对近红外光谱数据进行了预处理.结果显示,采用二阶求导后的近红外光谱数据来进行PLS-DA 法分类效果最好.另一方面,PLS-DA 中隐变量数的选择非常重要,文中采用留一法交互检验确定PLS算法的隐变量数,通过隐变量及对应的交互检验误差选择隐变量数以确定最佳的预测模型,结果显示当隐变量是7 时预测结果最好,因此本研究中PLS-DA 采用的隐变量数是7.经过二阶求导处理后的近红外光谱如图3 所示.最终选择采用二阶求导对近红外光谱进行预处理.结合二阶求导处理后的5 种食盐的PLS 分类结果如图4 所示.
图3 5 种食盐的近红外光谱二阶求导结果Fig.3 Second derivative results of the near infrared spectra of 5 kinds of salt
图4 PLS-DA 对5 种食盐的分析结果Fig.4 The analysis results of 5 kinds of salt by PLSDA
PLS 分类的结果显示,1-16 号样品为喜马拉雅山脉克乌拉盐矿所产的矿物盐,预测只有一个预测错误,该样品被误判为天津汉沽盐场精制盐;17-32 号样品为巴基斯坦所产矿物盐,16 个预测样品完全预测准确;33-48 号样品为天津汉沽盐场精制盐,预测结果完全正确;49-64 号样品为哈密天山无碘湖盐,预测结果完全准确;65-80 号为澳洲海晶盐,同样预测完全正确.通过建立模型对这5 种不同产地的食盐样品进行预测,各产地食盐的预测准确率如表2 所示.
表2 PLS-DA 对5 种食盐预测识别结果Table 2 Prediction identification results of 5 kinds of salt by PLS-DA
由表2 可知,利用PLS-DA 法对5 种不同产地的食盐样品分别构建分类模型,其识别的准确率可依次达到93.75%、100%、100%、100%、100%.结果显示,利用PLS-DA 法可建立针对不同产地所生产的食盐样本的鉴别模型,且该模型具有良好的识别效果,可以用于更多不同产地制成的食盐成品的鉴别.
本试验分别采用SVM 和PLS 结合近红外光谱对5 种食盐进行识别,并且将这两种方法所得结果作了对比.从两种方法的结果可以看出,虽然通过SVM 的方法来建立模型,其模型结构简单、运算过程速度快、泛化能力强等特点,但是其在解决多分类问题中仍然存在局限性,在处理本试验的分类过程中,PLS-DA 取得了分类准确率98.75%,相比支持向量机的处理方法分类准确率95.02%要好,由此可见,针对食用盐种类识别的方法,利用近红外光谱结合偏最小二乘是一种可行的分析分类方法.这种分析分类方法不应仅局限于这5 种食盐,同样可以推广到其他不同产地的食盐乃至更多种类的食品.
[1]杜国明.农产品责任与可追溯制度[J].广东农业科学,2008(2):101-103.
[2]李广领,张利丽,吴艳兵,等.中国农产品质量安全可追溯体系建设[J].湖南农业科学,2009(2):120-123.
[3]成浩,王丽鸳,周建,等.基于化学指纹图谱的绿茶原料品种判别分析[J].中国农业科学,2008,41(8):2413-2418.
[4]Williams P,Norris K.Near-infrared technology in the agricultural and food industries(second edition)[M].Minnesota:The American of Cereal Chemists,Inc St Paul,2001:99-102.
[5]陈全胜,赵杰文,张海东,等.SIMCA 模式识别方法在近红外光谱识别茶叶中的应用[J].食品科学,2006,27(4):186-189.
[6]张晓慧,刘建学.近红外光谱技术鉴别连翘产地[J].激光与红外,2008,38(4):342-344.
[7]Ortiz C,Zhang D,Xie Y,et al.Identification of insulin variants using raman spectroscopy[J].Anal Biochem,2004,332(2):245-252.
[8]Lutz U,Lutz R W,Lutz W K.Metabolic profiling of glucuronides in human urine by LC-MS/MS and partial least-squares discriminant analysis for classification and prediction of gender[J].Analytical Chemistry,2006,78(13):4564-4571.
[9]Chauchard F,Cogdill R,Roussel S,et al.Application of LS-SVM to non-linear phenomena in NIR spectroscopy:development of a robust and portable sensor for acidity prediction in grapes[J].Chemometrics and Intelligent Laboratory Systems,2004,71:141-150.
[10]Zhao Jiewen,Chen Quansheng,Huang Xingyi,et al.Qualitative identification of tea categories by near infrared spectroscopy and support vector machine[J].Journal of Pharmaceutical and Biomedical Analysis,2006,41:1198-1204.
[11]Jerome Ledauphin,Claude Le Milbeau,Daniel Barillier,et al.Differences in the volatile compositions of french labeled brandies(Armagnac,Calvados,Cognac,and Mirabelle)using GC -MS and PLS -DA[J].Agric Food Chem,2010,58:7782-7793.
[12]Santosh Lohumi,Sangdae Lee,Wang-Hee Lee,et al.Detection of starch adulteration in onion powder by FT-NIR and FT-IR spectroscopy[J].Agric Food Chem,2014,62:9246-9251.