彭 丹,李晓晓,毕艳兰
最小二乘支持向量机和脂肪酸融合信息应用于花生油掺伪玉米油检测
彭 丹,李晓晓,毕艳兰
(河南工业大学粮油食品学院,河南 郑州 450001)
将最小二乘支持向量机用于气相色谱分析实现对花生油掺伪玉米油的鉴别,基于油脂的全样和Sn-2位脂肪酸组成的不同,采用主成分分析消除融合数据中信息重叠的部分,利用粒子群优化最小二乘支持向量机的参数,对花生油的掺伪进行鉴别,识别率为100%;分别采用最小二乘支持向量机、偏最小二乘法和主成分回归对花生油中掺入玉米油含量进行预测,结果表明基于脂肪酸融合信息的最小二乘支持向量机的预测均方根误差和相关系数R2分别为3.452 1%和0.986 6,与偏最小二乘法和主成分回归法相比,最小二乘支持向量机具有更好的稳定性和预测精度,同时也为食用油的真伪鉴别及掺伪情况确定提供一种新方法。
花生油;最小二乘支持向量机;脂肪酸组成;掺伪分析
花生油营养均衡、气味独特、富含油酸、亚油酸等不饱和脂肪酸及白藜芦醇等活性成分,作为中国的“橄榄油”,深受消费者喜爱[1]。目前,市场上花生油价格约为大豆油、玉米油、菜籽油等常用油的2 倍,一些不法商贩为牟取暴利在花生油中掺入廉价油脂,损害消费者和行业的利益[2]。对此,国家通过GB/T 1534—2003《花生油》和GB/T 5539—2008《粮油检验 油脂定性试验》规定了花生油的理化性质和识别方法,如感官评价[3-4](色泽、气滋味、状态)、理化指标[5](折射率、黏度、碘值等)等,但无法准确鉴别,更无法检测掺伪油脂的比例。因此,亟需找到一种准确检测花生油掺伪的方法。
近年来,油脂掺伪检测研究主要采用红外光谱法(近红外光谱和中红外光谱)[6-8]、紫外光谱法[9]、气相色谱法[10-11]、核磁共振法[12-14]、拉曼光谱法[15-16]、同位素法[17]、荧光光谱法[18]等。红外光谱法快速、无损,但需要大量样品建模;核磁共振法、拉曼光谱法、同位素法研究目前还不够成熟,且仪器昂贵难以推广应用;紫外光谱法、荧光光谱法快速、检测成本低,但模型稳健性较差。气相色谱法是利用油脂特征脂肪酸组成的差异来鉴别油脂的掺伪,具有信息量大、灵敏度高等优点,现有的研究主要基于全样脂肪酸组成的分析,对于Sn-2位脂肪酸组成的信息研究较少。由于掺伪油脂的全样脂肪酸组成与花生油十分接近,且油脂的种类多、类别杂,同种油脂的成分受产地、气候、生产工艺等因素影响较大[19],使得检测时获得大量“杂乱无章”的数据,制约了该法在油脂掺伪检测上的应用。化学计量学的出现和迅速发展,为复杂数据的解析提供了理论工具,该方法可将数据内包含的复杂混合信息从数学维度上进行“分离”,从而提取和归纳与研究对象本质规律密切联系的关键信息。本研究利用气相色谱法检测花生油、玉米油、掺伪油样的全样和Sn-2位脂肪酸的组成信息,采用粒子群算法优化的最小二乘支持向量机对得到的融合数据进行建模,实现花生油掺伪玉米油的识别,在此基础上对花生油掺入玉米油的情况进行定量分析,旨为准确、快速鉴别花生油的真伪及掺伪情况提供技术支持。
1.1 材料与试剂
采集纯花生油、玉米油共114 种,由生产厂家、超市及种子萃取而得。脂肪酸甲酯标样 美国Sigma-Aldrich公司;正己烷为色谱纯,无水乙醚、石油醚、甲醇、氢氧化钾均为国产分析纯。
1.2 仪器与设备
GC-6890N型气相色谱分析仪 美国Agilent公司。
1.3 方法
1.3.1 基本原理
最小二乘支持向量机[20]是对经典支持向量机的一种扩展,以求解线性方程替代支持向量机中的凸二次规划问题[21],简化了计算复杂性,并加快了求解速度。
设样本为n维向量,则m 个样本组成的训练数据集为A={(xi,yi)|i=1,2,…,m|},xi∈Rn为输入样本,yi∈R为输出样本。
首先,利用非线性函数φ()将样本映射到高维特征空间,在高维特征空间中构造最优决策函数,如式(1)所示:
式(1)中:ω为权值向量;b为偏移项。
根据结构风险最小化原理,综合考虑函数复杂度和拟合误差,回归问题可以表示成约束优化问题,如式(2)、(3)所示:
式(2)、(3)中:C为惩罚因子;ξ为误差变量;minJ为求J最小值;s.t.为约束条件;i=1,2,…,l。
为避免高维空间的复杂计算,引入核函数K(x,xi)来处理输入空间的映射问题。根据泛函数理论,采用K(x,xi)代替高维特征空间中的内积运算〈φ(x)T,φ(xi)〉,即K(x,xi)=φ(x)Tφ(xi)。
然后,利用拉格朗日乘子法和Karush-Kuhn-Tucker(KKT)条件求解得到最小二乘支持向量机的估计函数如式(4)所示:
式(4)中:αi为拉格朗日乘子。采用最小二乘法求出α和b。
选择不同的核函数可构造出不同的最小二乘支持向量机,常用的核函数有线性核函数、Sigmoid核函数、多项式核函数和径向基(radial basis function,RBF)核函数等,大量的研究成果表明[22-24],RBF核函数的泛化能力较强,且仅涉及核参数G和惩罚因子C两个参数,非常简便。因此,本实验采用RBF核函数,其形式如式(5)所示:
式(5)中:x代表未知样品;xi代表样本集样品;σ表示标准差。
在最小二乘支持向量机建模过程中参数C和G是影响其性能的主要因素,为了寻找最优参数组合,本实验采用网格搜索法与粒子群算法相结合进行搜索,具体过程参见文献[25]。
1.3.2 脂肪酸数据融合
设油脂的全样脂肪酸数据集为AT={ti|i=1,2,…,m},ti∈Rn1
;Sn-2位脂肪酸数据集为AS={si|i=1,2,…,m},si∈Rn2
,这里n1+n2=n。由于油脂全样和Sn-2位的脂肪酸含量均为峰面积归一化法计算得到的相对含量,因此数据融合时AT和AS权值均取为1,即融合后的数据集为{xi}={tisi}。
1.3.3 样品制备
在掺伪花生油样制备过程中,首先需要选取具有代表性的纯花生油和纯玉米油,具体过程如下:
步骤1:通过Kohonen自组织特征映射网络[26]分别对2 种纯油集合进行聚类计算,得到2 个集合的聚类数量均为4,花生油和玉米油的样品子集分别记为Apeanut,i和Acorn,i,其中i∈{1,2,3,4}。
步骤2:分别计算2 种纯油样品集脂肪酸含量的均
值,记为xpeanut,mean和xcorn,mean。
令xp∈Apeanut,i、xc∈Acorn,i,对Kohonen网络得到的每一个聚类构建代价函数,如式(6)、(7)所示:
式(6)、(7)中:dist为两向量欧氏距离;mean为集合内向量的均值;corrcoef为两向量间的相关系数。
按照式(6)、(7)计算每个样品的F值,每个类中最小F值所对应的样品即为所选择的代表性样品。
根据上述方法选取具有代表性的花生油和玉米油各4 种,将玉米油掺入花生油中配制掺伪比例(质量分数)为5%、10%、15%、20%、30%、50%、70%、90%、100%的掺伪油脂,共132 个。
1.3.4 基础数据采集
油样中全样脂肪酸的分析:样品先甲酯化,采用GB/T 17376—2008《动植物油脂脂肪酸甲酯制备》;再采用GB/T 17377—2008《动植物油脂脂肪酸甲酯的气相色谱分析》测定。
油样中Sn-2位脂肪酸的分析[27]:样品采用猪胰脂酶水解后进行薄层色谱分离,得到甘一酯组分经甲酯化处理后进行气相色谱分析。
为保证实验数据的准确、可靠,对油脂样品脂肪酸组成进行3 次测量,取其平均值。
气相色谱条件:BPX-70色谱柱(30.0 m×250 μm,0.50 μm);进样口温度230 ℃;柱温210 ℃;氢火焰离子化检测器300 ℃;氮气流速1.0 mL/min;氢气流速35 mL/min;空气流速400 mL/min。
1.4 数据处理
采用Unscrambler X 10.3分析软件进行主成分分析、主成分回归、偏最小二乘法计算,最小二乘支持向量机计算程序由Matlab 2011软件编写完成。最小二乘支持向量机模型建立过程中,为了改善解的稀疏性及降低算法复杂度,采用基于排序支持向量谱的迭代剪枝算法[28]优化支持向量机数量。
对2类植物油(纯花生油和掺伪花生油)共242 个样品,随机分成2 组。第1组182 个样品用于训练、建模,第2组60 个样品作为预测集,采用最小二乘支持向量机方法建立花生油掺伪的定性鉴别和定量分析模型。为了保证模型的稳定性,预测集样品又分为2 组,即验证集(15 个样品)和测试集(45 个样品)。
2.1 花生油和玉米油的脂肪酸组成分析
表1 花生油和玉米油的全样和Sn-2位脂肪酸组成Table 1 Compositions of total and Sn-2 position fat acids in corn and peanut oil
采用气相色谱法测定114 个花生油和玉米油样品的全样和Sn-2位脂肪酸组成如表1所示。花生油和玉米油的全样脂肪酸组成极为相似,均含有棕榈酸、硬脂酸、油酸、亚油酸、花生酸等8 种脂肪酸,其中棕榈酸、油酸和亚油酸均为主要脂肪酸,与国家标准规定花生油(GB/T 1534—2003)[29]、玉米油(GB/T 19111—2003)[30]的脂肪酸含量范围基本相同;花生油和玉米油的Sn-2位脂肪酸主要为油酸和亚油酸,这与文献[31]的研究结果基本一致。
2.2 主成分分析
采用主成分分析对纯花生油及掺入玉米油的花生油脂肪酸(全样+Sn-2位)融合数据进行降维,消除自变量的共线性,如图1所示。
图1 前9 个主成分累计贡献率(A)和前4 个主成分的载荷图(B1、B2)Fig. 1 Cumulative contributions of the first 9 principal components and loadings of the first 4 principal components
由图1可知,前4 个主成分数的累计贡献率超过99%,在第1主成分中(贡献率为82.97%),18:1、18:2、C18:1和C18:2相关系数较大,表明它们是影响第1主成分的主要因素;第2主成分中(贡献率为13.86%),18:2、C18:1和C18:2是主要的影响因素;第3、4主成分中(贡献率分别为1.85%、0.66%),18:1、22:0和16:0分别为该主成分最大的影响因子。由于前4 个主成分能够解释样本的绝大部分重要信息,因此选取前4 个主成分的得分作为支持向量机的输入变量。
2.3 最小二乘支持向量机模型的建立和优化
2.3.1 花生油中掺伪油的鉴别
图2 最小二乘支持向量机模型中惩罚因子C和核参数G网格优化过程Fig. 2 Grid optimization process of parameters C and G in LS-SVM model
最小二乘支持向量机模型的2个重要参数(惩罚因子C和核参数G)选取的好坏直接影响应用的分类和预测精度。本研究采用网格搜索法和粒子群算法相结合确定(C,G)的最优组合,结果如图2所示。经过网格搜索,(C,G)的最优组合为一个范围,采用粒子群算法结合验证集样品搜寻最佳参数。经过计算(C,G)的最佳组合为(76.4281,1.33×10-2),支持向量个数为26,建立的最小二乘支持向量机分类模型的结果如表2所示。基于脂肪酸(全样+Sn-2位)融合数据信息建立的最小二乘支持向量机模型对掺伪油的识别率为100%,说明该方法可有效的识别花生油中的掺伪油脂。
表2 花生油掺伪鉴别结果Table 2 Comparison of results of detection of adulterated and pure oils using different information
2.3.2 花生油中掺伪油含量的预测
图3 核参数G和惩罚因子C对预测误差的影响Fig. 3 Effects of parameters G and C on the precision of prediction model
在花生油掺伪定量分析中,以均方根误差(root mean square error,RMSE)为标准,寻找最佳的(C,G)组合。如图3所示,C值固定时,随着G值的增加RMSE先减小后增大再趋于平稳,特别是当C值为0.1时,G值变化极为显著;G值固定时,随着C值的增加RMSE先逐渐减小后趋于稳定,C值在10~106范围内RMSE均低于5%。在上述最佳寻优范围内,通过粒子群算法确定(C,G)的最优组合为(177.827 9,0.316 2),支持向量个数为17,此时预测均方根误差(root mean square error of prediction,RMSEP)为3.452 1%。
表3 不同建模方法的预测结果比较Table 3 Comparison of the results obtained with different prediction models
本研究同时采用最小二乘支持向量机、偏最小二乘法和主成分回归对同一样本进行定量分析,如表3所示。通过最小二乘支持向量机方法建立的校正模型预测精度明显好于偏最小二乘法和主成分回归,这是因为油脂本身是混脂肪酸甘三酯的混合物,油掺油更是一种极为复杂的物质体系,最小二乘支持向量机作为非线性定量校正方法,与线性的偏最小二乘法和主成分回归算法相比,具有更强的处理复杂样品信息及泛化的能力,可以更好地发现因变量与被测目标含量之间的潜在关系。采用脂肪酸(全样+ Sn-2位)融合信息建立的校正模型的预测结果RMSEP明显低于单一脂肪酸(全样或Sn-2位)的检测结果;因此,基于脂肪酸融合信息建立的最小二乘支持向量机模型能够较好地预测花生油中掺伪油脂的含量。
通过气相色谱检测油脂的全样和Sn-2位脂肪酸组成,结合粒子群优化的最小二乘支持向量机,建立了花生油掺伪玉米油的定性和定量模型。结果表明,该模型对掺伪花生油的识别率为100%,为掺伪油含量的定量分析提供了基础。在预测模型中,与传统建模方法偏最小二乘法和主成分回归相比,基于脂肪酸融合信息的最小二乘支持向量机模型具有最佳的预测效果,但是油脂掺伪种类和方式多变且复杂,若掺伪种类增加,掺伪识别的难度将大幅度增加,需要建立更为丰富的掺伪油样品库,并及时更新鉴别、预测相关模型。
[1] 姚云游. 花生油与橄榄油营养价值的比较[J]. 中国油脂, 2005, 30(4): 66-68. DOI:10.3321/j.issn:1003-7969.2005.04.020.
[2] 孙淑敏, 谢岩黎, 张严. 基于可见-近红外光谱的花生油二元掺伪体系鉴别研究[J]. 粮油食品科技, 2015, 23(6): 84-88. DOI:10.16210/ j.cnki.1007-7561.2015.06.022.
[3] 卜宏建, 谭耀辉, 呼雪丽. 食用花生油掺杂的快速物理鉴别[J]. 食品科学, 2000, 21(1): 55-56. DOI:10.3321/j.issn:1002-6630.2000.01.020. [4] 胡为, 韩凤梅, 张良晓, 等. 基于顶空GC×GC-TOF/MS的花生油掺伪鉴别方法[J]. 湖北大学学报(自然科学版), 2016, 38(2): 113-115; 147. DOI:10.3969/j.issn1000-2375.2016.02.005.
[5] 辛莉, 施江. 食用油品种及含量与油脂折射率关系的探究[J]. 食品工业科技, 2012, 33(15): 317-321. DOI:10.13386/j.issn1002-0306.2012.15.042.
[6] 吴静珠, 刘翠玲, 李慧, 等. 基于近红外光谱的纯花生油掺伪快速鉴别方法研究[J]. 北京工商大学学报(自然科学版), 2011, 29(1): 75-78. DOI:10.3969/j.issn.2095-6002.2011.01.017.
[7] XU L, CAI C B, DENG D H. Multivariate quality control solved by one-class partial least squares regression: identification of adulterated peanut oils by mid-infrared spectroscopy[J]. Journal of Chemometrics, 2011, 25(10): 568-574. DOI:10.1002/cem.1402.
[8] HIRRI A, BASSBASI M, PLATIKANOV S, et al. FTIR spectroscopy and PLS-DA classification and prediction of four commercial grade virgin olive oils from Morocco[J]. Food Analytical Methods, 2016, 9(4): 974-981. DOI:10.1007/s12161-015-0255-y.
[9] 杨晨, 于修烛, 王昕, 等. 基于紫外光谱的花生油掺伪检测[J]. 食品科学, 2012, 33(6): 186-189.
[10] 彭丹, 王靖云, 毕艳兰. 花生油中掺入大豆油的鉴别研究[J]. 河南工业大学学报(自然科学版), 2015, 36(6): 26-31; 36. DOI:10.16433/ j.cnki.issn1673-2383.2015.06.006.
[11] JABEUR H, ZRIBI A, BOUAZIZ M. Extra-virgin olive oil and cheap vegetable oils: distinction and detection of adulteration as determined by GC and chemometrics[J]. Food Analytical Methods, 2016, 9(3): 712-723. DOI:10.1007/s12161-015-0249-9.
[12] 王乐, 黎勇, 胡健华. 核磁共振法鉴别食用植物油掺伪餐饮业废油脂[J]. 中国油脂, 2008, 33(10): 75-77. DOI:10.3321/ j.issn:1003-7969.2008.10.021.
[13] 周凝, 刘宝林, 王欣, 等. 米糠毛油掺伪食用植物油的低场核磁共振检测[J]. 食品与发酵工业, 2011, 37(3): 177-181. DOI:10.13995/ j.cnki.11-1802/ts.2011.03.020.
[14] 朱文冉, 王欣, 陈利华. 掺杂猪油比例对花生油脂肪酸组成及LF-NMR弛豫特性的影响[J]. 食品科学, 2016, 37(12): 176-181. DOI:10.7506/spkx1002-6630-201612031.
[15] 王利军, 王红, 谢乐, 等. 拉曼光谱快速鉴别花生油掺棕榈油的研究[J]. 中国油料作物学报, 2013, 35(5): 604-607. DOI:10.7505/ j.issn.1007-9084.2013.05.021.
[16] SAMYN P, VAN NIEUWKERKE D, SCHOUKENS G, et al. Quality and statistical classification of brazilian vegetable oils using midinfrared and Raman spectroscopy[J]. Applied Spectroscopy, 2012, 66(5): 552-565. DOI:10.1366/11-06484.
[17] 金青哲, 谢峰, 丁志华, 等. 花生油和玉米油掺合物的碳同位素比值质谱法检测研究[J]. 中国粮油学报, 2010, 25(5): 95-99.
[18] TOMAZZONI G, MEIRA M, QUINTELLA C M, et al. Identification of vegetable oil or biodiesel added to diesel using fluorescence spectroscopy and principal component analysis[J]. Journal of the American Oil Chemists’ Society, 2014, 91(2): 215-227. DOI:10.1007/ s11746-013-2354-5.
[19] 姜波, 胡文忠, 刘长建, 等. 九种植物油中脂肪酸成分的比较研究[J]. 食品工业科技, 2015, 36(8): 108-113; 118. DOI:10.13386/ j.issn1002-0306.2015.08.013.
[20] SUyKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300. DOI:10.1023/A:1018628609742.
[21] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297. DOI:10.1023/A:1018628609742.
[22] GESTEL T V, SUyKENS J A K, BAESENS B, et al. Benchmarking least squares support vector machine classifiers[J]. Machine Learning, 2004, 54(1): 5-32. DOI:10.1023/B:MACH.0000008082.80494.e0.
[23] PENG D, BI y L, REN X N, et al. Detection and quantification of adulteration of sesame oils with vegetable oils using gas chromatography and multivariate data analysis[J]. Food Chemistry, 2015, 188: 415-421. DOI:10.1016/j.foodchem.2015.05.001.
[24] 张红光, 杨秦敏, 卢建刚. 基于近红外光谱和最小二乘支持向量机的聚丙烯酰胺类型鉴别[J]. 光谱学与光谱分析, 2014, 34(4): 972-976. DOI:10.3964/j.issn.1000-0593(2014)04-0972-05.
[25] 毕艳兰, 任小娜, 彭丹, 等. 粒子群最小二乘支持向量机结合偏最小二乘法用于芝麻油质量的鉴别[J]. 分析化学, 2013, 41(9): 1366-1372. DOI:10.3724/SP.J.1096.2013.21110.
[26] KOHONEN T. Self-organized formation of topologically correct feature maps[J]. Biological Cybernetics, 1982, 43(1): 59-69. DOI:10.1007/BF00337288.
[27] FIRESTONE D. Official method and recommended practices of the AOCS[M]. American Oil Chemists Society: Champaign, IL, 1998.
[28] SUYKENS J A K, DE BRABANTER J, LUKAS L, et al. Weighted least squares support vector machines: robustness and sparse approximation[J]. Neurocomputing, 2002, 48(1): 85-105. DOI:10.1016/S0925-2312(01)00644-0.
[29] 全国粮油标准化技术委员会. 花生油: GB/T 1534—2003[S]. 北京:中国标准出版社, 2003.
[30] 全国粮油标准化技术委员会. 玉米油: GB/T 19111—2003[S]. 北京:中国标准出版社, 2003.
[31] 袁小武, 邓泽元, 李静, 等. 胰脂肪酶法测定食用油甘油三酯中脂肪酸的位置分布[J]. 食品科学, 2008, 29(11): 544-547. DOI:10.3321/ j.issn:1002-6630.2008.11.126.
Detection of Peanut Oil Adulterated with Corn Oil Based on Information Fusion of Fatty Acid Composition and Least Squares Support Vector Machine
PENG Dan, LI Xiaoxiao, BI Yanlan
(College of Food Science and Technology, Henan University of Technology, Zhengzhou 450001, China)
This study aimed to develop a new hybrid method to detect and quantify adulterated peanut oil based on the compositions of total fatty acids and Sn-2 position fatty acids determined by gas chromatography (GC). Firstly, the information on total and Sn-2 position fatty acids was fused together by principal component analysis (PCA) to reduce the data dimension. Then, a least squares support vector machine (LS-SVM)-based model, whose parameters were optimized by particle swarm optimization (PSO), was established to discriminate between authentic and adulterated peanut oil with a 100% recognition rate. Besides, a partial least square model and a principal component regression model were constructed to predict the level of adulteration in the mixed oils. To validate the effectiveness of these methods, a set of samples was prepared by mixing peanut oil with corn oil. Experimental results showed that the LS-SVM method a higher prediction
accuracy with a root-mean-square error and a correlation coefficient of 3.452 1% and 0.986 6, respectively, indicating that this method is a potentially valuable tool in the detection of adulterated oils.
peanut oil; least squares support vector machine; fatty acid composition; adulteration analysis
10.7506/spkx1002-6630-201716037
TS207.3
A
1002-6630(2017)16-0234-05
彭丹, 李晓晓, 毕艳兰. 最小二乘支持向量机和脂肪酸融合信息应用于花生油掺伪玉米油检测[J]. 食品科学, 2017, 38(16): 234-238. DOI:10.7506/spkx1002-6630-201716037. http://www.spkx.net.cn
PENG Dan, LI Xiaoxiao, BI Yanlan. Detection of peanut oil adulterated with corn oil based on information fusion of fatty acid composition and least squares support vector machine[J]. Food Science, 2017, 38(16): 234-238. (in Chinese with English abstract)
10.7506/spkx1002-6630-201716037. http://www.spkx.net.cn
2016-10-17
国家自然科学基金青年科学基金项目(31601537);国家重点攻关项目(CARS15-1-10)
彭丹(1979—),女,副教授,博士,研究方向为油脂品质分析及安全检测、化学计量学方法在食品检测中的应用。E-mail:pengdantju@163.com