周 密,冯 灏,刘 杰,皮江一,王会霞,周陶鸿,
彭青枝1,2,张 莉1,2
(1.湖北省食品质量安全监督检验研究院,湖北 武汉 430075;2.湖北省食品质量安全检测工程技术研究中心,湖北 武汉 430075)
蜂蜜是蜜蜂采集植物的花蜜、分泌物或蜜露,与自身分泌物混合后,经充分酿造而成的天然甜物质[1]。随着人们健康意识的提高,蜂蜜作为一种天然食品渐受青睐。自然界中分泌花蜜的植物种类繁多,不同植物来源蜂蜜所具备的活性功能也不尽相同[2],产品价格更是千差万别。市场上部分不法商贩受利益驱使,对蜂蜜进行掺杂使假,掩盖或错误标识蜂蜜蜜源信息是常见的使假手段之一[3]。而我国作为蜂产品出口大国,此种违法现象不仅损害了消费者的合法权益,制约了我国蜂产业在经济全球化中的进程,更是给国际蜂产业的健康、可持续发展留下隐患。因此,为了保护消费者利益和促进生产者的公平竞争,保障蜂产业的繁荣发展,对蜂蜜植物源进行鉴别研究意义重大。
蜂蜜富含多种矿物质元素,占比虽小,但提供了重要的样品信息[4],能为蜂蜜属性区分提供依据,如魏月等[5]分析了云南南部4种植物源蜂蜜中21种矿质元素,结合典型判别分析,对4种蜂蜜的植物源归属判别正确率达90%,表明在气候和土壤环境相似的情况下,不同植物源蜂蜜之间矿质元素存在差异;陈辉等对蜂蜜产地[6]和植物源[7]的鉴别研究不仅能将来自河北、北京等地的荆条蜜进行产地溯源,还能有效鉴别来自不同地区的荆条、椴树、洋槐、油菜蜂蜜,表明同种植物源蜂蜜产地之间的差异或小于不同植物源之间引起的差异,因此,利用蜂蜜中多种矿质元素对不同地区蜂蜜样品进行植物源鉴别是可行的。
截尾数据(Censored data)指监测数据中污染物的检测值小于检出限或者定量下限的不完全数据[8],在食品化学污染物评价中不可避免。受限于植物生长自然环境、样品状态、仪器条件等因素,电感耦合等离子体质谱仪(ICP-MS)测定蜂蜜样品时,截尾数据总是客观存在的,世界卫生组织(World health organization,WHO)建议在对食品中低含量污染物进行暴露评估过程中,当低于检出限的结果数据小于数据总量的60%时,所有小于检出限的结果均以二分之一检出限值进行替换参与计算[9]。如Hannah等[10]在评估土壤中锌、锰元素含量时,比较了替换法(Substitution method)、最大似然估计法(Maximum likelihood estimation)、次序统计量回归法(Regression on order substitution)、生存分析法(Survival analysis)4种不同截尾数据处理方法,发现使用替换法将截尾数据按二分之一检出限值处理时能较好地计算样本几何平均值。尽管国内外有通过ICP-MS进行元素分析并建立判别模型鉴别蜂蜜植物源的报道[5,11],但并未涉及ICP-MS中截尾数据对模型判别能力的研究,且识别模型单一,缺少对模型参数的优化。因此,为提高蜂蜜植物源模型的鉴别能力,有必要建立蜂蜜中ICP-MS截尾数据和识别模型参数的研究。本文采用ICP-MS测定荆条、洋槐、葵花、油菜4种植物源蜂蜜中的16种金属元素,再利用替换法按二分之一检出限值处理截尾数据并建立支持向量机(Support vector machine,SVM)分类模型,并进一步通过网格搜索法(Grid search,GS)、遗传算法(Genetic algorithm,GA)和粒子群优化算法(Particle swarm optimization,PSO)3种寻优算法优化模型参数,有效提高了判别能力,以期为规范蜂蜜市场秩序提供技术支持。
NexION 350X型电感耦合等离子发射光谱质谱联用仪(美国PerkinElmer公司),检测器带电信号稀释功能;Multiwave Pro型微波消解仪(奥地利Anton paar公司);BHW-09A24S型恒温消解赶酸仪(上海博通化学科技有限公司);WNE29型恒温水浴锅(德国Memmert公司);Purelab Chorus型超纯水系统(英国ELGA公司)。
硝酸(优级纯,德国Merck公司);Na、Mg、Al、K、Ca、Ti、Cr、Mn、Ni、Cu、Zn、As、Se、Cd、Ba、Pb单元素标准储备液(1 000 mg/L,国家有色金属及电子材料分析测试中心);实验室用水为去离子水。
1.2.1 样品前处理 样品收集:蜂蜜样品来源于武汉市蜂产品质量工程控制技术研究中心,植物源属性明确。其中,油菜蜜37例,荆条蜜36例,洋槐蜜13例,葵花蜜11例,共计97例,测试前于-20℃冷冻贮藏。
微波消解程序:设置微波消解仪最大工作功率1 500 W,在10 min内由室温升温至120℃,保持5 min;然后在10 min内由120℃升温至180℃,保持20 min。
元素分析前处理:样品分析前于水浴锅内40℃恒温水浴至样品结晶完全融化,充分混匀后称取约1 g(精确至0.001 g)样品至聚四氟乙烯消解罐内,加入10.0 mL硝酸,放置过夜后于微波消解仪中按上述微波消解程序消解,消解完毕后145℃加热赶酸至约1.0 mL消化液,转移聚四氟乙烯罐中消化液至50 mL刻度离心管,用水多次洗涤聚四氟乙烯罐内壁,合并洗液至刻度离心管中,并定容至50 mL,待测。
参考GB 5009.268-2016《食品安全国家标准食品中多元素的测定》[12]中第一法(ICP-MS法)测定样品中Na、Mg、Al、K、Ca、Ti、Cr、Mn、Ni、Cu、Zn、As、Se、Cd、Ba、Pb 16种元素,采用碰撞检测模式消除Ca、Ti、As、Se元素的测定干扰,45Sc、72Ge、103Rh、185Re内标混合使用溶液由仪器在线加入,质量浓度均为200μg/L。
1.2.2 仪器测定条件 雾化器气体流速0.96 L/min,辅助器气体流速1 L/min,等离子体气体流速17 L/min,碰撞池气体流速(氦气)5 mL/min,ICP射频功率为1 500 W,脉冲电压为875 V,扫描次数20次,重复次数2次,样品冲洗时间13 s,读数延迟7 s。
1.2.3 数据分析 方差分析采用SPSS Statistics 25.0(美国IBM公司)软件,SVM算法优化和数据图绘制采用Matlab 2014a(美国Mathworks公司)软件。
对荆条、油菜、洋槐、葵花4种植物源蜂蜜中16种元素含量按“1.2”方法分析,97例蜂蜜样品平行测定3次;连续测定11次空白(2.0%硝酸溶液),以仪器响应值的3倍标准偏差除以工作曲线斜率,按1.0 g试样定容至50 mL计算得方法检出限(LOD),结果见表1。
表1数据显示,受植物源生长环境、蜂蜜样品存储条件等因素影响,部分样品中Al、Ti、Cr、Ni、As、Se、Cd、Ba、Pb测试结果小于方法检出限(Min
表1 4种不同植物源蜂蜜中16种金属元素含量Table 1 Contents of metal elements in the four kinds of botanical source honeys (mg/kg,n=3)
支持向量机是Cortes等[13]基于统计学理论提出的一种新的核函数机器学习算法,在鉴别分类及回归预测分析中应用广泛[14-16]。数据处理采用Lin等[17]开发,李洋等[18]优化的LIBSVM工具箱建立SVM分类模型。首先选取合适的核函数类型,研究显示,基于高斯径向基函数(Gaussian radial basis function)的SVM模型表现出优秀的分类性能,且参数的优化过程简单[19],因此本研究选择高斯径向基函数建立SVM分类模型。
2.2.1 样品集的划分 采用Kennard-Stone法将4种植物源蜂蜜共计97例样品按2∶1划分为训练集和测试集[20],利用训练集建立判别模型,并将测试集作为未知样品代入模型检验,样品集划分如下:训练集65例,其中荆条蜜24例,洋槐蜜9例,葵花蜜7例,油菜蜜25例;测试集32例,其中荆条蜜12例,洋槐蜜4例,葵花蜜4例,油菜蜜12例。
2.2.2 选择输入变量建立模型 通过单因素分析选出4种植物源蜂蜜间具有显著性差异的13种元素Na、Mg、Al、K、Ca、Mn、Ni、Cu、Zn、As、Se、Ba、Pb,考虑截尾数据的存在,将输入变量分为:①所有样品均不含截尾数据的变量(7种):Na、Mg、K、Ca、Mn、Cu、Zn;②样品中含截尾数据且按二分之一检出限进行替换处理的数据变量(13种):Na、Mg、Al、K、Ca、Mn、Ni、Cu、Zn、As、Se、Ba、Pb。将训练集和测试集数据标准化到[1,2]之间,寻优参数设置为默认参数(惩罚参数c为1,核函数参数g的默认值为1/k,k是类别数)[16],将训练集进行K折交叉验证(K=3),建立蜂蜜植物源SVM分类模型,将测试集代入模型验证。判别结果表明,含截尾数据建立的SVM分类模型,其训练集、测试集共计97例样品的综合判别正确率达91.8%,高于不含截尾数据所建模型的综合判别正确率82.5%,表明客观存在的截尾数据中同样包含较为重要的样品信息,在建立分类模型时,应充分考虑截尾数据,使用替换法按二分之一检出限值处理,增加数据组输入变量,以提高模型准确度。除葵花蜜在两组变量输入模型中判别正确率为100%外,其余植物源蜂蜜均存在归类错误的情况。含截尾数据的训练集中,65例样品仅4例归类错误,判别正确率达93.8%,而测试集中32例样品的判别正确率仅为87.5%,可能由于样品量较少,模型过拟合导致,因此,为进一步提高模型稳健性,有必要进一步优化SVM分类模型参数。
采用高斯径向基核函数建立SVM模型时,惩罚参数c和核函数参数g对于控制模型的复杂度、逼近误差及模型的测量精度有重要影响,可使用GS、GA、PSO算法对惩罚参数和核函数参数进行寻优分析[16]。GS法在log2c与log2g为[-8,8]区间寻优,GS法寻优结果见图1A,随着得到交叉验证准确率的提高,log2c与log2g参数所形成的网格颜色由蓝色变为黄色,搜索得最佳参数c=4.00,g=1.41,交叉验证最佳正确率为90.8%,将其投影到二维平面得GS法寻优等高线图(图1B);设置种群数量为20,最大进化代数为50进行GA算法寻优,通过最佳适应度曲线发现,在迭代次数为0~15时,交叉验证率不断提高,20次迭代后达到最大值,最佳参数为c=5.10,g=1.86,交叉验证正确率为90.8%(图1C);设置种群数量为20,最大进化代数为100进行PSO算法寻优,经过80次迭代后交叉验证正确率达最大值90.8%,最佳参数c=62.8,g=1.26(图1D)。
图1 SVM模型c、g参数寻优结果图Fig.1 The parameter optimization results of c and gA:3D display of GS optimization results(GS寻优结果三维显示);B:contour diagram of GS optimization results(GS寻优结果等高线图);C:GA optimization results(GA寻优结果);D:PSO optimization results(PSO寻优结果)
将训练集结合寻优参数建立SVM分类模型,并利用测试集进行验证,结果见表2。3种寻优算法建立的SVM分类模型综合判别正确率均有一定程度的提高,其中,采用PSO算法进行参数寻优后模型识别效果提升最为显著,训练集判别正确率为100%(图2A),测试集有3例分类错误(图2B),1例荆条蜜(分类标签1)错误分类至油菜蜜(分类标签4)中,1例洋槐蜜(分类标签2)错误分类至荆条蜜中,1例油菜蜜分类至荆条蜜中,判别正确率为90.6%,且训练集、测试集综合判别正确率由91.8%提升至96.9%。
表2 优化参数SVM模型分类结果Table 2 Model classification results of SVM by parameter optimization
图2 PSO-SVM分类标签和真实标签图Fig.2 PSO-SVM classification label and the actual labelA:training set(训练集);B:testing set(测试集)
本文基于荆条、洋槐、葵花、油菜4种植物源蜂蜜中13种显著差异性金属元素,结合替换法处理的截尾数据,有效建立了SVM蜂蜜植物源鉴别模型。方差分析结果表明,4种不同植物源蜂蜜中Na、Mg、Al、K、Ca、Mn、Ni、Cu、Zn、As、Se、Ba、Pb存在显著性差异;采用替换法处理的截尾数据作为输入变量较不含截尾数据的SVM分类模型识别率高;利用PSO算法参数寻优后建立的SVM判别模型对97例蜂蜜植物源属性的综合判别正确率达96.9%,可为食品属性鉴别提供有益思路。