李庆波, 毕智棋, 石冬冬
1. 北京航空航天大学仪器科学与光电工程学院, 精密光机电一体化技术教育部重点实验室, 北京 100191 2. 中国农业科学院饲料研究所, 北京 100081
随着国内养殖业机械化、 专业化程度的发展, 养殖规模飞速扩大, 中国鱼粉市场不仅对鱼粉的需求量越来越多, 也对鱼粉的品质提出了更高的要求。 而中国的饲料企业如何选择品质好, 质量高的鱼粉是现在面临的困难与考验[1]。 鱼粉质量差异决定了饲养物能否获得充足营养, 鱼粉产地众多, 品质参差不齐, 有不法商家以次充好, 用劣质进口鱼粉或国产鱼粉冒充优质进口鱼粉, 来获取更大的利润[2]。 为了避免这种危害市场秩序的行为需要对鱼粉产地进行溯源研究。
近红外光谱能够反映物质化学组成成分的性质和含量[3-4], 因此采用近红外光谱技术对鱼粉产地进行溯源识别。 2015年, 宋涛[5]等基于近红外光谱技术对市场上常见的淡水鱼粉、 进口鱼粉和国产鱼粉三类商品化的鱼粉样品进行自动化判别实验。 通过分析鱼粉样品光谱之间的差异, 采用主成分分析法建立鱼粉种类定性判别的分类模型。 Cozzolino D[6]等采用改进的偏最小二乘回归方法建立近红外光谱校准模型, 预测决定鱼粉质量的化学成分。 目前国内外关于鱼粉产地溯源文献较少, 主要集中于进口鱼粉、 国产鱼粉的大类判别或蛋白质、 水分、 盐等鱼粉化学成分含量的定量检测, 其实这种划分十分粗糙, 原产地不同的进口鱼粉之间差异极大, 而即使是国产鱼粉, 原产地不同时其质量差异也十分显著。 由于采集大量原产地明确且没有掺杂的进口鱼粉比较难, 本研究首先以产地来源明确的国产鱼粉为实验对象, 对鱼粉产地溯源进行了研究。 采用灰狼算法[7-9]优化的支持向量机建立预测模型对国产鱼粉进行更详细的产地区分。 采用支持向量机比偏最小二乘回归和主成分分析法等更适用于鱼粉的定性分析。 灰狼算法寻找支持向量机的关键参数具有速度快, 精确度高的优点, 使鱼粉产地溯源结果更加准确。 建立灰狼优化算法的支持向量机预测模型对鱼粉产地进行溯源, 防止使用低质量产地的鱼粉冒充高质量产地的鱼粉, 对鱼粉产业规范化及饲养行业稳定发展都具有推动作用和意义。
共采集144份国产鱼粉, 其中产地为辽宁大连58份、 山东威海46份、 山东荣成30份, 浙江温岭10份, 随机选取每种样品的70%作为建模训练样本集, 30%作为测试样品集(表1)。
表1 鱼粉样品测试训练分组情况
实验采用德国布鲁克公司的MATRIX-I型近红外光谱仪。 首先预热仪器半小时, 以保证仪器运行的稳定性; 其次, 设置实验参数为: 反射模式下光谱采集间隔为1 nm、 扫描波段为3 700~12 500 cm-1、 扫描次数64, 每个样本扫描两次。 所有实验均采取相同的扫描方法, 并且在相同的实验参数下进行。
由于采集到的近红外光谱存在基线漂移和高频噪声, 需要对仪器采集获得的原始光谱数据采取预处理改善。 采用多元散射校正对光谱进行基线校正, 采用小波变换对基线校正后的光谱进行平滑去噪, 消除高频噪声。
1.4.1 支持向量机
支持向量机[10]的原理是将高维数据映射为高维空间的点, 然后寻到一个超平面使高维数据分为两类且两类不同种类数据的间隔最大化。 而高维数据具有线性可分性则可以在该维度分类, 若具有线性不可分性则需要借助核函数将数据映射到更高维的空间分类。
首先将需要分类的数据以及数据的标签输入分类器, 构成特征空间。 设置数据与超平面的距离, 引入拉格朗日函数寻找最佳分类的超平面, 借助核函数简化内积运算。
采用高斯径向基核函数式(1)
(1)
得到RBF-SVM分类模型式(2)
(2)
1.4.2 灰狼算法
传统的寻找最佳参数方法是采用网格搜索法, 对惩罚因子和核函数半径等需要选择的参数在一个设置好范围内采取遍历取值的方法, 经过参数组合对比得出最优结果。 遍历取值搜索参数用时长, 精度由步长取值决定, 计算繁琐。 灰狼算法对最佳参数选择进行了优化, 根据狼群捕食方式将捕食过程用数学方法表达出来。 首先是搜索猎物对猎物进行包围阶段, 狼群在猎物附近的空间范围内随机活动。 随机产生若干组参数, 选出三条适应度最好的狼即α狼、β狼、δ狼, 通过这三头狼进行目标参数预估, 进行多次迭代移动。
(3)
(4)
式(3)和式(4)中D为狼朝猎物移动的距离,X为狼所处的位置,t为迭代次数,A和C是系数向量负责提供狼群移动的距离和方向,XP为猎物位置, 式(3)和式(4)是狼移动向量移动到下一代狼的位置。A和C根据式(5)和式(6)进行变化
(5)
(6)
式中a为由2线性衰减到0的向量,r1,r2为0到1之间的随机向量。 通过随机向量r1,r2, 更新后的狼到达猎物周围一定范围内的随机位置。 将头三匹狼对猎物包围之后其他狼朝头狼们靠近。 公式如式(7)—式(13)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
式(7)、 式(8)和式(9)分别代表ω狼朝适应度最好的三头狼移动距离, 式(10), 式(11)和式(12)是ω狼向其他三头狼靠近的前进方向和距离, 式(13)为ω狼最终的位置。 最后当满足限制条件时对猎物发出攻击, 最终α狼的位置就是目标参数的位置。
图1为不同产地鱼粉的原始近红外光谱曲线, 需经预处理后, 再对产地进行判别, 图2为多元散射校正后光谱曲线, 经校正后消除基线漂移。 图3为小波变换前后光谱曲线对比图, 其中以波数为横坐标, 范围为3 700~12 500 cm-1, 光谱漫反射率为纵坐标。 通过小波变换后, 在对光谱曲线平滑去噪的同时并没有因此丢失原来信号的轮廓细节, 并达到了消除高频噪声的目的。
图1 鱼粉样品的原始近红外光谱
图2 多元散射校正后鱼粉样品的近红外光谱图
图3 近红外光谱小波变换前后对比
对四个产地鱼粉光谱随机选取每个产地样品的70%作为建模训练样本集, 30%作为测试样品集进行十次平行实验, 采用灰狼算法的支持向量机得到分类结果与相同条件下使用网格搜索法寻找惩罚因子和核半径函数的支持向量机, 结果分别见表2和表3。
表2 GWO-SVM国产、 进口鱼粉产地识别结果
表3 网格搜索法SVM国产、 进口鱼粉产地识别结果
经过十组平行实验后, GWO-SVM识别鱼粉产地为山东荣成、 山东威海、 辽宁大连的识别正确率相比网格搜索法分别提高13.33%, 5.71%和1.11%, GWO-SVM平均用时大幅缩减。 在鱼粉产地进行多分类溯源时, 使用灰狼算法改进SVM相对于网格搜索法提高了识别的准确度, 用时明显缩短。
鱼粉的产地不同导致各产地的鱼粉所含有机物含量和组成不同, 导致各近红外光谱存在一定差异, 通过多元散射校正和小波变换对光谱进行预处理, 采用灰狼优化算法寻找支持向量机最佳惩罚因子和核函数半径, 能够对鱼粉产地正确分类。 灰狼优化算法相对与网格搜索法提高了搜索速度和准确度, 对产地分类的正确率均达到95%以上。 试验结果表明, 采用近红外光谱技术可以快速准确的对鱼粉进行产地溯源。 所采用的灰狼算法结合支持向量机预测模型能够获得很好的分类结果, 为鱼粉产地溯源提供了有效的方法和依据。