基于网格搜索的参数优化方法用于鱼粉灰分的近红外LSSVM定量分析

2016-10-15 11:37陈华舟许丽莉温江北李玲慧
分析科学学报 2016年2期
关键词:鱼粉定标灰分

陈华舟, 陈 福, 许丽莉, 温江北, 李玲慧

(1.桂林理工大学理学院,广西桂林 541004;2.上海优久生物科技有限公司,上海 201600;3.钦州学院海洋学院,广西钦州 535000)

鱼粉是饲料中动物源性蛋白质的主要来源,成为现今动物养殖平衡的重要组成部分,它作为高质量动物饲料,尤其能够提供动物生长所必需的营养合理配比,在养殖业中起着不可代替的作用[1]。饲料养殖中的鱼粉用量在不断增加,因此,如何选择品质好、性价比高的鱼粉,是饲料企业期待解决的问题[2]。鱼粉中灰分含量反映鱼骨和鱼肉的含量比,是衡量鱼粉质量的重要指标[3]。现有的测量鱼粉灰分成分的常规化学方法(GB/T 6438-2007)试剂消耗大,测量过程繁琐,且有可能造成环境污染。

近红外(NIR)光谱技术只需要配合简单的物理过程即可测定包含样品综合信息的光谱,进一步利用大数据光谱矩阵可对待测成分进行定性或定量分析[4],具有快速简便、无试剂、多组分同时测定、过程无污染等优点,已经被广泛应用到农业、食品、环境、生物医学等领域[5-7]。NIR光谱技术用于鱼粉品质的检测已经有报道[8,9]。随着非线性分析技术的发展,支持向量机回归算法已经成功应用于NIR定量模型[10]。最小二乘支持向量机(LSSVM)是一种基于统计学习理论的有效化学计量方法[11,12]。它利用核函数把待测样品在高维非线性空间中的分布映射到一个低维特征空间,然后在特征空间上建立因变量与自变量之间的关系,进而建立定量分析模型。

本研究利用LSSVM参数优化建模方法,建立了鱼粉灰分的NIR光谱定量分析模型,提出基于网格搜索的支持向量机参数优化方式,利用径向基核函数进行建模,筛选针对于鱼粉NIR定量的LSSVM核函数参数,提高模型的预测精度。同时,提出运用去趋势校正(DC)和标准正态校正(SNV)相结合方法[13,14]对饲料鱼粉的NIR光谱数据进行建模前预处理,提高NIR数据的信噪比。

1 实验部分

1.1 样品的化学测定与光谱测量

采用常规生化实验方法测定116份鱼粉样品的灰分含量(GB/T 6438-2007),作为NIR光谱分析的参考化学值,所得检测数据经统计分析,其最大值、最小值、平均值、标准偏差分别为29.18、15.88、22.06、2.82。同时采用FOSS NIR Systems 5000型光栅光谱仪测量所有样品的NIR光谱。光谱测量采用空气作为系统背景,设置内置光学系统对每个样品(包括背景测量)自动扫描64次,实验温度为25±1 ℃,湿度(RH)为49±1%。为减少系统误差和操作误差,每个样品重复测量5次,计算平均光谱作为该样品的实测光谱。光谱测量范围是1 100~2 500 nm,光谱数据采集间隔为2 nm,全谱段共包括700个波长点。所有116份鱼粉样本的实测近红外光谱如图1所示。

1.2 样品集划分和模型评价指标

建模过程需要把样品划分为定标集和校正集。首先利用定标集样品针对参数网格调试的所有取值建立若干定标模型,然后将所有模型应用于校正集样品,根据模型预测结果优选模型参数,进而确定鱼粉近红外分析优化模型。模型评价过程主要是对已标定的优化模型进行有效性检验,针对一个不参与建模过程的独立的样品集(预测集)进行鱼粉灰分的成分含量预测,根据该预测结果评价模型的精准度和稳定性。定标、校正、预测三个集合的样品数量以2∶1∶1的比例进行划分。从116个鱼粉样品中随机选取30个样品作为预测集,不参与建模过程;剩余样品用于建模和参数优化,而定标集和校正集的划分采用SPXY方法[15]完成,指定定标集包含58个样品,校正集包含28个样品。

模型评价体系包括对校正集样品的评价和对预测集样品的评价,评价指标有均方根偏差(RMSE)、相对标准偏差(RSD)和相关系数(R),计算式分别如下:

(1)

(2)

(3)

定标校正过程的3个模型评价指标分别记为RMSEv、 RSDv和Rv;检验预测过程的指标分别记为RMSEp、RSDp和Rp。

1.3 去趋势-标准正态校正(DC-SNV)方法

(1)对原光谱Aj进行DC处理:基于最小二乘原则对原光谱吸收度完成数据拟合,然后从原光谱中减去光谱拟合趋势线,即:

(4)

(5)

(6)

1.4 基于径向基函数的LSSVM回归

最小二乘支持向量机(LSSVM)是一种基于统计学习理论的结构风险最小化的计量学方法,其核心是利用核函数把待测样品在高维非线性空间中的分布映射到一个低维特征空间,然后在特征空间上建立因变量与自变量之间的关系。LSSVM回归针对多变量数据,通过降维映射以及最小二乘法来降低鱼粉近红外数据的复杂度,进而结合支持向量机回归方法[13]构造决策函数,用以计算校正(或预测)样品集的第j个样品的或灰分含量ĉj,即

(7)

近红外光谱的LSSVM模型通常选择径向基函数(RBF)作为数据分析的核函数,RBF核对于光谱的非线性建模过程具备自适应的稳定性和鲁棒性[14]。而Lagrange乘子αi由参数γ来决定。RBF核函数和αi分别可以表示为

(8)

其中,γ反映了建模过程的训练误差(即定标集的模型准确度),σ2代表核函数的阈值宽度,通过调试σ值可以调整核函数的延伸程度。

LSSVM回归通过网格搜索法同时调试γ和σ两个参数进行模型优化,通过设置参数γ和σ在一定取值范围内变动,经过定标建模和校正筛选,可为复杂对象(鱼粉)的近红外分析选择合适的非线性回归模型参数。

2 结果与讨论

2.1 DC-SNV光谱预处理效果

利用DC-SNV方法进行光谱预处理,在NIR全谱段区域(1 100~2 500 nm)消除由于系统不稳定和操作差异而产生的噪音干扰,结合LSSVM算法建立非线性定量分析模型。为了验证DC-SNV方法的有效性,把DC-SNV预处理的数据建模结果与Savitzky-Golay预处理的数据建模结果进行对比(表1),其效果略优于Savitzky-Golay滤波平滑,证实了DC-SNV预处理方法应用于鱼粉灰分NIR光谱预处理的有效性,且算法复杂程度大大降低。

表1 DC-SNV和Savitzky-Golay预处理的LSSVM模型校正结果对比

2.2 LSSVM建模与基于网格搜索的参数优选

基于DC-SNV预处理效果,建立鱼粉灰分的NIR光谱分析的LSSVM模型。采用网格搜索法对LSSVM模型(RBF核函数)的两个重要参数γ和σ进行大范围的调试并优选。考虑到γ是影响Lagrange乘子α的关键参数,条件优化将限制核函数的映射作用;如果γ采用连续取值,则庞大的计算量使得NIR的快速分析功能得不到发挥。综合考虑各种情况,设置γ的取值从10变化到300(步长为10)。而对参数σ的调试,将以σ2的方式影响RBF核函数,因此设置σ的取值从1连续变化到20。使参数γ和σ在指定范围内变化,对所有可能的参数组合(γ,σ)分别建立LSSVM模型,所有模型的定标结果如图2所示,根据RMSEv最小的原则,鱼粉灰分的NIR最优建模参数范围是γ∈(160,210)和σ∈(5,13)。

为了研究参数γ和σ对LSSVM模型预测结果的影响,将两个参数的所有取值对应的建模结果做投影分析。一方面,使σ取值最优,观察γ的变化对于模型效果的影响,每个γ的取值对应得到不同的RMSEv如图3(a)所示。另一方面,使γ取值最优,观察σ的变化对于模型效果的影响,每个σ的取值对应得到不同的RMSEv如图3(b)所示。由图3(a)和图3(b)可以看出,最优模型参数为γ=180,σ=11(图3中的实心点),该模型的RMSEv、RSDv、Rv分别为1.149、12.9%、0.964。除此之外,在最优取值附近的一些取值(图3中虚线方框内的点)也可以对应得到接近最优的模型预测效果,这为我们设计饲料鱼粉品质检测专用的近红外光谱分光系统提供了更多的选择。

2.3 模型检验

模型检验一般采用未参与建模的样品,但性质与建模样品相似,通过比较这些未参与建模的预测集样品的预测值与实测参考化学值的差异来判别模型的预测准确性。我们利用最优LSSVM模型计算30个预测集样品的灰分含量,其预测相关性如图4所示。结果表明,NIR光谱预测值和国家标准方法实测值对比具有较高的相关程度,近红外LSSVM参数网格搜索方法能够为鱼粉灰分含量检测提供较高的精准度。

3 结论

通过采用NIR光谱定量测定鱼粉灰分的含量,评价饲料鱼粉的品质。在光谱预处理方面提出采用去趋势校正与标准正态校正(DC-SNV)相结合的方法,降低噪音对光谱信号的干扰,进而利用基于RBF的LSSVM算法建立饲料鱼粉的近红外定标预测模型,研究LSSVM参数调试模式,在合适范围内对模型参数进行网格筛选优化,获得最优建模参数(γ,σ)分别为(180、11)。经过模型检验,最优LSSVM建模参数组合具有提高NIR分析精度的能力。NIR光谱结合有效的化学计量学方法可以实现鱼粉品质的快速检测,有利于饲料鱼粉的生产控制与品质提升,具有一定的推广应用价值。

猜你喜欢
鱼粉定标灰分
鱼粉普遍上涨100~200元/吨,背后“推手”是什么?
近红外定标法分析黏/锦/氨三组分纤维含量
疯狂!直击鱼粉飙涨,与国外鱼粉市场缘何倒挂?
基于灰分回控的智能密度控制系统在寨崖底选煤厂的应用
灰分在线检测对选煤智能化建设作用的思考
我国为世界大豆精准选种“定标”
基于单种煤成焦灰分预测焦炭灰分的研究及应用
鱼粉:秘鲁A季配额低于预期,内外盘短期大幅上涨
鱼粉:秘鲁A季考察接近尾声,国内港口迎来B季集中到港
不同重量僵蚕总灰分含量的比较研究