蒋大鹏 张冬妍 李丹丹 曹军
摘 要:为了探索松子基于近红外光谱的无损品质分类。建立松子蛋白质品质的分类数学模型。采用近红外测量获取松子光谱数据,运用SMO-SVM、Pegasos-SVM与LS-SVM方法建立松子蛋白质分类相关性模型,并对相应验证集上的数据进行预测验证。实验结果表明支持向量机精准率略高,但耗费时间比LS-SVM与Pegasos-SVM多。研究中所建模型均能达到一定程度上的良好分類,精准度均达到80%以上,可有效实现依据近红外光谱数据预测松子蛋白质含量等级的目的。此模型对于其他干果类食品的等级品质分类具有一定的实践指导意义与应用价值。
关键词:松子;近红外;支持向量机;蛋白质
中图分类号:TP181 文献标识码:A
Abstract: In order to explore the non-destructive quality classification of pine nuts based on near-infrared.Establishment of classification mathematical model of protein quality.Measuring the near infrared spectrum data acquired pine nuts.The support vector machine and the least squares support vector machine were used to establish the correlation model of pine nut protein classification,and the data on the corresponding verification set were predicted and verified.The experimental results of SMO-SVM show that the precision of support vector machine was slightly higher,but it takes more than one third of the least squares support vector machine.The accuracy of the model was 80% or more,which can effectively achieve the purpose of predicting the protein content of pine nuts based on near infrared spectroscopy data.This model has certain practical significance and application value for the grade quality classification of other dried fruit.
Key words: pine nuts;near infrared;support vector machine;protein
1 引 言
松子(Pinus koraiensis Sieb.et Zucc)是一种营养成分很高的食品,有极高的食用价值与药用价值,是东北三省对外重要特产之一。但在松子的无损处理、产品分级方面,一直采用原始低效的分级方法。传统的松子外部品质等级划分多采用人工分选或机械振动筛选方法实现。人工分级劳动强度大,工作者主观经验影响较大:震动筛选噪声大,功耗大,并且分级精准度不高,且会产生磕碰损伤。因此建立一种快速,准确,安全,非破坏性的松子品质分级检测系统,是十分重要的。而近红外光谱技术恰好是快速,准确非破坏性的品质分级检测系统的选择之一。虽然运用近红外光谱进行松子无损品质分类的相关文献较少,但有相关学者研究过运用近红外光谱进行干果类鉴定与品质比较[1]。
近红外光谱分析技术是一种利用有机化学物质在近红外光谱区的光学响应特性,对物质定量或定性快速测定的现代光谱技术。近红外光谱的信息量极为丰富,几乎包含了全部的含氢基团的有关特征信息,物质中的含氢基团的同一成分或不同组分在近红外区域存在丰富的吸收光谱[2]。动植物体组织主要成分均含有丰富的含氢基团,在近红外区都存在特定的吸收光谱,丰富的特征信息使得只需选择一种良好的建模方法即可对样本做到准确高效的检测分级,并且近红外光谱技术不需了解光谱具体特性,只需要了解输入量与输出量之间的关系就能做到灰箱建模[3-5],因此在近红外光谱分类中,只需获得实验样本的光谱数据及品质等级即可进行建模。传统的近红外光谱灰箱建模方法有BP神经网络、多元线性回归、主成分分析等[6],其中,仇逊超等采用反向间隔最小二乘法,无信息变量消除法选取特征波段,建立全波段和特征波段下的最小二乘模型[7],但诸如神经网络算法需要数据较多,并且极可能陷入局部极值而使得训练失败;多元线性回归算法存在模型限制过多,模型复杂度不够等许多问题。因此需要引入更良好的模型。而近年来,在食品品质分类领域,运用支持向量机建立光谱数据与品质等级的模型的方法应用愈加广泛。支持向量机是机器学习的一种非常经典的分类模型,Cortes与Vapnik提出线性支持向量机[8]。同时,Boser,Guyon与Vapnik又引入核技术,提出非线性支持向量
机[9]。支持向量机的主要优势在于小规模数据的非线性建模可以获得极优结果。而近红外光谱数据样本特性恰好是样本数量规模小且非线性度高。迄今为止,支持向量机(SVM)已经变成一门非常成熟的技术,且在基于近红外光谱分析的多种研究对象建模中获得良好的结果[10-12]。基于近红外光谱分析,本文采用SMO-SVM、pegasos-SVM和LS-SVM对松子蛋白质含量指标进行建模仿真研究,并对比分析探寻松子蛋白质分类的有效途径。
2 SVM与LS-SVM基本原理
支持向量机(SVM)的基本原理是将引入核函数的分割超平面转化为一个凸优化问题,并使用拉格朗日对偶方法将求解权值的原问题转化为求拉格朗日乘子的对偶问题[13]。
对于上述优化,经典支持向量机一般采用由Platt提出的序列最小最优化算法(SMO)[15]。但SMO算法存在时间复杂度过高等问题。根据Shalev-Shwartz等人的研究成果[16],基于随机梯度下降较之SMO算法时间复杂度更小,本论文将对SMO算法与随机梯度下降算法进行比对并找出适宜当前实验的最优算法。
而最小二乘支持向量机的区别是LS-SVM将原问题(SVM)约束条件由不等式化作等式
此时对拉格朗日函数求极值问题会转换成可运用最小二乘法解决的线性方程组问题,这会降低算法的时间复杂度[17]。
3 实验仪器材料及数据采集处理
3.1 仪器与样品
实验仪器:NIR-NT-spectrometer-OEM-system近红外光谱测试仪,德国INSION 公司,适用光谱波长范围:900 ~ 1700 nm,光谱分辨率 < 16 nm,探测器阵列为InGaAs阵列,入口光纤为300/330μm,体积为67 × 36 × 22 mm。光源为工作电压6 V的卤素光源。
实验样品:100粒由伊春自然保护区出产,生产年份相同,含水量相似的饱满红松子。
3.2 近红外光谱采集
对松子进行近红外扫描检测期间,要确保室内温度在26度左右,在获取松子近红外光谱前,需要对仪器进行初始化处理。首先:在仪器关闭灯光电源的情况下进行扫描获得Dark基准,调整光谱仪积分时间30 ms,平均次数3次;随后将仪器镜头紧贴传递标准白板扫描获得Reference基准。获取松子光谱数据过程中,将取得的红松子,放在仪器探头下2 mm处进行红外光谱采集。为了防止松子与光源发生偏转、松子无法完全遮住光源等因素影响实验效果,本实验对松子进行比对测量后,选择统一测量与松子头部直接无棱相连的腹部,此处遮光最好,数据最准确。对松子进行10次扫描后,获得图像,保存数据。光谱数据曲线如图1所示。
接下来采用食品安全国家标准GB 5009.5-2010 中的第一法-凯氏定氮法,测定松子样品的蛋白质。[]根据凯氏定氮法实验结果,样本蛋白质分布在12.79% ~ 24.98%之间,样品蛋白质分布差异较大,有一定代表性,通过图1也可以看出红松子近红外光谱初始图像走势相似,分布集中。具有一定的规律性,因此能够满足建模要求。
圖1为随机选取的一小组近红外光谱测定红松子的初始光谱数据。该数据未经初始化处理。
3.3 蛋白质数据处理与建模
本实验以红松子的蛋白质含量范围为评级指标,根据运用化学手段测得的松子蛋白质含量的数据[18],将红松子划分为4等。本次试验100个红松子的蛋白质含量范围大致为0.075 g至0.125 g之间。则蛋白质含量划分范围如下:1等蛋白质含量范围为:0.1125以上;2等蛋白质含量范围为:0.1到0.1125之间;3等蛋白质含量范围为:0.0875到0.1之间;4等蛋白质含量范围为:0.0875以下,获得输出标签。
4 基于支持向量机的松子蛋白质分类建模
本文研究建立的分类模型以近红外光谱数据为输入,以蛋白质品质分类为输出,在以Python语言中的Sklearn科学计算库为建模环境,建立蛋白质品质分类模型。Sklearn是一款功能非常强大的库,能够进行近乎所有的小规模数据的分类、回归、聚类等数据处理。运用Sklearn处理近红外光谱数据简易方便,封装性好。
4.1 基于近红外光谱与支持向量机的分类建模
选取适当波长,在进行适当数据预处理基础上。采用SMO-SVM、Pegasos-SVM和其最小二乘支持向量机两种方法进行对比。以正则化参数C或γ 及高斯核函数中的σ2为控制模型好坏重要变量加以调整,运用网格法搜索最佳参数;以精确率,召回率,排序损失,F函数为指标,考察建模性能。具体实施步骤如下:
导入数据并使用Matplotlib制出近红外光谱图,见图1;
将运用化学手段测出松子蛋白质含量标签化(即依照蛋白质含量多少将松子分成四大类),并将标签赋予每个松子并确保每一大类松子数均为25粒。
对数据进行预处理,筛选出的优良波长片段为906.9 ~ 1128.34、1185.88 ~ 1284.55、1325.85 ~ 1548.81、
1648.16 ~ 1697.9,损失信息为5%。
接着对获得数据进行归一化处理,将数据集分割成训练集,调整集,测试集。分割完毕后前期建模准备工作告一段落。
对分割完毕的数据集进行建模,本次实验拟定三种建模方法,首先运用SVM经典优化算法SMO建模,由于Sklearn上专门的SVM模块本身使用的优化方法即SMO算法,因此可以直接调用SVM模块的SVC函数。
而对于最小二乘支持向量机与基于随机梯度下降的支持向量机,Sklearn函数库并没有直接调用的模块,需要事先进行编程。
根据表1可知,基于SMO算法的支持向量机在各方面性能优于最小二乘支持向量机与随机梯度下降支持向量机,而传统SMO-SVM算法所耗时间为三种算法之最,几乎达到随机梯度下降算法的两倍。这是由于最小二乘支持向量机与随机梯度下降的支持向量机虽然在计算复杂度方面优于支持向量机,但这是以牺牲精度为前提的。
图3为支持向量机算法分割样本集的简图,这张图简单阐释了模型训练完毕后,支持向量机各算法对标签为1、4的样本集分割效果。该样本集为集合内高维空间粒子向二维空间的投影。其中投影点在X轴上的数值为原始向量的1维对应的数值,在Y轴上的数值为原始向量的0维对应的数值。从图中可以看出,SMO-SVM所形成的分割超平面分类效果明显好于其他算法形成的分割超平面。
对于支持向量机,由于引入松弛变量与不等式方程组,所计算的最优化问题的解(非零向量)为稀疏解。因此拥有稀疏学习的优点,即过拟合风险低,鲁棒性强等等。但对于最小二乘支持向量机,由于引入误差向量,导致解的稀疏性减弱。因此原本在支持向量机中为零向量的解,在最小二乘支持向量机中可能变为特征解存在于最终的模型中。这会导致某些样本中特定的误差在建模过程中混入最终模型的几率增强,使得系统过拟合,泛化能力差,鲁棒性差。并且由于近红外光谱法本身属于一种定量误差很大的技术,加之本实验所用的近红外仪器精准度不高,样本误差比较大,因此即便最小二乘支持向量机进行过稀疏化近似,但本身稀疏性仍无法与经典支持向量机相比,由于以上种种原因,最小二乘支持向量机拟合结果与经典支持向量机拟合结果相差近十个百分点。
至于基于随机梯度下降的支持向量机算法精确率不高的问题,由于随机梯度下降算法属于求解局部最优解的算法,因此极易陷入大量局部极值的困境中,虽然根据CD Sa等人的研究,针对低秩最小二乘问题时,随机梯度下降大概率接近全局最优解,但本实验所用的随机梯度下降算法的实际建模效果并不出色,小样本支持向量机模型最适宜的方法仍然是经典算法SMO-SVM算法。
5 结 论
本次试验首先采用近红外光谱仪对松子进行快速测量得到光谱数据,接着运用SVM理论与LS-SVM理论,建立了红松子蛋白质分类模型。并对比了SMO-SVM、Pegasos-SVM与LS-SVM两种算法在小规模近红外光谱技术中的优缺点。结果表明:SMO-SVM、Pegasos-SVM与LS-SVM都能够通过近红外光谱对松子进行预测。但SMO-SVM支持向量机理论对小规模样本分类效果更好;更具有普适性,可用作红松子蛋白质含量的快速鉴定。而Pegasos-SVM与LS-SVM更适用于大规模样本快速鉴定。
参考文献
[1] 贾昌路,高山.近红外技术对南疆核桃品种的鉴定及品质比较[J].湖北农业科学,2016,55(10):2559—2563.
[2] 吴建虎,黄钧.可见/近红外光谱技术无损检测新鲜鸡蛋蛋白质含量研究[J].现代食品科技,2015,31(5):285—290.
[3] 张中卫,温志渝,曾甜玲,等.微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J].光谱学与光谱分析,2013,7(33):1796—1800.
[4] 汪庆平,黎其万.近红外光谱法快速测定山核桃品质性状的研究[J].西南农业学报,2009,22(3):873—875.
[5] 马文强,张漫.基于近红外光谱的核桃仁品种快速分类方法[J].农业机械学报,2015(s1):128—133.
[6] 張玉荣,付玲.基于BP神经网络小麦含水量的近红外检测方法[J].河南工业大学学报,2013,34(1):17—20.
[7] 仇逊超,曹军.近红外光谱波段优化在东北松子蛋白质定量检测中的应用[J].现代食品科技,2016,32(11):303—309.
[8] CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273—297.
[9] BOSER B E, GUYON I M,VAPINK V N.A training algorithm for optimal margin classifiers.[J] Workshop on Computational Learning Theory ,1992,5:144—152.
[10] THISSEN U,PEPERS M,USTUN B,et al.Comparing support vector machines to PLS for spectral regression applications[J] Chemometrics & Intelligent Laboratory Systems ,2004,73(2):169—179.
[11] CHAUCHARD F,COGDILL R,ROUSSEL S,et al.Application of LS-SVM to non-linear phenomena in NIR spectroscopy:development of a robust and portable sensor for acidity prediction in grapes[J]. Chemom.Intell.Lab.Syst.,2004,71(2):141—150.
[12] 黄庄荣,沙莎.基于近红外技术快速无损分析整粒棉籽中的脂肪酸含量[J].分析化学,2013,41(6):922—926.
[13] BOYD S, VANDENBERGHE L. Convex Optimization[M].Cambridge,UK Cambridge University Press,2004.
[14] 邓乃杨,田英杰.数据挖掘中的新方法--支持向量机[M].北京:科学出版社,2004.
[15] PLATT J C.Fast training of svms using sequential minimal optimization[J].Cambridge,Mass.,MIT Press,1999,7:376.
[16] SHAI S,YORAM S. Pegasos:primal estimated sub-gradient solver for SVM[J].Mathematical Programming,2011,127(1):3—30.
[17] SUYKENS J,VANDEWALLE J.Least squares support vector machine classifiers.[J]Neural Processing Letters,1999,9(3):293—300.
[18] 吴晓红,郑月明.两种提取红松种子蛋白质的工艺方法比较研究[J].中国林副特产,2009,(4):1—5.