基于近红外光谱结合机器学习算法检测食用明胶品种溯源的研究

2021-07-07 09:14张浩刘振王玲胡建东
河南农业大学学报 2021年3期
关键词:明胶光谱来源

张浩, 刘振, 王玲,胡建东

(1.河南农业大学机电工程学院,河南 郑州 450002;2.河南省农业激光技术国际联合实验室,河南 郑州 450002)

食用明胶是由动物的新鲜原皮和骨骼经过复杂工序提取出胶原蛋白并水解加工而成的。由于其蛋白质含量高,无脂肪和无胆固醇,目前主要作为食品增稠剂、胶凝剂和粘合剂被广泛应用于食品工业中。食用明胶通常来源于猪皮、猪骨、牛皮、牛骨、鱼皮、鱼鳞等,不同来源食用明胶的二级结构和重金属含量是不同的,导致不同来源食用明胶的用途也有所差异[1-2]。因此,对于食品生产者来说,需要知道确切的食用明胶来源,以便于在食品制作过程中合理使用不同来源的食用明胶,制作出符合国家标准的明胶类食品,同时也能满足不同消费者的口味需求,有利于保护消费者的利益。目前,仅从色泽、气味等方面来考虑,很难区分出不同来源的食用明胶,因此需要一种快速有效的方法实现食用明胶品种的溯源研究。

食用明胶的传统检测方法包括液相色谱法、质谱法、电泳法、酶联免疫法等,尽管这些方法具有较高的检测灵敏度和精度,但是需要昂贵的仪器和复杂的样品前处理、比较耗时[3-5]。近红外光谱技术(Near Infrared Reflectance Spectroscopy,NIRS)作为一种快速无损的方法,目前被广泛地应用到食品领域中[6-8]。通过研究明胶的理化特性,NIRS已经被用于食用明胶的检测中。SEGTNAN等[9]采用近红外光谱对猪明胶和牛明胶的理化参数如冻力(Bloom 值)、黏度、pH值和水分含量进行预测;DUCONSEILLE等[10]利用近红外光谱技术和荧光光谱技术,实现了对明胶在老化过程中分子变化的监测;张浩等[11]利用近红外光谱对6种不同掺杂比例的食用明胶进行检测,通过采用不同模式识别方法实现了掺假食用明胶的精准识别。CEBI等[12]采用傅里叶变换红外光谱技术结合主成分-聚类分析方法实现猪明胶、牛明胶和鱼明胶的较好区分。目前的研究中主要对动物皮胶进行检测,缺少对骨胶的检测。另外,大部分研究主要采用无监督学习方法如主成分分析法对食用明胶进行分析,分类准确率有待进一步提高。在此基础上,本研究拟采用近红外光谱技术结合3种机器学习方法对5种不同来源的食用明胶(猪皮、猪骨、牛皮、牛骨、鱼皮)进行鉴别研究。

1 材料与方法

1.1 材料

实验所用5种不同来源的食用明胶(猪皮、猪骨、牛皮、牛骨、鱼皮)购置于厦门康宝生物科技有限公司,其冻力(Bloom值)分别为220,200,220,250,250。明胶样品用实验室粉碎机(拜杰BJ-800A)磨成粉末,然后用100目筛进行过滤。随后,将每种明胶源称重5 g,放入压片机(YP-30T,天津市金孚伦科技有限公司)的模具中,将压力保持在30 MPa,3 min后压成明胶片。在此过程中,为了避免污染和干扰,每次样品制备后都要清洗模具。每种明胶源制备120个明胶片,共得到600个。明胶片的厚度和直径分别为4.5 mm和35 mm。

1.2 光谱采集

实验所采用的近红外光谱测量装置由卤钨灯光源(HL-2000,海洋光学)、光纤可调衰减器,分叉式光纤反射探头和近红外光谱仪(NIRQuest 256,海洋光学)等构成,如图1所示。其中光源的波长范围为360~2 400 nm,近红外光谱仪的光谱范围为900~2 500 nm。光纤反射探头由7根芯径为600 μm的光纤组成,其中一根连接光源,用于传输入射光,另外的6根连接近红外光谱仪,用于收集反射光。实验过程中,光谱每隔3 nm采集一个点,每次平均3次,积分时间设置为100 ms,平滑度设置为10。

图1 明胶近红外光谱测量装置 Fig.1 NIR spectral measurement system of gelatin tablets

1.3 识别模型建立和性能评估

本研究分别采用支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、和反向传播神经网络(Back Propagation Neural Network,BPNN)3种机器学习算法建立明胶识别模型。3种模型的建立过程均采用Matlab程序,其中SVM建模基于林智仁等[13]开发的LIBSVM工具箱编写的Matlab程序,RF建模基于Jaiantilal开发的RF_MexStandalone-v0.02工具箱编写的Matlab程序, BPNN建模采用Matlab软件人工神经网络工具箱编写的Matlab程序,所有Matlab程序均在MATLAB R2017a软件下运行。

2 结果与分析

2.1 明胶胶体的近红外吸收光谱特性

为了降低由于仪器、样本和环境因素对光谱造成的噪声干扰,提高光谱信噪比,近红外光谱数据依次通过Savitzky-Golay(SG)平滑去噪、多元散射校正和最大最小归一化方法进行预处理,其中SG平滑方法采用12个点的窗口宽度和三次多项式拟合。图2为测量所得5种不同来源明胶样品的预处理平均光谱,选取光谱波段范围为1 100~2 200 nm,可以看出其光谱形状基本上是相同的,只是个别波长处的吸收存在差异。图中明胶近红外光谱具有一些比较明显的特征吸收峰,主要由明胶中一些特定的化学官能团的振动所造成的,如CH、OH、NH等。水分子的特征吸收峰位于1 490 nm 和1 930 nm左右,主要是由O—H基团的泛频和组频吸收带造成的[9,14]。此外,1 200 nm 和1 730 nm的峰值是由明胶中C—H基团的泛频和组频吸收带产生的,源自于明胶中芳香族氨基酸[14]。而2 000~2 100 nm的峰值主要来自于N—H的组频吸收带,源自于明胶中蛋白质的侧链[9,14,15]。

图2 5种不同来源明胶样品的归一化近红外光谱 Fig.2 Normalized NIR spectra from 5 different kinds of gelatin samples

2.2 明胶来源识别模型的构建

为了建立合适的识别模型并评价模型的有效性,光谱数据被分为训练集和验证集,其中训练集用来建立识别模型,验证集用来检验模型的有效性。本研究采用十折交叉验证(10-fold cross validation)方法从600个明胶样品中选择531个样本作为训练集,剩余的69个样本作为验证集。

2.2.1 SVM模型 由于每条近红外光谱共432个数据点,建模时不仅计算量大,而且会影响分类的精准性。这里采用竞争性自适应重加权算法(Competitive Adaptive Reweighted Sampling,CARS)方法从432个波长变量选取特征波长变量。本文中,CARS的初始化参数设置为:最大主成分数A=10,交叉验证组数K=10,最大蒙特卡洛(Monte Carlo,MC)采样运行次数N=50。如图2所示,随着MC采样运行次数的增加(图3a),被筛选出来的变量数逐渐减小,而交叉验证均方根误差(RMSECV)出现先降低会升高的趋势(图3b)。在第24次采样时(图3c),RMSECV值最小,随后开始回升,表明此时筛选出的波长变量数最优,共31个波长变量。如图3d所示,优选的31个波长变量包含了大部分图1所示的特征吸收峰值。

图3 基于CARS的近红外光谱特征变量筛选Fig.3 Feature variable selection of NIR spectra based on CARS

由于SVM模型参数将极大影响模型的预测正确率,因此需要寻找最优的惩罚因子C与核函数参数γ。本次研究中,网格寻优算法(Grid Search,GS)被用来获得最优的C和γ,并建立相应的SVM模型。最优的C和γ通过交叉验证准确率的大小来确定,如图4a所示,当C=256,γ=3.03时,训练模型可以得到最优的交叉验证准确率为98.68%。在优化参数情况下,将所建SVM模型作用于验证集得到的混淆矩阵如图4b所示,可以看出鱼皮明胶有一个样品被错误分成牛骨明胶,使得验证集的总体准确率为98.55%(68/69)。根据验证集混淆矩阵得到的4个模型评价指标值如表1所示,可以看出验证集的平均准确率、精确率、召回率和F1-score均高于98%,表明SVM模型对于5种不同来源的明胶具有较好的识别能力。

a.基于GS方法的SVM模型参数的优化;b.基于SVM模型的验证集混淆矩阵。a.Parameter optimization of SVM model based on GS method; b.Confusion matrix of validation set based on SVM model.

表1 基于验证集混淆矩阵的SVM模型评价指标Table 1 The evaluation indicators of SVM model based on confusion matrix of validation set

2.2.2 RF模型 RF模型建立过程中,由于随机森林所包含的决策树个数ntree和构建决策树分支时随机抽样的变量个数mtry这两个参数影响RF模型的准确性,需要选择合适的ntree和mtry以有效降低模型的预测错误率。ntree和mtry值对RF模型性能的影响可以由袋外(Out of Bag,OOB)错误率和预测准确率确定,通常情况下,ntree值越大,OOB错误率越稳定,但运行时间越长;mtry越大,OOB错误率越低。默认情况下,ntree的值为500,mtry的取值范围在1到m之间,其中m为数据集变量个数的平方根。如图5a所示,随着决策树个数增加,OOB错误率逐渐减小,当ntree超过200以后,OOB误差率基本保持稳定。综合考虑ntree值对OOB错误率稳定性和运行时间的影响,本文中选择默认值500作为ntree的最优值。当ntee=500时,随着mtry值的增加,RF模型的准确率和运行时间变化如图5b所示,可以看出当mtry=8时,RF模型获得最高的准确率和较少的运行时间。

a.RF模型中决策树个数ntree的优化;b.最优决策树个数ntree=500时,RF模型变量个数mtry的优化。 a.The optimization of ntree in RF model; b.The optimization of mtry in RF model when ntree is 500.

本研究采用平均精确度下降(Mean decrease accuracy)和平均基尼指数下降(Mean decrease of Gini index)来判断波长变量中的特征重要性,某一变量的这2个参数值越大,表明该变量的重要性越大。如图6所示,可以判断出RF模型中重要性较大的波长基本包含了图2所示的特征吸收峰值。

图6 RF模型中的波长变量重要性 Fig.6 Wavelength variable importance of RF model

以ntree=500,mtry=8作为最优参数建立随机森林模型,获得的验证集预测结果如图7所示,从混淆矩阵中可以看出,有两个明胶样品被错误分类,其中一个猪皮明胶样品被错误识别为牛骨明胶,一个鱼皮明胶样品被错误识别为牛皮明胶,使得RF模型的总体准确率为97.1%(67/69)。根据验证集混淆矩阵得到的4个模型评价指标值如表2所示,其平均准确率、精确率、召回率和F1-score均高于96%,表明RF模型的识别能力稍微弱于SVM模型,尽管如此,RF模型也展示了较好的明胶识别能力。

图7 基于RF模型的验证集混淆矩阵Fig.7 Confusion matrix of validation set based on RF model

表2 基于验证集混淆矩阵的RF模型评价指标Table 2 The evaluation indicators of RF model based on confusion matrix of validation set

a.BPNN模型隐含层节点数的优化;b.基于BPNN模型的验证集混淆矩阵。a.Optimization of the number of hidden layer nodes in BPNN model; b.Confusion matrix of validation set based on BPNN model.

2.2.4 3种识别模型的比较 研究结果表明,利用SVM、RF和BPNN这3种识别模型均能较好的进行明胶品种溯源分析,其验证集的总体正确识别率分别为98.55%、97.1%和100%。图9所示为3种识别模型的比较,从图9a所示的分类模型效果评估指标可以判断出BPNN模型要明显优于其他两种模型,能够实现对5种不同来源明胶样品的完全识别,而SVM模型要优于RF模型。图9b所示为3种模型的运行时间(或运算速度),可以看出BPNN模型的运算速度(2.4 s)同样优于其他2种模型,而RF模型的运算速度要由于SVM模型。因此,从分类模型的准确率、精确率、召回率、F1-score和运算速度等方面来分析,BPNN模型均展现出了最优的识别性能。

a.评估指标的比较;b.运行时间的比较a.Comparison of evaluation indicators; b.Comparison of run time

3 结论

针对目前食品工业中存在的不同来源食用明胶难以区分问题,本研究采用近红外光谱测量装置获得5种不同来源明胶样品的近红外吸收光谱,通过SG平滑去噪和最大最小归一化方法进行预处理,采用3种机器学习方法建立分类模型研究明胶品种溯源的可行性。研究结果表明,这3种识别模型对不同来源食用明胶均具有较好的识别能力,验证集的总体正确识别率均达到97%以上,相比之下,BPNN模型具有最优的识别效果,其验证集总体正确识别率为100%,能够实现对5种不同来源明胶样品的完全识别,而且其运算速度最快。与传统方法相比,近红外光谱技术简单、便携、成本低、无需复杂的样品处理,可以实现无损快速检测。此外,本研究采用3种有监督学习方法进行明胶识别,可以获得更好的识别精度。因此,本研究中近红外光谱技术结合机器学习方法用于快速准确地实现食用明胶品种溯源是完全可行且有效的。该研究方法也可以用于食用明胶的质量检测和掺假研究中,同时也为其他食品或添加剂的安全检测提供了研究思路。

猜你喜欢
明胶光谱来源
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
将来吃鱼不用调刺啦
基于3D-CNN的高光谱遥感图像分类算法
您真的了解明胶吗?
工业明胶来袭,凉粉还能放心吃吗?
如何辨别注胶虾
图表
被滥用的工业明胶
图表