李睿雯,孙晓荣,刘翠玲,郭泽翰,田 密
(北京工商大学人工智能学院,食品安全大数据技术北京市重点实验室,北京 100048)
在食品行业中,煎炸工艺应用十分普遍,由于煎炸食物具有香、酥、脆的口感,深受人们欢迎。由于油品在煎炸过程中经过长时间的持续高温加热,会发生一系列的化学反应,包括水解、氧化、聚合、裂解等,持续反复,生成对人体有害的有机化合物[1-2],相比甘油三酯,这些生成物的分子极性更大,被称为极性组分。这些极性组分会严重影响煎炸油本身的品质[3-4],煎炸食品本身的实用口感和营养价值,国家限定标准为27%[5]。目前,测定油脂中极性组分含量最可靠的方法是柱层析法[6-8],是我国相关指标采用,但该标准方法会破坏实验样本,产生二次污染,耗时耗力,技术难度大,因此探究一种快速、无损的检测方法鉴别专用煎炸油的品质具有重要意义。
虽然有许多学者对各种油在煎炸过程中的理化指标变化进行了研究,但对煎炸油的品质质量的检测仍缺乏统一标准和系统的研究[9],对市场煎炸油品质检测的系统研究成果也较少。针对这一问题北京市粮食科学研究院研发出商业专用煎炸油,由棉籽油、大豆油、菜籽油、棕榈油按照10∶5∶3∶2的比例调配,研制的专用煎炸油具有良好的耐炸性,煎炸出的食品色泽以及口感良好,同时该专用煎炸油的最长煎炸时间可长达69 h。
近些年来,拉曼光谱以快速、无损、高效检测的优点广泛应用于食品、农业等领域,且拉曼光谱不需要对样本进行复杂的前操作处理就可以获取物质的大量信息,具有指纹性强的特性,可用于研究物质的结构特征以及组成成分[10-11],同样对定量分析具有较好的效果。
在光谱技术中,神经网络算法在很多定性分析中都有应用,但应用于定量分析研究较少,尤其是在拉曼光谱分析技术中更少。胡军等[12]基于误差反向传播(error back propagation,BP)神经网络的太赫兹时域光谱对面粉中苯甲酸定量检测研究中,建立的预测集相关系数为0.994 5,预测均方根误差(root mean square error of prediction,RMSEP)为0.66。谭琨等[13]针对高光谱数据的特点,设计了有效的特征提取模型,再与径向基函数(radial basis function,RBF)算法神经网络的输入层连接,建立了一个新的高光谱遥感影像分类模型,证明RBF神经网络在高光谱遥感分类中具有较好的适用性。
本实验应用拉曼光谱技术,以不同煎炸时间下的专用煎炸油为样本,采用DXR激光共焦显微拉曼光谱仪采集样本的拉曼光谱,利用卷积(savitzky-golay,S-G)平滑、标准正态变换(standard normal transformation,SNV)、多元散射校正(multiple scattering correction,MSC)、导数法对光谱数据进行预处理,结合偏最小二乘回归(partial least squares regression,PLSR)法、BP算法和RBF算法建立煎炸油极性组分含量的定量分析模型,旨在为实现对专用煎炸油品质快速无损高效的市场监测及系统管理提供技术手段。
专用煎炸油来自北京市粮食科学研究院,分别以棉籽油、大豆油、菜籽油、棕榈油为原料制备的煎炸油,以速冻薯条为煎炸食材,煎炸过程中每小时取样一次,样本极性组分含量由粮科院检测人员GB/T 5009.202—2016《食用油中极性组分(PC)的测定》[14]方法测定,取值范围为8.83%~27%。
采集拉曼光谱硬件设备为DXR激光共焦显微拉曼光谱仪,配合OMNIC软件使用。激光波长780 nm,激光能量20 eV,光栅400 lines/mm,光阑50 mm,分辨率47~87 cm-1,样本扫描次数4 次,采集曝光时间5 s。
在扫描煎炸油样本前,采集实验室内空气光谱为背景光谱,检测光学台内激光,待仪器预热至激光能量趋于稳定值,取少量煎炸油样本于凹槽内,将凹槽放置在10 倍物镜下,调节物镜,调焦载物台的高度,直至油样在显微镜下的成像清晰,煎炸油在10 倍物镜下的成像如图1所示。实验采取面扫描的方法,每次扫描4 个点,每个样品对应扫描出4 条拉曼光谱,取4 个点中能量最高点的光谱用作后续定量分析。
图1 煎炸油在10 倍物镜下的成像Fig. 1 Imaging of used frying oil for French fries under 10 × objective lens
实验采集的83 个煎炸油样本的拉曼光谱图如图2所示,拉曼光谱的波数覆盖了80~3 300 cm-1的范围。可以看到煎炸油的拉曼光谱在不同波数对应不同的拉曼强度,结合已有研究可以指认出部分官能团对应的特征峰,煎炸油的拉曼光谱部分特征峰的指认见表1。煎炸油在食品煎炸过程中产生复杂的极性物质[15-18],如过氧化物,其中羰基和醚键是这种极性物质的重要组成部分。
数据在采集和传输过程中会产生一些干扰,因此有必要对采集的数据进行预处理。如果采集值处于上下限之间,则作为正常数据处理,如果超出正常的分布范围,则表明信号受到干扰,此时应将其限定在合理的范围内。具体公式如下:
图2 煎炸油样本拉曼光谱图Fig. 2 Raman spectra of used frying oil samples
表1 煎炸油的拉曼光谱部分特征峰的指认Table 1 Identification of some characteristic Raman peaks of used frying oil
由于实验过程中测得的光谱容易受到环境影响,仪器振动、噪声等因素会导致光谱发生漂移、色散等现象。选择适合的光谱预处理方法能得到更好的建模效果,适当消除外界因素对光谱的影响。实验中,专用煎炸油样本按照训练集与预测集为8∶2的比例进行样本随机划分,67 份样本作为建模集,16 份样本作为预测集,利用TQ Analyst光谱分析软件对原始光谱进行预处理,导入原始数据,建立了煎炸油中极性组分拉曼全谱PLSR法定量分析模型,选用S-G平滑、SNV、MSC、导数(包括一阶导数、二阶导数)5 种光谱预处理方法,组合成了7 种组合,对煎炸油样本的光谱进行预处理。
实验中定量模型性能采用相关系数R2和RMSEP作为评价指标,从模型的回归拟合度和预测精确度评价模型性能。RMSEP是模型可靠性的评价指标,也是对模型预测能力可靠性的评价。R2代表了模型预测值与样本原特征值的相关程度,其值越接近于1,则代表预测结果越准确,模型的可靠性越高,即预测值与样本真值的差异越小。因此,可以通过评价参数的大小,选择最优的算法,最终确定出效果最优的模型对样本数据进行处理,以达到最好的预测效果。
式中:m为预测集样本个数;yj为训练集第j个样本的真实值;为训练集第j个样本的预测值;为m个训练样本真实值的平均值。
拉曼光谱经预处理结合PLSR法建模结果见表2,预处理后,模型各参数有不同程度变化,经SNV预处理后的建模效果最佳,对消除拉曼光谱检测过程中产生的光程变化起到了一定作用。此时RMSEP为1.18,R2为0.940 4。此时减少了表面散射以及光程变化对漫反射光谱[19-21]的影响,故采用SNV法对光谱进行预处理。
表2 拉曼光谱经预处理结合PLSR法建模结果Table 2 Comparison of PLSR models with different spectral pretreatments
BP算法是一种多层的前馈神经网络[22-24],学习过程由信号的正向传播与误差的反向传播两个过程组成。信息从输入层到达隐含层逐层处理,直至输出层,每一层的神经元只会影响下一层的神经元状态,若输出层得不到预期输出,则转入反向传播,从而根据预测误差调整网络权值和阈值,使得预测的结果不断逼近期望的输出值。实验中,分为以下4 个步骤:
1)特征提取
对实验中得到的数据集采用主成分分析(principal component analysis,PCA)法[25-27]进行特征提取,对3 300 个波数进行优化,得到27 个向量,此时的PCA得分为99%,则提取到的特征能充分、有效地表示原始数据的特征信息。
在BP神经网络数据分析之前,通常需要将数据归一化,利用归一化后的数据进行分析。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价,以防某些数值低的特征被淹没。
3)创建网络
本实验利用3 层BP神经网络建立煎炸油极性组分含量快速检测研究的定量分析模型。输入神经元个数为27 个,为样本经过PCA降维后得到的特征光谱。输出神经元个数为1,表示被检测样本的极性组分的预测值。根据Kolmogorov定理[28]“对于具有一个隐层的3 层BP神经网络,有足够多的隐节点数,就可以实现对任意非线性函数的逼近”,并且3 层BP神经网络结构可以提高网络学习速度,而过于复杂的网络结构表示过多的参数和模型精度的降低,所以选择隐含层层数为1,神经元个数为18的BP神经网络。实验中设置迭代次数为7 000 次,目标误差为10-3,学习率为10。模拟实验中的神经网络结构图如图3所示。
图3 模拟实验中的神经网络结构图Fig. 3 Schematic illustration of neural network structure in the simulation experiment
4)选择算法
建立的BP神经网络参数设定如下:训练函数采用自适应学习率动量因子梯度训练法,输入层与隐含层之间的传递函数是对数S型函数logsig,隐含层与输出层之间的传递函数是正切S型函数tansig。
5)训练网络
网络训练过程中,RMSEP按照式(1)计算,决定系数R2按照式(2)计算。
网络的训练曲线如图4所示,可以看到RMSEP收敛速度快,仅需2 步就能达到预期结果,BP算法得到煎炸油极性组分含量预测结果,测试集样本的预测结果与真实值对比(图5),RMSEP为0.032 6,R2稳定在0.972。此时训练的结果接近期望的输出,可以认为网络找到了输入、输出之间的映射关系。
图4 网络的训练曲线Fig. 4 Training curve
图5 BP算法的预测结果Fig. 5 Prediction results of error back propagation algorithm
RBF神经网络和BP神经网络都属于非线性多层前向神经网络、通用逼近模型,对于每个输入、输出数据对,只有少量的连接权需要调整。鉴于此,采用RBF神经网络进行对比分析预测。训练过程中RBF神经网络的参数设置为均方误差目标为10-3;神经元的最大数目为56 个;RMSEP为0.953 5,R2稳定在0.904,此时测试集样本的预测结果与真实值对比,RBF算法的预测结果如图6所示。
图6 RBF算法的预测结果Fig. 6 Prediction result of radial basis function algorithm
针对两种神经网络算法得到的预测结果不同,为进一步对该技术手段的误判情况进行分析,重新采集30 个新的煎炸油样本的拉曼光谱,采用增加预测样本数据量,对实验数据重新进行分析统计,两种算法建模结果对比如表3所示。
表3 两种算法建模结果对比Table 3 Comparison of results of modeling using two algorithms
对比两种网络对极性组分预测结果,在增加了预测样本数据量后,BP神经网络的RMSEP为0.097 3,R2为0.749,RBF神经网络的RMSEP为0.964 9,R2为0.704,BP的结果明显优于RBF。这是由于两种网络的映射方式有很大区别:BP神经网络的隐节点采用输入模式与权向量的内积作为激活函数的自变量,而激活函数采用Sigmoidal函数[29-31]或硬限幅函数,因此BP神经网络是对非线性映射的全局逼近[32],网络对所有权值进行修正。而RBF神经网络则是使用局部指数衰减的非线性函数对非线性输入输出映射进行局部逼近,网络只修正一小部分权值,其隐节点采用输入模式与中心向量的距离作为函数的自变量,并使用RBF作为激活函数。RBF关于N维空间的中心点具有径向对称性,中心点是在输入样本中选取,而且神经元的输入离该中心点越远,神经元的激活程度就越低。选取的中心点难以反映出系统真正的输入输出映射关系,使得网络的预测结果产生较大的误差。
通过本实验研究结果,验证拉曼光谱在煎炸油中极性组分含量的快速检测有效、可行,建立了煎炸油中极性组分含量定量分析检测模型。通过建立PLSR模型,比较多MSC、S-G平滑和求导的预处理方法,得到SNV法的处理校正效果更好。将SNV处理后的数据建立BP和RBF模型,得到BP神经网络模型的建模效果最佳,RMSEP为0.032 6,R2为0.972。因此,BP神经网络更适用于煎炸油中的极性组分含量检测建模分析,具有精度高和相关度高的特点。本实验探索的基于拉曼光谱的专用煎炸油极性组分快速检测研究,改变了传统耗时耗力、成本较高、易破坏样本的化学分析检测的方法,对极性物质检测具有一定的借鉴意义。