荣菡,甘露菁,王磊
(北京理工大学珠海学院 材料与环境学院,广东 珠海 519088)
茶油含有丰富的单不饱和脂肪酸,具有清理血栓,调节血脂,促进神经细胞发育,抗炎等重要功效,具有较高的营养价值,市场售价较高。在茶油的掺伪中,多见掺入大豆油、菜籽油、棕榈油等较低价位的植物油以谋取经济利润,植物油掺伪检测的方法主要有油脂质量特征的理化检验法、气相色谱法、电子鼻技术、核磁共振技术等[1,2]。特别是根据掺伪油与茶油脂肪酸组成特征差异的不同,一般采用气相色谱等仪器分析法,存在着耗时较长,需要进行甲酯化预处理,大批量样品实时检测效率不高等问题[3]。
近红外光谱技术作为一种快速、无损、绿色、环保的分析技术,常与化学计量学结合,在调味品成分的定量检测与品质评价中有所应用[4,5]。然而,在掺伪油脂肪酸组成与茶油较为相似的植物油掺伪体系中,特别是掺伪油含量较少时,通过脂肪酸组成指标加以鉴别难度加大。本研究采用近红外光谱技术与自组织特征映射网络联用,面对与茶油脂肪酸组成较相似且含量较低的橄榄果籽油和花生油掺伪,模型稳健,模型识别准确率的结果令人满意,能够为食用油掺伪的快速判别提供一种新思路。
本研究的创新性在于:一方面,自组织特征映射神经网络是一类无教师的自学习型网络,对于散乱复杂的数据,有着更高的精度和稳定性,常被应用于地质测绘、电力能源、环境、工程、计算机等领域,在食品领域并不多见;另一方面,在食品领域,相比于基于线性系统常规的定性判别方法,如SIMCA法、簇型聚类分析法、偏最小二乘法等[6-10],而自组织映射网络拥有高度发达的连接神经元,在种类鉴别和模式识别方面更具有先进性和预测准确度。
食用油:茶油(产自湖南、江西、广西、贵州、广东);橄榄果籽油(产自广东、福建);花生油(产自广东、江西、四川),经过纯度鉴定为纯正油,均由珠海出入境检验检疫局技术中心提供。
1.2.1 仪器
傅里叶变换拓展近红外光谱仪及近红外光纤探头 美国Thermo Nicole公司。
1.2.2 软件
OMNIC 7.0、TQ 7.0、Matlab软件。
掺有橄榄果籽油、花生油的掺伪油,分别按照掺伪油含量浓度为5%、10%、15%、20%、25%、30%、35%、40%的梯度进行配制。获得掺伪油两种,每种掺伪油样品每个梯度取6个平行样,共配制成96个样品。
实验采集和配制样品时,按统计科学性原则,剔除奇异点后,样品分为校正集样品156个,预测集样品30个。
茶油与掺伪油样品充分混合均匀,置于专业近红外光谱测试室的适宜条件下,进行光谱采集。
石英杯装约占容积1/4的样品,保证样品液面高于5 cm,将近红外光谱光纤头插入样品中,每个样品采集6次谱图,取其平均光谱参与建模,扫描条件为:PbS检测器,白光光源,增益为1.0,动镜速度为0.6329,扫描范围为4200~10000 cm-1,扫描次数为72次,分辨率为8 cm-1。
样品谱图见图1。
图1 茶油与掺伪茶油的近红外谱图Fig.1 The NIR spectra of camellia oil and adulterated camellia oil
由图1可知,茶油与掺伪油谱图无明显差异,因此难以用常规检验的方法加以区分。
样品光谱矩阵经过PLS法进行降维处理,用各光谱的成分得分计算马氏距离。用TQ Analyst 7.0 软件分析,根据主成分得分向量描述的两个样本i和j 间,计算马氏距离:
式中:m为主成分个数;λl,λ2,… λk为样本光谱协方差矩阵的特征值。
采用光谱分析软件OMNIC 7.0将训练集光谱转换成数据,用偏最小二乘法(PLS)对原始数据压缩,提取主成分。将前11个主成分得分作为网络输入向量,利用Matlab软件中的newsom函数创建一个SOM神经网络,格式为:
Net=newsom(PR,[d1,d2,…])。
其中,PR为输入向量,[d1,d2,…]表示网络竞争层的位数,网络结构是可以调整的,本文以三类油(两种掺伪油和一种纯正茶油)为输出目标,所有样本参与训练,优化输入层和竞争层,以构成神经网络。
采用PLS法对样品原始光谱数据进行压缩处理后,在最大程度代表样品信息的基础上,将光谱数据降维,有效降低网络输入向量的规模并消除自变量间自相关性,改善数据的可靠性,提高模型的预测精度。样品光谱数据经PLS处理后主成分贡献率得分见表1。
表1 偏最小二乘法处理后主成分贡献率信度得分情况Table 1 Principal component contribution ratio reliability score after partial least squares method %
由表1可知,当提取11个主成分时,累计贡献率信度得分达99.014%,几乎可涵盖样品所有信息。
建模时,训练集是否能代表样品的基本信息对模型预测的精确度有显著影响。实验对全部样品的光谱数据矩阵进行分析后,得主成分矩阵的得分结果,训练集和预测集样品的分布见图2。
图2 样品的分布图Fig.2 The distribution map of samples
由图2可知,校正集和预测集样品分布均匀,说明所选择的训练集样品符合科学统计得以建模的原则,能最大程度地代表所有样品的信息,作为建模主要的基础条件。
光谱数据的数学预处理能够使基线漂移,光程的变化对光谱响应所产生的影响降到最低。常用到的数学预处理方法一般有一阶微分、二阶微分、Savitzky-Golay滤波平滑、Norris Derivative滤波平滑、多元散射校正(MSC)以及矢量归一化(SNV)等。
采用不同的光谱预处理方法建模时,马氏距离聚类分析模型对样品的判别准确率结果见表2。
表2 经不同预处理方法处理的模型对掺伪茶油的判别准确率Table 2 The discriminant accuracy of the model processed by different pretreatment methods for adulterated camellia oil %
由表2可知,经过一阶导数处理结合SNV和Norris Derivative滤波处理后,采用马氏距离聚类分析对掺伪茶油预测集的判别准确率为83.33%。
马氏距离聚类分析对不同掺伪油的聚类距离的结果见表3。
表3 马氏距离分析法对不同种类掺伪油模型的预测结果Table 3 Prediction results of different kinds of adulterated oil models by Markov distance analysis method
可以看出模型对掺伪花生油的茶油判别无误,但误判样品多集中于掺伪橄榄果籽油和纯正茶油之间,说明采用马氏距离法聚类对于脂肪酸组成较为接近的植物油,仍有一定的局限性。
自组织映射神经网络的竞争层结构非常重要,结构太小会使训练效果不好,或训练出来的网络模型容错性差、不能识别没有见过的样本;竞争层结构过大会导致学习时间过长,误差较大。在建模过程中,常常综合样本数量、掺伪体系的复杂性、设计者的经验,经过多次实验检验确定最佳竞争层单元。本实验经过[10×5]、[30×5]、[50×5] 3个结构层的参数调试,最终发现竞争层结构为[30×5],训练744步时,网络训练完成,预测误差较小,网络训练过程见图3。
图3 自组织映射网络的训练过程 Fig.3 Training process of self-organizing mapping network
采集纯正茶油和掺伪茶油样本,在自组织映射神经网络中,利用Matlab软件函数train和仿真函数sim对网络进行训练仿真和模式识别。自组织映射网络的拓扑结构的权重见图4,可以看出网络的神经元排列合理,在不同空间区域将样品清楚地分为三类。
图4 自组织映射网络拓扑结构的权重分布Fig.4 Weight distribution of topological structure of self-organizing mapping network
样品光谱经PLS处理后,取前11个主成分的84个吸收峰数据作为输入向量,竞争层结构为[30×5]、训练步数为744步时,建立掺伪茶油模式识别的神经网络,以三类预测指标作为输出。
自组织映射神经网络模型对预测集样品的模式识别结果见表4,以Ⅰ、Ⅱ、Ⅲ分别代表两类不同掺伪茶油和一类纯正茶油,预测结果令人满意。其中掺伪花生油和不同产地的纯正茶油全部识别正确;掺有橄榄油果籽油2例(含量为0.5%时)被错判为纯正茶油,全部预测集样品的正确识别率为93.33%。
表4 自组织映射神经网络对预测集样品的模式识别结果Table 4 Pattern recognition of predictive set samples by self-organizing mapping neural network
实验以茶油中掺假不同浓度的橄榄果籽油、花生油为对象,比较了基于因子分析的线性体系的马氏距离聚类分析法和解决非线性系统的自组织映射神经网络,探究近红外光谱技术以实现茶油掺假油的快速鉴别方法。结果发现:马氏距离聚类分析尽管通过化学计量学的方法提取主成分,从自变量矩阵和因变量矩阵中有效降维,但作为类模型基础上“线性模式识别方法”,面对脂肪酸结构组成相似的对象,具有一定的局限性,识别准确率效果一般。
自组织竞争网络作为一种无教师学习的神经网络,在掺伪油体系中各组分的含量和光谱吸光度之间存在着非线性关系的情况下,突出了自学习、自组织、自适应和容错能力的优势。特别是经PLS处理后,将样品光谱吸光度、组分含量的主成分、权重值纳入输入向量的考核标准,能够为建模提供重要的参考依据,在网络训练时,可减少迭代次数,跳出局部最少的弊端。同时,采用近红外光谱也应考虑技术检测限的限制,当掺假物浓度含量高于近红外光谱检出限时方能取得较好效果。