基于多频大幅脉冲电子舌测定对虾中的焦亚硫酸钠含量

2022-03-04 04:53张小军梅光明何鹏飞
中国食品学报 2022年2期
关键词:拐点特征值极值

郁 城, 张小军, 梅光明, 方 益, 何鹏飞*

(1 浙江海洋大学食品与药学学院 浙江舟山316022 2 浙江省海洋水产研究所 浙江舟山316021 3 浙江省海水增养殖重点实验室 浙江舟山316021)

对虾等甲壳类海洋动物味道鲜美, 优质蛋白及微量元素等营养要素丰富,深受消费者喜欢,是重要的经济类水产品。 2020年我国甲壳类海洋捕捞产量达191.79 万t,海水养殖产量达174.38 万t[1]。高水分及高蛋白使对虾等甲壳类极易因微生物污染而发生腐败变质; 同时大量高活性多酚氧化酶也易催化酪氨酸系列生化反应, 产生类黑素等物质,造成虾体变黑[2]。 为减缓腐败变质及黑变的发生, 渔民常将虾粉作为保鲜剂添加到甲壳类水产品中。

Na2S2O5是虾粉中的主要成分, 属强还原剂,可抑制氧化酶活性和破坏发色基团, 阻断微生物生理生化过程,有效控制水产品的褐变和变质。然而,使用Na2S2O5造成的SO2或亚硫酸盐残留可能引发健康风险[3]。《食品安全国家标准 食品添加剂使用标准》(GB 2760—2014) 规定水产品中Na2S2O5的使用仅限于海水虾蟹类及其制品,最大使用量为0.1 g/kg(以SO2残留量计)[4]。 亚硫酸盐的检测方法有离子色谱法、蒸馏滴定法、盐酸副玫瑰苯胺比色法、 重量法等, 这些方法具有操作复杂、 受蛋白等基质干扰大或试剂毒性大等不足[5],快速简便的新型测定方法近年来受到日益关注[6]。

电子舌(ET)是基于与味觉感知系统相似的原理, 以交互敏感传感器阵列为基础的现代化分析检测仪器。利用ET 测定溶液总体性质差异并结合主成分分析(PCA)、偏最小二乘法(PLS)、主成分回归分析(PCR)、人工神经网络(ANN)等多元数理统计方法进行分析, 已成功应用于食品领域中的综合品质评估以及成分含量测定等方面[7-8]。 多频大幅脉冲电子舌是在伏安型电子舌基础上进一步改进的新型电子舌技术, 不仅具有常规电子舌的操作简便、灵敏度高等特点,还具有检测信息更为丰富、全面的优点[9]。 多频脉冲电子舌在Na2S2O5添加量测定中具有良好的应用前景。

本文以南美白对虾(Penaeus vanname)为研究对象,对基于多频脉冲电子舌测定Na2S2O5添加量的方法进行探索。 利用多频脉冲电子舌测定对虾提取液性质差异,以极值点、拐点以及极值点融合拐点为信号特征数据集, 结合PCA、PLS、ANN以及PCR 等方法进行统计分析,通过分析评估不同方法在定性判别和定量预测中的性能表现,考察多频脉冲电子舌在Na2S2O5添加量测定中的可应用性并确定合适的特征数据集及数理统计方法。

1 材料与方法

1.1 材料与试剂

新鲜南美白对虾购自舟山老砌菜场, 洗净去虾头取尾部可食部分。焦亚硫酸钠(Na2S2O5)、乙醇等试剂均为国产分析纯级, 国药集团化学试剂有限公司。

1.2 主要仪器

多频大幅脉冲伏安电子舌, 采购自上海昂申智能科技有限公司。 传感器阵列由6 根金属工作电极Pt、Au、Pd、Wu、Ti、Ag(下分别称之为S1、S2、S3、S4、S5、S6)、 充满饱和KCl 溶液的参比电极(Ag/AgCl)和辅助电极构成。

1.3 样品前处理

模拟虾粉添加过程,添加适量Na2S2O5,制备5个添加量的对虾样本(0.0,0.2,0.8,1.6,3.2 mg/g)。为进行电子舌信号采集, 试样使用20%乙醇水溶液进行提取,具体操作如下:不同添加量对虾样本分别搅碎、混匀,然后准确称取2.00 g 样品于50 mL 离心管中,每个添加量做9 个平行样。 离心管中加入20 mL 20%乙醇水溶液, 室温下涡旋提取2 min 后,离心10 min (10 000 r/min),取15 mL 上清液转入20 mL 烧杯中,待上机测试。

1.4 多频大幅脉冲电子舌的参数设定

设置电压变化范围为-1.0~1.0 V,步进幅度为0.2 V,脉冲频率为1,10,100 Hz。 为使测量信号稳定, 测定前使用0.01 mol/L KCl 溶液对电极预热活化,同时每次测定前均进行预检。

1.5 电极组合优化

将6 个工作电极及其频率按如下方式进行不同的组合:每个组合至少选择1 个电极,每个电极每次仅选择1 个频率。 以极值点融合顶点为特征值提取每个电极组合的特征数据进行主成分分析,计算无重叠情况下的鉴别指数DI 值(Discrimination index)[10], 筛选出DI 值最大的工作电极及其频率组合, 在尽量保证有效信息的前提下减小数据量并去除冗余信息。

无重叠情况下DI 值的计算公式如下:

式中,Si——主成分得分图中平行样品组构成的多边形面积,cm2;S总——主成分得分图中所有样品构成的多边形面积,cm2。

1.6 特征值提取

如图1 所示, 选择极值点和拐点为多频脉冲电子舌的特征信号,构建极值点、拐点、极值点融合拐点3 组特征值数据集, 并分别进行PCA、PCR、PLS、ANN 等后续处理分析。

图1 多频脉冲电子舌特征值示意图Fig.1 Schematic diagram for feature value from multifrequency pulse electronic tongue

1.7 主成分分析

PCA 是通过数据变换, 利用少数线性无关的综合变量解释原多重共线性变量的主要信息,从而实现数据的降维及无监督分类[11]。 将上述3 组特征值数据集分别进行PCA,应用R 软件(3.6.0)通过奇异值分解法求解主成分, 并绘制前两个主成分的主成分得分图, 探索各特征值的分布规律及对不同含量Na2S2O5对虾的区分效果。

1.8 定量预测模型的构建

特征数据集按照Na2S2O5含量分层抽样,随机选取约70%的数据作为模型训练集, 其余为模型测试集。 比较评估PLS、PCR、ANN 3 种模型构建方法在不同特征数据集中的性能表现, 选择合适的特征值及预测模型。 PLS 和PCR 采用R 软件(3.6.0)中的pls 包来完成[12],采用交叉验证方法选择最佳因子数,防止模型过拟合。应用单隐藏层的前馈型神经网络构建ANN 模型[13],采用误差逆向传播方法调整神经元权重, 优化选择合适的神经元个数。 ANN 采用MATLAB 2016a 来完成。 以均方根误差(RMSE)和相关系数R2为指标确定模型性能,RMSE 越小,R2越大,说明模型性能越好[14]。

RMSE 和R2计算公式如下:

2 结果与分析

2.1 最优电极组合

对所有可能的电极组合, 以极值点融合拐点为特征值分别进行主成分分析并计算DI 值,按DI 值由大到小进行电极组合排序,部分结果见表1。其中,(S1_1 Hz_S2_100 Hz_S3_10 Hz_S6_100 Hz)为DI 值最大的电极组合,同时电极数也更少,因此最优电极组合为Pt(1 Hz)、Au(100 Hz)、Pd(10 Hz)和Ag(100 Hz)。

表1 电极组合及其DI 值的部分结果Table 1 The partial results of electrodes combinations and their DI value

2.2 不同特征数据提取方式的区分效果

在最优电极组合的基础上,以极值点、拐点、极值点融合拐点3 种方式提取特征值并分别应用主成分分析进行数据降维。 主成分分析便于抓住主要矛盾,揭示变量之间的规律性,使问题简化,提高分析效率, 广泛应用于高维数据的定性评估和探索性分析中[15-16]。 主成分累计方差贡献率达85%以上表示说明了原始数据的主要信息[17]。

极值点特征值第1 主成分(PC1)的方差贡献率达93.59%,说明其含有大量的冗余信息,存在明显的共线性; 拐点特征值前5 个主成分的贡献率分别为49.31%,22.70%,6.55%,5.83%和2.49%,累计达86.88%;极值点融合拐点特征值前3 个主成分的贡献率分别为68.72%,14.74%、3.91%。3 个特征数据集均仅用少数几个主成分即可解释原有数据的主要差异,数据降维效果明显。进一步利用第1 主成分 (PC1) 和第2 主成分(PC2)绘制主成分得分图(图2),比较3 种特征值对不同Na2S2O5添加量对虾样品的区分效果。极值点为特征值时, 除0.0 mg/g 和0.2 mg/g 两个添加量之外的其余添加量组相互之间距离接近甚至重叠,不能达到有效区分的要求(图2a);拐点以及极值点融合拐点的结果相似, 各添加量的样品点分布相对集中而且不同添加量之间可实现完全有效的区分(图2b 和2c)。 此外,0.0 mg/g 添加量组在距离上明显区别于其余添加量组样品, 表明添加以及未添加Na2S2O5的对虾样品之间存在明显差异, 而应用拐点值以及极值点融合拐点为特征值均可实现两者的有效区分。总体而言,电子舌信号在不同Na2S2O5添加量之间存在明显差异,不同特征值的区分效果为拐点最优,极值点融合拐点次之,极值点最差。

图2 主成分分析中前2 个主成分的得分图Fig.2 The score plots of the first two principal components from PCA

2.3 定量预测模型评估结果

2.3.1 主成分回归预测模型 采用主成分回归方法对极值点、拐点、极值点融合拐点3 种方式提取的特征值分别建立对虾中Na2S2O5添加量的定量预测模型。 依据留一法交叉验证确定了3 个特征数据集的主成分回归模型的最佳主成分数分别为11,9 和12, 对应模型分别记为PCR1、PCR2、PCR3(表2)。 训练数据集中3 个模型的预测均方根误差RMSE(TR)在0.121~0.161 且相关系数均在0.980 以上, 表明3 个模型在训练集样本均具有良好的预测性能。 图3a、3b 和3c 也直观地显示了3 个模型在训练集中对各添加量的预测值分布集中,预测值与实际值的拟合曲线与1∶1 线几乎重合,模型对训练集数据拟合良好。

训练集结果表明了模型对已知数据的预测性能,对未知数据的预测能力则应用测试集进一步验证以判断模型预测性能优劣。 相较于训练集结果,PCR1 测试集均方根误差RMSE(TE)增加至0.364,相关系数减小至0.902,表明了PCR1 的泛化能力较差。 图3d 中预测值和实际值拟合曲线明显位于1∶1 线上侧, 表明PCR1 在测试集中的预测结果总体偏大。 PCR2 测试集均方根误差RMSE(TE)为0.185,相关系数R2(TE)为0.975,同时图3e 显示了PCR2 在测试集的预测值分布相对集中且与实际值的拟合曲线与1∶1 线几乎重合,表明PCR2 具有较好的泛化能力。 表2 以及图3f中的结果表明了PCR3 的泛化能力介于PCR1 和PCR2 之间。综上,对于Na2S2O5添加量的主成分回归预测模型,采用拐点提取特征值的结果最佳,极值点融合拐点次之,极值点最差。

表2 不同特征值定量回归模型的性能Table 2 The performance of quantitative regression model from different feature value

图3 PCR 模型预测值-实际值相关图Fig.3 The correlation diagram of predicted values of PCR model vs measured values

2.3.2 偏最小二乘预测模型 以极值点、拐点、极值点融合拐点3 种特征值为预测变量, 分别采用偏最小二乘法建立定量预测模型并应用留一法交叉验证选择确定最优模型因子数。 3 种特征值分别在因子数7,5,7 时得到最优偏最小二乘预测模型, 分别记为PLS1、PLS2、PLS3。 从表2 中可知,PLS1、PLS2、PLS3 的训练集RMSE(TR)在0.133~0.155 范围,R2(TR)均大于0.98。图4a、4c 和4e 显示3 个偏最小二乘模型训练集预测值集中分布于1∶1 线两侧, 和实际值的拟合曲线与1∶1 线基本重叠。 训练集结果表明了3 个模型对训练集样本均拟合良好。 测试集结果中:PLS1 的RMSE(TE)和R2(TE)分别为0.311 和0.928,预测值和实际值拟合曲线明显偏离1∶1 线(图4b),表明PLS1 在测试集中的预测稳定性和准确性均较差,泛化能力一般;PLS2和PLS3 两个模型的泛化性能相当,RMSE(TE)均在0.180 左右且R2(TE)均大于0.97,而预测值和实际值相关图则显示了PLS3 的预测性能略差于PLS2,然而两者均显著优于PLS1。

图4 PLS 模型预测值-实际值相关图Fig.4 The correlation diagram of predicted values of PLS model vs measured values

2.3.3 人工神经网络预测模型 采用BP 神经网络建立以3 种特征值为预测变量的Na2S2O5添加量预测模型,3 种特征值的单隐藏层神经网络预测模型均在神经元个数为6 时最佳, 分别得到最优模型ANN1、ANN2 和ANN3。 根据表2 中训练集RMSE(TR)和R2(TR)以及图5a、5c、5e 中预测值与实际值的关系可知,3 个神经网络模型均很好地解释了训练集中Na2S2O5添加量与特征值之间的关系。此外,测试集结果表明3 个模型均具有较小的RMSE(TE)和超过0.99 的R2(TE),预测值均分布于1∶1 线附近(图5b、5d、5f),说明它们均具有较好的泛化性能,可用于Na2S2O5添加量的实际预测。

图5 ANN 模型预测值-实际值相关图Fig.5 The correlation diagram of predicted values of ANN model vs measured values

3 讨论

多频脉冲伏安型电子舌通过施加不同频率电压并测定电流信号来采集样品信息, 单个电极电流信号图如图1 所示。 单个电极在单次测定中产生的数据点多达52 万个,6 个电极产生的数据量则可达312 万个。 大量冗余信息及噪音不仅使模型构建复杂化, 而且也大大降低了模型的准确性和稳健性[18-19]。特征选择是减少冗余和噪音数据的关键步骤,而极值点(极大值和极小值)和拐点是伏安型电子舌中提取主要特征信息的常用手段[20-21]。本文以极值点、 拐点以及极值点融合拐点为特征值数据集, 单个电极单个频率下的数据点分别降至20,20,40 个,结合优化电极组合,大大简化了数据处理分析的工作量。

主成分分析的探索性分析结果暗示了Na2S2O5可通过构建回归模型实现定量预测,本文采用了PCR、PLS、ANN 3 种方法构建定量预测模型并进行比较分析。 PCR 和PLS 均是基于数据降维的思想建立回归模型, 在高维复杂数据中有广泛的应用[22-24];两者之间不同之处在于PCR 中数据变换为无监督的, 而PLS 的数据变换与因变量相关[25]。相较于PCR 而言,PLS 模型性能更优且所需因子数更少, 说明了部分变量尽管方差较小却与Na2S2O5添加量密切相关。类似于主成分分析结果, 主成分回归和偏最小二乘回归对极值点建立的回归模型表现一般。 ANN 可映射非线性关系,近年来常被应用于构建复杂的回归模型[26-27]。ANN在3 个特征集中的表现均优于PCR 和PLS, 揭示了特征变量,尤其是极值点特征与Na2S2O5含量间可能存在非线性关系。综合而言,对于特征值的选择, 拐点在定性定量分析中均具有良好表现而且数据量为极值点融合拐点的一半; 对于模型构建方法,RMSE 和R2结果显示了应用ANN 构建的预测模型的性能为最佳。 以拐点为特征值构建人工神经网络模型同时兼顾了数据量大小和模型预测性能。

电子舌通常用于溶液的整体性质分析[28],本研究使用20%乙醇溶液进行提取。 应用多频大幅脉冲电子舌采集提取液信号, 以拐点为特征值建立的ANN 模型在测试集中得到的RMSE(TE)为0.106,R2(TE)为0.996,可实现对虾中Na2S2O5含量的有效定量预测。食品中Na2S2O5的传统检测方法多需经过加热蒸馏释放SO2后进行滴定, 操作繁琐耗时[5]。多频大幅脉冲电子舌测定方法具有操作简便快捷的特点, 在高通量检测中具有潜在的应用前景。本研究为食品中Na2S2O5的检测方法开发提供了新的思路。

猜你喜欢
拐点特征值极值
利用LMedS算法与特征值法的点云平面拟合方法
极值(最值)中的分类讨论
极值点带你去“漂移”
单圈图关联矩阵的特征值
极值(最值)中的分类讨论
极值点偏移问题的解法
水产养殖拐点已至!
凯莱图的单特征值
中国充电桩行业:拐点已至,何去何从?
新能源将成车市新拐点?