付 硕,刘淑梅,张金龙,张晓瑞,韩方凯
(1.安徽创佳安全环境科技有限公司,安徽宿州 234000;2.江苏大学,江苏镇江 212013;3.宿州学院,安徽宿州 234000)
致腐菌导致食品腐败变质,易产生有害物质,如小分子含氮化合物组胺等,直接威胁食品安全。因此,对食品中微生物污染状况的监测,对保障膳食安全极为重要。活菌总数(Total Viable Counts,TVC)是定量描述食品微生物污染状况的指标。然而TVC 的常规检测方法,即平板计数法通常需要经过48 h 的摇床培养,待平板上微生物生长、繁殖成可观察的菌落后,再对菌落进行计数,经过换算,得到最终结果。平板计数法耗时、费力[1],无法快速反映食品微生物污染状况,以及时调整食品保藏、销售、加工等策略。
常见的食品快速检测方法,如电子舌[2]、电子鼻[3]等智能仿生检测方法以及近红外[4]、高光谱[5]等光谱学检测方法等,均已应用于不同种类食品保藏期间TVC 的定量预测。然而,这些方法得到的电化学传感器或光谱学信号,受食品基质干扰严重[6],因此建立快速检测方法所得到的传感器信号与TVC之间精确度较高的定量预测模型,成为食品快速检测方法应用于生产实际的限制性因素之一。基于此,本研究以最常见的金属氧化物半导体型电子鼻传感器数据为输入,对比采用偏最小二乘法(Partial Least Squares Regression,PLS)和快速人工神经网络极限学习机(Extreme Learning Machine,ELM)算法构建牛肉贮藏期间TVC 快速定量预测模型的精确度,以期推进食品快速检测技术在食品生产实际中的应用。
本研究数据来源于DEDY 等[7]于2018 年发表在《Data in Brief》的数据论文。所用的电子鼻系统是基于金属氧化物半导体型气敏传感器阵列,该系统包含9 根MOS 传感器。电子鼻试验在密闭样品室下持续36 h,每分钟采集1 次传感器信号,共计得到2 160 组电子鼻传感器阵列数据。样品共5 组,最终得到5×2 160 行9 列的数据矩阵用于本研究的模型构建。电子鼻试验期间,牛肉样品的TVC 从3 lgCFU·g-1以下(微生物污染程度轻微)增殖到近5 lgCFU·g-1(微生物污染程度严重)。图1 展示出所有样品在电子鼻测试期间传感器数据及TVC 数值,包含原始数据及归一化至[0,1]后的数据。
图1 模型构建所用电子鼻传感器阵列数据及牛肉活菌总数数据
研究以电子鼻传感器所有数据为输入,以对应样本TVC 实测值为输出,对比采用线性的PLS 和非线性的ELM 构建基于电子鼻技术的牛肉贮藏期间TVC 定量预测模型。选择ELM 的主要原因是其计算速度显著快于常见的BP-人工神经网络算法[8]。
在模型的构建过程中,随机选取1/3 的样本作为测试集,其余样本作为训练集,且在PLS 和ELM 模型构建过程中保持一致。评估所采用的定量预测模型,本文依赖以下指标。①相关系数(r)。该系数衡量电子鼻预测的牛肉TVC 值与实际值之间的相关性,r值越接近1,证明预测的相关性越高,具体计算方法见式(1)。②预测均方根误差(Root Mean Square Error,RMSE)也作为关键指标,它用于测量电子鼻预测的牛肉TVC 值与实际值的误差程度,RMSE 越低,代表预测精度越高,反之则预测精度较差。
式中:yi和分别为样本集(训练集和预测集)中第i个牛肉样本TVC 的实测值和预测值,lgCFU·g-1;为样本集中所有牛肉样本TVC 实测值的平均值,lgCFU·g-1[9];n为样本数。
式中:yi和分别为预测集中第i个牛肉样本TVC 的实测集和预测值,lgCFU·g-1;n为预测集样本数[9]。
PLS 用于处理多个自变量和一个或多个因变量之间的关系,在解决多重共线性和高维数据问题时优势明显。PLS 通过找到自变量和因变量之间的最大协方差来构建线性回归模型,用于预测未知样本的因变量值。
基于PLS 的基础理念,模型预测能力受到PLS主成分数量的显著影响。因此,在构建PLS 模型过程中,对输入的PLS 主成分数进行优化是必要的。这一优化过程采用了“留一法”交叉验证。这种验证方法的核心思想是将每个样本视为验证集,用剩下的(N-1)个样本来创建PLS 模型,然后运用验证集来检测新构建的PLS 模型,以预测值和实测值误差的均值作为优化PLS 主成分数的指标。如果对应的RMSE 值最小,则认为当前条件下的PLS 模型是最优的。PLS 主成分筛选结果如图2 所示。
图2 不同PLS 主成分下训练集预测误差
从图2 可以看出,当主成分因子数为8 时,PLS模型的RMSE 最低,为0.319 7 lg CFU·g-1。此条件下,PLS 模型训练集和测试集对鱼细菌总数的预测值和实测值之间的相关关系如图3 所示,其测试集相关系数为0.937,预测RMSE 为0.324 lgCFU·g-1。
图3 最佳PLS 主成分下模型预测值与实测值相关关系图
ELM 是一种新型的单隐藏层前馈神经网络算法,具有出色的泛化性能和极快的学习速度。根据ELM理论,对于一个特定的模式识别问题,隐含层的神经元个数和传递函数可供筛选和优化,以获得预测性能较优的预测模型。鉴于人工神经网络隐含层神经元个数优化范围尚无统一范式可供遵循,本研究采用典型的试凑法,设定范围为[1,50],优化ELM隐含层神经元个数。在ELM 隐含层传递函数的筛选上,对比采用3 种典型的函数[8],公式为
图4 显示了在隐含层神经元个数[1,50]范围内,3 种传递函数条件下,ELM 模型训练集和测试集的相关系数。从图4 中可以看出,当选择Sin 函数作为传递函数,且隐含层神经元个数为45 的时候,ELM预测性能最佳,其训练集相关系数为0.976,测试集相关系数为0.972。
图4 不同隐层激活函数及节点数下对ELM 模型训练集和测试集相关系数
最优ELM 模型的基本结构为9-45-1,包含9个电子鼻传感器输入变量,45 个单隐含层神经元,1个样品TVC 预测输出变量。模型训练集和测试集对牛肉样本TVC 的预测值及实测值依样本序号排列结果如图5 所示,此时训练集和测试集的RMSE 分别为0.040 lgCFU·g-1和0.047 lgCFU·g-1,优于PLS 模型。
图5 所建最优ELM 模型训练集和测试集预测值与实测值情况
牛肉富含水分、蛋白质、脂肪等营养成分,极易变质腐败。微生物的生长繁殖是引发牛肉变质的主要原因。微生物生长繁殖过程中,释放出大量的蛋白酶、脂肪氧化酶、过氧化物酶,使牛肉中的蛋白质和脂肪等营养元素分解为低分子化合物。蛋白质会被水解成肽,进而分解成氨基酸。氨基酸经过脱羧化、脱氨化、脱硫化等作用会生成相应的氨、小分子胺、有机酸等。脂质会在水解作用下生成游离脂肪酸、甘油、甘油酯和甘油二酯等。脂肪酸还可以进一步分解成酮酸或酮等[10]。这些产物中的烃类、酮类、醇类、醛类、酸类、酯类、含硫及杂环化合物等是牛肉保藏期间产生挥发性有机化合物的主要成分[11]。电子鼻传感器可以识别食品挥发性成分,进而实现微生物污染状况的间接预测。
从构建的PLS 模型及ELM 模型的预测性能来看,ELM 模型的训练集和测试集相关系数分别为0.976 和0.972,高 于PLS 模 型 的0.938 和0.937,ELM 模型的训练集和测试集的预测误差分别为0.040 lgCFU·g-1和0.047 lgCFU·g-1,均明显低于PLS模型的0.319 7 lgCFU·g-1和0.324 lgCFU·g-1。主要是因为电子鼻传感器信号与预测目标TVC 值之间是非常复杂的非线性关系,这是由电子鼻传感器特性所决定的,即传感器非特异性,且相互之间交互敏感,对食品挥发性物质的敏感性存在一定程度的交叉。ELM 具有出色的自学习和自适应能力,获得的结果优于线性的PLS 算法[12]。
本文研究构建了基于MOS 型电子鼻信号处理的牛肉贮藏期间TVC 定量预测模型。结果表明,非线性的ELM 算法获得的结果较线性的PLS 算法好,其训练集或测试集对样本TVC 的预测值与实测值之间的相关系数均高于0.97,预测误差均低于或等于0.04 lgCFU·g-1。ELM 模型预测精度高,运算速度快,能够满足实际需求,可为牛肉质量安全控制提供借鉴。