付娟娟 陈春茹 黄珍琳 孙 峰
大米贮藏是食品企业对大米进行加工到消费必不可少的中间环节,贮藏时间与大米口感、价格等直接相关。脂肪酸含量是大米品质评估的重要指标,更决定着大米的市场价格。将复杂耗时的传统方法替换为简单高效的检测方法已成为当前研究的热门话题[1]。
高光谱检测技术是近年来蓬勃发展起来的一种快速检测方法,在食品检测中应用越来越广泛[2]。目前,高光谱成像技术被广泛应用于食品检测,在大米品质检测中主要应用有蛋白质检测、产地检测等[3-4]。罗浩东等[5]提出将高光谱成像技术与主成分分析和支持向量机相结合用于大米产地快速检测,该方法可以实现大米产地的快速无损检测,具有较高的检测准确率。王朝辉等[6]提出结合高光谱成像和偏最小二乘回归检测大米中蛋白质含量,该方法对大米中蛋白质含量分布的可视化研究具有可行性。翁士状等[7]提出一种将高光谱成像技术和深度学习网络相结合的名优大米无损鉴别方法,该方法可以实现名优大米种类的准确鉴别,具有较高的检测准确率。孙俊等[8]提出将高光谱图像、堆栈自动编码器和支持向量机相结合用于大米蛋白质含量检测,该方法可以有效融合深度特征,提高检测的精度。上述方法虽然可以实现大米品质的无损检测,但在实际应用中的检测准确率和效率还有待进一步提高。
相比于传统学习方法,最小二乘支持向量机具有结构简单、精度高、运算速度快等优势,在食品检测中应用广泛,但其参数根据经验选取,增加了计算量和易陷入局部极值。细菌觅食算法具有收敛速度快、求解质量好、搜索能力强等特点。研究拟提出一种应用于大米品质的快速无损检测,将高光谱技术、改进细菌觅食(bacterial foraging optimization,BFO)算法、最小二乘支持向量机(least squares support vector machine,LSSVM)相结合完成大米品质检测。通过改进BFO对LSSVM的正则化参数和核参数进行寻优。并与常规方法进行试验对比分析,旨在为食品质量检测方法的发展提供一定的参考和借鉴。
通过高光谱图像采集系统采集大米高光谱数据,采集系统如图1所示。该系统主要由4部分组成,高光谱相机、镜头、计算机和光源。所测光谱包含477个波段(408.360~1 007.220 nm),系统通过黑箱采集大米图像,降低外部光干扰,但高光谱相机采样存在一定的噪声干扰,为降低噪声干扰,对高光谱采集图像进行图像预处理[9-10]。
图1 高光谱图像采集系统
首先通过高光谱图像采集系统采集不同贮藏月份大米的光谱数据,通过平均中心化(MC)进行数据预处理,通过连续投影算法(SPA)进行大米高光谱特征波长的提取,最后通过改进BFO算法优化的LSSVM模型对脂肪酸含量进行检测。图像采集时设置物距为0.135 m,曝光时间为0.015 s,位移台速度为1.62 mm/s。
为了降低外部噪音等干扰,对采集数据进行预处理,目前应用最广泛的有3种方法:卷积平滑(SG)、平均中心化(MC)、多散射校正(MSC),通过对比分析,选择平均中心化(MC)作为数据预处理方法[11-13]。高光谱数据包括光谱信息和图像信息,数据量庞大,其中既包括贮藏大米脂肪酸信息,也包括不相关的信息。采用SPA进行大米高光谱特征波长的提取(26个波长)[14-15]。
LSSVM是针对支持向量机(SVM)的改进,将目标函数误差的平方项作为优化指标,利用等式约束加快求解速度,达到降低求解难度的目的[16-18]。对于样本(xi,yi),使用与SVM相同的算法理论,构建了LSSVM的目标函数,如式(1)所示。
(1)
式中:
ei——误差;
γ——正则化参数,可控制误差精度;
ω——权矢量。
通过引入Lagrange算子,可转化为:
(2)
进一步求解可得:
(3)
求解线性方程组可得式(4)。
(4)
式中:
I——单位列向量,I=[I1,I2,…,In]T;
K——核函数;
E——单位矩阵,E=[1,1,…,1]T。
基于式(4)可以计算出Ii和b的值,进而可以计算LSSVM模型,如式(5)所示。
y=∑IiK(xi,xj)+b。
(5)
核函数的选择非常重要,通过比较SVM的4种常用核函数,发现RBF核函数可以在大米品质检测中获得最准确的结果。其使用范围非常广泛,采用RBF核函数作为LSSVM模型的核函数。
确定核函数后,LSSVM模型的求解问题可归结为超参数(核函数参数K,正则化参数γ)的选取问题,其中核参数直接影响低维样本数据在映射空间中的分布复杂度,正则化参数与模型对训练样本的拟合情况和模型的推广能力相关。但参数根据经验选取,增加了计算量和易陷入局部极值。BFO算法具有鲁棒性强、搜索能力强等优点,通过改进BFO算法寻优LSSVM核参数和正则化参数。
BFO通过趋化、聚集、复制和迁移来寻找最优解。但其存在适用性不强、易陷入局部最优等缺点[19]。通过两个方面的优化解决上述问题。
(6)
将得到的混沌趋化步长进行降序排序,以确保细菌与周围环境相互作用,自适应地选择趋势化步长,以防止陷入局部最优困境。
(2) 高斯变异操作:在当前细菌群体中的最佳位置Gbest应用高斯变异,生成变异位置GbestG。如式(7)所示。
GbestG=Gbest·(1+Gauss(0,1)),
(7)
式中:
Gauss (0,1)——标准正态分布。
在Gbest的基础上添加高斯分布随机扰动项,不仅可以使细菌摆脱局部最优值并收敛到全局最优值,而且可以提高收敛速度。
利用改进的BFO算法寻优LSSVM模型参数(K和γ)的最优值。大米品质检测步骤:
步骤1:对采集的高光谱图像进行数据集划分,划分为训练集和测试集。
步骤2:对输入的高光谱图像进行特征提取。
步骤3:算法初始化。设置细菌个数、趋化因子次数、复制次数、迁移次数等。
步骤4:各细菌随机产生一组K和γ值,计算其适应度值。
步骤5:进行趋化、聚集、复制和迁移操作。
步骤6:对结束条件进行判断,达到输出最优参数,否则重复步骤2~4。
步骤7:通过最优参数构建LSSVM模型。
步骤8:采用模型对测试集进行测试,输出大米品质参数。
贮藏大米品质检测流程如图2所示。
图2 贮藏大米品质检测流程
为了验证试验方法的优势和可行性,以黑龙江五常市上市1月新大米为研究对象,将其置于25 ℃恒温箱中,模拟贮藏环境,恒温箱共5个,以月为单位每月从各恒温箱中取出8份20 g大米样品进行数据采集,共获得480份大米样品。将数据集划分为训练集和测试集,比例为3∶1。研究的目的是建立大米品质快速无损检测模型,用脂肪酸含量评估大米品质,脂肪酸含量实际值通过GB 5009.6—2016《食品安全国家标准 食品中脂肪的测定》进行测定,每个样品测定5次,将平均值作为实际值。表1为不同贮藏时间大米脂肪酸含量均值。
表1 不同贮藏时间大米脂肪酸含量
设备采用华为PC,操作系统为Windows11 64位旗舰机,Intel i513400CPU,频率4.0 GHz,高光谱采集系统的构成如表2所示。
表2 高光谱采集系统组成
通过大米样本集的训练对所提模型的初始参数进行微调,算法参数见表3。
表3 算法参数
模型性能的优劣需要相关指标进行评价,选择决定系数、均方根误差和检测时间来评估模型的性能。
决定系数(R2)的值越接近1,表示模型预测值越接近真实值,决定系数(R2)如式(8)所示。
(8)
式中:
R2——决定系数;
n——样本数。
均方根误差(RMSE)值越小,则说明模型对待测样本的检测越接近实际值,均方根误差(RMSE)如式(9)所示。
(9)
式中:
RMSE——均方根误差,mg/100 g。
检测时间为所有样本检测时间之和除以样本总数作为模型运行速度的评估指标。
为了验证改进BFO算法的寻优能力,将其与优化前的BFO算法进行比较分析,对LSSVM进行参数寻优,不同方法随迭代次数变化的适应度值如图3所示。
图3 不同方法随迭代次数变化的适应度值
从图3可以看出,BFO算法在迭代55次左右时收敛,个体最优适应度值最低,为1.602 5。所提改进BFO算法在迭代30次左右时收敛,个体最优适应度值最低,为0.803 6,收敛精度较高。结果表明,通过混沌映射和高斯变异操作优化BFO算法可以提高BFO算法在LSSVM模型参数寻优中的收敛性,避免陷入局部极值。改进前后优化参数如表4所示。
表4 改进前后参数优化结果
为了验证所提数据预处理方法的优越性,将该方法数据预处理方法与卷积平滑(SG)、多散射校正(MSC)进行对比分析,检测结果相关系数和均方根误差如表5所示。
表5 光谱数据预处理结果
由表5可以看出,经平均中心化(MC)预处理方法对光谱数据进行预处理,所建模型最佳。训练集和测试集R2分别为0.950 2和0.940 5, RMSE分别为0.433 3和0.543 5。与SG和MSC光谱数据预处理方法相比,平均中心化(MC)训练集R2分别提高了2.12%和2.50%,测试集R2分别提高了2.14%和4.43%,训练集RMSE分别降低了22.69%和16.32%,测试集RMSE分别降低了36.57%和36.55%。
为了验证所提特征提取方法的优越性,将该方法和主成分分析法(PCA)进行对比分析,不同特征提取方法的检测结果如表6所示。
表6 不同特征提取方法检测结果
由表6可以看出,经连续投影算法(SPA)对光谱数据进行特征提取,所建模型最佳。与PCA特征提取方法相比,连续投影算法(SPA)训练集和测试集R2分别提高了1.02%和0.57%,训练集和测试集RMSE分别降低了11.10%和27.11%。
为了进一步验证改进BFO-LSSVM方法的有效性,将其与文献[20]的AlexNet卷积神经网络进行对比分析,不同模型的检测效果如图4所示,不同方法的检测结果如表7所示。
表7 不同方法检测结果
图4 不同方法检测结果与实际值对比
由图4和表7可知,改进BFO-LSSVM方法检测的脂肪酸含量与贮藏大米脂肪酸实际值基本一致,优于文献[20]方法,与文献[20]的高光谱图像检测方法相比,改进BFO-LSSVM方法具有优异的R2、RMSE和平均检测时间,R2提高了1.04%,RMSE下降了41.13%,平均检测时间下降了65.00%。表明改进BFO-LSSVM方法在大米品质检测中具有较好的性能,可用于大米品质的检测。
研究提出将高光谱技术、改进细菌觅食算法和最小二乘支持向量机相结合用于贮藏大米品质的快速无损检测。通过平均中心化对高光谱采集图像进行数据预处理,通过连续投影算法完成特征波长的提取,结合改进细菌觅食算法和最小二乘支持向量机实现贮藏大米脂肪酸含量的检测。结果表明,所提方法可以实现贮藏大米脂肪酸含量的快速无损检测,具有较优的决定系数、均方根误差和平均检测时间,相比于文献[20]方法,决定系数提高了1.04%,均方根误差降低了41.13%,平均检测时间降低了65.00%,具有一定的实用价值。试验仅对大米品质参数脂肪酸进行了检测,后续可在此基础上检测大米水分、蛋白质等参数,不断完善和优化所提方法。