王国梁,王文俊,成 锴,刘 鑫,赵建贵,李 洪,郭二虎,李志伟,*
(1.山西农业大学农业工程学院,山西 太谷 030801;2.山西农业大学谷子研究所,山西 长治 046000)
山西省地域特点复杂,南北纵贯6 个纬度,属典型温带气候,独特的地域生态环境孕育出丰富的杂粮种质资源,同时也决定了谷子种植区覆盖全山西省域的特点。小米中含有丰富的碳水化合物及多种维生素等营养物质,随着现代人生活品质和对物质生活需求的提高以及健康饮食相关产业的兴起,小米因具有食药性及营养价值丰富的特点,其深加工产品小米米粉逐渐成为备受喜爱的健康食品。小米米粉的主要营养成分为淀粉,淀粉和水混合成悬浮液,在经历加热、溶解、吸水膨胀过程后会出现淀粉糊化的现象,其糊化特征指标能为评价小米米粉食味品质、确定加工工艺提供重要数据支撑。目前,小米米粉糊化特征指标测定主要采用快速黏度分析(rapid visco analysis,RVA),但在糊化特征指标测定过程中,待测样品的制备会破坏其理化特性,且样品制备操作流程繁琐,人工、时间成本较高,因此实现待测样品批量、快速检测存在一定困难。
高光谱成像技术是一种通过精确反映待测物感兴趣区域(region of interest,ROI)内部各像素点连续光谱信息,从而获取待测物结构组成和化合物分子结构的无损检测技术,其具有检测效率高、不破坏待测样品理化特性、人工投入低等特点。当前高光谱成像技术已成为国内外学者研究热点,被广泛应用于农产品分级、营养成分反演、分类等农业检测相关研究工作中。高光谱数据维度大,而传统特征波段筛选数量有限,且容易造成有效信息丢失,导致建立回归模型精度低、泛化能力不强。因此,越来越多的学者将计算机深度学习结合高光谱成像技术应用于农业检测相关工作中,其中,误差反向传播(error back propagation,BP)神经网络具有非线性映射、自学习及自适应、泛化及容错能力,因此备受学者关注。王浩云等分别采用鸟群、免疫算法优化BP神经网络建立调理鸡肉菌落总述的预测模型,结果表明优化后的BP神经网络能够实现调理鸡肉菌落总数快速无损检测,且模型预测精确率、收敛速度明显提高。Xue Jiankai等通过对灰狼优化算法(grey wolf optimizer,GWO)、粒子群算法(particle swarm optimization,PSO)、引力搜索算法(gravitational search algorithm,GSA)、麻雀搜索算法(sparrow search algorithm,SSA)4 种优化算法综合评价,发现SSA具有迭代时间短、预测精度高等特点。
目前,有关小米高光谱的研究仍主要集中于高光谱结合化学计量法进行产地判别、分类及成分反演方面。为了简化原始光谱数据前处理过程及提升BP神经网络预测性能,本实验设计一种高光谱数据提取、预处理分步运算程序,并提出利用SSA优化BP算法进行待测样品糊化特征指标回归、预测,旨在寻求一种简化高光谱数据提取、预处理流程的方法,并探讨SSA优化BP算法在小米米粉糊化特征指标回归、预测方面的优势,为高光谱成像结合计算机深度学习在小米米粉糊化特性预测方面应用提供理论支撑。
小米样本于2020年10月在山西省长治市武乡县收获。采用棋盘式采样法取样,取样点1 800 个,采样面积2 m/点,相邻5 点取样混匀,共得358 份实验原始样本,按顺序编号、记录。待晾晒后,经清选、砻研,过80 目筛网,取得待测样本,待测样先经高光谱数据采集,后进行实验室糊化特征指标测定。
高光谱成像仪 美国Headwall Photonics公司;RVA仪 澳大利亚Newport公司。
1.3.1 高光谱数据采集
采用高光谱成像仪(图1)采集数据。近红外波段采集参数:波长范围900~1 700 nm、通道间隔4.715 nm、步数为172,近红外波段中步数与波长λ的关系如式(1)所示。
图1 高光谱成像仪结构Fig. 1 Photograph of hyperspectral imager
数据采集前,待测样品装入直径3 cm、深1 cm实验器皿内,保证被测样品表面平整、紧实。每份被测样品采集光谱数据3 次,数据按顺序编号、保存。
数据采集过程中,调整载物台平移速率为7.5 mm/s,相机曝光时间为0.9 ms,样品表面距离镜头25 mm,用于采集清晰图像。数据采集前,进行系统黑白校正,扫描暗背景图像获得全黑反射率标定值,白背景图像全白反射率标定值,设备运行后采集到被测样品实验图像反射率,根据式(2)计算得到相对图像反射率。每采集3 张高光谱图像,重复进行上述校正过程。
1.3.2 小米米粉糊化特征指标测定
采用RVA仪,根据GB/T 24852—2010《大米及米粉糊化特性测定 快速粘度仪法》测定小米米粉糊化特征指标。称量(3.00±0.01)g小米粉,与(25.0±0.1)mL水在容器中充分混匀,形成小米米粉糊状液,将糊状液放置于RVA内进行糊化特征指标检测,重复3 次实验,取平均值。糊化特征指标为悬浮液在升温、保温和冷却过程中搅拌器内置扭力传感器检测值、悬浮液温度变化值和测定时间值,具体指标包括峰值黏度(peak viscosity,PV)、谷值黏度(trough viscosity,TV)、衰减值(breakdown,BD)、最终黏度(final viscosity,FV)、回生值(setback,SB)、峰值时间(peak time,PT)、糊化温度(gelatinization temperature,GT)。其中,BD、SB分别为PV与TV、FV与TV的差值,GT为仪器运行过程中样品黏度达到PV一半时对应的温度。
1.4.1 麻雀搜索算法分析
本研究参考文献[22,28-31],结合SSA具有的迭代次数少、预测模型精度高等特点,选用其作为优化算法。调用算法时,使用虚拟麻雀进行食物寻找,种群形式分为发现者、加入者和预警者,发现者与加入者之和为总种群数,发现者与加入者按7∶3比例划分,种群数可以式(3)的形式表示。
式中:表示待优化变量维数;为麻雀种群数量。
所有麻雀的适应度值可以表示为式(4)。
式中:()为适应度值。运行SSA算法时,具有较好适应度值的发现者在搜索过程中会优先获取食物,并负责为种群寻觅食物以及为加入者指导觅食方向,相比其他麻雀,发现者可以获得更大觅食范围。根据式(3)、(4),在每次迭代时,发现者位置按式(5)更新。
式中:代表当前迭代数;取值范围为[1,];是最大迭代次数,本实验中设置为20;X表示第只麻雀在第维中的位置信息;为取值范围(0,1]的随机数;(取值范围[0,1])和ST(取值范围[0.5,1])分别表示预警值和安全值;为服从正态分布的随机数;表示一个内部元素都为1的1×的矩阵。当<ST时,发现者可以执行搜索操作;而当≥ST,表示发现者种群发出预警,迅速飞离。
对于加入者执行式(5),监视发现者同时随时准备与之竞争,否则执行式(6)。
式中:是发现者所占最优位;是当前种群所占极差位;为1和-1的1×矩阵,=(),当>/2时,适应度值较低的第个加入者没有获得食物,即飞往别处觅食。
预警者一般占种群数量的10%~20%,按式(7)更新占位。
式中:为当前种群极佳位;为步长控制参数;为取值范围[-1,1]的随机数;f为当前个体适应度值;、分别为最佳和最差适应度值;为常量,防止分母为零。
按上述运算逻辑完成种群位置更新,迭代后,求得最优适应度值所需相应参数。
1.4.2 小米米粉高光谱数据处理与分析
在设定样本位置坐标范围内,对像素点逐一选择并判定,筛选出符合设定ROI条件的光谱数据,组成数据矩阵并进行均值运算。将光谱数据按照7∶3分为训练集和测试集,运用BP及SSA优化BP算法预测小米粉糊化特征指标最优迭代次数、最优适应度值,为更明显观察预测集与测试集关系,突出SSA优化BP算法优势,通过预测集均方误差(mean squared error,MSE)评价两种算法对小米米粉糊化特征指标的预测精度。高光谱数据处理软件主要有基于VB开发的图像取点、光谱数据预处理程序和MATLAB 2020b软件。
数据集统计结果如表1所示。小米米粉中淀粉含量占比不同会导致糊化特性不同,从表中糊化特征指标数据统计结果可以看出样本间糊化特性存在差异,而高光谱技术可以利用各样本反射率变化反映样本间成分含量的不同,因此通过运用数据处理技术利用高光谱反演样本糊化特征指标,可以实现小米米粉糊化特性的高光谱预测。
表1 小米米粉糊化特征指标测定结果Table 1 Pasting viscosity properties of millet flour
2.2.1 小米米粉高光谱数据提取
样品表面像素点间反射率存在差异,导致建模时若以少量点绘制成光谱特征曲线误差较大,为提高模型精度,结合高光谱成像技术优点,本研究采用图2所示采样方式。
图2 小米米粉高光谱数据提取Fig. 2 Hyperspectral data feature extraction of millet flour
在ROI内提取大量像素点过程的选点规则如式(8)~(10)所示。
式中:(x,y)为当前像素点坐标信息;(,)为ROI中心位置的坐标;、为ROI二维坐标轴的半轴长;Δ、Δ分别为坐标轴方向上图像像素点间隔参数,在本实验中设置取点间隔为1;[]表示对、取整,保证选择像素点在ROI内。本实验中像素点选点规则为沿轴自上到下,沿轴自左到右依次选择,根据式(10)限制选点,选择符合要求像素点2 000 个,作为原始光谱数据。
2.2.2 小米米粉高光谱数据预处理
采用小米米粉高光谱数据各个波段下反射率的算术平均值集合成平均光谱曲线。算术平均值在数据统计与分析过程中具有反应灵敏、确定严密、容易获得和受抽样变动影响小等特点,计算如式(11)所示。
式中:A为算数平均值;为ROI采样点个数,本实验中近红外高光谱图像采样点个数设置为2 000 个;A为采样点集中第个采样点、第步长的平均光谱反射率。将每一步长取值顺序排列,便可获得整个波段范围内样品平均光谱曲线。
在实验中,靠近光谱量程两端(≤900 nm和≥1 700 nm)的光谱曲线扰动较大,因此截取光谱范围为950~1 650 nm,波段数降为148 条。如图3所示,光谱曲线吸收峰主要集中在980、1 200 nm以及1 450 nm波长处,980 nm和1 200 nm波长处吸收峰主要受小米米粉淀粉含量的影响,而1 450 nm波长处为样品中水分子敏感波段。
图3 小米米粉平均光谱曲线Fig. 3 Average spectral curves of millet flour
设置发现者、加入者和预警者比例为0.7∶0.3∶0.2,运行SSA优化BP算法。根据式(12)可得出运用SSA优化BP算法预测小米米粉糊化特征指标的最优适应度值。
式中:和分别为训练集和测试集的预测误差;mse为均方误差函数,运用适应度函数求取具有较好结果的网络模型。
图4显示出小米米粉糊化特征指标随SSA优化BP算法迭代次数增加误差变化趋势,即随迭代次数的增加,7 条曲线均呈下降收敛态,其中SB、PT预测结果误差偏大,GT误差变化率较大,PV、BD预测结果误差较小。小米米粉糊化特征指标的最优迭代次数及适应度值如表2所示。
图4 基于SSA优化BP算法对小米米粉糊化特征指标预测的误差变化曲线Fig. 4 Best score prediction of gelatinization characteristics of millet flour based on SSA-BP algorithm
表2 SSA优化BP算法处理下小米米粉PV最优迭代次数及适应度值Table 2 Optimal iteration and fitness of sample sets based on SSA-BP algorithm
以PV为例,从表2中可以看出,最优迭代次数为13,最优适应度值能达到0.050 8。为进一步显著观察预测值与测试值的关系,突出SSA优化BP算法优势,分别在测试样本集第1、10、20、30、40、50、60、70、80、90、100点设置观察窗口,将测试集PV、BP算法预测PV及SSA优化BP算法预测PV输出对比,如图5所示。
图5 小米米粉PV值与BP算法及SSA优化BP算法预测PV值拟合情况Fig. 5 Goodness of fit of experimental values of PV to BP and SSA-optimized BP algorithms
SSA优化BP算法所得PV预测结果与测试结果的拟合效果明显好于BP预测结果,如表3所示,SSA优化BP算法预测值MSE为0.017 5,而BP算法预测值MSE为0.026 6,SSA优化BP算法预测值MSE比BP算法明显降低。由表3可知,相较于BP算法,运用SSA优化BP算法求得其他小米米粉糊化特征指标预测值MSE均降低,表明SSA优化BP算法在提高小米米粉糊化特征指标预测精度、降低MSE方面具有普适性。综上所述,运用该优化算法可为高光谱成像结合计算机深度学习在小米米粉糊化特征指标预测方面提供理论支撑。
表3 BP及SSA优化BP算法处理下小米米粉特征指标预测值MSETable 3 MSE for sample prediction sets using BP and SSA-optimized BP algorithms
本实验以山西省长治市武乡县所收获小米研磨后的小米米粉为研究对象,获取358 份小米米粉高光谱数据集,通过光谱数据提取、预处理,并以该数据矩阵为基础,分别运用BP算法、SSA优化BP算法进行待测样品糊化特征指标预测,得到以下主要结论:1)运用光谱数据提取、预处理分布运算程序,对样本高光谱原始数据集进行批处理,能够标准化并简化光谱数据提取、预处理过程,从数据处理结果可以看出,该程序在粉末及小颗粒样本光谱数据的提取、预处理过程中具有普遍适用性;2)分别运用BP算法及SSA优化BP算法对小米米粉糊化各特征指标进行预测,从预测值与测试值间MSE可以看出,运用SSA优化BP算法能够提高小米米粉糊化特征指标预测精度,降低MSE,其中对PV的预测值MSE最低可以达到0.017 5。
本研究表明,运用高光谱数据提取、预处理分步运算程序可以简化提取小米米粉平均光谱数据过程,结合SSA优化BP算法可以对待测样品糊化特征指标进行预测,能够为高光谱成像结合计算机深度学习在小米米粉糊化特性预测方面应用提供理论支撑。