赵艳莉 赵 倩 李志强
(1. 郑州财税金融职业学院,河南 郑州 450000;2. 河南科技大学,河南 洛阳 471000;3. 郑州大学,河南 郑州 450001)
菠萝,又称凤梨,属于热带水果之一。近年来,芒果干、菠萝干等水果干已成为家家户户喜爱的零食之一,其营养成分和口感不亚于新鲜水果。水果干制时,水分与糖分含量是评价其品质的重要指标之一,所以在收购和存贮果干过程中快速检测其含水率非常重要。传统的化学检测方法存在工作繁琐、耗费时间很长、成本高的缺点,虽然这些检测方法的准确度基本上达到了要求,但检测的准确性与周围环境有很大关系,已经不能满足现代市场经济发展的需求。近红外光谱技术是近几年发展起来的一项新技术,被广泛应用于各个领域[1-3]。相对于常规的含水率检测方法,近红外光谱检测技术有操作简单、成本低,仪器占地面积小等优点,而且还可以实现无前处理、无损快捷、无污染、可在线检测和多组分同时检测。
为了减少近红外光谱中大量冗余信息,降低复杂度以及提高菠萝含水率检测模型的精度,研究拟提出一种基于连续投影法和麻雀搜索算法[4](sparrow search algorithm,SSA)优化正则化极限学习机[5](regularized extreme learning machine,RELM)的菠萝含水率检测模型。
试验所用菠萝于2023年3月份采自广东徐闻,切成厚度为9,10 mm的菠萝片,立即用真空包装袋封存带回实验室存于冰箱中。试验时,取出菠萝样本于室温(20 ℃左右)下静置,待菠萝温度达到室温时,并用干净的抹布或纸巾将其表面水分擦拭干净。其中厚度为9 mm的菠萝采样110份,厚度为10 mm的菠萝采样109份,共取得219份样品。将样品的70%用作训练集,剩下的30%用作测试集。
手持便携式反射型光谱仪:NIR-S-G1型,布鲁克光谱(BRUKER OPTICS)有限公司;
卤素水分测定仪:VM-E01型,江苏维科特仪器仪表有限公司。
1.3.1 近红外光谱分析 近红外光波长介于可见光和中红外之间,范围处于780~2 526 nm,光谱分布区间如图1所示[6-7]。近红外光谱区与含氢基团(O—H、N—H、C—H)振动的合频和各级倍频的吸收区一致,因此扫描样品的近红外光谱可以得到样品的结构信息和组成信息。
图1 光谱分布区间
光谱分析时,光源和检测器放置于同一侧,光源发出光照射于待检测样品,光经过待检测样品返回检测器,计算出接收光与发射光的比值,即反射率。由于待测样品的大小基本不会影响反射率的大小,因此近红外光谱检测易实现在线检测。
1.3.2 建模思路 基于近红外光谱的麻雀搜索算法改进正则化极限学习机(SSA-RELM)的菠萝含水率快速检测的建模思路:
(1) 选择试验所用的菠萝样品。
(2) 菠萝样品切片,制成一定厚度的菠萝片,运用NIR-S-G1手持便携式反射型光谱仪采集菠萝样品的近红外光谱数据。
(3) 对菠萝样品的近红外光谱数据进行数据预处理(多元散射校正以及特征波长筛选)。
(4) 建立菠萝含水率的SSA-RELM快速检测模型。
(5) 菠萝含水率快速检测模型的验证。菠萝含水率快速检测建模流程图如图2所示。
图2 菠萝含水率快速检测建模流程图
1.3.3 SSA算法 在标准SSA中,N只麻雀组成的种群矩阵为:
X=[x1,x2,…,xN]T,xi=[xi,1,xi,2,…,xi,d],i=1,2,…,N,
(1)
式中:
X——麻雀种群位置向量矩阵;
xi——第i个麻雀个体位置;
T——矩阵转置符号;
d——优化问题的维数;
N——麻雀的种群大小。
麻雀种群的适应度值矩阵Fx可表示为:
Fx=[f(x1),f(x2),…,f(xN)]T,f(xi)=[f(xi,1),f(xi,2),…,f(xi,d)],
(2)
式中:
f(xi)——第i只麻雀的适应度值。
麻雀个体的适应度值越高,其获取食物的优先级就越高。适应度高的麻雀个体会被当作发现者,带领麻雀群体靠近食物源。发现者的位置更新数学公式可表示为[8]:
(3)
式中:
t——麻雀搜索算法的当前迭代次数;
Tmax——麻雀搜索算法的最大迭代次数;
α——随机数,α∈(0,1);
R2——预警值,R2∈[0,1];
ST——安全值,ST∈[0.5,1];
Q——正态分布的随机数,且Q∈[0,1];
L——元素全为1的1×d的矩阵。
当R2 跟随者的位置更新数学公式可表示为[9-10]: (4) 式中: A+——1×d的矩阵,矩阵中的元素随机赋值为1或-1,其中A+=AT(AAT)-1。 在标准的SSA算法中,一般随机选择占麻雀总数量的10%~20%的F只麻雀作为预警者,预警者的位置更新数学公式可表示为: (5) 式中: β——步长控制参数,β∈(0,1); K——运动方位控制参数,K∈[-1,1]; ε——最小常数,防止分母出现0的情况; fi、fg和fw——当算法迭代次数到第i次的适应度值、最优适应度值和最差适应度值。 当fi>fg时,麻雀个体位于麻雀种群的边缘,易被捕食者攻击;当fi=fg时,处于种群中心位置的麻雀个体意识到危险,向其他区域的麻雀个体靠近。 1.3.4 RELM模型 极限学习机(extreme learning machine,ELM)的数学模型为[11]: (6) 式中: H——隐含层神经元数; ai,bi——第i个隐含层神经元的输入权重和偏置,其中ai∈Rn,bi∈R; G(ai,bi,x)——第i个隐含层神经元的输出函数; βi——第i个隐含层神经元对于输出神经元的权重系数,其中βi∈R。 G(ai,bi,x)输出函数可表示为: G(ai,bi,x)=g(ai·x+bi), (7) 式中: g(·)——激活函数。 (8) 式(8)的矩阵形式为: Wβ=Y, (9) 式中: s.t.:h(xl)β=yl-εl,l=1,2,…,N, (10) 式中: εl——训练偏差。 根据Karush-Kuhn-Tucker条件,式(10)可转化为式(11)的双重优化问题[13]: (11) 此时β的最优解为: (12) 式(12)代入式(8)可得,RELM模型的拟合回归值为: (13) RELM模型的拟合回归值主要取决于式(12)中的正则化因子λ、矩阵W和Y。 1.3.5 基于SSA-RELM的菠萝含水率快速检测模型 (1) 适应度函数:RELM模型的性能受初始参数(输入权值ai和隐含层偏置bi)的影响。为改善RELM模型的性能,将SSA算法应用于RELM模型参数选择,选择式(14)作为SSA算法优化RELM模型的适应度函数: s.t.ai∈[aimin,aimax] bi∈[bimin,bimax], (14) 式中: n——训练样本数量; x(i)、xp(i) ——第i个样本的实际值和预测值; [aimin,aimax]、[bimin,bimax]——第i个初始输入权值a和隐含层偏置b的寻优区间,且a∈[-1,1]和b∈[-1,1]。 (2) 算法步骤:为实现菠萝含水率的快速检测,基于近红外光谱的菠萝含水率SSA-RELM快速检测模型的算法步骤可具体描述为: Step1:读取菠萝近红外光谱数据和含水率,光谱数据预处理以及光谱特征波长选择,归一化处理,并划分训练集和测试集。 Step2:设定RELM模型参数和麻雀搜索算法参数并随机初始化种群:发现者比例PD、预警值ST、侦察者比例SD、种群规模N、最大迭代次数Tmax,假设RELM模型的隐含层神经元数为L,输入层神经元数为n,SSA算法的初始种群维数dim=L(n+1)。 Step3:计算每个麻雀个体的适应度。将训练集代入RELM模型,按式(14)计算每个麻雀个体的适应度并排序,找到当前最优适应度值和最优位置以及最差适应度值和最差位置。 Step4:选择发现者和跟随者,并分别按式(3)和式(4)更新发现者位置和跟随者位置。 Step5:随机选择预警者,并按式(5)更新预警者的位置。 Step6:判断算法终止条件。若满足终止条件,则输出SSA算法的最优适应度和最优位置,即对应RELM模型的输入层权值和隐含层偏置,将寻优获取的最佳参数代入RELM模型训练和测试;否则,返回Step2。基于近红外光谱的SSA-RELM的菠萝含水率快速检测流程如图3所示。 图3 基于近红外光谱的SSA-RELM的菠萝含水率快速检测流程图 建立模型时用到的模型性能评价指标一般包括训练集的相关系数(Rc)和测试集的相关系数(Rp),训练集的均方根误差(RMSEC)和测试集的均方根误差(RMSEP)。相关系数Rc和Rp的值越大,越接近1,则预测含水率的值与测量含水率的值之间的相关性越好。RMSEC用于测试模型对训练集样本的预测能力,RMSEC值越小,则说明建立的模型的预测效果越好;RMSEP用于评估模型预测样品目标成分含量的能力,同理RMSEP越小,说明该模型对目标信息的预测效果越好。相关系数Rc和Rp,均方根误差RMSEC和RMSEP的计算公式为[14-15]: (15) (16) (17) (18) 式中: n、m——训练集和测试集的样本数; i——第i个样本; yi——第i个样本用标准方法测定的含水率实际值; f——RELM建模采用的主成分数。 选择多元散射校正(MSC)、移动平均平滑(Smooth)、一阶导数、二阶导数、标准正态变换(SNV)、归一化(Nor)、标准化等多种预处理方法[12,16]进行对比,找到菠萝含水率最佳预处理方法。原始光谱图和不同预处理光谱图如图4和表1所示。 表1 不同预处理方法的菠萝含水率RELM模型检测结果 图4 原始光谱图和不同预处理方法处理后的光谱图 由表1可知,用原始光谱数据建立的菠萝含水率模型测试集的预测效果是比较好的,但相对于经过预处理之后的预测效果还是较差,其相关系数分别为0.990 2和0.986 4。由表1可以看出,经过SNV、MSC、归一化(Nor)、标准化和Smooth以及以上方法的组合这几种预处理方法的测试集模型预测效果得到了较高的提升,所以经过数据预处理一般是能够提高模型预测精度的。其中经过Smooth+MSC共同处理后的水分模型精度最好,RMSEC由0.037 7下降到0.023 5,相关系数Rc由0.990 2提高到0.996 1,RMSEP由0.038 8下降到0.023 4,相关系数Rp由0.986 4提高到0.994 6。通过对比,经过Smooth+MSC预处理能够提高训练集和测试集模型预测的精度。 针对菠萝样品的近红外光谱数据存在维度高、冗余复杂的特点,在菠萝含水率快速检测模型建立之前,首先运用连续投影法(SPA)、主成分分析法(PCA)和全波段(FS)对近红外光谱数据进行对比分析[17],从而确定菠萝含水率近红外光谱特征波长的筛选方法。同时为了确定RELM模型隐层神经元数,RELM模型的激活函数为sig函数,初始隐层神经元数为1,不断增加,直到隐层神经元数为50,不同隐层神经元数和不同特征波长筛选的菠萝含水率检测准确率如图5所示。 图5 隐层神经元数与准确率关系图 由图5可知,连续投影法—正则化极限学习机(SPA-RELM)模型的隐层神经元数为30时,菠萝含水率快速检测的准确率最高,故文中RELM模型的隐层神经元数设定为30,特征筛选方式为SPA。 由图6可知,菠萝片厚度为9,10 mm时,其均方根误差和相关系数取得综合最优。 图6 菠萝片厚度与精度的关系图 为验证SSA-RELM进行菠萝含水率快速检测的有效性和可靠性,将SSA-RELM与遗传算法改进RELM(GA-RELM)、粒子群算法改进RELM(PSO-RELM)和RELM进行比较。通用参数设定:种群规模N=10,最大迭代次数T=100;SSA算法:发现者比例PD=0.2、预警值ST=0.8、侦察者比例SD=0.2;遗传算法[18](genetic algorithm,GA):变异概率pm=0.1,交叉概率pc=0.7;粒子群算法[19](particle swarm optimization algorithm,PSO):学习因子c1=c2=2,惯性权重w=0.8;RELM模型[20-21]:输入层神经元数量N1=240、隐含层神经元数量N2=30以及输出层神经元数量为N3=1。文中样本共219组,按照70%∶30%的比例对219份样本进行划分,划分后得到训练集153份样本,测试集66份样本。菠萝含水率快速检测结果如图7~图10和表2所示。 表2 菠萝含水率检测结果 图7 SSA-RELM检测结果图 图8 GA-RELM检测结果图 图9 PSO-RELM检测结果图 图10 RELM检测结果图 由表2可知: (1) 从训练集和测试集的评价指标来看,SSA-RELM模型的菠萝含水率检测效果优于GA-RELM、PSO-RELM和RELM等模型,SSA-RELM模型的RMSEC最小且相关系数Rc和Rp最大,从而说明SSA-RELM模型的菠萝含水率检测精度最高,误差最小。 (2) 通过SSA、GA和PSO等算法对RELM模型的参数进行优化选择,可以有效提高RELM模型的菠萝含水率检测精度。 为提高菠萝含水率检测精度,提出了一种基于麻雀搜索算法改进正则化极限学习机(SSA-RELM)的菠萝含水率检测模型。研究结果表明,与遗传算法改进正则化极限学习机(GA-RELM)、粒子群算法改进正则化极限学习机(PSO-RELM)和正则化极限学习机(RELM)相比,SSA-RELM的菠萝含水率检测模型的检测精度最高。然而通过智能算法优化正则化极限学习机模型的复杂程度较高,对计算机的硬件配置要求较高,后续将从降低算法复杂度的角度去提升算法的计算效率和运行速度,从而提高算法的实时性,便于实际推广和工程应用。2 实证分析
2.1 评价指标
2.2 数据预处理
2.3 筛选特征波长
2.4 结果与分析
3 结论