杨光远,韩 磊,邓少鹏,刘 强,王 闻
(湖北中烟卷烟材料厂,湖北 武汉 430051)
三醋酸甘油酯是卷烟滤棒成型加工工艺过程中的增塑剂、固化剂,其含量是滤棒质量控制的一个重要指标,对卷烟滤棒的物理指标和烟气的感官质量起着至关重要的作用。三醋酸甘油酯含量过低,则滤棒的硬度不够,直接影响滤棒品质;其含量过高,过多的三醋酸甘油酯将转移到烟气中,从而影响卷烟烟气的感官质量[1]。因此,快速、准确检测滤棒中的三醋酸甘油酯含量,对滤棒成型工艺的质量控制具有重要的实际意义和推广应用价值。
在工业生产中,滤棒中三醋酸甘油酯含量的测定方法主要有以下4种:重量法、皂化滴定法、气相色谱法和近红外光谱法[2]。重量法操作简易,适用于滤棒生产车间的现场快速测定,但其精确度无法得到保障;烟草行业标准YC/T144-1998[3]使用皂化滴定法测定滤棒中的三醋酸甘油酯纯度,但操作复杂、耗时,需要专业的技术人员,无法进行滤棒生产车间的现场快速检测;气相色谱法是烟草行业标准YC/T331-2010[4]规定的另一种检测方法,其检测精确度高,但单个样本检测价格较高,且操作费时费力,难以用于生产车间现场测定。专利CN101334387A[5]和专利CN110174417A[6]使用近红外光谱技术检测滤棒中的三醋酸甘油酯含量,但均使用台式近红外光谱设备,测定时需要大量的滤棒样本或将滤棒外层的成型纸剥除,并需将滤棒进行粉粹,操作过程繁琐费时、投入大。因此,寻求一种能够实现生产车间滤棒中三醋酸甘油酯含量现场快速、准确、批量测量的有效方法,具有重要实际意义和推广应用价值。
同时,在建模方法上,以上两个专利所使用的三醋酸甘油酯近红外光谱定量建模方法均为偏最小二乘法(Partial least squares,PLS),该法存在受异常值扰动影响大的缺陷。在工业生产时,工业数据一般含有测量误差,当以误差数据作为自变量进行偏最小二乘回归时,得到的参数估计值不能正确反映数据变量之间的结构关系[7]。与偏最小二乘法不同,极限学习机(Extreme learning machine,ELM)作为一种基于前馈神经网络的机器学习算法,学习过程仅需计算输出权重,具有学习效率高、泛化能力强的优点,能够解决反向传播算法学习效率低、参数设定繁琐的问题[8]。但ELM 算法也存在一定的缺陷,如算法的隐含神经元个数一般由计算机随机设定,从而导致算法的稳定性不高。粒子群优化(Particle swarm optimization,PSO)算法与极限学习机算法相结合,能够解决ELM 算法隐含神经元个数随机设置带来的网络冗余问题,增强ELM 算法的泛化能力,在一定程度上完善ELM算法的性能。研究表明经PSO 优化后的ELM 神经网络光谱模型预测结果的准确性优于原有的ELM 神经网络[9-11]。为此,本文拟通过使用PSO 算法对ELM 的隐含神经元个数进行优化,以寻求最优的隐含神经元个数,建立最佳的近红外光谱回归预测模型。
本文基于手持近红外光谱分析技术和ELM 算法,并联合PSO 算法实现了对卷烟滤棒中三醋酸甘油酯含量的近红外光谱快速定量建模,并将所建模型应用于生产车间现场快速测量滤棒中三醋酸甘油酯的含量。本方法无需破坏滤棒样品,操作更简便,省时省力,便于实际生产操作,适用于生产车间大批量样品的测定分析,为实时监控生产过程中滤棒中三醋酸甘油酯含量奠定了技术基础。
与传统的机器学习和神经网络算法相比,ELM 具有以下优势:(1)计算速度快,隐含层的神经元数随机设定,训练过程不需要迭代调整;(2)不会陷入局部最优,因为ELM 算法求解输出权值偏最小二乘解的过程是一个凸优化问题;(3)参数设定简单,无过多的复杂参数设定,而传统的机器学习算法如反向传播(BP)网络等,在学习过程中需要选择合适的学习率、训练步长等,参数选择不当将影响网络的泛化性,算法的详细流程见文献[12]。
PSO算法的基本思想是模拟鸟群随机搜寻食物的捕食行为,鸟群通过自身经验和种群之间的交流调整自己的搜寻路径,从而找到食物最多的地点。其中每只鸟的位置和路径为自变量组合,每次到达的地点的食物密度即函数值。每次搜寻都会根据自身经验(自身历史搜寻的最优地点)和种群交流(种群历史搜寻的最优地点)调整自身搜寻方向和速度(称为跟踪极值),从而找到最优解[13]。算法的步骤如下:
步骤一:假设有一个运动粒子,对粒子的位置和速度两个参数进行初始化;步骤二:设定每次搜寻的结果为粒子适应度,分别记录粒子的个体和群体历史最优位置;步骤三:分别将个体和群体的历史最优位置看作两个力,并结合粒子本身的惯性,综合考虑以上因素如何影响粒子的运动状态,从而更新粒子的位置和速度。
使用近红外光谱技术和PSO-ELM 算法实现对滤棒中三醋酸甘油酯含量快速检测的流程主要包括以下5个步骤:(1)样本近红外光谱的采集;(2)光谱预处理和波长的选择;(3)PSO-ELM 算法的参数设置;(4)建立PSO-ELM回归预测模型;(5)实现测试样本的快速预测。
实验所使用的光谱仪为江苏扬光绿能股份有限公司所生产的G1 手持式DLP-NIR 近红外光谱仪。在光谱分析中,DLP 微镜阵列作为一个可编程波长选择滤波器,相比于传统的铟镓砷传感器,其光谱仪架构更加简便,成本大大降低[14]。手持近红外光谱仪的波长范围为900~1 700 nm,光谱分辨率为5.85 nm,扫描点数为225。
实验样本由湖北中烟卷烟材料厂于2021 年提供,共98 个样本。在实验过程中,选取70 个样本作为训练样本,28 个样本作为测试样本。使用烟草行业标准YC/T331-2010《醋酸纤维滤棒中三醋酸甘油酯的测定-气相色谱法》中的测定方法进行测定,得到训练样本的三醋酸甘油酯含量范围为1%~15%,平均值为7.28%,标准差为1.99;测试样本的三醋酸甘油酯含量范围为5%~10%,平均值为7.35%,标准差为1.16。实验样本的详细信息如表1所示。
表1 实验样本的详细信息Table 1 The detail of experimental samples
光谱的采集模式为反射模型,将滤棒样本竖直放置于光谱仪的光源上,每个样本扫描6 次,取6 次光谱的平均值作为最终光谱。实验样本的原始近红外光谱数据如图1所示。
光谱数据的处理步骤如下:(1)对采集的滤棒的近红外光谱数据进行不同的预处理,选取最优的预处理方法;(2)选择合适的建模波段;(3)分别采用偏最小二乘回归(PLSR)[15]、极限学习机回归(ELMR)和粒子群优化-极限学习机回归(PSO-ELMR)建立滤棒近红外光谱数据与三醋酸甘油酯含量之间的回归预测模型。
建立回归预测模型后,分别使用决定系数(R2)、校正均方根误差(RMSEC)、预测均方根误差(RMSEP)为模型评价指标,指标的具体计算方法如下[16]:
RSS 和SS分别表示最终模型预测数据的残差平方和响应变量方差,yi为第i个样本的真实值,yic为训练集第i个样本的预测值,yip为测试集第i个样本的预测值,n为训练集的样本数,m为测试集的样本数。
为降低噪声及其它因素对光谱质量的影响,提高回归预测模型精度,对采集的近红外光谱数据进行不同的预处理操作,包括多元散射校正(MSC)、标准正态变量变换(SNV)及平滑处理(Savitzky-Golay),以确定最优建模波段[17-18]。表2 为不同预处理方法下使用PLS 建立的预测模型的结果比较。R2越大,RMSEP和RMSEC越小,模型预测效果越好。由表可知,基于Savitzky-Golay的预处理方法所建立的回归预测模型具有最佳的预测效果,其参数设置为窗口大小13、2次多项式。同时,从图2可以看出,光谱吸收的波长区间主要集中在1 050~1 200 nm和1 300~1 500 nm。因此,后续主要使用Savitzky-Golay预处理方法及这两个波长区间对滤棒样本的近红外光谱数据和三醋酸甘油酯含量进行定量建模。
图2 原始光谱经Savitzky-Golay(窗口大小为13,2次多项式)处理后的结果Fig.2 Pretreatment results of spectral data by Savitzky-Golay first derivative with a 13-point window and 2 polynomial order
表2 基于PLS建立的不同预处理方法的卷烟滤棒三醋酸甘油酯含量的预测模型性能比较结果Table 2 Calibration and validation results for spectral models of glycerol triacetate content of cigarette filter based on PLS algorithm with different pretreatment methods
分别使用PLSR、ELMR 和PSO-ELMR 建立近红外光谱数据和烟草行业标准测量方法所获得的三醋酸甘油酯含量之间的定量预测模型。在使用ELM 算法建立回归预测模型时,隐含层神经元个数是最为重要的一个参数,传统方法由计算机进行随机设置,导致算法的稳定性无法得到保证。为了解决该问题,本文使用PSO 算法对ELM 算法的隐含层神经元个数进行优化,结果如图3 所示。由图3 可以看出,模型的RMSEC 和RMSEP 指标随着ELM 算法隐含层神经元个数的增加逐渐减小并趋向稳定。根据图3 结果确定ELM算法最佳隐含层神经元的个数为55。
图3 PSO算法优化ELM回归模型最佳隐含神经元过程Fig.3 Process of the best hidden neuron of ELM regression model optimized by PSO algorithm
使用R2、RMSEC、RMSEP 为指标优化建模参数,建模结果和预测结果分别如表3、表4 所示。ELM 回归模型以Sigmoidal函数为隐含层神经元激励函数,隐含层神经元数、输入权重Wi和隐层的偏置bi在训练过程中随机确定;而PSO-ELM 回归模型的隐含层神经元激励函数也使用Sigmoidal函数,隐含层神经元个数由PSO算法优化后确定为55。
由表3可以看出,使用PSO-ELMR算法所建立训练集模型的决定系数R2为0.921 2,高于PLSR 和ELMR算法;同时,使用PSO-ELMR算法所建立的回归预测模型的训练集均方根误差为0.369 43,低于PLS和ELMR算法。从表4的结果可以看出,在预测方面,PSO-ELMR算法预测模型的决定系数为0.916 2,高于PLSR 和ELMR 算法;同时,使用ELM 算法的预测集均方根误差为0.392 12,低于PLSR 和ELMR 算法。因此,ELMR 经PSO 算法进行参数优化后,在建模效果和预测结果方面,均取得了最高的决定系数和最小的均方根误差。即相对于传统的PLSR 和ELMR 方法,PSO-ELMR 提高了训练集的数据利用率,具有更好的泛化性能和更高的回归预测精度。表5给出了使用PSO-ELMR算法和台式近红外光谱数据的建模和预测结果,其中台式近红外光谱的采集参数为:光谱扫描范围4 000~10 000 cm-1(1 000~2 500 nm),扫描次数32,分辨率4 cm-1。由表4、表5的对比结果看出,使用台式近红外光谱数据的建模和预测结果略优于使用手持式近红外光谱数据。但手持式近红外光谱设备的成本远低于台式近红外光谱设备,且携带方便、操作灵活,在光谱采集时不需要对滤棒样本进行前处理操作,便于实际生产和生产车间大批量样品的现场测定分析,具有更高的实际应用价值。
表3 不同建模方法的训练结果Table 3 The training results using different modeling methods
表4 不同建模方法测试样本的预测结果Table 4 The prediction results of testing samples using different modeling methods
表5 使用PSO-ELMR算法的台式近红外光谱仪器的建模结果Table 5 The modeling results using PSO-ELMR algorithm of desktop NIR spectroscopy instrument
本文通过使用手持式近红外光谱仪,结合PSO-ELM算法建立了滤棒三醋酸甘油酯的手持近红外光谱回归预测模型,实现了滤棒中三醋酸甘油酯的现场快速检测。与现有方法相比,本方法具有快速准确、绿色无损等优点,为滤棒三醋酸甘油酯含量的实时在线监测和其它质量参数的快速测量奠定了技术基础。