基于PLS算法的甘蔗清糖浆转光度的近红外光谱定量分析

2022-11-02 03:20:24李兆雨张静袁华强
东莞理工学院学报 2022年5期
关键词:糖浆甘蔗光度

李兆雨 张静 袁华强

(东莞理工学院 计算机科学与技术学院,广东东莞 523808)

糖是人体所必须的营养物质,人体活动所消耗的能量绝大多数都是由糖分提供,糖分是人体能量第一来源。糖的生产主要依靠甘蔗制糖和甜菜制糖,其中甘蔗含蔗糖量高,制糖工艺简单,甘蔗始终是制糖最主要的原料。

甘蔗的制糖过程包括压榨提汁、清净、蒸发、结晶、分蜜和干燥等工序[1]。清糖浆是蒸发工序中的中间产物,而蒸发工段作为生产工艺质量稳定控制的重要工序,保证清糖浆的质量才能使下一道工序顺利进行。因此,对清糖浆的成分进行分析,对制糖工业来说有重要意义。

转光度(Pol)是甘蔗制糖工艺流程中重要的品质指标,转光度是指用一次旋光法测得溶液中蔗糖含量百分率的近似值(单位:%)。在制糖过程中对转光度指标的快速在线检测,对制糖生产过程中产品质量的控制,物料的平衡有重要影响。可见,对甘蔗清糖浆的转光度进行质量检测,对甘蔗制糖的品质保证十分重要。

传统的转光度检测常用的方法除了旋光法以外,还有同位素稀释法、气相色谱法、酶法和化学法[2]。但是这些方法测量时需要人工将糖液稀释后送至实验室进行检测,最后将测量结果送至车间再根据要求进行生产。这一检测过程受人力物力的限制,整个过程耗时耗财力,还会造成生产的质量达不到要求等问题。因此,寻找一种快速的清糖浆转光度的分析方法对于制糖工业具有重要的发展意义。

近红外(Near Infrared,NIR)光谱是由于分子振动的非谐振动使分子从基态向高能级跃迁时产生的,它主要是对含氢基团X-H(如C-H,O-H和N-H)振动的倍频和合频吸收[3]。它通常不需要试剂,可以直接测量样品(或简单的样品制备后)。近红外光谱分析技术是光谱分析技术与计算机技术的结合,它是一项间接分析技术,通过建立校正模型实现对待测物质的定量或定性分析。该技术具有简单、快速、安全等优点。目前,它已在许多领域得到有效应用,如生物医学[4-5]、农业[6]、食品[7]和土壤[8-9]等。

糖及其衍生物中包含大量水分、蔗糖、氨基酸等有机物,这些成分都含有NIR吸收能力的含氢基团。因此,近红外光谱可以用于糖在分子水平上的定量分析。目前该技术在制糖过程的分析检测中也有众多应用。例如,近红外光谱已经被用来分析甘蔗制糖生产中间产物废蜜的锤度和还原糖分[10]。已经有学者提出使用近红外光谱在甘蔗蔗汁蔗糖分析中的应用[11]。也有相关论文表明近红外光谱分析技术可以应用于甘蔗初压汁锤度指标的检测[12]。文献[13]中使用近红外光谱分析技术对甘蔗多产物多指标进行分析。

甘蔗制糖的中间产物清糖浆是经过蒸发工序得到的粘稠状液体,采集到的光谱信息除了样品自身的有效信息外,同时会混有各种无用信息和噪声,直接将采集到的样品光谱数据用于模型的建立,得到的预测结果往往难以令人满意,而建模前对样品光谱进行预处理则可以有效解决上述问题。常见的光谱预处理方法有:多元散射校正(Multiplicative Scatter Correction,MSC)[14],Norris导数滤波(NDF)[15],标准正态变量变换(Standard Normal Variate,SNV)[16]等。

偏最小二乘回归(Partial Least-squares Method,PLS)方法是多元线性回归和主成分分析的完美结合。PLS回归可以综合筛选光谱数据,提取信息变量,克服光谱共线性。能有效地降低数据维度,并且在实际应用中表现出良好的性能。因此在光谱多元校正分析中得到最为广泛的应用。

光谱仪在检测过程中的扫描间隔为2 nm,扫描范围为400~2 498 nm(可见-近红外波段范围),每个样品检测出来的光谱都会含有1 050个波长点数。为了提取波长变量与转光度指标相关的光谱信息,需要对波长模型进行优化。基于偏最小二乘回归的移动窗口PLS(Moving Window PLS,MW-PLS)可以根据起点波长(I)和波长数(N)两个循环参数对所有波段进行遍历,固定其中任何一个参数,通过改变另一个参数都可以得到不同的波长组合[17-19]。

近期提出的等距组合PLS(the Equidistant Combination PLS,EC-PLS)可以在起点波长(I)、波长间隔(G)和波长数(N)三个循环参数的基础上对所有波段实现等距组合的遍历筛选[20-22]。当波长间隔G=1时,即是MW波长筛选方法,EC-PLS方法在算法上涵盖了MW-PLS方法。

例如,在900~916 nm范围内,使用MW波长筛选方法得到的波长参数组合为(900 nm,9)也就是起点波长I=900 nm和波长数N=9,MW方法筛选出来的波长组合为900、902、904、906、908、910、912、914、916(nm),然后利用这9个波长点的光谱数据与转光度化学值建立PLS模型。若使用EC波长筛选方法得到的波长参数组合为(900 nm,2,5)也就是起点波长I=900 nm;波长间隔G=2和波长数N=5。EC方法筛选出来的波长组合为900、904、908、912、916(nm)。同样的范围内,使用MW波长筛选方法筛选了9个波长点,而通过改变波长间隔参数(G)使用EC波长筛选方法筛选了5个。可以看出EC波长筛选方法能得到的波长组合比MW更多,也更加灵活。本研究使用EC-PLS方法对清糖浆的近红外分析中的波长模型进行优化。

如果一个波数信息可以用来建立定标预测模型,那么以它为中心其周围的范围内也应该可以建立定标预测模型;如果一个波数信息受到与目标物无关信息的干扰,那么以其为中心周围的范围内也应该受到与目标物无关信息的干扰[23]。针对EC-PLS模型在波长筛选过程中出现冗余波长的问题,提出了一种基于PLS的波长筛选方法,波长逐步淘汰PLS(the Wavelength Step-by-step phase-out PLS,WSP-PLS)。进一步消除EC-PLS模型中的冗余波长。

WSP-PLS方法可用于优化任意波长模型,如n个波长的连续和离散模型。波长被消除的步骤如下:首先,波长被反向消除。即每消除一个波长,得到最小的预测误差,直到只剩下一个波长。在波长被逐步淘汰的过程中,通过波长消除选择最优模型[24]。

综合以上分析,结合文献[13]受到的启发。在本研究中,基于SNV预处理方法和PLS回归,使用EC-PLS和WSP-PLS方法应用于甘蔗清糖浆转光度指标分析中的波长筛选。开展近红外光谱分析模型的建立和参数优化研究。根据预测效果,选择最优的模型参数。使用不参与建模的检验集样品对最优模型进行检验。实验在建模阶段取得了较好的结果,实验验证了近红外光谱技术用于甘蔗清糖浆转光度指标定量分析的可行性。

1 实验和方法

1.1 实验材料、仪器以及测量方法

105份甘蔗清糖浆样品及其用常规方法测定的转光度数据(作为光谱分析的参考化学值)由广西某糖厂提供。全体样品转光度实际值的最小值、最大值、平均值和标准差如表1所示。分别为48.94%、57.88%、54.01%、1.87%。

表1 甘蔗清糖浆样品化学值的数据分析

采用Foss公司的XDS Rapid Liquid光栅型近红外光谱分析仪,扫描光谱范围400~2 498 nm(可见-近红外波段范围),扫描间隔为2 nm。在实验温度(25±1)℃和46%±1%的相对湿度下计算每个样品的光谱数据用于建模。

1.2 定标、预测和检验过程中的评价指标1.2.1 定标、预测和检验的样品划分

从105份样品中随机选取35个样品作为独立检验集,将其排除在建模之外。将剩余的70个样品作为建模集,建模集进一步分为定标集(35个样品)和预测集(35个样品)分20次,以实现参数的稳定性。用模型中排除在外的检验集样品对所选模型进行检验。

1.2.2 评价指标

建模时,根据预测值和实际值计算预测样品的均方根误差(Root Mean Square Error of Prediction,SEP)和相关系数(Rp)。对于建模集的每次划分计算所有划分的均方根误差和相关系数的平均值(SEPAve,Rp,Ave)和标准差(SEPSD,Rp,SD)。使用综合指标SEP+=SEPAve+SEPSD来选择最优的模型参数。SEP+同时考虑了建模的预测精度(SEPAve)和稳定性(SEPSD)。SEP+越小,模型的预测能力越好。

PLS主因子数(LV)的选择直接关系到PLS模型的实际预测能力。使用的主因子数过少,样品的光谱信息就不能得到充分反映;而过多的主因子数则会加入一些不必要的噪音,降低模型的预测精度。在本研究中,根据预测效果来选择主因子数。

1.3 EC-PLS 方法

以起点波长(I)、波长数(N)和波长间隔(G)为循环参数。具体表示为,首先选择波长为I的起点波长,然后固定间隔G后选取下一个点,直到选取了N个点为止。对使用EC方法筛选出的所有波长参数组合,接着使用PLS方法对所有波长组合构建EC-PLS模型。

本研究采用整个可见-近红外波段区域(400~2 498 nm)作为EC-PLS方法的筛选区域。参数I,N,G和PLS因子数分别设为I∈{400,402,…,2 498},N∈{1,2,…,200},G∈{1,2,…,20}和LV∈{1,2,…,20},此外,终点波长(E)如下计算:

E=I+2(N-1)G.

(1)

1.4 WSP-PLS 方法

由于EC方法筛选出来的波长组合仍具有一定的规律性,而特征波长往往不会按照规律出现。因此,EC-PLS方法筛选出来的波长组合中难免会含有冗余波长。进一步采用WSP-PLS方法对EC-PLS方法得到的波长组合模型进行优化。具体算法如下:

Step1:需要进行优化的波长组合(包含N个波长数)记录如下:

(2)

Step2:对于Ω(N)内的波长组合随机淘汰一个波长,将得到包括N-1个波长在内的N个波长组合,结果如下:

(3)

(4)

(5)

其中N*是最佳波长组合的波长数,1≤N*≤N,当N*

使用MATLAB R2017a软件建立了上述方法相对应的算法平台。

2 结果与讨论

对于整个可见-近红外波段扫描区域(400~2 498 nm),105份甘蔗清糖浆样品未经预处理和SNV预处理后的近红外光谱如图1所示(清糖浆样品的105条光谱图在大部分波段中紧挨着呈现为一条线)。

图1 甘蔗清糖浆样品在扫描区域(400~2 498 nm)的105条近红外光谱图

2.1 SNV-PLS模型

作为比较,建立了没有光谱预处理的可见-近红外波段区域(400~2 498nm)的PLS模型。建模效果(SEP+,Rp)总结在表2中,RP值为0.929,预测值和实际值之间存在一定的相关性。需要通过进一步的模型优化来提高预测精度。在SNV光谱的基础上,建立了PLS模型。建模效果也总结在表2中。接下来对预处理的SNV光谱进行下一个波长模型优化。

表2 PLS模型在全谱区的建模效果

2.2 EC-PLS模型

在上述SNV光谱的基础上,使用EC-PLS方法用于进一步的建模优化。为了确定合适的波长模型,观察各单参数对模型效果的影响,图2给出了I、N和G三个参数对应的局部最优模型的SEP+值。全局最优模型参数为I=1 778 nm,N=8,G=10,LV=8。由(1)式可知,对应的波段为1 778~1 918 nm。EC-PLS模型的波长组合为1 778、1 798、1 818、1 838、1 858、1 878、1 898、1 918 nm,模型相应的预测效果如表3所示。最优EC-PLS模型的SEP+进一步提高到0.692%,相比较于直接PLS模型的预测性能高出14个百分点。采用的波长数减少到8个。结果表明,EC-PLS模型的预测性能有很大提高,波长模型的复杂度明显减少。

图2 每个单参数对应的局部最优EC-PLS模型SEP+

表3 EC-PLS模型在全谱区的建模效果

2.3 WSP-PLS模型

基于最优EC-PLS模型进一步采用WSP-PLS方法进行二次优化。

使用波长逐步淘汰方法每次淘汰EC-PLS模型中一个冗余波长。EC-PLS模型中的波长数从N逐渐减少到1。在该淘汰过程中剩余波长数量与预测效果之间的对应关系如图3所示。

图3 WSP-PLS模型在波长淘汰过程中剩余的波长数与对应的SEP+

对于在最优EC-PLS模型波长区域的EC-WSP-PLS模型,最佳波长数(N*)为5,LV为5。波长组合为1 798、1 818、1 838、1 858、1 918 nm。所选波长在样品的平均光谱中标记,如图4所示。它们在全谱区域的400~2 498 nm内非等距分布。预测的效果总结在表4中。

表4 WSP-PLS模型对清糖浆转光度指标的建模效果

图4 WSP-PLS模型中的离散波长组合在平均光谱图中的标记位置

结果表明,使用较少波长的最优EC-WSP-PLS模型(参与建模的波长数N*为5)获得了比最优EC-PLS模型(参与建模的波长数N*为8)更好的预测效果,比EC-PLS模型的预测能力提高了16个百分点。

2.4 独立检验

首先利用SNV光谱和建模集样品转光度指标的化学值建立PLS模型。接着对PLS模型进行波长筛选和二次优化得到EC-WSP-PLS模型,然后利用EC-WSP-PLS模型和检验集样品的光谱数据计算预测清糖浆转光度指标的值。35个未参与建模的检验集样品用于评估最优WSP-PLS模型。

预测值与实际值的关系如图5所示。检验的评估值(SEP和RP)汇总在表5中。预测值与实际值接近,两者具有较高的精度和相关性。EC-WSP-PLS模型的检验效果较好且模型中的波长数较EC-PLS模型相比较少。结果表明,EC-WSP-PLS方法的波长模型取得了更好的效果。

图5 检验集样品转光度指标的预测值与实测值的关系

表5 WSP-PLS模型对甘蔗清糖浆转光度指标的检验效果

2.5 实验小结

实验验证了近红外光谱结合PLS算法对甘蔗清糖浆转光度指标进行定量分析的可行性。相较于文献[13]的研究方法(Norris导数滤波预处理方法+PLS建模)本文最终的研究方法(标准正态变量变换预处理方法+PLS建模)得出的模型预测效果(SEP+=0.676,RP=0.949)与文献[13]的预测效果(SEP+=0.918,Rp=0.932)相比本文模型的SEP+提高了24个百分点,Rp提高了2个百分点。本文研究模型的检验效果(SEP+=0.895,RP=0.904)相比较于文献[13]的模型检验效果(SEP+=0.899,RP=0.932)稍有提升。本文研究得出的最优波长模型范围(1 798~1 918 nm)与文献[13]优选出的波长模型范围(1 766~1 906 nm)相比略有移动。出现该问题的主要原因可能是因为本文所选的样品较少或者所选样品的代表性不足。因此后续的工作中还可以增加实验样品的数量,这样得到的模型就会有更好的适应性。

3 结语

甘蔗清糖浆转光度是甘蔗制糖工艺流程中的重要指标,传统的检测方法耗时、浪费人力财力。不能够及时对转光度指标进行快速检测,对于制糖过程中产品质量的控制,生产工艺条件的调整有重要影响,一种甘蔗清糖浆转光度指标的快速检测方法在制糖工艺中具有重要的应用价值。

本文提出了一种基于近红外光谱和PLS算法的甘蔗清糖浆转光度的快速定量分析方法。使用SNV用于光谱预处理,EC-PLS用于波长筛选,进一步采用波长逐步淘汰WSP-PLS算法来优化EC-PLS模型。结果表明:SNV预处理方法可以较大地提高模型的预测精度;EC-PLS方法可以筛选更加有效的特征波段;在检验阶段中,EC-WSP-PLS方法选出的最优模型表现出较高的精确度和稳定性,检验集样品的SEP和RP达到0.895%和0.904%。波长数也明显减少。

实验结果证实了利用近红外光谱技术结合PLS算法对甘蔗清糖浆转光度进行定量分析的可行性。近红外光谱技术简单、快速、安全,是一种很有发展空间的分析技术。本文提出的甘蔗清糖浆转光度的快速分析方法相较于传统的化学检测方法来说效果更好。实验所得出的甘蔗清糖浆转光度波长模型可以代替全波段获得更好的预测效果,为设计小型专业近红外光谱仪器提供依据。

猜你喜欢
糖浆甘蔗光度
花式卖甘蔗
清明甘蔗“毒过蛇”
基层中医药(2021年3期)2021-11-22 08:08:04
糖槭树——流糖浆的树
乘用车后回复反射器光度性能试验研究
汽车电器(2019年1期)2019-03-21 03:10:46
爱咬甘蔗的百岁爷爷
特别健康(2018年3期)2018-07-04 00:40:08
HPLC-ELSD法同时测定参麦止嗽糖浆中8种成分
中成药(2018年3期)2018-05-07 13:34:23
枇杷糖浆
学习煮糖浆
23个甘蔗品种对甘蔗黑穗病的抗性测定
中国糖料(2016年1期)2016-12-01 06:48:57
Interaction Study of Ferrocene Derivatives and Heme by UV-Vis Spectroscopy