基于便携式近红外光谱仪的蓝莓热风干燥过程模型的建立

2023-09-01 01:36黄积微李洋袁迪张欣硕李国庆
食品与发酵工业 2023年16期
关键词:蓝莓波长预处理

黄积微,李洋,袁迪,张欣硕,李国庆

(东北林业大学 工程技术学院,黑龙江 哈尔滨,150040)

蓝莓因其富含维生素,矿物质和植物活性物质如多酚、类黄酮、花青素等,被世界粮农组织列为五大人类健康食品之一,被誉为“浆果之王”[1]。但由于其一般采收期在高温多雨的7、8月夏季,采后果实代谢活动旺盛,且富含水分,贮藏环境稍有不当,就会在短时间内迅速变质,丧失商品价值[2]。因此,将蓝莓果实加工为果干制品,通过去除细菌、酵母和霉菌等微生物所必须水分,抑制果实内酶的活性,使得果实中各类营养成分能够长期得到较好保存,且在众多干燥方式中成本最低,应用最广泛的干燥方式仍是热风干燥,准确监测蓝莓在干燥过程中含水量对于确保干燥过程中的食品安全十分重要。

相较于具有破坏性、需要较大样本量、耗时间的传统研究方法,非破坏性、快速、成本较低的光谱技术近年来备受关注[3]。其中,近红外光谱因为具有实时、高精度、非破坏性和设备小型化等优势,在食品工业领域有丰富应用场景[4]。国内外研究人员已经将近红外光谱技术应用于监测评估多种食品的理化指标[5],刘小路等[6-7]先后基于近红外光谱技术方法建立蓝莓可溶性固形物、总酸、总黄酮及花青素的近红外检测模型,曾明飞等[8]和朱金艳等[9]先后建立蓝莓近红外光谱新鲜度模型和近红外结合极限学习的蓝莓贮藏品质模型。近红外光谱技术能够实现准确检测蓝莓各项理化指标,但以往模型多是通过光谱预处理来提高模型精度,没有对特征波段进行系统分析,且参与建模变量过多难以达到快速检测目的。对于干燥过程,MALVANDI等[10]通过便携式近红外光谱仪结合机器学习对苹果干燥过程硬度实现实时监测,KAPOOR等[11]同样通过便携式近红外光谱仪实现了涂膜苹果片水分含量的实时监测。但是将近红外光谱技术应用于蓝莓干燥过程监测的研究还较少。近年来,便携式或微型近红外光谱仪因其相当低廉的价格,被普遍应用于检测食品特性[12-13],虽然由于这些微型仪器存在性能差异,但这些微型近红外光谱仪仍能够对食品各种性质进行准确预测[14]。所以,便携式微型近红外光谱仪是果蔬品质实时监测分析的一种快速经济的解决方案。

综上,本文以蓝莓为研究对象,以便携式近红外光谱仪作为工具监测蓝莓热风干燥过程,并评估近红外光谱预处理及特征变量优选方法,将筛选出的特征变量作为模型输入变量,在保证预测精度及稳定性的基础上减少变量数目,开发一个蓝莓干燥过程含水率多变量快速检测模型。为在实际生产及日后研究中,精准监测预测蓝莓多品质指标提供理论参考和依据。

1 材料与方法

1.1 材料

“蓝丰”蓝莓于2021年11月购于哈尔滨市红旗乡蓝莓小镇。八成熟果实。大小均匀一致、表面蜡质完整、无病虫害、无机械损伤,聚乙烯小盒单独包装,当日运回放置在4 ℃冷藏库中预冷待处理。在试验前多次精确称取适量蓝莓果实,110 ℃烘至恒重后计算果实含水率,蓝莓初始含水率平均为(85.05±1.4)%。

1.2 仪器与设备

LabSpec Pro FR/A114260便携式物质成分分析光谱仪及配套软件(350~2 500 nm),美国ASD公司;FA2004B电子分析天平,上海舜宇恒平科学仪器有限公司;101-3A鼓风干燥箱,上海昕怡仪器仪表有限公司。

1.3 实验方法

在试验前准确称取适量蓝莓果实均匀平铺于物料盘,放入设定温度为65 ℃,风速2 m/s的鼓风干燥箱中,烘干至恒重,过程共用时17 h。干燥过程中每1 h称量蓝莓整体质量计算其含水率,并每1 h随机取样5颗蓝莓果实样品,分别使用光谱仪镜头在距离果实果蒂部、尾部和果腹部2 mm处,对准中心位置,设定扫描次数为32次,分辨率1 nm,取平均值,截取900~1 700 nm光谱数据作为样品光谱数值,光谱文件由ViewSpec Pro软件进行预处理并输出数据。

1.4 含水率及干燥速率测定

参照GB 5009.3—2016《食品安全国家标准 食品中水分含量的测定》方法对蓝莓果实干燥过程含水率及干燥速率进行测定。

干基含水率的测定如公式(1)所示:

(1)

式中:M,t时刻物料的干基含水率,%;mt,t时刻蓝莓果实质量,g;me,干燥至恒重的蓝莓果实质量,g。

干燥速率的计算如公式(2)所示:

(2)

式中:DR,干燥速率,g/(g·h);M1,t1时刻蓝莓果实干基含水率,%;M2,t2时刻蓝莓果实干基含水率,%;t1、t2,蓝莓果实干燥时间,h。

1.5 建模方法及模型评价

1.5.1 异常样本检测剔除

为保证模型预测精确度,在建模前应当剔除光谱数据中的异常样本,常用的异常样本检测方法有:浓度残差剔除法、马氏距离法、蒙特卡洛随机抽样算法、杠杆值法等。本文选取蒙特卡洛方法(Monte-Carlo sampling,MCS)进行255个光谱数据异常值的检测剔除。

1.5.2 光谱预处理方法

根据900~1 700 nm全光谱数据构建原始蓝莓干燥过程水分含量偏最小二乘(partial least squares,PLS)模型,由于在光谱获取过程中,为消除样本背景高频噪声、基线偏移、光散射等对光谱稳定性有影响的不利因素,本文对光谱数据进行一阶微分(first-order difference,FD)、二阶微分(second-order difference,SD)、多元散射校正(multiplicative scatter correction,MSC)和标准正则变换(standard normal variate transform,SNV)等光谱预处理方法对采集的光谱数据进行处理。

1.5.3 干燥模式研究

主成分分析法(principal component analysis,PCA)可以通过正交变换降低光谱数据高维度特性[15],将复杂的原始变量归纳为数个成分(PCs)[16],可以定性地监测其干燥过程,监测蓝莓干燥过程中水分损失模式。在剔除异常样本后,将均值中心化的光谱数据应用PCA模型中,获得蓝莓干燥过程中含水率与干燥时间的大致关系。以累积贡献率选取最佳主成分数(PCs),以选取主成分模型方差与总样本方差比率评价模型质量。

1.5.4 特征波长选取

近红外光谱能够反映所测物质成分及含量,光谱数据从900~1 700 nm共包含801个数据点,不可避免存在不同物质间存在共线性问题以及样本背景噪声,这些都会影响模型拟合精度,减低预测成分贡献度,造成模型欠拟合或过拟合,从而影响模型可信度。所以,有必要对光谱数据进行特征波长选择,精简优选参与建模的光谱数据,提升建模效率,提高模型精度。常见的特征波长筛选方法有:PCA、无信息变量消除法(uninformative variables elimination,UVE)、移动窗口偏最小二乘法(moving-window partial least square,MWPLS)、竞争性自适应重加权采样算法(competitive adaptive reweighted sampling,CARS)等。

其中MWPLS的基本原理为创设一个沿光谱轴线连续移动的窗口,对逐个光谱波长点移动的窗口内数据建立模型,进行交叉验证从而确定模型主因子数,并建立最优PLS模型。通过改变移动窗口宽度和主因子数,根据均方根误差选择与待测组分高相关性的光谱区间[17]。

CARS是通过自适应重加权采样(adaptive reweight sampling,ARS)技术筛选出建立的PLS模型中具有较大回归系数的光谱波长点。最后取较大回归系数光谱波长与具有最低交叉验证标准偏差(root mean square error of cross,RMSEC)的波长子集,从而最终确定与待测组分强相关性的数据组合[18]。

蒙特卡洛无信息变量消除法(Monte Carlo uninformative variable elimination,MCUVE)是通过蒙特卡洛方法对光谱矩阵进行随机采样,并建立PLS模型,计算每个模型回归系数,并利用无信息变量方法定义计算每个变量的重要性指标Ci,然后从大到小排列每个变量重要性指标Ci的绝对值,依次求以其变量建立的PLS模型预测集的预测结果,并选取预测均方根误差(root mean square error of prediction,RMSEP)最小时所对应的模型,将该模型最后加入的Ci作为阈值N,将大于阈值N的|Ci|所对应波长作为特征波长选取,将小于阈值N的|Ci|所对应波长作为无信息变量删除[19-20],计算如公式(3)所示:

(3)

式中:|Ci|,模型第i个波长变量重要性指标的绝对值;mean(bi),采样各波长集合均值;std(bi),采样各波长集合标准差。

最后对上述3种方法中所筛选特征波长数目及其建立的PLS模型性能进行比较,选取性能最好的特征波长选取方法,将其选取变量作为模型输入变量,降低矩阵维度,提升计算速率。

1.5.5 模型评价及模型评价

在常用近红外光谱分析建模中,针对小样本量、多变量和变量间相关性强的光谱数据,逐步增加信息、可以一定程度消除光谱噪声的偏最小二乘回归PLS法具有独特优势。偏最小二乘回归是多元线性回归和主成分回归法的结合体,故本文选取PLS法进行建模分析,并采用蒙特卡洛交叉验证方法(Monte-Carlo cross-validation,MCCV)进行原始样本主成分选取。

将近红外光谱数据导入化学计量学软件UnscramblerX中进行预处理,然后在软件Matlab R2021a中应用MWPLS、CARS和UVE 3种方法对近红外光谱建立的PLS模型进行特征变量优选,比较模型选取波长数目及模型性能,选择最优特征变量选择方法建立蓝莓干燥过程含水率近红外偏最小二乘回归模型。

(4)

(5)

1.6 数据分析

光谱数据导出及预处理在化学计量学软件Unscrambler X中进行,数据存储、计算、绘图及建模在软件Matlab R 2021a及Origin 2019b中进行。

2 结果与分析

2.1 蓝莓果实干燥特性

如图1所示为65 ℃热风下蓝莓果实干燥过程干基含水率和干燥速率变化曲线。如图1-a所示,随着干燥过程的进行,蓝莓果实从最初5.22的干基含水率下降至恒重。如图1-b所示,蓝莓干燥速率在干燥过程中大致可分为3个阶段,1~4 h为升速阶段,5~8 h为恒速阶段,9~17 h为降速阶段。蓝莓干燥是从外至内的水分散失过程,干燥初期果实与热风对流较充分,干燥速率较快,且随着果实温度上升,干燥速率进一步上升。干燥中期,果实内部与外部形成水分差,果实内部水分向外扩散并被蒸发,干燥速率趋于平稳,干燥后期,随着干燥过程的深入,果实内部水分阶梯趋于平稳,水分扩散速度放缓,干燥速率逐步下降。此结果与李星琪等[21]结果类似。

a-干燥曲线图;b-干燥速率图

2.2 蓝莓干燥过程近红外光谱特征及异常样本剔除

如图2所示为蓝莓干燥过程近红外光谱反射率光谱(原始共255个样本光谱,将每1 h光谱数据求均值展示)。所有时间段的近红外光谱图像均显示出类似的光谱趋势,O—H拉伸振动的一级倍频在1 450 nm 处产生,而二级倍频在960 nm产生峰值变化。1 200 nm反射波谷的出现主要是由于果实中糖类C—H键一级谐振。水分最后一个反射波谷是由于水中O—H键及碳水化合物O—H键重叠在1 450 nm左右。特别是,随着干燥的进行,蓝莓果实整体反射率向较高反射方向移动,其中1 450 nm处的反射波谷逐渐加深,主要可能是由于干燥过程中果实水分减少,而糖类和其他可溶性物质浓度升高,导致果实中整体氢键的减少。

图2 蓝莓干燥过程样本近红外光谱图

MCS因具有可有效检测多个异常值,且可同时检测光谱异常值和理化参照值异常值等优势,在检测回归分析异常样本中的应用越来越多[22]。试验参数设置为:对蓝莓干燥过程原始近红外光谱PLS模型进行MCCV验证得到最佳潜在主成分数:11,并对模型进行均值中心化预处理;抽样次数设置为2 500次,蒙特卡洛抽样所得校正集与测试集比例为4∶1,并将预测误差均值与标准差的2.5倍作为均值与标准差阈值,将阈值外的样本视为离群样本进行剔除[23]。如图3所示为试验所得蓝莓干燥红外光谱蒙特卡洛异常样本检测结果。

图3 基于蒙特卡洛方法的蓝莓干燥过程近红外光谱异常样本检测结果

图3中水平与垂直虚线为预测误差均值与标准差阈值线。其中离群点为178、213、216、219、227、229、232、241、250、251、254号,共11个离群点。将剔除离群点后的光谱数据作为之后研究原始光谱数据,建立含水率PLSR模型,由MCCV计算原始光谱决定系数R2为0.859 0,RMSECV为0.079 2。说明原始数据预测模型效果较好,可信度较高,达到模型交叉验证检验要求,可用于之后数据处理。

2.3 蓝莓含水率定性监测

将PCA应用至光谱数据中,获得蓝莓果实干燥过程中每隔1 h的水分损失模式,定性地监测其干燥过程。如图4所示,显示了2个主成分数下的PCA分数分布图,即只需要2个主成分就可以充分描述蓝莓干燥过程的光谱变化。其中,PC1(97%)已经覆盖绝大部分光谱数据,且随着干燥过程发展,近红外光谱在得分集从高含水率到低含水率(从左到右)展现出明显分离。

图4 不同时间间隔蓝莓近红外光谱得分图

2.4 光谱预处理对全波长模型影响

如表1所示,对于蓝莓干燥近红外光谱进行预处理后,其中SNV预处理略微提升了原始PLS模型的性能,但FD、SD和MSC等预处理方法反而增大了模型均方根误差,降低模型相关性。这说明光谱预处理方法并不一定会提升原始模型的性能,这是因为常用的光谱预处理方法一般应用于消除特定的光谱影响,不同的预处理方法是基于光谱数据影响因素的不同假设从而对光谱进行处理。对光谱数据进行预处理,会在一定程度上改变数据结构,从而影响模型预测结果。与第五鹏瑶等[24]关于预处理方法不仅和光谱数据有关还和待测组分有关,不存在普适性光谱预处理方法,选择预处理方法也大多基于实验者经验和建模效果尝试的结论类似。由于在本研究中原始光谱PLS模型比预处理后模型表现出更好性能,又由2.2节中模型所示,原始光谱数据剔除异常值后特征明显,故在本文以下章节中,将基于原始光谱数据模型进行优化。

表1 不同光谱预处理后蓝莓干燥过程含水量PLS模型结果

2.5 近红外光谱特征波段选取

2.5.1 MWPLS

移动窗口偏最小二乘法通过提取相邻波长点克服无关信息对模型预测干扰,使之能更有效地提取实际测量值中的样本相关属性。如图5所示,光谱窗口宽度为40时,从所测光谱起点900 nm依次向右移动一个波长点至1 661 nm,对每个窗口建立PLS模型,对比每个窗格所建立模型RMSEP,最优窗格为926~965 nm,RMSEP最小值为0.058 4。

图5 基于MWPLS的蓝莓干燥近红外光谱特征窗口筛选结果

2.5.2 CARS

通过CARS方法对蓝莓干燥过程光谱进行特征变量筛选,结果如图6所示。图6-a~图6-c分别表示在模型运行次数在50次下,CARS算法中样本变量数目、RMSECV数值和变量回归系数随着运行次数的变化趋势。

a-变量数目变化趋势;b-RMSECV变化趋势;c-变量回归系数变化趋势

图6-a显示模型采样运行到50次过程中,蓝莓干燥近红外光谱参与模型的样品变量数目呈由快至慢的递减趋势,这主要是由于CARS算法中指数衰减函数的存在。表明在采样次数较少时,算法快速剔除无关信息变量,随着采样次数增加,算法剔除速率降低,进一步精简样本变量数目。

图6-b表示模型采样运行到50次过程中,模型RMSECV的变化趋势。如图6所示,采样次数在36次,光谱数据中大部分包含无关信息的波长变量被去除,但在36次后,RMSECV数值一直处于上下波动状态,这主要是由于采样次数达到36次后一些关键信息也被剔除,导致模型性能变差;采样次数达到39次后大量无关信息与部分关键信息被剔除,使模型趋于稳定;46次采样后,最后关键信息也被去除,导致模型性能急剧下降。

图6-c表示蓝莓干燥近红外光谱数据在算法采样过程中回归系数变化路径,其中“*”号组成竖线表示在算法运行中所对应残差值最小的采样次数:36,即当采样次数为36时,所获得的特征变量集合建立的偏最小二乘回归模型的RMSECV最小,由此筛选出11个关键特征变量。

如图7所示,CARS法筛选出的特征变量为1 146、1 150、1 163、1 175、1 198、1 227、1 322、1 326、1 395、1 659、1 667 nm。

图7 基于CARS的蓝莓干燥近红外光谱变量选取结果

2.5.3 MCUVE

MCUVE方法是在UVE的基础上增加了蒙特卡洛随机采样原理,通过输入变量对模型重要性指标决定变量是否选取。

如图8所示,仅使用虚线以上的变量建立PLS模型。其中最优保留数目为33,绝大多数选取变量位于900~1 000 nm。选取波长如表2所示。

表2 基于MCUVE的蓝莓干燥近红外光谱变量选取结果

图8 基于MCUVE的蓝莓干燥近红外光谱变量贡献度结果

2.5.4 蓝莓热风干燥监测模型

表3给出MWPLS、CARS和MCUVE 3种特征波长选取方法对蓝莓干燥过程含水率的波长选取结果及其建立的PLS模型性能。

表3 基于不同方法的蓝莓干燥近红外光谱变量选取数量及性能

如表3所示,其中3种特征波长选取方法均能提升PLS模型性能,减少变量数量,提升预测速度,其中CARS方法较之其他2种方法,特征波长数量最少,且能够大幅提升原始PLS模型性能,使之达到定量研究目的。R2仅比MCUVE方法低0.008 1。MWPLS与MCUVE方法选取波长集中于光谱前段,并未完全覆盖水分特征波段,只是达到局部最优,难以从存在信息重叠的光谱数据中有效消除无关组分影响。因此。CARS方法最适用于优选蓝莓干燥近红外光谱波长。

3 结论

本文以蓝莓研究对象,建立了一种基于便携式近红外光谱的蓝莓干燥过程含水量无损快检模型。在主成分定性分析和蒙特卡洛离群点检测法的基础上,分别探讨了导数法、多元散射校正、正交信号校正法和Savitzky-Golay卷积平滑法等光谱预处理方法对蓝莓干燥光谱PLS模型的影响,比较了MWPLS、CARS和MCUVE 3种特征变量选取方法对PLS模型影响,最终确定基于CARS建立的蓝莓干燥过程PLS模型选取具有相对最优性能,其特征波长个数最少为11,预测R2为0.946 5,预测误差RMSEP为0.047 3。能够满足蓝莓干燥过程含水率定量研究目标。为近红外光谱快速监测蓝莓品质指标提供了理论及应用指导。

猜你喜欢
蓝莓波长预处理
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
蓝莓建园技术
蓝莓姑娘
基于预处理MUSIC算法的分布式阵列DOA估计
双波长激光治疗慢性牙周炎的疗效观察
西海岸的蓝莓名片
甜甜的蓝莓果
日本研发出可完全覆盖可见光波长的LED光源
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水