基于SiPLS- CARS 算法的百香果糖度无损检测

2023-10-24 10:38田永国吕都唐健波黄珊陈超卢扬
食品研究与开发 2023年20期
关键词:糖度百香果波长

田永国,吕都,唐健波,黄珊,陈超,卢扬,4*

(1.贵州省铜仁市沿河 土家族自治县农业技术推广中心,贵州 铜仁 565300;2.贵州省农业科学院 生物技术研究所,贵州贵阳 550025;3.贵州省农业科学院 食品加工研究所,贵州 贵阳 550025;4.贵州省农业生物技术重点实验室,贵州 贵阳 550025)

百香果(Passiflora edulis Sims)又名西番莲、巴西果和鸡蛋果等,生长于热带地区,原产地为巴西,在我国的种植地区主要分布在广西、广东、福建等。百香果营养价值非常高,含有人体所需的17 种氨基酸、多种维生素和类胡萝卜素,还有丰富的钙、磷、铁等矿物质[1-3]。水果品质检测是指根据水果的颜色、硬度、水分、含糖量、硬度等物理和化学特性来评定水果的质量[4]。糖度能反映水果的糖含量,是决定水果品质的一个重要指标[5]。传统的糖度检测方法有折光法、旋光法、蒽酮比色法和高效液相色谱法等。然而,传统的检测方法对样品有一定的破坏性,且操作步骤繁琐、耗时长、效率低[6-7],在水果品质无损检测方面的效果并不理想,已不能满足当前人们对水果按质论价快速检测的需求。

近红外光谱技术(near infrared spectrometry,NIRS)是一种非破坏性分析方法,主要通过测定样品的近红外吸收光谱结合化学计量学知识,对样品中物质进行定性和定量分析[8-9]。与传统的检测分析方法相比,近红外光谱分析具有快速、无损、安全、简便等特点[10]。近年来,该技术已广泛应用于农产品分级、食品成分快速检测、品种鉴定、产地溯源和医药及化工等领域[11-14]。近红外光谱包含的化学信息非常丰富,除了包含有效信息,还含有噪音、杂散光和对建立预测模型无贡献的信息,甚至还含有一些干扰预测模型能力的冗余信息[15]。因此,为了提升模型的运算效率、预测能力和稳健性,提取近红外光谱中的有效信息并且剔除掉无效信息和干扰信息尤为重要。特征波长筛选的方法主要有联合区间偏最小二乘(synergic interval partial least squares,SiPLS)[16]算法、竞争适应重加权采样(competitive adaptive reweighted sampling,CARS)[17]算法和连续投影(successive projections algorithm,SPA)[18]算法等。孔庆明等[19]采用SiPLS 算法筛选出了特征波长,建立的玉米秸秆粗蛋白含量预测模型有良好的预测能力,其预测模型的相关系数R2为0.955 0、验证集决定系数R2p为0.978 4,验证集均方根误差为0.221 1。江水泉等[20]研究表明,CARS 算法筛选出的波长建立脐橙可溶性固形物含量预测模型,其效果优于SPA 算法的筛选结果。孟珊等[21]采用CARS 算法可以将建立预测模型的输入波长数量压缩至全波长总量的2.76%,极大地提升了模型的运算速度。

本研究以百香果为研究对象,利用近红外光谱技术建立百香果糖度预测模型,并使用SiPLS 算法筛选特征波长。由于筛选出的特征波长具有连续性,特征波长的数量较多,因此在SiPLS 算法筛选出的特征波长的基础上继续使用CARS 算法进行特征波长的二次筛选。同时,采用多元线性回归方法偏最小二乘(partial least square,PLS)法和多元非线性回归方法支持向量机(support vector regression,SVR)建立百香果糖度预测模型,并对其预测能力进行对比分析,以期为百香果糖度无损检测提供理论依据,为糖度无损检测便携检设备中的模型简化提供技术支持。

1 材料与方法

1.1 材料与试剂

百香果:收集来自广西、云南和贵州3 个地区,不同成熟度的百香果样品共计261 个果实。

1.2 仪器与设备

MPA 型傅里叶变换近红外光谱仪(分辨率最小为1.0 cm-1):德国Bruker 公司;PAL-1 型数显糖度计(测量精度为±0.2 °Brix):日本ATAGO 公司。

1.3 方法

1.3.1 百香果糖度的测定

取百香果果肉,用纱布挤压出果汁,将果汁摇晃均匀后吸取0.3 mL 置于数显糖度计棱镜测量区进行测量。测量完毕后,用蒸馏水冲洗棱镜测量区,再次用蒸馏水进行调零后进行新一轮测量。每个样品检测3 次,取平均值作为百香果的糖度。

1.3.2 百香果近红外光谱图的采集

近红外光谱仪开机后预热30 min,波数范围为12 970.3~3 594.9 cm-1,分辨率为4.0 cm-1,扫描次数为64,扫描背景光谱后,分别在百香果顶部、底部和果体赤道部位间隔120 各取1 个光谱采集点,共计5 个光谱采集点。采集百香果样品的近红外光谱图,并用平均光谱图代表百香果样品的近红外光谱图。

1.3.3 SiPLS 结合CARS 算法筛选特征波长

联合区间偏最小二乘算法是在间隔偏最小二乘(interval partial least squares,iPLS) 算法的基础上改进提出的,先将光谱划分成若干个区间,SiPLS 算法则是将建立预测模型精度高的若干个区间联合在一起建立预测模型,直到选出最佳的联合区间。但是SiPLS 算法筛选出的特征波长为整个光谱的若干个区间,其中仍然含有一些冗余信息和干扰信息。因此,本研究在SiPLS 算法筛选结果的基础上,使用CARS 算法继续筛选特征波长。

1.3.4 预测模型的建立和评价方法

本研究采用多元线性回归方法偏最小二乘法和多元非线性回归方法支持向量机以建立百香果糖度预测模型。以相关系数(R2)、均方根误差(root mean square error,RMSE) 和相对分析误差(relative percent deviation,RPD) 为预测模型的评价指标,R2越接近1,RMSE 值越接近0,RPD 值大于2,预测模型的预测能力越强[22-23]。

1.4 数据处理

采用Excel 2010 进行基础数据统计分析,采用Unscrambler 10.4 和Matlab 2019a 软件进行样品集的划分、光谱预处理、光谱特征波长的选择和预测模型的建立,采用OriginPro 2022 进行绘图。糖度测定试验,每个样品进行3 次重复试验。

2 结果与分析

2.1 百香果糖度统计分析和样品集的划分

对收集自3 个地区的261 个百香果进行糖度测定,并采用光谱-理化值共生距离(sample set partitioning based on joint x-y distances,SPXY)法,按照4:1 的比例将样品划分为校正集和验证集。将208 个校正集样品用于校正模型的建立,53 个验证集样品用于校正模型的外部验证。261 个样品的糖度、校正集样品的糖度和验证集样品的糖度统计分析结果见表1 和图1。

图1 不同样本集中百香果糖度分布直方图Fig.1 Fructose degree distribution of passion fruits in different sample sets

表1 百香果样品糖度结果统计Table 1 Sugar content in passion fruits

由表1 可知,261 个百香果糖度为6.91~19.84 °Brix,平均值为14.81 °Brix,校正集样品的糖度范围包含了验证集样品的糖度范围,校正集样品建立的预测模型可以很好地预测验证集样品的糖度。由图1 可知,3 个样品集的百香果糖度都集中在12.00~18.00 °Brix,且样品糖度分布直方图与正态分布曲线吻合,表明收集的样品、校正集样品和验证集样品都具有广泛的代表性,可以用于预测模型的建立和验证。

2.2 百香果样品的近红外光谱图和光谱预处理

百香果样品的近红外光谱图见图2。由于近红外光谱含有的化学信息非常丰富,且在同一吸收谱带中含有多种对应的化学基团信息,因此需要对近红外光谱进行进一步处理。将不同预处理方法处理后的光谱数据,采用PLS 法建立百香果预测模型,结果见表2。

图2 百香果样品原始近红外光谱图Fig.2 Near-infrared spectra of passion fruit samples

表2 不同预处理方式对预测模型的影响Table 2 Influences of different preprocessing methods on the prediction models

由图2 可知,百香果样品的近红外光谱图在10 267、8 381、6 896、5 603、5 192 cm-1处有明显吸收峰,10 267 cm-1处的波峰可能是由于百香果中糖类物质的—OH 基团三倍频和水或者—CH3基团合频振动引起的,8 381 cm-1处的波峰可能是由于—CH3基团和水二倍合频振动引起的,6 896 cm-1处的波峰可能是百香果中氨基酸的酰胺键和糖类中的—OH 基团倍频振动引起的,5 603 cm-1和5 192 cm-1处的波峰可能是C—H 伸缩振动和百香果中有机酸的—COOH 和C O基团倍频振动引起的[24]。由表2 可知,最佳预处理方法为正交信号校正方法,预处理后的光谱数据建立的预测模型,其预测模型的R2c为0.983 8,RMSEC 值为0.257 0,验证集的R2p为0.976 1,RMSEP 值为0.312 1,RPD 为4.820 7,预测模型的预测能力强。

正交信号校正预处理方法主要用于消除光谱矩阵与目标值矩阵无关的信息[25],正交信号校正预处理方法处理后的近红外光谱图见图3。

图3 预处理后的百香果样品原始近红外光谱图Fig.3 Orthogonal signal-corrected near-infrared spectra of passion fruits

2.3 SiPLS 结合CARS 算法特征波长的筛选

使用SiPLS 算法筛选进行特征波长筛选,将算法参数区间划分数量分别设置成12、14、16、18 和20,区间组合数参数设置为2、3 和4,将筛选出的特征波长采用PLS 法建立百香果预测模型,以RMSEP 值和特征波长点数量为考察指标确定算法的最佳参数,结果见图4 和表3。

图4 区间划分数量和区间组合数对SiPLS 算法波长筛选的影响Fig.4 Effects of number of interval divisions and number of combined intervals on wavelengths screening by the SiPLS algorithm

表3 不同参数SiPLS 算法筛选出的特征彼长Table 3 Wavelengths selected by the SiPLS algorithm with different parameters

由图4 可知,采用SiPLS 算法进行特征波长筛选时,RMSEP 值的变化趋势为4 个区间组合<3 个区间组合<2 个区间组合。RMSEP 值越小表明建立的预测模型的预测能力越好,因此,区间组合数量参数采用4 个区间组合。采用4 个区间组合,区间的划分数量为16、18 和20 时,其RMSEP 值差异不显著,但是其特征波长点分别为576、512 个和460 个,特征波长点的数量越少,预测模型的运算速度越快,因此,区间划分数量参数采用20 个区间。由表3 可知,SiPLS 算法程序采用20 个区间和4 个区间组合时,百香果糖度预测模型的特征表波长的最佳组合为[9,12,14,20],对应的近红外光谱波数段为8 917.583~8 477.875 cm-1、7 586.888~7 147.181 cm-1、6 699.758~6 260.051 cm-1和4 038.369~3 598.661 cm-1,在样品近红外光谱中的位置见图5。

图5 SiPLS 算法筛选的特征波长Fig.5 Characteristic wavelengths screened by the SiPLS algorithm

在SiPLS 筛选出的特征波长的基础上,利用CARS 算法进一步进行特征波长的筛选。CARS 算法参数蒙特卡罗迭代次数设置为500,运行算法程序20次,选择最优的一次结果作为最终结果,CARS 算法筛选特征波长的过程见图6。

图6 CARS 算法筛选特征波长的过程Fig.6 Process of screening characteristic wavelengths by the CARS algorithm

由图6 可知,随着蒙特卡罗迭代次数的增加,特征波长的总数量迅速减少,当蒙特卡罗迭代次数为100 时,特征波长的总数量趋于平稳。但是随着蒙特卡罗迭代次数的增加,RMSEP 值和变量系数都总体呈现出先下降后上升的趋势,当蒙特卡罗迭代次数为40 次时,RMSEP值为4.506 6,且最小,特征波长的总数量为67 个,筛选出的特征波长点在样品近红外光谱中的位置见图7。

图7 SiPLS 结合CARS 算法筛选的特征波长Fig.7 Characteristic wavelengths screened by SiPLS combined with CARS

2.4 百香果糖度预测模型的优选

将百香果样品的近红外光谱图的全光谱、SiPLS算法筛选的特征波长和SiPLS-CARS 算法筛选的特征波长分别采用多元线性回归PLS 法和多元非线性回归SVR 法建立百香果糖度预测模型。在使用SVR 法建立百香果糖度预测模型时,分别采用Linear、Polynomial、Radial basis function 和Sigmoid 4 种核函数,并使用网格全局寻优算法确定核函数参数,预测模型结果见表4。

表4 百香果糖度预测模型的优选Table 4 Selection of prediction models for the sugar content in passion fruits

由表4 可知,PLS 法建立的模型优于SVR 法建立的模型,主要是因为PLS 法抗干扰能力强[26],另一方面也有可能是样品集中百香果糖度含量符合多元线性回归,这与SVR 法建立的模型其核函数为Linear 的结果一致。SVR 法建立的模型其核函数为Linear 和Radial basis function 时,模型的预测效果较好;其核函数为Polynomial 时,模型的预测效果较差;其核函数为Sigmoid 时,模型的预测效果最差。

当使用PLS 法建立百香果糖度预测模型时,样品全光谱波长点数为2 307 个,预测模型的R2c为0.983 8,RMSEC 值为0.257 0,验证集的R2p为0.976 1,RMSEP值为0.312 1,RPD 为4.820 7;SiPLS 特征波长点数为460 个,占全光谱的19.94%,PLS 预测模型的R2c为0.967 3,RMSEC 值为0.365 1,验证集的R2p为0.959 1,RMSEP 值为0.408 0,RPD 为3.687 1;SiPLS-CARS 特征波长点数为67 个,占全光谱的2.90%,PLS 预测模型的R2c为0.972 7,RMSEC 值为0.333 8,验证集的R2p为0.967 2,RMSEP 值为0.366 0,RPD 为4.506 6。样品全光谱建立的预测模型性能最佳,SiPLS-PLS 预测模型的性能较样品全光谱建立的预测模型略有降低,但是差异不明显,预测能力依然优秀,可能是由于在筛选特征波长的过程中,不光剔除了干扰信息,也有可能剔除一些有用信息。SiPLS-CARS-PLS 预测模型的性能较SiPLS-PLS 预测模型有所提升,这可能是SiPLS-CARS 算法进一步较为精准地剔除了样品光谱中的不相关信息和干扰信息。

3 结论

本研究以来自广西、云南和贵州3 个地区不同成熟度的百香果样品为研究对象,采用近红外光谱技术对百香果的糖度进行无损快速检测。结果表明,百香果样品近红外光谱的最佳预处理方式为正交信号校正方法。采用多元线性回归方法建立的模型优于多元非线性回归方法建立的模型。SiPLS 算法筛选的特征表波长的最佳组合为[9,12,14,20],对应的近红外光谱波数段为8 917.583~8 477.875 cm-1、7 586.888~7 147.181 cm-1、6 699.758~6 260.051 cm-1和4 038.369~3 598.661 cm-1,特征波长点数为460 个,且具有连续性仍含有一些冗余信息。采用CARS 算法筛选出的特征波长点数为67个,占全光谱的2.90%,PLS 预测模型的R2c为0.972 7,RMSEC 值为0.333 8,验证集的R2p为0.967 2,RMSEP 值为0.3660,RPD 为4.506 6,能够实现百香果糖度的无损快速检测,并且对预测模型中的近红外光谱数据进行了简化,可以为百香果糖度无损检测便携检设备的开发提供技术支持。

猜你喜欢
糖度百香果波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
糖度高、类型多、瓜味足 “炫彩”系列小西瓜 亩产值3.5万元
落叶在跳舞
莫兰迪的夏天
五月的一抹新绿
蒋湘兰:百香果 香百家
双波长激光治疗慢性牙周炎的疗效观察
甜菜块根糖度检测使用重复检测进行质量控制的方法
日本研发出可完全覆盖可见光波长的LED光源
基于不同物候期苹果树叶片光谱特征预测果实糖度