基于可见/近红外透射光谱技术的红提糖度和含水率无损检测

2021-06-15 09:09王巧华
中国光学 2021年3期
关键词:糖度波长含水率

高 升,王巧华

(1. 华中农业大学 工学院,湖北 武汉 430070;2. 农业部长江中下游农业装备重点实验室,湖北 武汉 430070)

1 引 言

葡萄是我国五大水果之一,2017年的总产量高达1 308.0万吨[1]。红提葡萄果肉坚实、颗粒饱满、香甜可口,受到人们的广泛喜爱。可溶性固形物含量(Soluble Solids Content,SSC),一般也称为糖度,是评价水果内部品质的关键参数,也是集可溶性糖、酸、纤维素等成分在内的综合指标[2],是消费者进行购买时的重要参考,也是反映水果成熟度的重要指标[3]。葡萄果粒含有较高的水分,使葡萄果粒呈现出新鲜饱满和脆嫩的状态,具有较好的口感。葡萄容易出现腐烂、软化、干梗等现象,导致葡萄的品质降低[4]。含水率作为果蔬的重要衡量指标,会对果蔬的品质、质构及风味产生较大的影响,且含水率也是葡萄腐败变质的重要原因,及时地检测葡萄果粒的含水率,根据含水率挑选出将要腐烂的果实,对保护周边好的果粒,延长贮藏时间至关重要。此外,含水率还可以在一定程度上反映葡萄的贮藏时间,同样也可以用于判断葡萄是否新鲜。

传统糖度检测需进行破坏实验,挤出汁液后,再利用折射法进行测定;含水率则是通过烘干法进行测定,繁琐费时,且只能进行抽样检测,检测范围较小,检测完的实验样本损坏后无法销售。近红外光谱技术具有检测时间短、操作简单等优点,被广泛用于苹果、哈密瓜、梨、柑橘等食品内部品质的无损检测[5-12]。国内对果蔬含水率的检测相对较少[5],朱丹实等[4]研究了湿度条件对巨峰葡萄贮藏过程中水分及质构变化的影响,并建立不同湿度贮藏时巨峰葡萄的水分变化规律。韩东海等[13]利用近红外技术实现了对小型西瓜生长过程中可溶性固形物和水分的快速无损检测,并确定了最佳光谱采集区域。孙海霞等[14]利用光谱和含水率补偿方法建立了稳定可靠的鲜枣品质(含水率、可溶性固形物含量、维生素C含量、蛋白质含量、硬度值)模型。目前,大多数的研究大都集中在对水果的糖度研究,刘燕德等[15]搭建了以STS光谱仪和自制样品杯作为光谱检测装置的苹果可溶性固形物便携式检测平台,结合偏最小二乘法建立的苹果可溶性固形物定量检测模型精度最高,模型的预测集相关系数Rp为0.924。许峰等[16]利用可见/近红外技术检测红提糖度和酸度含量,糖度和酸度预测集的相关系数分别为0.956 8、0.940 5,实现了红提糖度和酸度的快速无损检测。已有研究中鲜有针对红提含水率进行研究,同时对红提糖度和含水率的综合检测研究还未见报道。

本文通过可见/近红外光谱技术,分析了红提的放置模式对模型的影响,寻找到最好的光谱采集方式;对光谱数据进行预处理,确定最佳预处理方式,并在最佳预处理方式下,分别建立红提糖度和含水率的PLSR和LSSVM模型;比较模型的稳定性和精度,对比分析不同模型的优劣,并确定了不同模型的应用场景,通过一次光谱采集,实现同时无损测定红提糖度和含水率。

2 材料和方法

2.1 材料

实验材料为晚红品种的新鲜红提,购买于中百超市,分别在每穗红提的外部、中部、顶部、尖部挑选大小相近,颜色差异明显、表面无损伤的红提果粒作为实验样本,建模样本总数为360粒。将样本编号并放入恒温恒湿箱中保存12 h[17],恒温箱温度设置为(22±1) ℃,相对湿度为65%。

2.2 仪器与设备

光谱仪选用美国Oceanoptics公司的Maya 2000Pro+微型光纤光谱仪(波长范围为200~1 100 nm,信噪比为450:1),因光谱两端噪声较大,选取550~1 050 nm的波段作为原始光谱进行建模分析;恒温恒湿箱购自上海新苗医疗器械制造有限公司;申光WAY(2WAJ) 阿贝尔折射仪购自上海仪电物理光学仪器有限公司;JA2002 电子天平购自上海浦春计量仪器有限公司;电热鼓风干燥箱购自余姚市星辰仪表厂。

2.3 方法

2.3.1 可见/近红外实验装置与光谱采集

搭建的近红外采集实验平台如图1所示,实验时,将红提果粒放到中间带有圆孔的隔板上,分别采用果柄朝上的竖放和垂直于果柄的横放方式进行光谱采集,84UV准直透镜与中间隔板的距离为4.5 cm,聚光透镜离中间隔板的距离为3.0 cm。

图1 红提可见/近红外光谱采集系统图Fig. 1 Schematic of visible / near-infrared spectrum acquisition system for red globe grape

采用Maya2000Pro微型光纤光谱仪,对恒温样本进行光谱采集。采集前,先打开光谱及光谱仪采集软件,将系统预热30 min。光谱仪采集软件的参数设置如下:积分时间为100 ms,平均次数为10次,平滑宽度为5 nm,将红提果粒放到中间隔板的圆孔中,采集果粒的光谱数据。

2.3.2 红提糖度和含水率测定方法

样本制备:用小刀在采集完光谱的红提样本头部(果柄相对的部位)切下大约5 g的剪切样本,进行含水率测定;再按照国家鲜葡萄行业标准GH/T1022—2000,将剩余的红提果粒试样压成汁,并用玻璃棒搅拌均匀[18],立即测定糖度。

糖度测定参照NY/T 2637—2014《水果、蔬菜制品可溶性固形物含量的测定——折射仪法》进行[19]。

含水率测定:含水率的测定采用国标 GB 5009.3—2016《食品中含水率的测定》[20]。取洁净铝盒,根据国标,加热、干燥后称量铝盒的质量为m3,加入红提剪切样本后,样本加铝盒的质量为m1,然后放入温度为105 ℃的电热鼓风干燥箱内烘干,得到烘干后样本加铝盒的质量m2,试样中红提的含水率含量X按式(1)进行计算:

式中X为红提试样中含水率(%),m1为铝盒和红提试样的质量(g/100 g),m2为铝盒和红提试样干燥后的质量(g/100 g),m3为铝盒的质量(g)。

2.3.3 模型建立及评价方法

分别基于原始光谱和进行特征波长提取后的光谱信息建立红提糖度和含水率的PLSR、LSSVM模型。

运用原始光谱及光谱预处理后的可见/近红外光谱数据,分别采用一次降维(GA、SPA、CARS、UVE)和二次降维组合(CARS-SPA、UVE-SPA、GA-SPA)7种数据降维方法对光谱进行特征变量提取;分别结合偏最小二乘回归算法(Partial Least Squares Regression,PLSR)与最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)建立模型,并对比分析模型的优劣。

PLSR是一种经典的通过最小化偏差平方和对曲线进行线性拟合的方法,其结合了多元线性回归、相关分析和主成分的优点,广泛应用于近红外光谱模型的建立[21]。最小二乘支持向量机[22-23](LSSVM)方法在有效简化模型的同时提高了模型的运算速度,通过求解一次线性组来代替支持向量机中的复杂二次优化问题。

模型的准确性和稳定性由校正集相关系数(correlation coefficient of calibration,Rc)及均方根误差(Root Mean Square Error of Calibration set,RMSEC)、预测集相关系数(root mean square error of prediction set,Rp)及均方根误差(RMSEP)、残差预测偏差(Residual Predictive Deviation,RPD)进行模型性能的评价[24]。相关系数越接近1,均方根误差越接近零,模型的预测性能及稳定性越好。RPD的评价指标:RPD的值小于1.5表示预测性能较差;其值在1.5到2.0之间表示模型可以预测低值和高值;其值在2.0到2.5之间表示可以进行粗略的定量预测;其值在2.5到3.0之间或更高表示具有良好的预测精度。

式中:ypi为预测集中的第i个样本的预测值;ymi为校正集中的第i个样本的实际测量值;ymean为对应所有nc个校正集样本或np个预测集样本实际测量值的平均值,stdprediction为预测集的标准差。

3 结果与分析

3.1 光谱数据预处理

因外界环境(光线、噪声等)影响,使得采集的光谱在550 nm之前和1 050 nm之后的光谱包含较多的噪声。参考现有学者的研究,光谱波长在550~1 100 nm时,包含较多的关于糖度和含水率的信息[13,16]。本文选择550~1 050 nm波长的光谱范围进行研究,采集的原始红提样本光谱如图2所示。可以看出,所有红提样本的光谱都呈现出相同的变化趋势,在波长为550 nm之后透过率显著升高,725~920 nm波长范围内,光强度较高但变化较小,光谱的透过率较平稳,其中波峰为635 nm,波谷为675 nm和980 nm。

图2 红提样本的原始光谱Fig. 2 Original spectra of red globe grape samples

光谱预处理能有效消除仪器噪声、暗电流等因素的影响。在进行建模前,对标准正态变量变换(Standard Normal Variable transformation,SNV)、SavitZky-Golay卷积平滑处理法(SavitZky-Golay,S_G)、归一化(Normalized,Nor)等预处理方法进行比较分析[25-27],确定较好的预处理方式。

由表1可知,对红提糖度和含水率的光谱数据进行预处理后所建PLSR模型的相关系数和均方根误差都有所降低,模型变得更加不稳定,因此应直接利用原始光谱建模。

表1 原始光谱及采用不同预处理方法后建立的的全波长PLSR检测模型Tab. 1 Original spectra and full-wavelength PLSR detection model established by different pretreatment methods

3.2 样本集的划分

KS(Kennard-Stone,KS)法[28]能够有效选取光谱数据差异较大的样本作为校正集,剩余样本划分为预测集,从而提高模型适应性和预测精度。实验中共采集了360个红提样本,利用KS法将360红提样本以3∶1的比例分别划分为270个校正集和90个预测集。样本统计结果如表2所示。

表2 利用KS算法划分样本集的数据统计Tab. 2 Data statistics of sample sets partitioned by KS algorithm

从表2可以看出,糖度分布范围为16.8~24.0(°Brix),校正集和预测集的标准差分别为1.334、1.275;含水率的分布范围为76.635%~84.327%,校正集和预测集的标准差分别为1.268、1.450。通过KS法所划分的糖度和含水率校正集的分布范围比预测集的分布范围更广,证明所挑选出来的校正集样本具有代表性。

3.3 放置模式对PLSR模型的影响

分别对横放、竖放(果柄侧朝上)、整个果粒平均得到的光谱数据建立偏最小二乘回归模型,根据PLSR模型的准确性和稳定性,确定最优的光谱采集方式。表3为不同放置模式的全波长PLSR预测模型。

表3 不同放置模式的全波长PLSR检测模型Tab. 3 Full-wavelength PLSR detection models of samples with different placement modes

由表3可知:竖放模式建立的红提糖度和含水率的PLSR模型优于横放模式;竖放模型下进行光谱采集所建立的PLSR模型的检测性能和稳定性比横放模式更好;利用整个果粒的平均光谱建立的糖度和含水率模型效果最优,糖度和含水率的校正集的相关系数分别为0.927、0901;预测集的相关系数分别为0.933、0.868,模型的稳定性和精度最好;在3种模式下糖度和含水率的相关系数都大于0.850,表明可见/近红外光谱能够有效预测红提糖度和含水率;糖度模型的相关系数明显高于含水率的相关系数,表明相较于红提的含水率,可见/近红外光谱更能较好地预测红提的糖度。

3.4 特征波长的提取

根据上文结论,采用整个果粒的平均光谱作为原始光谱进行研究。因原始光谱包含较多的波长点,数据较多,所建模型的运算时间较长,相关系数不高,均方根误差较大,模型精度和稳定性较低,故在特征波长提取下建立不同模型,得到最好的红提糖度和含水率检测模型。下文以糖度为例进行特征波长的提取。

3.4.1 GA提取特征波长

利用遗传算法(Genetic Algorithm,GA)提取特征波长,建立红提糖度模型。在GA运算过程中,设定初始群体为30,交叉率为50%,变异率为1%,最大迭代次数为100,最大循环次数为20次,以最小的RMSECV值为标准,挑选出在迭代过程中出现频次较多的波长点,最终选定特征波长点为85个,如图3(a)所示,占原始光谱信息的7.39%,GA所选特征波长如图3(b)所示。

图3 红提糖度的GA特征波长选取图Fig. 3 GA characteristic wavelength selection map of sugar content of red globe grape

3.4.2 SPA提取特征波长

利用连续投影算法(Successive Projection Algorithm,SPA)提取特征波长,建立红提糖度模型,设定波长选择变量数范围为5~40,选择步长为1;如图4(a)所示,当变量个数为17时,RMSEC最小为0.527,占原始光谱信息的3.88%,在原始光谱中所选特征波长位置如图4(b)所示。

图4 红提糖度的SPA特征波长选取图Fig. 4 SPA characteristic wavelength selection map of red globe grape′s sugar content

3.4.3 CARS提取特征波长

利用竞争性自适应重加权(Competitive Adaptive Reweighted Sampling,CARS)提取特征波长,以建立红提糖度模型。本研究设定蒙特卡罗采样为50次,采用5折交叉验证法。由图5可知,当RMSECV值达到最小值时,各变量的回归系数位于图5(c)中竖直线位置,采样运行30次。

3.4.4 UVE提取特征波长

利用无信息消除(Uninformative Variable Elimination,UVE)算法提取特征波长,以建立红提糖度模型。设定噪声矩阵处最大稳定性绝对值的99%作为剔除阈值,图6(彩图见期刊电子版)中黄色曲线代表光谱变量的稳定性值,红色曲线代表噪声变量的稳定性值,两水平蓝色虚线为变量的选择阈值(±17.78),蓝色虚线内部的为无用信息被剔除,外部区域为通过UVE选取的特征波长,选取结果如图6所示,通过UVE共选取437个特征波长,占原始光谱的38.00%。

图5 红提糖度的CARS特征波长选取图Fig. 5 CARS characteristic wavelength selection map of red globe grape′s sugar content

图6 红提糖度的UVE特征波长选取图Fig. 6 UVE characteristic wavelength selection map of red globe grape′s sugar content

3.5 模型建立及结果比较

将各算法提取的特征波长作为模型的输入量,以通过实验方法获得的红提糖度和含水率作为模型的结果,分别建立PLSR和LSSVM模型。

3.5.1 PLSR模型建立

红提糖度PLSR预测模型的最优特征波点方程:

红提含水率PLSR检测模型的最优特征波点方程:

由表4~5可知,相较于其他的特征波长提取方法,UVE和GA所提取的特征波长数量较多。在一次特征波长提取中,通过GA算法提取的特征波长建立的PLSR模型的相关系数较大,均方根误差较小,模型比较稳定,GA算法可以有效地提取红提糖度和含水率的有效特征信息,但GA提取的特征信息较多,可通过二次特征波长提取简化模型。在二次特征波长提取中,红提糖度和含水率的最优组合波长提取方法为GASPA-PLSR,最优模型的预测集相关系数分别为0.958、0.938,均方根误差分别为0.375、0.512,可以有效地预测红提的糖度和含水率。

表4 基于特征波长建立的红提糖度和含水率PLSR检测模型Tab. 4 PLSR detection models of red globe grape′s sugar and moisture content based on wavelength characteristics

续表4

表5 红提糖度和含水率PLSR检测模型的最优特征波点列表Tab. 5 List of optimal wave point characteristics of the sugar and moister content of PLSR detection model for red globe grapes

3.5.2 LSSVM模型建立

由表6~7可知,相较于其他的特征波长提取方法,UVE和GA所提取的特征波长数量较多。在一次特征波长提取中,通过GA和UVE算法提取的特征波长建立的PLSR模型的相关系数较大,均方根误差较小,模型比较稳定,可以有效地提取红提糖度和含水率的有效特征信息,但提取的特征信息较多,可通过二次特征波长提取,简化模型。在二次特征波长的提取中,红提糖度和含水率的最优模型波长提取方法分别为CARSSPA-LSSVM、UVE-SPA-LSSVM,最优模型的预测集相关系数分别为0.969、0.942,提取的特征波长数量分别9、19个,占原始光谱数据的0.78%、1.65%。LSSVM所建模型的效果好于PLSR所建模型,但模型的运算时间较长。

表6 基于特征波长建立的红提糖度和含水率LSSVM检测模型Tab. 6 LSSVM detection models of sugar and moisture content for red globe grapes based on wavelength characteristics

续表6

表7 红提糖度和含水率LSSVM检测模型的最优特征波点列表Tab. 7 List of optimal wave point characteristics of the sugar and moisture content of LSSVM detection model for red globe grape

3.5.3 最优模型结果比较

分别利用最优特征波长组合建立红提糖度和含水率的PLSR及LSSVM模型,校正集和预测集样本的预测值和化学测量值之间的散点图如图7~10所示。

由图7~8可知,所建立的红提糖度和含水率的最优PLSR模型的校正集相关系数Rc分别为0.957、0.934,RMSEC为0.390、0.454;预测集相关系数Rp分别为0.958、0.938,RMSEP为0.375、0.512,模型的RPD分别为3.400、2.832,均大于2.5,表明模型的检测精度较高,稳定性和准确性较好。

图7 基于GA-SPA-PLSR红提糖度最优PLSR模型Fig. 7 Optimal PLSR model based on GA-SPA-PLSR for red globe grape′s sugar content

图8 基于GA-SPA-PLSR红提含水率最优PLSR模型Fig. 8 Optimal PLSR model based on GA-SPA-PLSR red globe grape′s moisture content

图9 基于CARS-SPA-LSSVM红提糖度最优LSSVM模型Fig. 9 Optimal LSSVM model based on CARS-SPA-LSSVM for red globe grape′s sugar content

图10 基于CARS-SPA-LSSVM红提含水率最优LSSVM模型Fig. 10 Optimal LSSVM model based on CARS-SPALSSVM for red globe grape′s moisture content

由图9~10可知,模型的检测效果较好。所建立的红提糖度和含水率的最优LSSVM模型的校正集相关系数Rc分别为0.967、0.945,RMSEC分别为0.340、0.451;预测集相关系数Rp分别为0.969、0.942,RMSEP分别为0.322、0.475,模型的RPD分别为3.960、3.053,均大于2.5,表明具有较高的检测精度。LSSVM模型与PLSR模型相比:模型的相关系数较大,均方根误差较小,模型的稳定性和检测可靠性有所提高。在红提糖度和含水率的检测中,两种模型下,红提糖度的检测效果明显好于含水率的检测效果。

4 结 论

由本文研究可知:红提的放置模式对糖度和含水率的PLSR检测模型影响较大,利用整个果粒的平均光谱建立的模型效果最好,竖放模式好于横放模式所建模型;

在一次特征波长提取中,UVE和GA所提取的特征波长数量较多,模型比较稳定,但提取的特征信息较多,可通过二次特征波长提取,简化模型。在二次特征波长的提取中,红提糖度和含水率的最优PLSR模型波长提取方法为GA-SPAPLSR,最优模型的预测集相关系数分别为0.958、0.938;红提糖度和含水率的最优LSSVM模型波长提取方法分别为CARS-SPA-LSSVM、UVESPA-LSSVM,最优模型的预测集相关系数分别为0.969、0.942,LSSVM所建模型的效果好于PLSR所建模型,但模型的运算时间较长;

基于可见/近红外技术检测红提糖度和含水率是可行的,且两种最优检测模型的检测精度较高,都能满足检测要求。在不同的应用下,可选择不同的模型,PLSR所建最优模型的运算时间较短,可以实现在线快速检测;LSSVM的检测性能最佳,可更加准确检测红提糖度和含水率。

猜你喜欢
糖度波长含水率
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
糖度高、类型多、瓜味足 “炫彩”系列小西瓜 亩产值3.5万元
昆明森林可燃物燃烧机理研究
基于表面能的湿煤颗粒含水率表征方法
弱膨胀土增湿变形量试验及路堤填筑分析
双波长激光治疗慢性牙周炎的疗效观察
甜菜块根糖度检测使用重复检测进行质量控制的方法
原油含水率在线测量技术研究
日本研发出可完全覆盖可见光波长的LED光源
基于不同物候期苹果树叶片光谱特征预测果实糖度