尚 静,2,孟庆龙,2,张 艳2,*,穆兴燕
(1.贵阳学院食品与制药工程学院,贵州贵阳 550005; 2.贵阳学院农产品无损检测工程研究中心,贵州贵阳 550005)
李子酸甜可口,深受广大消费者的青睐。通常果实可溶性固形物含量是评价水果成熟度的主要指标之一,检测李子的可溶性固形物含量不仅有助于指导消费,而且对于指导李子的采收时间、采后储藏和加工都具有重要的意义。
水果可溶性固形物含量的传统检测方法是采用折射仪测量被挤出的果汁的糖度[1],该方法的最大缺点是有损检测。因此,开发研制一种快速、无损的李子可溶性固形物含量检测方法在李子品质检测领域中具有广泛的应用前景。近年来,基于光谱技术的检测以其无损、快速等诸多优点深受广大科研工作者的青睐,被广泛应用于食品行业、医药行业以及化工行业等各个领域[2-6]。国内外研究学者已利用光谱技术开展了关于猕猴桃[1,7]、苹果[8-9]、荔枝[10]、蓝莓[11-12]和梨[13]等水果可溶性固形物含量的无损检测研究,并取得了较好的研究成果。而采用光谱技术结合化学计量学对李子可溶性固形物含量的无损检测研究相对较少,而且前期的研究大多采用全光谱数据直接建模,检测效率较低。
本文采用反射式光谱采集系统获取采后储藏期间“红”李子和“青”李子的平均光谱。然后利用连续投影算法和竞争性自适应重加权算法对预处理后的光谱数据进行降维,并结合化学计量学和误差反向传播网络提出了基于光谱技术的李子可溶性固形物含量的检测方法,以期为李子可溶性固形物含量的检测提供一种无损、快速、高效的方法。
新鲜“红”李子和“青”李子 共2种,购买于当地的沃尔玛超市。从买回来的李子中分别挑选大小均匀一致且完好无损的“红”李子和“青”李子各60个。将选好的李子样本依次编号后放在室温(22±2) ℃下储藏,每隔1 d取样一次,每次取样30个,共取样4次,这样取样的目的是使建立的预测模型可以预测范围相对较大的可溶性固形物含量值,增加其适用性。
反射式光谱采集系统 蔚海光学仪器(上海)有限公司的光纤光谱采集系统,该系统包括高性能光谱仪QEPro(检测器为CCD,波长范围:198.2~1006.4 nm)、光纤R600-7-VIS-125F(直径为600 μm)、卤钨灯光源HL-2000、反射探头支架RPH-1(用于固定反射探头的表面镀铝的探头架,反射探头与表面呈90°)、RPH-ADP适配器(用于使探头适合于RPH-1型探头架,使探头架可以固定直径为3.17 mm(1/8英寸)的探头)、标准反射白板WS-1、计算机等,系统结构如图1所示;ATAGO PAL-α数字手持袖珍折射仪 日本Atago公司,测量范围为Brix 0.0%~85%,测量精度为±0.2%;TD4Z-WS台式低速离心机 湖南湘立科学仪器有限公司,最高转速为4 000 r/min,转速精度为±30 r/min;JYZ-V911榨汁机 九阳股份有限公司,额定转速为50 r/min。
图1 反射式光谱采集系统Fig.1 Schematic diagram of spectra acquisition system
1.2.1 李子光谱数据采集 将待测李子样本紧贴在反射探头支架RPH-1表面上(反射探头通过RPH-ADP适配器固定在反射探头支架RPH-1上,距离反射探头支架表面约1 cm),光谱采集部位为李子赤道位置,5次测量结果的平均值作为李子样本的光谱数据。反射式光谱采集系统的积分时间是110 ms,扫描平均次数为8,滑动平均宽度为1,光谱采集范围为198.2~1006.4 nm,该光谱范围内共1044个波段。
1.2.2 李子可溶性固形物含量的测定 在获取李子光谱数据后立即进行可溶性固形物含量的测定。将李子样本榨汁后再离心(离心机的转速为3000 r/min,离心时间为5 min),然后将李子汁涂抹在折光棱镜的镜面上,连续按测量键按钮多次,当最后液晶显示屏3次显示值一致时记录该值,每个样本分别测量多次求平均值,作为该样本可溶性固形物含量的真实测量值。
1.2.3 样本集划分 采用SPXY(sample set partitioning based on joint x-y distances)方法[14-15]按照3∶1的比例将120个李子样本划分为校正集和预测集,得到校正集样本90个和预测集样本30个。表1给出了校正集和预测集样本可溶性固形物含量的统计结果。从表1可以看出,校正集中李子样本可溶性固形物含量的最小值小于预测集中样本可溶性固形物含量的最小值,并且校正集中李子样本可溶性固形物含量的最大值大于预测集中的最大值,从而说明校正集具有较宽的范围,样本划分合理有助于建立良好的预测模型。
表1 李子可溶性固形物含量的统计结果Table 1 Statistics results of soluble solids content of plums
采用OceanView(Ocean Optics,copyright 2013)软件、MATLAB R2016b等软件对光谱数据进行处理。通过前期比较多种光谱预处理方法[16](标准正态变换、二阶微分、多元散射校正等)对李子光谱数据预处理后的数据进行建模,得出标准正态变换是对李子光谱数据预处理的最优方法,因此本文采用标准正态变换对原始光谱数据进行预处理。采用连续投影算法(successive projection algorithm,SPA)和竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)提取特征波长。采用误差反向传播(error back propagation,BP)网络建立李子可溶性固形物含量预测模型,并以校正集样本的相关系数(rc)和均方根误差(RMSEC)以及预测集样本的相关系数(rp)和均方根误差(RMSEP)作为评价模型性能的指标。
由于原始光谱的首末两端含有较多的噪声信息,因此剔除前5个和后15个波段,选择中间波段202.25~995.38 nm为有效光谱区域,该区域共有1024个波段。图2分别给出了60个“红”李子的原始平均光谱曲线和60个“青”李子的原始平均光谱曲线。从图2可以看出,在202.25~995.38 nm波段内,“红”李子和“青”李子的平均光谱曲线的变化趋势基本一致。在675 nm处具有明显的吸收峰,主要由李子表面叶绿素的吸收引起的,反映了李子的表面颜色信息,而980 nm处的吸收峰则主要由李子中的水分吸收所引起的,反映了李子的水分含量信息[17]。
图2 不同品种的李子平均光谱曲线Fig.2 Average spectral curves of the different varieties of plums
2.2.1 采用SPA选取特征波长 采用SPA选取特征波长时,计算不同有效波长下的RMSEP,通常根据最小的RMSEP值确定最佳的特征波长数。图3给出了RMSEP随SPA中有效波长数的变化规律,由图3可见,RMSEP值随有效波长数的增加而减小,当有效波长数大于31时,RMSEP变化不明显,变量过多会增加模型的运算量和复杂性,因此选取31个波长作为特征波长,这31个特征波长按重要性从高到低依次为840.70、369.69、245.49、243.86、377.68、221.86、287.66、507.55、649.82、217.78、230.01、214.51、213.69、225.94、243.04、317.52、255.24、268.23、224.31、234.09、205.52、266.60、323.96、290.90、303.82、208.79、203.06、292.51、221.04、260.92和247.11 nm。
图3 RMSEP随SPA中有效波长数的变化规律Fig.3 Variation regulation of RMSEP with the number of effective wavelengths in SPA
2.2.2 采用CARS选取特征波长 在采用CARS选取特征波长时,设定蒙特卡洛采样次数为50次,采用5折交叉验证法计算所建立的PLS模型中的交叉验证均方根误差RMSECV,结果如图4所示。从图4可以看出开始随着采样次数的增加,PLS预测模型的RMSECV值逐渐减小,表明在光谱数据中大量无关或噪声信息被去除,当采样次数达到19时,RMSECV值的增加说明在光谱数据中一些与李子可溶性固形物含量预测相关的重要变量被剔除。即第19次采样中获得的波长子集建立的PLS模型RMSECV值最小,本文得到的最优波长集包含有104个特征波长,主要分布在203.06~288.47,340.84~420.70,502.83~538.09和916.19~933.28 nm,说明这几个区域是对李子可溶性固形物含量敏感的波段。
图4 不同采样次数下RMSECV的变化规律Fig.4 Variation regulation of RMSECV under the different number of sampling times
分别将全光谱(Full Spectra,FS)数据以及经SPA和CARS选取的特征波长作为BP网络模型的输入变量,由于BP网络模型随机选取初始权值,因此采用50次重复建模结果的平均值作为最终结果,见表2。
表2 基于不同波长选取方法的BP模型 对李子可溶性固形物含量的预测结果Table 2 SSC prediction results of plums by BP model based on different variable selection methods
从表2可以看出,CARS-BP模型具有最高的rc(0.998)和rp(0.887),最小的RMSEC(0.026)和RMSEP(1.767),说明CARS-BP模型具有最好的校正性能和预测性能。FS-BP和SPA-BP模型的校正性能和预测性能均劣于CARS-BP模型,另外,采用CARS特征波长选择方法从1024个全光谱波段中选择了104个特征变量作为BP网络的光谱输入,明显提升了BP网络模型的运行效率。由此表明基于特征光谱建立的BP网络对李子可溶性固形物含量的无损检测具有良好的预测能力,可应用于李子可溶性固形物含量的无损检测。其中,李子可溶性固形物含量的测量值和预测值如图5所示。
图5 李子可溶性固形物含量的预测结果Fig.5 Prediction results of soluble solids content of plums
应用紫外/可见光谱技术结合化学计量学方法构建了李子可溶性固形物含量的预测模型,采用SNV光谱预处理方法来消除噪声对光谱信息的影响;对预处理后的光谱数据应用SPA和CARS进行降维处理,分别从全光谱的1024个波长中提取了31和104个特征波长;采用BP网络模型对全光谱以及SPA和CARS算法提取的特征波长分别建模,结果表明,基于特征波长建立的CARS-BP网络模型为最优模型,其rc为0.998,RMSEC为0.026,rp为0.887,RMSEP为1.767。