姜凤利,杨 磊,田有文,孙炳新,罗子旋
(沈阳农业大学a.信息与电气工程学院/农业农村部园艺作物农业装备重点实验室,b.食品学院,沈阳 110161)
软枣猕猴桃(Actinidia argute)别名软枣子、迷你猕猴桃,属于猕猴桃科猕猴桃属。软枣猕猴桃主要分布于中国、日本、朝鲜半岛和俄罗斯远东地区,在国内,东北三省资源最为丰富,其中辽宁省的主产区种植面积超过2000 hm2[1]。软枣猕猴桃果皮光滑细嫩,果肉大多呈绿色,口味独特,营养价值高,富含多种维生素和氨基酸[2]。但是软枣猕猴桃属于呼吸跃变型浆果,耐贮性差,采后果实迅速软化,并伴有严重的脱水、皱缩现象,在室温下一般只能贮藏一周左右[3]。软枣猕猴桃成熟时其外部特征变化不明显,而其内部最明显的生理变化是淀粉降解,可溶性固形物含量(soluble solids content,SSC)上升[4]。SSC与软枣猕猴桃的成熟度密切相关,是评价软枣猕猴桃食用品质的关键指标[5]。SSC的测定通常采用物理或者化学方法,不仅耗时费力,且具有破坏性和局限性。因此,寻找一种能够实现软枣猕猴桃SSC快速、高效的检测手段具有重要意义。
高光谱成像技术结合了样本的光谱信息和图像信息,能够快速、无损地获取样本内部信息和外部特征[6],已成功应用于水果硬度、可溶性固形物和pH等理化指标检测等方面[7-12]。SHAO等[13]应用高光谱成像技术结合特征波段选择方法对壳聚糖涂膜葡萄的可溶性固形物含量建立预测模型,结果表明竞争性自适应重加权采样算法(competitive adaptive reweighted sampling, CARS)结合偏最小二乘回归(partial least squares regression,PLSR)模型效果最佳,测试集精度可达到0.8 以上。杨宝华等[14]利用高光谱成像技术提取鲜桃的光谱信息,结合普适性堆栈自动编码器建立粒子群优化支持向量回归(particle swarm optimization-support vector regression,PSO-SVR)模型对可溶性固形物含量进行预测,其决定系数(R2p)在0.87 以上,具有良好的预测精度。程丽娟等[15]运用高光谱成像技术结合化学计量学方法建立了灵武长枣蔗糖预测模型,其中基于CARS 提取特征波长的主成分回归(principal component regression,PCR)模型效果最佳,预测集的相关系数(Rp)和均方根误差(RM⁃SEP)分别为0.843和0.014。上述文献对水果的理化指标进行了定量预测并取得较好的预测效果,然而水果内部品质在空间分布上具有差异性,因此研究者们进一步对样本像素点品质可视化进行了研究。LI等[16]利用近红外高光谱成像技术建立不同成熟期樱桃SSC 和pH 的预测模型,通过比较不同的建模方法,选择多元线性回归(multiple linear regression,MLR)作为最终建模方法,其SSC和pH预测模型的R2p分别为0.863和0.819,并实现了SSC 和pH 的分布可视化。邵园园等[17]通过高光谱成像技术对不同成熟期的肥城桃进行分类,并建立预测SSC 和硬度的MLR 模型,Rp2分别为0.952 和0.877,并实现SSC 和硬度的可视化检测。HU 等[18]通过高光谱成像技术检测1-甲基环丙烯(1-Methylcyclopropene, 1-MCP)催熟的猕猴桃含糖量变化情况,基于特征波长建立MLR 模型的最佳预测结果Rp2为0.934,并通过可视化图像展示含糖量分布情况。尽管高光谱成像技术在水果内部品质可视化检测方面已有诸多应用,但关于软枣猕猴桃SSC分布可视化的研究还未见报道。
本研究以软枣猕猴桃为研究对象,采集室温25 ℃条件下不同贮藏天数软枣猕猴桃高光谱信息,基于特征波长构建其可溶性固形物含量的定量预测模型,并绘制SSC分布图,揭示不同贮藏时间软枣猕猴桃内部SSC变化规律及空间分布特征。
试验研究的软枣猕猴桃品种为绿佳人,2021年9月12 日采摘于辽宁省丹东市振安区果园,采摘预冷后立即放入保鲜箱内快速运回实验室。选取大小、成熟度一致,无病虫害和机械伤的软枣猕猴桃作为试验样本,每盒6 个软枣猕猴桃放置于BOPP 托盒中(22.3×13.3×4.0 cm3),共20 盒(120 个)软枣猕猴桃样本。将所有样本置于智能人工气候箱(RTOP-268D,浙江拓普云农科技股份有限公司)中贮藏,温度设置为25 ℃。在贮藏0(采摘当天),3,5,7 d时,分别取出5盒(30个)样本在室温条件下进行高光谱图像采集。图1为不同贮藏天数软枣猕猴桃整体及横切面的RGB图像。
图1 不同贮藏天数软枣猕猴桃样本Figure 1 Actinidia argute samples at different storage days
采用的高光谱图像采集系统如图2,该系统主要由高光谱成像光谱仪(ImSpector V10E)、像素为392×1040的CCD 相机(IGV-B1410M)、位移平台(IRCP0076-1)、2 个150 W 的光纤卤素灯(3900-Illuminatior)、暗箱(120cm×50 cm×140 cm)和计算机(DELL Vostro 5560D-1528)等组成。高光谱成像系统的波长采集范围为400~1 000 nm,光谱分辨率为1.27 nm,共472个波段。
图2 高光谱图像采集系统Figure 2 Hyperspectral imaging acquisition system
在开始试验前先对高光谱成像系统进行预热,预热时间设置为30 min。将软枣猕猴桃样本每6个按照2排3列摆放在位移平台上,调整镜头与样本之间的距离为320 mm,设置相机的曝光时间为3 ms,位移平台的移动速度为1.8 mm∙s-1。
在进行高光谱图像采集时,为消除相机暗电流和光照不均等对图像带来的影响,需要对采集到的高光谱图像(软枣猕猴桃校正前的高光谱图像Is)进行黑白板校正。首先扫描反射率接近100%的白色校正板得到全白标定图像Iw,然后将镜头盖盖上获取全黑标定图像Id,按照公式(1)进行计算得到校正后的高光谱图像I。
本研究首先分割出每幅高光谱图像中单个软枣猕猴桃,如图3 所示,通过对比背景和软枣猕猴桃的光谱曲线可知,背景和样本相对反射率值在883 nm 处差异较为显著,因此选取883 nm 的灰度图像作为特征图像,采用阈值分割方法分割出背景和软枣猕猴桃,并通过膨胀和腐蚀运算,得到二值化图像,对每个样本高光谱图像进行掩膜操作,最后,将所有软枣猕猴桃分割出来,并将分割出的整个软枣猕猴桃样本作为感兴趣区域(region of interest,ROI),计算每个ROI 的平均光谱值作为该样本的反射光谱值。
图3 软枣猕猴桃的感兴趣区域提取Figure 3 Extraction of interested region of Actinidia argute
软枣猕猴桃样本高光谱图像采集完成后,硬度测试采用数显果实硬度计(GY-4 型,北京金科利达电子有限公司),测头直径7.9 mm,下压深度10 mm,选取软枣猕猴桃赤道位置进行测量。SSC测量时,将果实研磨后,经4 层纱布过滤,用吸管吸取0.3 mL 软枣猕猴桃汁滴于数字折光仪(DBR45 型,深圳佛兰德电子有限公司)上进行测定,测量指标范围为0~45°Brix,测量精度为0.1°Brix,理化指标测定时每个样本重复3 次,取平均值作为其真实值。
1.6.1 样本划分与数据预处理 采用光谱-理化值共生距离(samples set partitioning based on joint X-Y distanc⁃es,SPXY)[19]对光谱数据和测定的SSC进行训练集和测试集的划分。然后通过计算训练集和测试集样本的最大值、最小值、平均值、标准差以及变异系数来评估样本划分是否合理。
为去除光谱数据中噪声干扰,增强光谱有效信息并提高建模的准确性,本研究采用多元散射校正(multipli⁃cative scatter correction,MSC)、卷积平滑(savitzky golay,SG)和标准正态变量变换(standard normal variate,SNV)等方法对原始光谱信息进行预处理[20],通过对比不同预处理方法的建模效果,确定最佳的预处理方法。
1.6.2 特征波长提取 原始光谱数据维数高,波段间高度相关性导致共线性和信息冗余问题,从而增加计算量降低建模效率。为此采用竞争性自适应重加权采样算法(competitive adaptive reweighted sampling,CARS)、连续投影算法(successive projections algorithm, SPA)和无信息变量消除算法(uninformative variable elimination,UVE)进行特征波长选取,实现数据降维。
CARS 是一种以迭代竞争的方式从偏最小二乘模型中筛选回归系数绝对值较大的波段,再通过抽样筛选特征变量,选取交叉验证均方根误差(RMSECV)值最低的子集,其中包含的变量为筛选出的最佳波长组合[21]。
SPA 是一种前向变量选择方法。首先通过投影获得具有最小共线性的候选变量子集,然后在多元线性回归模型中获得交叉验证均方根误差(RMSECV)值最小的子集,从而获得最优变量组合[22]。
UVE是一种基于PLS系数分析的变量选择方法,通过将随机噪声加入到光谱矩阵中,根据引入稳定性值来评价模型中每个变量被选中的可能性,进而消除光谱数据中无用数据,达到降维的效果[23]。
1.6.3 建模方法与模型评价 将特征波长作为输入,实测SSC作为输出,构建偏最小二乘回归(partial least squares regression, PLSR)、极限学习机(extreme learning machine, ELM)和粒子群优化的极限学习机(particle swarm optimization-extreme learning machine,PSO-ELM)3种定量预测模型。PLSR是一种结合了多元线性回归分析、相关分析和主成分分析技术的建模方法,可以解决样本数量少于波长数量以及输入变量相关性高的问题[24]。ELM是由单隐含层前馈神经网络发展起来的一种神经网络算法,具有学习速度快且训练误差较小的优点[25]。但因为ELM的输入权重和隐含层偏差均是随机生成,所以其建立的预测模型的准确性和稳定性不高。因此,本研究提出一种采用粒子群优化算法对ELM模型的输入权重和隐含层偏差进行优化,以提高ELM模型的预测精度和泛化能力。
粒子群优化(particle swarm optimization,PSO)算法是1995 年由EBERHART 和KENNEDY 提出的一种模拟鸟群捕食行为的群集智能算法[26]。算法中每1个粒子代表优化问题的潜在解(由位置和速度2个参数表达),求解过程是根据个体极值和全局极值不断更新自己的位置和速度,从而找到最优解。
粒子群优化极限学习机模型算法的流程如下。
(1)通过输入输出数据确定ELM网络拓扑结构,设置激活函数、隐含层神经元个数等基本参数。
(2)初始化PSO 参数:种群中每个粒子代表ELM 模型的连接权值和偏差,设置粒子的初始位置Xi,初始飞行速度vi,学习因子c1,c2,初始化种群数量,惯性权重的最大值和最小值以及最大迭代次数。
(3)选择ELM 模型均方根误差作为适应度函数,将粒子当前值作为个体极值Pkid,通过和各粒子的适应度值进行比较,确定全局最优解Pkgd。
(4)根据式(2)和式(3)更新粒子的速度和位置。
式中:k为迭代次数;ω为惯性因子用以平衡局部寻优能力和全局寻优能力之间的关系;c1,c2为加速度常数分别表示个体学习因子和社会学习因子,r1,r2是两个随机产生的加速度权重系数,取值在0~1之间;Pkid和Pkgd分别为第d维粒子i在第k次迭代时的个体极值和全局极值。
(5)根据粒子更新后的位置和速度,继续进行迭代寻优,不断更新Pkid和Pkgd,直到满足最大迭代次数或适应度值达到给定阈值时,停止参数的寻优操作,否则返回到步骤(3)。
(6)将最终获得的最优权值和偏差应用到ELM模型中。
预测模型建好后,通过5个指标评价模型的预测性能,分别为训练集的决定系数(decision coefficient of cali⁃bration set,Rc2)和均方根误差(root mean square error of calibration set,RMSEC)、测试集的决定系数(decision co⁃efficient of prediction set,Rp2)和均方根误差(root mean square error of prediction set,RMSEP)以及样本标准偏差与测试集均方根误差的比值(residual prediction deviation,RPD)。其中,Rc2和Rp2越接近1,RMSEC 和RMSEP 越小,RPD越大,表明模型的预测能力越强[27]。
SSC 和硬度的变化与果蔬的成熟度有关,是反映其后熟状态的重要指标[4]。图4为软枣猕猴桃不同贮藏天数下SSC 和硬度的统计结果。由图4 可知,随着贮藏时间的延长,软枣猕猴桃逐渐成熟,SSC 不断上升,这是因为果实采后一直进行呼吸等生理活动,大量淀粉、有机酸等大分子物质分解,形成可溶性固形物,随着果实成熟度的增加,果实达到后熟甚至衰老,这是由于样本内部的淀粉等多糖物质逐渐降解导致的;与之相反的是,软枣猕猴桃的硬度逐渐降低,这是由于细胞结构的变化导致的果实软化,随着贮藏天数的增加软枣猕猴桃随着呼吸作用导致的能量消耗加剧,硬度会明显下降。
图4 软枣猕猴桃贮藏过程中理化指标的变化Figure 4 Changes of physicochemical indexes of Actinidia argute during storage
图5为软枣猕猴桃贮藏0,3,5,7 d的全部样本平均光谱曲线,分析发现不同贮藏天数光谱曲线整体变化趋势基本一致。在450~500 nm,反射率缓慢上升,并在510 nm 呈现明显的反射峰,该波段样本中叶绿素、花青素和类胡萝卜素含量丰富[28]。在510~650 nm,反射率呈现缓慢下滑现象,在650 nm 出现较为明显的吸收带。在650~730 nm 范围内,光谱曲线差异较小,曲线几乎重合,但反射率急剧增加,主要是因为软枣猕猴桃对近红外波段吸收较少。在730~920 nm 范围内形成主要的反射率平台[29],可以看出在此区间随着贮藏天数的增加,光谱反射率呈现逐渐升高的单调变化规律,原因是由于软枣猕猴桃随着贮藏时间的延长,颜色逐渐加深,而且其主要成分及理化性质发生改变,从而使光谱反射率发生变化。970 nm 附近出现的吸收带,主要由样本的水分引起的,为O-H 二级倍频特征吸收峰[30],当软枣猕猴桃成熟软化后,果实内水分和其他可溶性物质增多,因此SSC也会受到影响。
图5 平均光谱曲线Figure 5 Average spectral curve
实验将不同贮藏天数软枣猕猴桃每组30个样本(共120个),采用SPXY按照7∶3划分为训练集21个(共84个),预测集9个(共36个),划分结果如表1。
表1 软枣猕猴桃SSC含量统计结果Table 1 Statistics of SSC content in Actinidia argute
由表1 可知,训练集包含了测试集SSC 的最大值和最小值,且分布范围广,说明SPXY 划分的数据集合理,有利于后续定量预测建模效果。
为验证预处理方法效果,分别建立原始光谱和3 种预处理方法后的光谱与SSC 的PLSR 预测模型,结果如表2。由表2可知,经过MSC预处理后的光谱数据与软枣猕猴桃SSC的相关性得到提高,获得了较高的Rp2值和较低的RMSEP 值,说明MSC 能够有效减少光谱数据中噪声的影响,提高模型的预测效果,因此,后续研究均采用经过MSC预处理后的光谱数据。
表2 不同预处理方法建模结果Table 2 The modeling results of different pretreatment methods
分别采用CARS,SPA 和UVE 算法提取与软枣猕猴桃SSC 相关性最大的特征波长,3 种方法提取的特征波长分布如图6~图8。采用CARS 算法对预处理后的光谱数据进行特征波长提取时,设定蒙特卡洛(Monte-Car⁃lo)采样次数为50,当采样运行24次时,RMSECV 值达到最小值,共提取24个特征波长,占全光谱波段的5.1%。SPA 算法提取特征波长时,设置特征光谱变量数的变化范围为7~25,当RMSECV=1.595 即最小值时,此时提取20 个特征光谱变量,占全光谱波段的4.2%。采用UVE 算法提取特征波长时,设置主成分个数为10,随机变量个数为472个,当阈值为±20.34时,经UVE算法筛选出60个波长变量,占波长总数的12.7%。
图6 CARS算法提取特征波长分布Figure 6 Distribution of characteristic wavelengths selected by CARS
图7 SPA算法提取特征波长分布Figure 7 Distribution of characteris‐tic wavelengths selected by SPA
图8 UVE算法提取特征波长分布Figure 8 Distribution of characteris‐tic wavelengths selected by UVE
由图6~图8可知,3种方法筛选的特征波段主要集中在700~1 000 nm 范围内,主要是因为在该波段范围内软枣猕猴桃的光谱数据差异明显(图5),说明该波段范围为软枣猕猴桃SSC变化敏感的区间。
2.6.1 PLSR和ELM模型的建立 分别采用CARS,SPA和UVE算法提取的特征波长作为输入,构建PLSR和ELM 的SSC预测模型。调整各模型参数至最佳状态,确定ELM模型参数:激活函数为“Sigmoid”函数,隐含层神经元个数为15。预测结果见图9和图10。
图9 不同特征波长提取方法的PLSR模型预测效果Figure 9 PLSR model prediction results of different feature band extraction method
图10 不同特征波长提取方法的ELM模型预测效果Figure 10 ELM model prediction results of different feature band extraction method
由图9和图10可知,从整体来看,ELM 模型预测效果优于PLSR 模型,PLSR 模型预测结果整体存在一定的分散性,而ELM 模型部分预测结果偏离直线y=x较多。PLSR 模型训练集和预测集的决定系数Rc2和Rp2值均高于0.683,均方根误差RMSEC和RMSEP值均低于1.766,RPD最小值为1.699;ELM 模型训练集的决定系数Rc2和值均高于0.737,均方根误差RMSEC和RMSEP值均低于1.891,RPD最小值为1.772。其中,CARS-ELM 预测效果最好,Rc2和Rp2值分别为0.831 和0.850,RMSEC 和RMSEP 值分别为1.488 和1.520;而UVE-PLSR 预测效果最差,Rc2和Rp2值分别为0.712和0.683,RMSEC和RMSEP值分别为1.682和1.701。对比不同特征波长提取方法建模效果,与SPA和UVE算法相比,CARS算法提取的特征波长建模效果最好。值得注意的是,UVE-ELM 模型训练集取得了相对较好的预测效果,其Rc2和RMSEC 分别为0.849 和1.316,然而预测集预测效果下降明显,Rp2和RMSEP分别为0.737和1.891,表明UVE特征波长提取算法所建模型存在一定的过拟合现象。
2.6.2 PSO-ELM模型的建立 同样,将3种不同特征提取算法提取的特征波长分别作为模型输入,实测SSC作为模型输出,构建PSO-ELM模型。模型的粒子种群规模设置为60,学习因子c1=2.4,c2=1.6,惯性因子最大值0.8,最小值0.4,迭代次数k=100次。建模效果如图11。
图11 不同特征波长提取方法的PSO-ELM模型预测效果Figure 11 PSO-ELM model prediction results of different feature band extraction method
由图11 可知,以不同方法提取的特征波长作为PSO-ELM 模型的输入,均取得了较高的预测精度,其预测结果较紧密地分布在直线y=x上,只有极少数点稍微偏离直线y=x,表明该模型预测值与实测值间存在较小的偏差,模型预测性能优异。PSO-ELM 模型的训练集和测试集的Rc2和Rp2均在0.845 以上,RMSEC 和RMSEP 均低于1.359。与PLSR 模型和ELM 模型类似,CARS 提取的特征波长建模效果优于SPA 和UVE,Rc2和Rp2分别为0.927 和0.934,RMSEC 和RMSEP 分别为0.938 和0.952,RPD 为2.277,由此进一步说明,CARS 算法提取的特征波长作为输入所建模型最稳定,预测准确性最高。可能是因为SPA 在减少数据冗余时导致了部分相关信息被剔除,UVE 提取的冗余信息过多,不仅降低了模型精度还增加了模型运行时间,而CARS 能在减少数据冗余的同时保留了更多与SSC相关的光谱数据,提高了模型的预测精度。
2.6.3 CARS-PLSR、CARS-ELM和CARS-PSO-ELM模型结果比较 进一步比较基于CARS特征波长提取的PLSR、ELM和PSO-ELM模型建模效果,(表3)。由表3可知,相比其他两种模型,CARS-PSO-ELM取得了最好的预测精度。训练集Rc2的预测结果分别比CARS-PLSR和CARS-ELM提升23.4%和11.6%,RMSEC分别降低40.1%和37%;预测集Rp2的预测结果分别比CARS-PLSR和CARS-ELM提升26.2%和9.9%,RMSEP分别降低45.7%和37.4%,可以看出,不论是训练集还是预测集,CARS-PSO-ELM模型在预测软枣猕猴桃SSC时均表现出色。由此可见,经过PSO对ELM模型的输入权重和隐含层偏差不断进行优化,可显著改善模型的预测性能,提高模型的精确性和稳定性,说明PSO算法能够保持种群多样性,避免了ELM模型的惯性权重与偏差的随机性。
表3 基于CARS特征波长提取的3种模型结果比较Table 3 Comparison of three models with CARS
将高光谱图像每个像素点的特征波段输入CARSPSO-ELM 模型,计算SSC,运用伪彩图处理技术生成软枣猕猴桃SSC分布图,用绿黄红色阶的变化表示软枣猕猴桃不同贮藏天数SSC 的变化,绿色表示含量最低,红色表示含量最高,结果如图12。从总体颜色变化来看,软枣猕猴桃SSC 随着贮藏时间延长而不断上升。由于软枣猕猴桃表面曲率的变化,使得果实表皮在靠近背景时,预测的SSC 偏低。刚采摘的软枣猕猴桃SSC 主要集中在3~7 °Brix,整体SSC 偏低,颜色呈青绿,贮藏3 d的软枣猕猴桃SSC 主要集中在6~10°Brix,颜色呈黄绿色,少部分区域呈橙色,贮藏5 d 的软枣猕猴桃SSC 主要集中在9~13°Brix,样本大多呈橙红色,贮藏7 d的软枣猕猴桃SSC主要集中在12~15°Brix,样本整体呈红色,局部掺杂着少量的黄色区域,这与表1中SSC 实测数据保持一致。因此,利用SSC 可视化分布图有利于更加精确的对软枣猕猴桃进行后熟品质的快速评估。
图12 SSC可视化Figure 12 Visualization of SSC
采用高光谱成像技术对软枣猕猴桃可溶性固形物含量进行定量检测,并基于最优预测模型对不同贮藏天数的软枣猕猴桃的SSC 分布进行可视化分析,从而为直观分析软枣猕猴桃采后后熟过程中SSC 变化规律与空间分布特征提供依据。
本研究结果表明,(1)基于MSC、SNV和SG平滑对原始光谱数据进行预处理,建立PLSR预测模型。分析不同预处理方法对模型精度的影响。结果表明MSC的预处理效果优于SG和SNV 预处理方法。(2)对MSC预处理后的光谱分别采用CARS、SPA、UVE提取特征波长,分布提取了24,20,60个特征波长变量。以特征波长作为模型的输入构建PLSR、ELM和PSO-ELM软枣猕猴桃SSC预测模型。对比分析,CARS-PSO-ELM模型预测效果最优,Rc2和Rp2分别为0.927和0.934,RMSEC和RMSEP分别为0.938和0.952,RPD达到2.277。(3)利用CARS-PSO-ELM 模型计算贮藏不同天数软枣猕猴桃每个像素点的SSC,生成可视化分布图,实现贮藏过程中软枣猕猴桃SSC变化和空间分布的无损检测。
本研究通过提取的特征波长结合线性和非线性模型预测软枣猕猴桃SSC,取得了较好的预测效果,能为软枣猕猴桃后熟过程中内部生理变化提供参考依据。今后研究的重点在于,选择其他有效的特征波长提取方法以及组合特征波长提取方法以解决波长变量自相关性的问题,并在本研究的基础上考虑不同品种、不同贮藏方式等因素的影响以进一步提升模型的鲁棒性。