蔡德玲,唐春华,梁玉英,曾川,彭碧宁
1(中华人民共和国拱北海关技术中心,广东 珠海,519000)2(珠海城市职业技术学院,广东 珠海,519090)
水果是一类重要的农产品,是人类饮食结构的基本组成部分。2017年,我国水果总产量2.52亿t,位居世界第一位[1-2]。果品产业已成为我国种植业中继粮食、蔬菜之后的第三大产业。水果采后分级处理对提升水果的质量和商品竞争力非常关键。多年来,水果质量快速无损检测技术一直备受关注[3-4]。水果质量包括外部质量(如大小、颜色、形状和表皮缺陷)和内部质量(如糖度、酸度、硬度)。随着人们生活质量的提升,消费者越来越关注水果的内部质量[5]。水果内部质量的无损检测为消费者提供口感更好的水果,从而提升行业竞争力和企业盈利能力[6]。
水果可溶性固形物含量(soluble solids content,SSC),俗称糖度,是衡量水果内部品质最重要的指标之一[7],该参数也决定着果实成熟度和收获时间[8-9]。近20年来,大量的无损检测技术如近红外光谱[6]、电子鼻[10]、介电技术[11]、高光谱成像技术[12]等已经用于鲜果内部可溶性固形物含量的评估。在这些技术中,近红外光谱技术具有快速、简便、无损等特点,是目前应用最广泛的鲜果内部SSC检测方法。然而,目前大部分研究在水果内部SSC评估中没有考虑水果表皮颜色的影响,但近年来的一些研究发现,在水果内部SSC预测时,水果表皮的颜色会对预测精度产生影响[13-14]。本研究将以小尺寸水果的典型代表草莓为研究对象,采用近红外光谱技术,融合光谱信息和颜色参数,构建多参数线性偏最小二乘模型和非线性最小二乘支持向量机模型对草莓内部可溶性固形物含量进行比较评估,同时,采用蒙特卡罗无信息变量消除结合连续投影算法对模型进行了优化,以降低模型的复杂程度和提升模型的稳健性。
新鲜草莓于2019年3月采自广东珠海当地草莓园。实验中,剔除一些带有表皮缺陷的草莓,最终选择164个草莓作为研究样本,这些样本表皮颜色从红绿到全红均有分布。采集样本数据之前,需将其置于室温(20±1)℃中超过24 h以消除温度对预测模型精度的影响[15]。数据采集后,所有样本被划分为校正集和预测集。具体方法为:164个样本按照可溶性固形物含量值进行从小到大排序;每4个样本中选取第2个样本作为预测集样本,这样预测集中包含41个样本用于校正模型的评估,剩余123个草莓作为校正集样本用于校正模型的构建。在模型开发的过程中,所有模型校正集样本和预测集样本保持不变。
使用AntarisTMII 傅立叶变换近红外光谱仪(Thermo Fisher Scientific Inc., Madison, WI, USA)采集草莓样本近红外漫反射光谱。每个样本采集并获取1条光谱曲线,波数范围为12 000~3 800 cm-1,相邻波数间隔为1.928 cm-1,因此,每条光谱曲线包含4 254个变量点。采集完光谱之后,采用Unscrambler V 9.7 software(CAMO PRECESS AS, Oslo, Norway)软件将原始反射光谱转换为吸收光谱用于随后的建模分析。
考虑到SSC测量需要对样本进行破坏检测,因此,样本在测量之前,首先采用彩色相机(型号:AD-080GE, JAI, Japan)采集每个样本的RGB图像以用于计算每个草莓的颜色参考值(图像采集物距450 mm,相机曝光时间1 ms)。在图像采集完之后,立即去除样本果梗,果肉榨汁且摇晃均匀,使用数字显示手持型折射计(Model: PR-101α, Atago Co, Ltd, Tokyo, Japan)测量果汁,3次测量并进行读数,3次读数的均值即为该样本最终SSC参考值。
每个草莓样本颜色参考值的具体计算方法步骤:
(1)提取样本RGB图像各分量图像;
(2)基于R分量图像和图像直方图通过阈值分割(T1=160)获取仅仅带有果梗的二值化图像B1;
(3)基于B分量图像和图像直方图通过阈值分割(T2=165)获取整个草莓样本的二值化图像B2;
(4)图像B2-B1获得二值化图像B3,进一步对B3执行形态学去噪处理,获得最终的样本果肉二值化图像B4;
(5)采用B4对原始3个分量图像做掩模运算获得最终仅包含样本果肉信息的去除背景的样本图像,并作为目标图像;
(6)分别计算3幅目标图像的强度均值(注:在此,图像的强度为图像灰度等级,级别为256级,灰度等级越高图像越亮),该均值作为衡量样本颜色信息的参考值(图1)。阈值T1和T2是基于对所有校正集样本分析所获得。
图1 样本颜色参考值获取流程
在原始全谱中,一些无信息的变量不包含与草莓可溶性固形物分析相关的信息,因此,消除这些变量可以提高模型的预测能力。无信息性变量消除(uninformative variable elimination,UVE)是一种非常有用的变量选择方法,其目标是去除建模信息比噪声少的变量[16]。在UVE算法中,通过留一交互验证计算偏最小二乘(partial least squares, PLS)回归系数矩阵b=[b1,…,bp],然后根据其稳定性对每个变量的可靠性进行测量。变量j的稳定性可按公式(1)计算:
Sj=mean(βj)/std(βj)
(1)
式中:mean(βj)和std(βj)分别代表变量j回归系数的均值和标准差。绝对稳定性越大,对应的变量越重要。在截止阈值之间的变量认为是无信息性的,并被剔除。为了确定无信息的变量,随机变量需附加到数据集以确定截止阈值。在蒙特卡罗无信息性变量消除(Monto-Carlo UVE, MC-UVE)算法中,将蒙特卡罗策略引入UVE-PLS中,代替了传统的留一交互策略。此外,变量直接由稳定性来确定,这比UVE方法中在原始数据矩阵中加入随机噪声变量来估计截止阈值更方便。MC-UVE算法参考文献[17]。
除了无信息变量外,原始光谱中还可能存在共线或冗余变量。连续投影算法(succesive projections algorithm, SPA)算法的目标是选取冗余最小的变量来解决共线性问题[18]。SPA是一种正向变量选择算法,它从一个变量开始,然后在每次迭代中加入一个新的变量,直到达到指定数量的N个变量。通过SPA选择有效变量,步骤如下:
(1)所选特征波数记为N,参考向量记为k(n-1),第1次计算时n=1;
(2)初始选择波数为k(0),从校正集光谱Xcal(I行)样品数;J列(波数变量数;N (3)剩余列向量记为S,S={j, 1≤j≤J,且j∈/{k(0)…k(n-1)}}; (5)若n (6)结果为所选变量Xs={k(n-1);n=1…N},是光谱的最小共线性子矩阵; (7)计算初始波数k(0)时,校正集子光谱Xcal(Xs)与校正集样品SSC 值Ycal建立MLR 模型,计算该模型验证集子光谱Xval(Xs)预测标准偏差(root mean square error of prediction, RMSEP); (8)重复上述(2)~(5)步骤,计算不同k(0)时模型RMSEP,最小RMSEP值对应k(0)的Xs最佳; (9)N=N+1,重复上述步骤,确定N=N+1 时最佳Xs; (10)不同N值对应最佳Xs建立模型的RMSEP 的最小值对应N值为最佳变量数,对应Xs为所选特征波数变量。 本研究构建两类模型即线性偏最小二乘模型和非线性最小二乘支持向量机模型(least squares-support vector machine,LS-SVM)用于草莓可溶性固形物含量预测。 偏最小二乘(PLS)是目前水果内部可溶性固形物含量中广泛使用的线性建模方法。建模时,PLS同时考虑了SSC值和输入变量数据,找出两者之间的基本关系。本研究在模型的开发过程中,采用全交叉验证法,通过交叉验证的均方根误差(root mean square error of calibration,RMSEC)来确定潜在变量LV的最优数目,以避免模型过拟合问题。 支持向量机是一种典型的统计学习方法,它通过结构风险最小化原理来提高泛化能力,较好地解决了小样本、非线性、高维数、局部极小等实际问题。最小二乘支持向量机(LS-SVM)是其改进版本,是一种先进的学习算法,LS-SVM能够处理线性和非线性多变量问题,并以一种相对快速的方式解决这些关系[19]。LS-SVM算法参考文献[20]。 所有模型的预测性能通过相关系数(R)、RMSEC、RMSEP进行评估。评估参数计算公式: (2) (3) 图2表示草莓样本原始光谱和通过多元散射校正预处理后的光谱。通过光谱预处理,原始光谱所存在的散射得到了有效的校正。从光谱图中可以看到,所有样本光谱曲线类似,不存在明显的异常样本,并且光谱波数较大时,光谱吸收强度更大,主要原因在于波数较大区域存在着明显的H2O吸收(如位于波数6 944 cm-1和5 155 cm-1的吸收峰)[21]。另外,光谱曲线中也存在一些小的吸收峰如8 403 cm-1,这些吸收峰与C—H二级倍频有关系。所有这些吸收特性均有助于草莓内部SSC的预测。 a-草莓样本原始光谱;b-草莓样本预处理后光谱图 草莓样本不同数据集可溶性固形物含量和颜色参考值统计结果见表1。 从表1可看出,就SSC含量而言,校正集中样本SSC值范围为6.18~13.57 °Brix,预测集为6.50~13.10 °Brix,前者范围包含后者。对于样本颜色参考值,R、G和B分量图像的强度值在校正集和预测集的范围分别为173.64~217.12和174.25~215.96、72.67~90.21和74.59~88.11、77.32~95.66和78.56~93.21。对每个分量,校正集样本强度值范围涵盖了预测集样本强度值范围。这些特征有助于构建一个相对稳健的预测模型。 表1 草莓样本不同数据集可溶性固形物含量和颜色参考值统计 使用MC-UVE和SPA联立算法即MC-UVE-SPA从全光谱4 254个变量中选择有效变量。在MC-UVE变量选择过程中,利用校正集中样本的光谱数据和SSC参考值作为输入,通过研究不同PLS校准模型预测RMSEP的变化确定最优变量数。以RMSEP最低对应的变量数作为最优。变量选择结果如图3所示,由图3-a可以看出,选取1 290个变量时所建模型最优。这1 290个有效变量可通过评估图3-b所示的变量稳定性来确定。图3-b中的2条水平线代表上下截止阈值。截止线以内的变量被视为无信息变量。 a-SSC分析模型RMSEP曲线图;b-变量稳定性评估图 使用MC-UVE选择变量后,剔除了原始光谱数据中的无信息变量。然后在MC-UVE之后进行SPA变量选择,通过消除冗余变量来提高预测性能。因此,使用1 290个变量作为SPA的输入。在SPA变量选择过程中,计算所有变量子集所建模型的RMSEP值,图4-a中红色实心方框代表最优的变量数,即27个变量被确认为有效变量。这27个变量对应1 290个变量的索引如图4-b所示。从图4-b中可以看出,变量数被极大地压缩,且变量之间的共线性明显消除。 a-RMSEP值变化曲线;b-变量索引图 3组数据包括全光谱变量(4 254个)、有效光谱变量(27个)和融合变量(30个,即27个有效光谱变量+3个颜色参数),分别作为输入构建PLS和LS-SVM模型用于草莓样本可溶性固形物含量预测。PLS模型预测结果显示见表2。从表2可看出,由于全变量参与建模,太多的变量引起了PLS模型过拟合,从而导致模型的预测性能大大降低(此现象也发生在表3中的全变量LS-SVM模型中),通过变量选择,PLS模型的预测性能得到了明显提升,RP由原来的0.752 3提高到0.947 0,RMSEP由原来的0.862 1降为0.381 1。然而,从表2中也可看出,颜色参数的加入,并没有使MC-UVE-SPA-PLS模型的预测性能得到提高,这表明颜色参数与草莓可溶性固形物之间可能不存在线性关系。 表2 基于不同输入构建的PLS模型对草莓SSC含量预测结果 在LS-SVM建模过程中,需要确定模型参数gamma和sig2,在此采用两步网格搜索技术进行参数寻优。作为示例,图5显示了 MC-UVE-SPA-PLS+颜色参数模型参数寻优图。网格点“●”和“×”分别代表第一步和第二步网格搜索的范围和步长。曲线表示轮廓误差。初始值的选择对结果没有影响,在这项研究中,gamma和sig2的初始值设置为0.01。对于3类不同的LS-SVM模型,gamma和sig2的值分别为(32, 2.5×104)、(31,7.0×103)和(2.8×103, 6.9×102)。 图5 MC-UVE-SPA-PLS+颜色参数模型参数优化 基于3类LS-SVM模型对草莓SSC进行预测,结果如表3所示。 表3 基于不同输入构建的LS-SVM模型对草莓SSC含量预测结果 从表3中可以看出,类似PLS模型,通过变量选择后,LS-SVM模型的性能有了明显提升,表明变量选择的重要性。与MC-UVE-SPA-PLS模型相比,MC-UVE-SPA-LS-SVM模型有着类似或者略低的预测精度。但当颜色参数和光谱同时作为输入时,所构建的LS-SVM模型(MC-UVE-SPA-LS-SVM+颜色参数)预测性能明显好于MC-UVE-SPA-LS-SVM和MC-UVE-SPA-PLS模型,这表明草莓颜色和SSC之间存在着某种非线性关系,这种非线性关系有助于草莓SSC的准确评估。因此,通过比较发现,融合光谱和颜色参数所构建的LS-SVM模型最优,基于该模型对所有样本进行预测,图6-a显示了校正集样本的预测散点图,图6-b预测集样本的预测散点图,从图中可以看出,样品分布在回归曲线附近,且接近回归曲线,说明MC-UVE-SPA-LS-SVM+颜色参数模型在草莓内部可溶性固形物评估中具良好性能。 a-校正集样本的预测散点图;b-预测集样本的预测散点图 本文研究表明,多参数融合可能更有助于草莓内部可溶性固形物含量SSC的预测,该研究结论与WANG等[13]和GUO等[14]在苹果和西红柿内部SSC检测评估中所获得的结果类似。 本研究采用近红外光谱技术结合颜色参数补偿建模方法和变量选择算法实现了草莓内部可溶性固形物含量的准确预测。比较了不同输入下所构建的PLS模型和LS-SVM模型的预测性能,一方面发现基于有效变量(仅为全光谱变量的0.63%)所构建的预测模型(MC-UVE-SPA-PLS和MC-UVE-SPA-LS-SVM)对草莓可溶性固形物评估性能明显优于全光谱变量模型(Full-spectrum-PLS和 Full-spectrum-LS-SVM),表明本研究所建议的MC-UVE-SPA联合变量选择算法的有效性;另一方面也发现,融合光谱变量和颜色参数所构建的非线性LS-SVM模型预测性能优于线性MC-UVE-SPA-PLS模型,表明草莓颜色与其SSC之间有着某种非线性的关系,并且这种非线性关系有助于提升草莓内部SSC的预测精度。针对建模集和预测集草莓样本,基于融合光谱变量和颜色参数的最优模型MC-UVE-SPA-LS-SVM对SSC预测精度RC和RMSEC分别为0.984 8和0.181 4,RP和RMSEP分别为0.988 5和0.153 2。1.5 模型构建和评估
2 结果与讨论
2.1 光谱分析
2.2 参考值统计结果
2.3 有效变量选择结果
2.4 模型预测结果分析
3 结论