赵 娟 全朋坤 马敏娟 李 磊 何东健 张海辉
(1.西北农林科技大学机械与电子工程学院, 陕西杨凌 712100; 2.农业农村部农业物联网重点实验室, 陕西杨凌 712100)
采收成熟度是指果实已完成了生长和化学物质的积累,体积不再增大且已经达到最佳贮运阶段但未达到最佳食用阶段[1],是直接影响苹果内部和外部品质形成不可逆转的阶段。研究表明采收成熟度不足,果实含糖量低、口感差,且贮藏期易感染多种生理病害[2-4];成熟度过高,果实变软变绵,口感风味差,耐储性差[5-6];合适的采收成熟度,不仅果品外观性状好,口感品质佳,而且具有较好的耐储性[7-8]。因此,开展苹果采收成熟度分类研究,对指导实际采收和后期贮藏都具有重要意义。
目前,国内外认可的淀粉-碘染色法测定苹果成熟度,准确率高,但果实需切开进行淀粉染色,且对于富士苹果成熟后期,淀粉已几乎全部水解,成熟度的准确判断还需结合其他指标[9]。近年来,不少学者采用无损方法对苹果成熟度检测进行了研究。刘鹏等[10]结合呼吸强度和硬度两个生理指标,利用计算机视觉和敲击振动两传感器信息融合技术,优选出振动频率分量来检测苹果成熟度。ATTILA等[11]通过研究苹果果皮与果肉的光谱特性及叶绿素、类胡萝卜素和水分变化,提取678 nm的叶绿素敏感波长作为光谱指标判定成熟度。BETEMPS等[12]通过花青素指数、黄酮醇指数和叶绿素指数来评估苹果成熟,结果发现叶绿素与苹果的硬度呈正相关,与苹果糖含量呈良好的负相关。NOH等[13]利用高光谱反射和荧光成像技术来预测苹果成熟度,对比结果发现通过反射与荧光信息集成建立的成熟度各参数预测性能最优。MULYANI等[14]通过提取苹果的颜色特征,利用模糊逻辑方法将成熟的富士苹果分为生熟、半熟和全熟3类,测试集的分类精度为85.71%,误差为14.29%。WU等[15]通过近红外光谱技术,结合可溶性固形物含量和硬度2个指标实现对苹果成熟和未成熟两类判别,分类准确率为74%。上述研究表明通过无损技术预测水果成熟度是可行的。但国内苹果采用套袋,集中着色的种植方式与国外存在较大差异,因此,通过果实中的叶绿素含量变化来判别苹果成熟度可行性不高;且苹果果实在成熟过程中会发生一系列复杂的形态和生理变化[16-17],要实现对采收苹果成熟度的准确分级需综合考虑影响果实成熟的多种因子。
本文在筛选出能表征富士苹果采收成熟度生理指标的基础上,构建基于光谱分析方法的多因子耦合成熟度预测模型,并对比几种评价模型的预测结果,以实现对苹果采收成熟度的无损检测。
以富士苹果为研究对象,在苹果成熟期的10—11月之间,从甘肃省静宁县每7 d采集一组试验样本。采集样本后筛选大小相对一致,表面没有疤痕的苹果进行试验。样本运抵实验室后,置于室温(20℃左右)、相对湿度40%~60%的条件下,储藏24 h,所有样本均用湿布清理干净,自然晾干后,对样本进行逐个编号,采集样本光谱及理化信息。
采用的近红外光谱仪系统主要由卤钨灯光源(HL-2000型,Ocean Optics, 美国)、准直镜、光纤、地物光谱仪(OFS-1100型,Ocean Optics, 美国)与计算机组成。整个系统安装在一个密封的光屏蔽舱内,以防外部光干扰。光谱仪的有效响应范围为200~1 100 nm,分辨率为0.43 nm。光谱仪与准直镜通过光纤连接,与计算机通过USB 连接,光谱数据可直接通过软件Spectrasuite采集获得。通过可见/近红外光谱仪采集不同成熟度下的苹果漫反射信息,样本沿赤道方向,每旋转120°进行一次光谱采集,获得的3次光谱信息取平均值作为该样本的漫反射光谱,图1为可见/近红外光谱采集系统示意图。
图1 光谱采集系统示意图Fig.1 Schematic of spectral acquisition system1.检测暗室 2.苹果 3.光源 4.光谱仪 5.计算机
苹果样本的可溶性固形物(Soluble solids content, SSC)含量测量使用苹果专用糖度计(PAL-BX/ACID5型, ATAGO, 日本),方法参照GB/T 10651—2008[1]执行。用蒸馏水校正零点,沿赤道方向取光谱采集相同位置的3处果肉,榨汁,分别滴于糖度计直接测量,3次测量的平均值作为样本可溶性固形物含量的标准值。
苹果硬度(Firmness,F)测定使用物性测定仪(TA.XT Express型, Stable Micro Systems, 英国),采用P5探头(直径5 mm),穿刺速度1.0 mm/s,测试距离10 mm,触发阈值2.0 g,在标记区域从果皮向果肉穿刺,将计算得到的果肉硬度取平均作为最终苹果硬度指标参考值。
选用色差仪(NR310型,三恩驰,中国)对苹果进行色泽指标测定。进行测试前,首先用白板完成仪器校正,保持检测器端口与苹果表面完全接触以防止色差仪光线泄漏。在样本苹果的赤道处均匀选取4个点,依次采集色泽参数L*、C*、h*、a*、b*数值,取其平均值代表果实表面的颜色特征。表1 列出了242个被测苹果可溶性固形物、硬度、颜色各参数实测值的变化范围、平均值及标准差等统计量。
对采摘的样本参考何婉茹[18]制作的富士苹果淀粉染色图谱进行淀粉染色测定,结合样本的采收时间和淀粉染色等级进行苹果成熟度分类,其中将适合贮藏的成熟度等级定义为八成熟;达到食用最佳不适合贮藏的成熟度等级定义为九成熟;果实变软变绵,趋于衰老的成熟度等级定义为十成熟。成熟度分类结果用作后续建模分析分类真值。
1.4.1成熟度指数
在对苹果成熟指标光谱特性分析中,相关研究[19-22]表明可溶性固形物能够表征苹果果实中与糖相关品质的变化,并与光谱特性呈强相关性,苹果硬度以及颜色指标也能通过光谱信息反演其含量变化。IQI指数[23](Internal quality index)结合了果肉硬度、总可溶性固形物含量和颜色指标被提出用来表征芒果成熟度,相对于淀粉染色测量的有损和复杂,显然IQI指数评价更易通过光谱信息反演。为实现苹果成熟度的无损判别,本研究在IQI指数的基础上提出苹果成熟度评价指数(Simplified internal quality index,SIQI),表达式为
表1 苹果样本不同参数统计表Tab.1 Statistics of different parameters values of apple samples
(1)
式中ISIQI——成熟度评价指数
F——果肉硬度
SSSC——可溶性固形物含量
L*——亮度C*——色度
h*——色相角
1.4.2光谱数据预处理及降维方法
传统剔除异常样本的准则是,一旦鉴定出某些样本为异常样本,就会永久剔除。可能会造成将非异常样本错误当成异常样本的局限性。“二审”回收算子法在检测出异常样本时,并不是立即剔除,而是一次取一个异常样本,重新放回训练集进行训练,如果其仍是异常样本,予以剔除,否则保留该样本[24]。
随机蛙跳(Random frog, RF)算法是一种新型特征波段选择算法[25]。它可利用少量的变量迭代进行建模,能够输出每个变量选择的可能性,从而进行变量的选择,是一种非常有效的高维数据变量选择方法。
1.4.3建模方法与模型评价
极限学习机(Extreme learning machine, ELM)是一种针对单隐含层前馈神经网络的新算法,它会随机产生输入层与隐含层的链接权值与隐含层神经元的阈值,并且在训练过程中无需调整,只要设置隐含层的神经元数就可以得到最优解[26-27]。偏最小二乘回归算法(Partial least squares regression, PLSR)和支持向量回归算法(Support vector regression,SVR)是光谱分析中的常用分析方法,可用于回归、分类等[28-31]。
利用Matlab 2017a、The Unscrambler X10.0以及SPSS 19.0软件对原始光谱进行预处理、数据剔除、特征变量筛选、模型建立及因子分析。模型的评价使用相关系数(R)、校正均方根误差RMSEC(Root mean square error of calibration, RMSEC)和预测均方根误差RMSEP(Root mean square error of prediction, RMSEP)。模型的相关系数越高,误差越小,表明校正模型的性能越好[32-33]。
不同成熟度苹果样本平均反射光谱如图2所示,从图中可看出其趋势基本相同。但随着苹果不断成熟,其内部淀粉水解为可溶性糖类,部分有机酸转变为糖类物质,果实原果胶逐渐分解,细胞变松弛,果实中类胡萝卜素、花青素等色素含量发生变化。反映到光谱上,在400~750 nm之间的光谱曲线差异较大,且均在680、980 nm处出现吸收峰。在波长400~500 nm附近的吸收峰与类胡萝卜素相关,680 nm处为C—H基团的二级倍频特征吸收峰,与颜色变化及吸收辐射的叶绿素含量相关,在波段980 nm处为O—H基团的二级倍频特征吸收峰,与果实内部的水分变化相关。
图2 不同成熟度苹果样本的平均反射光谱Fig.2 Average reflectance spectra of apple samples with different maturities
从图2中可看出八成熟的样本光谱反射率比九成熟和十成熟样本高且有较明显的差异,但九成熟与十成熟的样本后面光谱波段具有相似的光谱特征,从而产生了重叠,可能由于后期果实已成熟,品质指标变化趋于缓慢,采收时间间隔较短,导致差异性不明显,而八成熟和十成熟样本的成熟程度相差较大,内部成分含量差异性较大,使得吸收光谱的特征差异较大,从而能在光谱上呈现明显的分开状态。
2.2.1光谱数据预处理
进行数据分析与建模前,对242个苹果样本的光谱数据采用“二审”回收算子法分别对可溶性固形物、硬度、颜色等指标进行异常样本剔除,再对剩余样本建立偏最小二乘交叉验证模型(Partial least squares-cross validation, PLS-CV),鉴定剔除效果。其中可溶性固形物剔除了标号为5、77、80、145、192的5个异常样本;硬度剔除了174和195号2个异常样本,颜色指标无异常样本。最终保留235个样本参与苹果成熟度预测分析。由于在低于400 nm或高于1 000 nm的光谱信息含有较多噪声信息,对后续建模会造成一定影响,因此选取400~1 000 nm范围内的光谱作为有效参考光谱,全波段建模共有1 251个波长变量。采用SG卷积平滑(Savitzky-Golay smooth, SG)、多元散射校正(Multiple scattering correction, MSC)和标准正态变量变换(Standard normal variable transformation, SNV)等预处理方法对保留的光谱数据进行预处理,保留有效信息,提高后续建立模型的稳健性。通过不同建模方法建立单品质因子预测模型结果分析比较,其中采用SG与MSC算法结合对原始光谱进行预处理效果最好。
2.2.2特征变量提取
图3 采用随机蛙跳算法提取特征变量结果Fig.3 Extracting feature spectra result by using random frog
以1 251个近红外光谱波长变量作为待选择对象,在对光谱数据经MSC预处理后,采用RF算法对数据变量进行筛选。为保证结果的收敛,将迭代参数N设为10 000,N次迭代后计算得到每个参考变量被选择的概率,将所有变量被选可能进行排序,同时根据变量最终建模结果选择合适参考阈值,尽可能包含原始光谱绝大多数有效信息。图3为采用RF算法进行SSC特征变量提取的结果,参考阈值设置为0.2,提取了55个有效特征数据。其他品质指标采用同样的方法进行分析处理。通过特征变量筛选得到了最能反映某些物质变化的响应信息,简化了预测模型的输入,有效提高了计算效率。
采用Kennard-Stone(K-S)方法将235个苹果样本按2∶1分为校正集和预测集,对原始光谱信息经MSC预处理分析后,采用RF算法提取各指标参数特征变量,将筛选的可溶性固形物含量、硬度、L*、C*、h*指标的特征变量作为输入变量,构建成熟度评价指数的偏最小二乘算法预测模型。SIQI指数的预测结果如图4所示,校正集相关系数Rc为0.962,均方根误差为0.220,预测集相关系数Rp为0.938,均方根误差为0.216,SIQI指数的光谱模型预测性能较好。
图4 基于偏最小二乘算法的SIQI指数预测结果Fig.4 Prediction results of SIQI index based on partial least squares algorithm
由于苹果成熟过程中产生一系列生理变化,各品质指标之间存在一定的相关性,因此,为了更好表
征苹果所处的成熟阶段,本研究对7个苹果成熟度关联指标进行显著性分析,通过建立一个综合评价指标FQI(Factor quality index)来预测苹果成熟度。利用皮尔逊相关系数的显著性双侧检验进行分析,硬度与可溶性固形物无相关性,可溶性固形物和色泽参数在0.01水平上存在较好的相关性,色泽因子L*、a*、b*之间均存在明显的相关关系。
将各项指标经过Bartlett球形度检验,结果小于0.05,说明各品质间互相不独立。经过KMO(Kaiser meyer olkin)检验的结果为0.711(大于0.5),表明变量之间存在较强的偏相关性,适合采用因子分析法。首先进行主成分分析,选取对应特征值大于1的因子,结果表明,前两个主成分对应特征值均大于1,且累积贡献率达80%以上,已经可以代表原始变量的绝大部分信息。为了考察多项品质指标间的相互作用并进行成熟度评价,利用回归方法计算成分的得分系数矩阵,结果如表2所示,其成分矩阵的2个主因子得分I1、I2表达式为
I1=0.106X1-0.005X2+0.243X3-0.247X4+
0.157X5-0.224X6+0.217X7
(2)
I2=0.612X1+0.393X2+0.05X3-0.039X4-
0.275X5-0.242X6-0.118X7
(3)
由表2可知,基于因子分析所建立的苹果成熟度评价指标FQI表达式为
IFQI=0.590 22I1+0.206 11I2=
0.188 7X1+0.078 1X2+0.153 7X3-0.153 8X4+
0.036X5-0.182 07X6+0.103 7X7
(4)
式中IFQI——综合评价指标
X1——果肉硬度
X2——可溶性固形物含量
X3——亮度L*
X4——色泽a分量X5——色泽b分量
X6——色度C*
X7——色相角h*
式中X1~X7为经过标准化处理后的值。
表2 成分得分系数矩阵Tab.2 Coefficient matrix of basic information of common factors
同样对光谱信息预处理后,将RF算法提取的各因子参数特征变量作为模型输入,建立苹果成熟多因子分析评价模型。采用偏最小二乘算法对苹果成熟度因子FQI建立预测模型,结果如图5所示。校正集相关系数Rc为0.919,均方根误差为1.489,预测集相关系数Rp为0.917,均方根误差为1.152。
考虑到全光谱建模数据量大,不利于分类模型的建立和优化,提取不同采收成熟度苹果样本原始光谱信息的主成分,由得到的主成分提取结果发现,前5个主成分的累积贡献率达到99.478%,包含了原始光谱的大部分有效信息。采用ELM、SVR算法直接建立不同成熟度苹果样本分类模型。SVR建模过程中选择径向基核函数(Radical basis function, RBF)作为支持向量机模型的核函数,使用十等分交叉验证对惩罚参数c和核参数g进行了寻优,最后利用最优变量完成对网络测试以及数据的反归一化。
3类成熟度不同的样本个数分别为八成熟n1=78、九成熟n2=79和十成熟n3=78,将三者成熟度分类标签依次定义为1、2、3,将235个试验样本划分为建模集165个,预测集70个。光谱经过相应的SG平滑与MSC预处理分析后,使用前5个主成分分别作为ELM和SVR算法分类模型的输入变量。图6为采用ELM算法对预测集的分类结果,研究发现对于成熟晚期和中期的苹果样本分类结果较差,误判的情况比较多,这在光谱信息上也得到了体现。
图6 ELM算法对不同成熟度苹果样本分类结果Fig.6 Classification result of different maturities apple by ELM algorithm
为得到较佳的富士苹果采收成熟度预测分类结果,在建立的苹果SIQI指数与因子指数FQI分析预测模型基础上,SVR算法建立2种模型下的成熟度分类模型。同时与ELM算法、SVR算法所建立的分类模型结果进行比较。4种方法所建立分类模型的对比结果如表3所示。从表3中知,对比4种方法建立的分类模型结果,发现通过成熟度评价指数SIQI建立的分类模型准确率最高,采用ELM算法和SVR算法直接进行成熟度分类时,预测集准确率仅为68.57%和64.29%,无法实现真正意义上的精准采收。利用因子分析法提取成熟度综合评价指标FQI,通过光谱很好地繁衍出该指标,因子分析指数FQI结合SVR算法,预测集中误判数为 16个,分类准确率为81.43%。利用成熟度评价指数SIQI结合SVM算法,预测集有10个样本产生误判,判别准确率为 85.71%,其中,预测集中2个八成熟误判为九成熟,5个九成熟误判为十成熟,3个十成熟误判为九成熟。产生误判主要原因是九成熟与十成熟样本中个别样本在光谱信息上特征较为相似,产生重叠,同时人为通过盛花期后发育天数以及淀粉染色对比卡抽检确定成熟程度分类也存在一定的误差。
表3 不同建模算法对苹果样本的分类结果Tab.3 Classification results for apple samples with different algorithms
(1)对融合可溶性固形物含量、硬度、L*、C*、h*指标的成熟度评价指数SIQI进行光谱预测分析,结果表明,利用偏最小二乘算法建立的SIQI指数预测集相关系数为0.938,均方根误差为0.216。
(2)基于苹果可溶性固形物含量、硬度、L*、a、b、C*、h*7个指标,利用因子相关性分析,构建了成熟度评价指数FQI来预测苹果成熟度,利用偏最小二乘算法建立FQI指数与光谱信息之间的预测模型,预测集的相关系数为0.917,均方根误差为1.152。结果表明,利用光谱信息预测多品质指标耦合指数具有可行性。
(3)在2种评价指数基础上分别建立SIQI指数与SVR算法、FQI指数与SVR算法相结合的分类模型,并与ELM 算法和SVR 算法直接建立的光谱分类模型结果进行比较,对比4种方法的分类结果,发现基于SIQI指数建立的分类模型准确率最优,校正集和预测集判别准确率分别为90.91%和85.71%。研究表明,基于可见/近红外光谱可实现对苹果采收成熟度的判别,为果品分批采收和采收后分类贮藏提供有效方法。本研究中基于耦合可溶性固形物含量、硬度和色泽L*、C*、h*指标的SIQI指数分类结果最好,但决定苹果成熟的相关影响因子较多,因此,后续研究将扩展苹果采收的时间范围及样本量,验证SIQI指数中5个因子是否能够表征苹果的成熟。