刘燕德,崔惠桢,李 斌,王观田,徐 振,李茂鹏
华东交通大学机电与车辆工程学院,江西 南昌 330013
随着社会的发展和进步,人们对食品的要求也在不断地提高,苹果作为一种富含维生素和矿物质的优质水果,在广大消费者中很受欢迎,苹果的内外部品质也一直是人们在购买时所关注的重点。可见-近红外无损检测技术作为一种高效率、 低成本且对检测对象不会造成破坏的检测手段,在苹果、 西瓜、 脐橙、 柑橘、 柚子、 草莓、 哈密瓜等水果的内外品质检测方面被广泛使用[1]。
在对水果进行糖度检测时,漫反射、 漫透射等检测方式建立的模型会有不同的预测结果,采用同一个检测方式的同时,检测位置的不同也会导致建立模型的预测能力不同。刘旭文等在建立梨的可溶性固形物的近红外光谱检测模型稳定性及优化研究中,通过对翠冠梨径向三个不同检测位置(果梗、 赤道、 花萼)采集光谱和测量糖度建立不同位置的可溶性固形物评价模型,用CARS筛选变量,筛选出36个特征变量后用偏最小二乘回归(partial least square, PLS)建立模型,得到用赤道区附近光谱及糖度建立的模型预测结果更准。李雄[2]等通过研究西瓜光投射规律与品质属性的内在联系时提出,不同的积分时间和电流强度会导出不同的建模结果;在其他条件相同情况下,根据西瓜瓜皮到果心的距离将西瓜分为心糖、 中糖、 外糖、 底边糖和混合糖,通过卷积平滑降解光谱噪声并用偏最小二乘建立可溶性固形物的糖度模型后,得到的结果表明用底边糖区域的光谱信息建模效果最佳。目前还没有见到针对苹果漫透射采集光谱的不同光照位置对建立模型影响的研究报道。
将果茎为70 mm苹果果实放置在近红外静态光谱采集装置上;该近红外静态光谱采集装置的卤素灯可以调整其照射位置及角度,通过调整卤素灯光对苹果不同部位的照射区域,把照射位置分为上部(与水平方向夹角为80°)和斜上部(与水平位置夹角为50°),探究苹果果实不同的光照位置对建立基于可见-近红外的苹果可溶性固形物的预测模型的影响,找到在检测苹果可溶性固形物时,照射在苹果果实上的最佳光照位置。
实验所需的苹果样品购买于江西省南昌市某水果市场,按照相同尺寸购买苹果样品,苹果尺寸为(73±2) mm。买来的苹果用纯净水和消毒纸巾将表面清洗擦拭干净后,放在室温20 ℃环境下静置24 h,因为购置的苹果的温度不一样,静置24 h目的是为了消除在建立可溶性固形物模型时温度造成的影响。静置24 h的苹果剔除在裂果,碰伤果和品质相差较大的果实后随机分成两组,一组照射果实的上部,另一组照射果实的斜上部;照射苹果上部的果实根据K-S算法分成训练集188个,预测集62个。所有果实的果茎范围为(73±2) mm,用来建模的苹果的可溶性固形物的糖度区间为8.2~16.8°Brix,用来预测的模型性能的苹果可溶性糖度区间为8.8~16.2°Brix。照射苹果斜上部的果实训练集为188个,预测集为62个,所有果实的果茎范围为70~75 mm,训练集糖度范围为9.1~16.6°Brix,预测集糖度范围为10.5~16.6°Brix。
表1 苹果的理化指标范围统计结果Table 1 Statistical results of physical andchemical indices of apple
可见近红外漫透射光谱采集装置如图1所示,该装置是由可调灯架、 支架、 卤素灯、 光纤固定支架、 光纤、 光谱仪、 计算机以及果杯组成。可调灯架用于调整卤素灯照射角度以及卤素灯与样品的距离;可调灯架与支架用螺丝螺母固定,两个可调灯架分别安装两盏12 V,100 W的卤素灯,采用稳压电源供电。光纤通过光纤固定装置固定在支架上;果杯安装在光纤固定装置上部;光纤另一端与光谱仪连接,光谱仪另一端与计算机连接。采集光谱时,将卤素灯调整至与水平夹角45°处,此时采集的位置为苹果的斜上部,采集完斜上部的样品后,将卤素灯调整至与水平夹角75°处,此时的采集位置为上部,具体如图1所示。整个装置放在一个暗箱中,光谱采集的全过程在暗箱中进行。光源按照漫透射的方式照射到苹果,透射光谱被传送到光谱仪,然后再传输至计算机。
光谱采集时,要提前打开电源使卤素灯和光谱采集装置预热20 min,预热后首先对聚四氟乙烯球进行光谱采集,之后分别对照射位置为上部的苹果和照射位置为斜上部的苹果采集光谱后取平均光谱,将平均光谱作为苹果样品的漫透射光谱。实验参数为:积分时间100 ms,光强100 W,卤素灯6盏。
图1 光谱检测系统示意图Fig.1 Schematic diagram of the spectrum detection system
对采集光谱后的苹果,用刀沿着光谱采集位置切下4 mm果肉薄片榨取相应的苹果汁,用滤网过滤掉榨汁残留的果肉后用一次性吸管吸取榨取的果汁,滴到ATAGO PAL-1便携式数显折射计镜面上。在吸取果汁测定之前,首先用蒸馏水清洗测定仪器的测定部分,完成仪器测量之前的调零,一个检测面的糖度测定三次,取平均值为其真实糖度。在这个过程中,需要注意的是,榨取完第一个位置的苹果片、 测完相应糖度后,在进行下一个位置的苹果片榨取测定时,要将水果刀及榨汁的设备用蒸馏水洗刷干净,更换一次性吸管,并且对ATAGO PAL-1设备用清水重新调零,避免因果汁残留导致糖度测量出现偏差进而导致实验数据有误。
用MATLAB2016A提取光谱及波段数据,并将数据导出到EXCEL表格后在相同的EXCEL中输入测得的真实糖度值,将真实糖度和对应的光谱一起输入到The Unscrambler,首先剔除苹果光谱和糖度数据中的异常样本,对照射位置分别为上部和斜上部的苹果光谱和可溶性固形物数据分别采用相同的回归方法进行分析,选择训练集、 检验集和外部测试集后再选择合适的线性或者非线性方法进行建模。
在统计学中,回归分析指的是两种或两种以上变量之间的相关性关系的定量分析。按照一个变量涉及的另几个变量的数目,可以分为一元线性回归和多元线性回归[3],一元线性回归是一个变量涉及另外一个变量,探究两个变量之间的相关线性关系;多元线性回归则是一个变量涉及两个或两个以上变量,探究至少三个变量之间的相关线性关系;按照自变量和因变量之间的关系,又可以把回归分为线性回归和非线性回归[4-7]。
建立的定量模型需要有性能评价标准,会用到一些统计参数,例如校正标准偏差RMSEC,预测标准偏差RMSEP和决定系数R2,通过比较这三个指标,选取最优的建模参数和模型[8]。一般来说,校正标准偏差RMSEC的数值越低,表明所建立预测模型的相关性越好,预测标准偏差RMSEP的数值越低,则说明所建立模型的预测准确性更准确[9-10]。
三个评价指标的计算公式如下。
①训练集的均方根误差
(1)
式(1),y是样品指标的真实值;yc是模型根据建模数据得出的预测值;nc是校正集建模所需的样品数量。
② 预测集的均方根误差
(2)
式(2),y是样品指标的真实值;yp是模型根据建模数据得出的预测值;np是预测集建立所需的样品数量。
通常情况下,RMSEC和RMSEP两者的值越小并且两者间的差值越接近零时,可以做出判断,建立的模型效果最好,否则模型效果不佳。
③ 决定系数
(3)
2.1.1 不同光照位置的差异影响分析
图2是近红外漫透射苹果不同光照位置光路示意图。采用漫透射的方式研究苹果不同光照位置对苹果可溶性固形物检测模型的影响时,如图2灯B所示,灯B的光路示意线是照射位置为苹果斜上部位置,光源光路主要携带信息为浅层的果肉信息,光穿过果核的部分少,不会采集到果核的信息,避免了果核信息对整个可溶性固形物模型建立带来的干扰;如图2灯A所示,其光路示意线是照射苹果上部位置的光线示意图,在此位置,光线可以穿过苹果的大部分区域,也包含果核的大部分信息,所包含的苹果的信息内容更多更丰富。
2.1.2 不同光照位置的光谱对比分析
如图3所示,为基于近红外漫透射的苹果不同照射位置的光谱光强示意图,图示为平均原始光谱。由图可得,照射位置为上部的光谱漫透射能量比照射位置为斜上部的苹果漫透射能量强;两个不同照射位置的近红外漫透射光谱的吸收峰和波谷所在的波段位置基本相同,在645,710和820 nm波段处出现了光谱波峰,且710 nm处和820 nm处的能量峰值相差较大,在645 nm处的能量相差较小;在675和740 nm处存在波谷,740 nm处的波谷差值比675 nm处的波谷差值大。由于采集到的光谱在500 nm之前和1 100 nm之后含有的有效信息较少,且含有大量的噪声信息和无关信息,所以在建立可溶性固形物模型时,选取500~1 100 nm的光谱建模。在波段为675 nm附近处,可能是由于样品中叶绿素含量吸收变化的强度不同导致了光谱吸收峰的出现[12]。在740 nm处的光谱吸收峰与羟基的第三倍频和C—H键的第四倍频相关。上述的光谱波段所携带的信息都与苹果中可溶性固形物(soluble solids content, SSC)的含量有一定的联系。
图2 近红外漫透射苹果不同光照位置光路示意图
图3 基于近红外漫透射的苹果不同光照位置的 光谱光强示意图
2.1.3 可溶性固形物统计
表2为基于近红外光谱不同光照位置对苹果可溶性固形物建模影响的样品数据统计,其中照射位置为上部的样品训练集有188个苹果样品,苹果的平均糖度值为12.969 4°Brix,糖度范围为8.2~16.8°Brix,照射位置为上部的样品预测集有62个苹果样品,苹果的平均糖度值为13.180 7°Brix,糖度范围为8.8~16.2°Brix;照射位置为斜上部的的训练集有188个苹果样品,苹果的墙均糖度值为13.259 7°Brix,糖度范围为9.1~16.6°Brix;照射位置为斜上部的预测集有62个苹果样品,苹果的平均糖度值为13.373 9°Brix,糖度范围为10.5~16.6°Brix,预测集的糖度范围被包含在训练集的糖度范围内,数据选择合理。
表2 矫正集和预测集中可溶性固形物 SSC含量的范围和平均值
2.2.1 不同预处理方法的PLS模型
表3所示为基于近红外光谱不同光照位置对苹果可溶性固形物建模影响的不同预处理方法的PLS模型,从表3中可以得出,当光源照射位置为苹果上部时,没有对光谱进行预处理的原始光谱RMSEC为0.288 2,Rc为0.960 6, RMSEP为0.343 6,Rp为0.934 9,而照射位置为斜上部的RMSEC为0.340 7,Rc为0.931 1,RMSEP为0.513 3,Rp为0.863 6, 从照射位置为上部原始光谱的数据来看,RMSEC和RMSEP的差值为0.055 4,而照射位置为斜上部的原始光谱的RMSEC和RMSEP的差值为0.172 6,照射位置为上部原始光谱的Rp为0.934 9,照射位置为斜上部原始光谱的Rp为0.863 6,照射位置为上部的原始光谱的Rc为0.906 0,照射位置为斜上部的原始光谱的Rc为0.931 1,采用不同的光谱预处理方法所得的结果中,不同光谱预处理得到的所有的RMSEP,RMSEC,Rc和Rp均显示,基于近红外的苹果漫透射可溶性固形物模型照射位置为上部时的模型比斜上部的模型效果、 精度更好。
2.2.2 不同预处理方法的PCR模型
表4为基于近红外光谱不同光照位置对苹果可溶性固形物建模影响的不同预处理方法的主成分分析回归(principal component regression, PCR)模型,从表4中可以得出,当光源照射位置为苹果上部时,没有对光谱进行预处理的原始光谱RMSEC为0.576 3,Rc为0.842 4, RMSEP为0.601 4,Rp为0.800 7,而照射位置为斜上部的RMSEC为0.709 2,Rc为0.701 4,RMSEP为0.797 4,Rp为0.670 7, 从照射位置为上部原始光谱的数据来看,RMSEC和RMSEP的差值为0.025 1,而照射位置为斜上部的原始光谱的RMSEC和RMSEP的差值为0.088 2,照射位置为上部原始光谱的Rp为0.800 7,照射位置为斜上部原始光谱的Rp为0.670 7,照射位置为上部的原始光谱的Rc为0.842 4,照射位置为斜上部的原始光谱的Rc为0.701 4,采用不同的光谱预处理方法所得的结果中,不同光谱预处理得到的所有的RMSEP,RMSEC,Rc和Rp均显示,基于近红外的苹果漫透射可溶性固形物模型照射位置为上部时的模型比斜上部的模型效果、 精度更好。
表3 不同预处理方法的苹果上部、 斜上部漫透射PLS模型处理结果
表4 不同预处理方法的苹果上部、 斜上部漫透射PCR模型处理结果
近红外光谱的苹果糖度光照位置优化研究中,从两个不同照射位置的光谱差异来看,照射位置为上部的平均光谱光强强于照射位置为斜上部的平均光谱光强,从近红外漫反射的光路分析来看,照射位置为上部时,光谱包含了苹果本身更多的可溶性固形物信息,虽然照射位置为苹果斜上部时,包含的信息里大部分为苹果外部浅层果肉和部分的中部果肉信息,很少包含了果核信息,但是无论从得到的光谱的光强角度来看,还是光路分析来看,照射位置为苹果上部时,建立的苹果可溶性固形物模型建模和预测的效果都明显高于照射位置为苹果斜上部时,所以可以得出结论,基于近红外光谱的漫透射的苹果可溶性固形物模型建立时最好的光照位置为苹果的上部,此位置尽可能全面的包含了苹果可溶性固形物建立所需要的信息。
2.3.1 预测模型建立
综合以上结论可以得出在探究基于近红外漫透射苹果可溶性固形物模型建立最佳位置的实验中,最佳的照射位置为苹果的上部,在建立照射位置为上部的模型中,如表5所示,不论是原始光谱还是对光谱进行预处理之后,光谱的PLS模型建模效果比PCR效果好很多,在PLS模型中,SG-PLS模型的性能略低于没有光谱预处理的光谱的模型性能,但SG一阶导数-PLS,SNV-PLS和MSC-PLS的模型的性能比没有光谱预处理的模型性能提高了很多,其中SNV-PLS和MSC-PLS的模型是所有模型性能中评价指标最好的两个模型,SNV-PLS的RMSEC比原始未光谱预处理模型的RMSEC降低了0.023 3,RMSEP降低了0.039 9,Rc相比较未光谱预处理的Rc提高了0.006 1,Rp提高了0.014 3;而MSC-PLS的 RMSEC比原始未光谱预处理模型的RMSEC降低了0.023 8,RMSEP降低了0.042 1,Rc相比较未光谱预处理的Rc提高了0.006 3,Rp则提高了0.015,综上所述,基于近红外漫透射苹果可溶性固形物模型建立的最佳照射为苹果的上部,且照射位置为上部的最佳模型是MSC-PLS模型,最佳模型的RMSEC为0.264 4,RMSEP为0.301 5,Rc为0.966 9,Rp为0.949 9。图4为MSC-PLS建模数据真实糖度值和预测糖度值的线性拟合示意图,可以看到预测值较为平均且接近的拟合在拟合线附近,散点越靠近拟合线,说明模型的预测性能越好。
表5 上部照射位置不同模型评价指标Table 5 Different model evaluation indexes ofupper irradiation position
图4 MSC-PLS的糖度真实值和预测值的线性拟合Fig.4 Linear fitting between real and predictedsugar contents of msc-pls
2.3.2 模型外部验证
在建立了最佳光照位置为上部的MSC-PLS模型后,为了对模型进行一个稳定性和可靠性检验,又从购买苹果的水果批发市场购买了相同品种,尺寸接近的46个同批次的苹果,在对新购买的苹果进行同样的样品处理后,在同样的环境、 温度、 湿度下采集光照位置为上部的近红外漫透射光谱,进行外部验证[13]。结果如图5所示,外部验证的46个苹果样品的糖度预测和标准理化值得相关系数为0.9305 8,验证均方根误差为0.8435 9,所得分析数据进一步说明了照射位置为上部的基于近红外漫透射的苹果可溶性固形物建立的MSC-PLS模型是具有良好稳定性,可靠性的苹果可溶性固形物预测模型。
图5 外部验证糖度真值和预测值线性拟合示意图
利用自行研发且已证实过可行性的近红外光谱采集仪器,通过在相同的实验环境和实验条件的前提下,对从同一个水果批发市场采购的尺寸接近的同批次苹果采用不同的光照位置进行近红外漫透射光谱的采集,并对其糖度进行测量,分别对照射位置为上部和照射位置为斜上部的光谱进行建模,照射位置为上部且光谱没有预处理时的PLS模型性能为RMSEC为0.288 2,RMSEP为0.343 6,Rc为0.960 6,Rp为0.934 9;照射位置为斜上部且光谱没有预处理的PLS模型性能为RMSEC为0.340 7,RMSEP为0.513 3,Rc为0.931 1,Rp为0.863 6;照射位置为上部且光谱没有预处理的主成分回归模型性能为RMSEC为0.573 6,RMSEP为0.601 4,Rc为0.842 4,Rp为0.800 7;卤素灯照射位置为苹果的斜上部且光谱没有预处理的PCR模型性能为RMSEC为0.709 2,RMSEP为0.797 4,Rc为0.701 4,Rp为0.670 7,所以无论是PLS模型还是PCR模型,都说明了建立可溶性固形物糖度模型时,最好的光照位置是上部,上部包含了更多的可溶性固形物信息,且PLS模型的模型性能好于PCR模型。进一步地,对光谱进行预处理后,得到了最优的模型MSC-PLS模型,该模型的模型性能为RMSEC为0.226 44,RMSEP为0.301 5,Rc为0.966 9,Rp为0.949 9。进一步地,又在相同的实验条件和实验环境下,另采购46个苹果进行同样操作后进行外部验证,得出MSC-PLS模型是稳定可靠的。本文探究了基于近红外漫透射的苹果可溶性固形物模型建立的最佳光照位置为上部,且最优的模型为MSC-PLS,为研究苹果的可溶性固形物和苹果的品质检测提供了新的技术支撑。