基于多光谱特征分区的油桃品质分析算法

2022-06-02 08:10:32
食品与机械 2022年5期
关键词:油桃光度均值

王 杰

(吉林建筑科技学院,吉林 长春 130000)

中国是油桃生产出口大国。油桃的种植、采摘与运输对产品质量的影响明显,而油桃的价格与其品质和口味密不可分[1]。甜度、口感等的量化分析是优选油桃的重要依据。通过光谱分析对油桃的糖含量、酸度值等的无损检测成为研究热点。

为了提高系统工作的实用性,常常采用可见光或近红外光谱对果肉化学成分进行无损检测[2]。Li等[3]对梨的果肉进行了光谱分析,完成了梨果肉的固形物含量、pH值和硬度的定量分析。Li等[4]将模式识别技术应用于柚子种类分析,相比传统的图像识别而言,采用光谱分析的种类识别概率提高了近1倍。Lee等[5]将近红外光谱测试用于猕猴桃,完成了对磕碰猕猴挑的快速分拣。苗荣慧等[6]利用光谱与可视化图像相结合,对3种不同类型油桃进行鉴别,识别率可达到94.7%,具有很好的分类效果。武锦龙等[7]利用人工神经网络算法对油桃表面的轻微损伤进行定量分析,提高了油桃品质,其算法主要针对可见光二维图像进行分类计算。由此可见,通过光谱、图像分析等方法对水果分类、状态检测的研究很多,但大部分文献研究重点集中在分类、磕碰损伤等方面,对于不同品种的甜度及口感分析较少。

研究拟解决相似品种油桃的无损检测,以期在大量样本快速检测与识别过程中降低分类误差,从而实现不同品质油桃快速自动化分拣的目的。

1 计算模型设计

设置光谱振幅峰值、强度对比值、特征光谱谱段宽度等几个特征参数用于描述油桃的反射光谱的分布数据。为准确获取目标的光谱强度分布,对测试光信号进行标定,并测量对比用的白光光源。设任意样品i的光谱反射均值为Si;有白光光源无测试目标时,获取的光谱分布为Swhite;设当关闭光源并遮蔽光谱测试探头时获取的光谱分布为Sdark。则相对反射率为R有

(1)

模型中测试目标油桃的温度需要在测试环境中静置至与室温相同。其中样品上每个测试点为n,共计取N个点,然后计算平均光谱得到的。

采用CIELAB色彩空间[8]对获取的光谱数据进行计算,通过光谱仪可以测量得到目标明度值为L*,则其色度值C*和色调值h*可以表示为

(2)

式中:

C*——目标色度值;

h*——目标色调值;

a*——测试光谱中红/绿的强度值;

b*——测试光谱中黄/蓝的强度值。

不同样品间的总色差[9]可以表示为

(3)

根据式(3)可以看出,对于不同的两种类型,可以通过获取其光谱分布完成对色差及光谱谱形的对比分析。当特征波长选择可见光和红外光中的几个特征位置时,不仅可以得到对油桃样品种类的区分信息,还可以利用特征谱线位置分析其品质。

2 系统结构与光谱获取

2.1 系统结构

为了同时获取可见光与近红外的光谱分布,一方面保证光谱检测精度,采集特征波长位置上更精细的强度信号,另一方面,提高系统处理速度。系统采用了多通道数据采集的方式,并且在不同的光谱段采用不同的光谱分辨率。分辨率的选定由样品在对应区域上特征谱线的间距、峰谷值及比例值决定。在可见光380~650 nm波段,虽然吸光度值较高,但相近品种之间的比例值较低,而占比范围相对宽,故适合采用分辨率低但覆盖范围宽的光谱采集形式,故设置光谱分辨率为10.0 nm,而在近红外650~1 600 nm波段的比例值较高,有几个明显的特征吸收峰,所以采用窄光谱更合适,故采用1.0 nm,从而在样品特征光谱位置上获得更好的细分效果。系统结构如图1所示。

由图1可知,系统除了数据处理模块之外主要分三大部分,分别是光谱分区采集模块、对比单元以及特征参数模块。光谱分区采集模块主要包括可见光通道及近红外光通道,可见光通道由数据采集卡、CM-25D分光仪、准直透镜组以及可见光滤光片组成,近红外光通道由数据采集卡、FT-NIR分光仪、准直透镜组以及近红外光滤光片组成。用于实现光谱分区采集,其特点是可以根据光谱特征位置而调节系统采样精度与分区位置;对比单元由参考白光与探测器构成,用于为照射样品的光源进行定标,测试得到背景光谱的辐射强度与光谱分布特征;特征参数模块包括特征数据库和分析算法,特征数据库中包含了所有类型油桃的光谱分布及其特征波长位置与吸光值,分析算法是用于完成分类、品质分析的数据模型。检测平台采用旋转结构,目的是采集目标多个位置的光谱数据进行平均,得到样品的平均光谱分布,提高品质分析的准确性。

图1 油桃种类及品质检测系统示意图Figure 1 Schematic diagram of nectarine types and quality inspection system

2.2 光谱获取与预处理

为了同时获取可见光与近红外的光谱分布,提高光谱分辨精度及降低特征光谱之间的干扰,采用多通道分区获取的方式。由CM-25D型分光仪完成可见光光谱采集,由FT-NIR光谱仪完成近红外光谱采集,将分区光谱数据导入数据处理模块后利用光谱归一化[10-11](用其每一个变量除以其相应的标准差),从而统一至同一范围区间。在此基础上,对光谱数据进行平滑处理,用以消除杂散噪声。

将每种样品的平均光谱曲线构建成矩阵,则形成4个表征对应油桃种类的矩阵,通过主成分分析提取光谱数据中的主要特征信息,再采用偏最小二乘[12](PLS)完成4个光谱数据的回归模型。与此同时,定义样品的品质参数[13](QP)为

(4)

式中:

PQ——样品的品质参数;

fmax——油桃撕裂强度,N;

CSS——可溶性固体含量,oBx;

L*——目标明度值;

h*——目标色调值;

C*——目标色度值。

试验测试中,以样本集测试均值代入式(4),fmax为0.487 kN,SSC为3.19oBx,系数L*为27.2,系数h*为42.1,系数C*为0.45。代入后,QP的均值为12.4,范围为11.2~13.6。

3 结果与分析

3.1 光谱获取

测试样品为瑞光5号(A)、金山早红(B)、世纪之星2号(C)和中油桃4号(D)4种油桃。每个品种选20个大小相近的样品,每5个样品通过平均计算获得一条光谱曲线。最终,通过在Unscrambler软件中将光谱以吸光度值进行表达,结果如图2所示。

3.2 光谱测试结果分析

由图2可知,4种样品的谱形趋势是相近的,但不同种类之间仍存在一些明显差异。对于A类而言,在400~500 nm的吸光度均值相比其他3种高,而在750~1 100 nm 的低吸光度平滑段,其吸光度均值要明显低于其他类型;对于B类而言,在543 nm附近的第1个弱吸收峰谷位置上,吸光度均值达0.413,具有较好的特征性,而同时,在1 432 nm的强吸收峰峰位置上也存在吸光度均值偏弱的现象,而在750~1 100 nm的低吸光度平滑段中其吸光度均值较高;对于C类而言,在400~483 nm的吸光度均值较其他3种类型最低,而在665 nm附近的第2个弱吸收峰峰位置上,吸光度均值达0.238,具有较好的识别性;对于D类而言,其第3个弱吸收峰谷位置的中心波长与其他3个存在明显差异,其均值中心波长为1 268 nm,而其他3个的中心波长均介于1 282~1 296 nm,同时,在1 412 nm的强吸收峰峰位置上,其吸光度均值达0.795,明显高于其他3种。分析完光谱数据中吸光度的特性后,还需要对比例值进行分析,因为单纯依靠吸光度绝对值的分析是不准确的,例如测试样本中存在杂质、浓度不均匀等问题。所以试验还引入了比例值的对比,将不同品种的相应特征位置或谱段的吸光度比值作为第2特征参量可以有效抑制单纯通过吸光度解算的干扰,系统中两种权重的比例采用1∶1。由此可见,特征波长位置的选取只要能够覆盖对应种类的特征位置就能够有效地将其识别。对应区分度差或者单组数据混叠程度较高时,可以采用多个特征位置并设置合适的权重系数完成分析,该方法同样适用于样品品质、糖度等参数的分析。

图2 4种油桃的可见光与近红外光的原始光谱分布Figure 2 The original spectral distribution of visible and near-infrared light of four nectarines

综上所述,不同类型油桃样本的光谱数据具有各自的特性,而对其特性分布的分析也是选定特征光谱位置及参考权重的重要依据,也是样品种类、品质区分程度的重要标准。基于测试结果中不同样品光谱分布的特性,特征谱段分别设置为400~430,530~560,670~700,1 030~1 060,1 260~1 290,1 410~1 440 nm。

3.3 主成分分布对比

将3.2中的特征谱段区域作为数据分类计算谱段,在保证种类与品质可求解的前提下,选取贡献程度高的特征波长位置,并在相应波长位置上以均值之差最大的两组样本进行比例计算,从而得到两个主成分的参数比。数据分析过程中,算法的预测样本与验证样本比例为2∶1,即建模样本数为200个(4品种,每个品种50个样果),由此完成种类与品质的分类。每个样品存在两个特征区域,它们的对应关系有:① A和B的主成分分离采用450 nm 和950 nm位置的比例系数;② B和C的主成分分离采用536 nm和671 nm位置的比例系数;③ C和D的主成分分离采用671 nm和1 411 nm位置的比例系数;④ D和A的主成分分离采用450 nm和1 411 nm位置的比例系数。当采用吸光度值与比例值作为主成分的两个衡量参数(PC1和PC2,各50%),则4种分类时的主成分样本映射如图3所示。吸光度值(PC1)是对光谱曲线中振幅量绝对值的描述,体现了获得的能量,但由于在整个光谱段上,4种样品的光谱均存在混叠的问题,故采用了比例值(PC2)作为对比参数,即在满足吸光度振幅范围的同时符合两个样品振幅比值范围的才能够判定其类型与品质属性。为了提高识别概率每个样品分别选取了对应两种主成分的特征波长,所以在主成分分布图中均呈现两个区域。

由图3可以看出,AB分类时,虽然在450 nm位置具有较强吸光度值,但是其比例值并不高,与CD、DA相近,而在950 nm位置上,虽然吸光度较弱,但比例值明显高于其他的组合方式,故增大PC2权重占比有利于区分AB的类别与品质参数;BC分类时,在536 nm位置的振幅值具有较为明显的可分性,而671 nm处与CD的计算效果相近,容易造成干扰,并且其分布重合度高,将PC1权重提高有利于区分BC的类别与品质参数;CD分类时,相比AB和BC更为复杂,由于400~430 nm和1 030~1 060 nm 两个波段位置均存在与另一种样品组混叠的可能,故需要同时符合两个特征的数据才能满足要求,即PC1和PC2的权重相近更合适;DA分类时,由于其比例值均较低,仅1 411 nm波段的振幅值较高,故采用PC1权重大于PC2更合适,同时,采用PC2并不是求解DA的PC2值,而是用于对比AB的PC2,从而在满足PC1符合条件且PC2很小时,判定为DA组合。至此,将所有的情况分析完后就能够实现基于特征波长位置主成分分析的方法对样品种类及品质参数的定量分离。

图3 4种油桃的测试点主成分分布图Figure 3 Principal component distribution diagram of test points for four nectarines

3.4 分类概率与品质参数分析

根据主成分分析方法,结合样品测试获得的光谱数据,将权值分配引入偏最小二乘算法中,即偏最小二乘权值分析法[14](PLSWA),并与常用的线性比例分析算法[15](LRA)进行了比较,结果如表1所示。

由表1可知,谱段选择对分类识别概率具有明显的影响,当不区分特征谱段时,全谱段的均值效果会造成样品特征信噪比降低,从而导致样品种类识别概率降低。采用特征谱段或特征波长的PLSWA计算结果,4种样品的种类识别率均值为96.7%,归一化品质系数为0.892,而LRA的仅为79.1%,归一化品质系数为0.803。由此可见,采用该算法对分类识别效果和品质系数测定都具有更高的准确性,即可以通过运算结果完成油桃类型和品质的分类。同时,采用特征分区的方式不但降低了光谱数据处理总量,减少了处理时间,还变相提高了信号权重,从而使其识别概率与归一化品质系数都得到了一定的提升。

表1 不同谱段选择及不同算法条件下的识别概率与品质分析†Table 1 Recognition probability and quality analysis by different spectrum and algorithms

4 结论

针对相近品种之间光谱图像识别率低的问题,搭建了可见光与近红外光独立通道光谱图像采集系统,并设计了基于吸光度值与吸光度比值作为判别因子的最小二乘权值分析法。试验针对4种油桃进行种类及品质因子分类测试,结果表明采用两个特征主成分调控的分类算法比仅依据原始光谱数据的线性数据分类的效果要好,分类识别概率与品质系数都更高。可见,该系统及其对应算法在诸如水果等相近样品的种类识别与品质分析方面具有更好的应用前景。

猜你喜欢
油桃光度均值
平度马兰油桃美名扬
农业知识(2021年19期)2021-10-16 10:14:18
温室油桃冬春季管理要点
河北果树(2020年1期)2020-02-09 12:31:22
乘用车后回复反射器光度性能试验研究
汽车电器(2019年1期)2019-03-21 03:10:46
“中油13 号”油桃引种表现及设施栽培技术
现代园艺(2018年1期)2018-03-15 07:56:16
Interaction Study of Ferrocene Derivatives and Heme by UV-Vis Spectroscopy
均值不等式失效时的解决方法
均值与方差在生活中的应用
黑洞的透射效应和类星体的光度
河南科技(2015年8期)2015-03-11 16:24:18
关于均值有界变差函数的重要不等式
对偶均值积分的Marcus-Lopes不等式