黄瓜水分和硬度高光谱特征波长选择与预测模型构建

2021-03-10 13:31马帅帅于慧春袁云霞薛书凝
食品与机械 2021年2期
关键词:个数波长预处理

马帅帅 于慧春 殷 勇 袁云霞 李 欣 薛书凝

(河南科技大学食品与生物工程学院,河南 洛阳 471023)

黄瓜本身营养丰富,风味独特,深受人们喜爱,是世界范围内普遍栽培的重要蔬菜作物。但黄瓜采摘后容易失水萎蔫、衰老,新鲜度降低,口感变差,食用价值降低,影响其市场销量。而传统果蔬的品质检测方法主要有感官评定、化学检测法等[1],感官评定主观性强,且无法对其内部进行准确评定。化学检测法精度高,但耗时、费力、工艺复杂,测定结果受前处理影响较大,无法实现其快速检测。

近年来,高光谱成像技术因其“图谱合一”、速度快、样品无需预处理等优点,在果蔬的品质检测领域中获得较多的应用研究[2]。利用高光谱图像中的光谱信息,结合化学计量学方法,可以实现对被检测样品每一点口感风味等食用品质指标(如可溶性固形物、水分、酸度及硬度等)以及营养品质指标(如淀粉、色素等)的预测和评估;利用高光谱图像信息,结合图像处理方法,可以实现对样品外部品质(如伤痕、形态等)的检测。因此,高光谱技术可以同时检测样品的内部和外部品质,在果蔬品质检测领域呈现出极大发展潜力。

目前高光谱图像技术在黄瓜病虫害[3]、叶片含水量[4]、黄瓜叶片叶绿素含量[5]及过氧化酶活性[6]等方面的检测及评价都有研究报道,但在黄瓜新鲜度方面的研究很少,且建立的理化值预测模型精度不高,稳定性较差[7]。由于高光谱图像数据信息量庞大,且存在大量冗余多重共线性信息,会严重影响预测模型的精度及可靠性,因此应用时需要进行特征波长的选择。

黄瓜的水分含量与硬度可以反映黄瓜的新鲜状态且二者具有显著相关性,可以作为关键指标对贮藏期间黄瓜新鲜度进行判别评价[8]。试验拟采用高光谱成像技术对不同贮藏时间的黄瓜样品进行检测,在对原始高光谱数据进行预处理以去除噪声干扰的基础上,研究硬度和失水率的适宜特征提取方法,并建立判别模型,以期实现对贮藏黄瓜新鲜度的快速、准确评价。

1 材料与方法

1.1 仪器与设备

质构仪:SMS TA.XT Express型,英国,Stable Micro Systems公司;

电子天平:DT-500B型,常熟市佳衡天平仪器有限公司;

高光谱图像采集系统(见图1):由高光谱成像仪(IST50-3810型,德国Inno-Spec公司)、500 W的光纤卤素灯(RK90000420108型,德国Esylux公司)、移动装置和计算机组成,实验室自行搭建。

1.2 试验材料

黄瓜:德瑞特D19,河南省洛阳市大张超市。

1.3 试验方法

1.3.1 贮藏与采样 将新鲜采摘的黄瓜样品500 kg,存放于贮藏库(温度25 ℃、湿度80%)。对常温贮藏的黄瓜每隔1 d取样一次,即对黄瓜贮藏第1,3,5,7,9,11天取样,并分别进行硬度、失水率和高光谱检测。

1. 样本 2. 光源 3. 光谱仪 4. 输送装置 5. 计算机

1.3.2 硬度测定 采用质构仪选择果蔬硬度测试模型,测试参数设置:探头直径5 mm,触发力值5.0 g,下行速度1 mm/s,测中速度0.5 mm/s,上行速度1 mm/s。试验当天从贮藏库不同货架随机选取6根黄瓜,距离黄瓜头部2 cm处径向均匀选取3个测试点,取其平均值作为该天黄瓜样本的硬度值。

1.3.3 失水率的测定 黄瓜入库当天从贮藏库不同货架随机选取6根黄瓜,依次顺序编号,样品重量用电子天平测量,按式(1)计算失水率。取6根黄瓜样品失水率平均值作为该天黄瓜样本的失水率值。

(1)

式中:

a——失水率,%;

W——每根黄瓜原始重量,g;

w——相应黄瓜当天的重量,g。

1.3.4 高光谱检测 通过预试验确定高光谱检测参数:成像仪物镜高度350 mm,曝光时间90 ms,载物平台的移动速度1.20 mm/s。仪器光谱采集范围371.05~1 023.82 nm,光谱分辨率2.8 nm,采样间隔为0.49~0.51 nm,在光谱范围内共采集1 288个波段。试验当天从贮藏库不同货架随机选取10根黄瓜,从黄瓜头部2 cm处开始,均匀切片,每片厚度约2 mm,每根黄瓜切5片,共计50片样本。黄瓜片逐一平放在洗净的玻璃平皿中,置于输送带上进行高光谱数据采集。

1.4 数据处理

1.4.1 黑白校正 用ENVI5.1软件选取黄瓜样本图像中感兴趣区域,对高光谱图像进行黑白板校正。校正方法:在同一采集环境下,采集标准白色校正板得到的全白标定图像(反射率接近99%),关闭相机镜头采集全黑标定图像(反射率接近0%),并按式(2)计算得到校正后图像[9]。

(2)

式中:

R——校正后高光谱图像;

I——原始黄瓜高光谱图像;

B——全黑标定图像;

W——全白标定图像。

1.4.2 原始光谱数据的预处理 为减少环境噪声及仪器自身的系统误差对光谱信息的干扰,分别采用Savitzky-Golar法(SG)、多元散射校正(MSC)和标准正态变量变换(SNV) 3种方法对原始高光谱数据进行预处理,并根据相关系数(R2)和均方根误差(RMSE)进行结果对比。

1.4.3 特征波长的选择 由于原始光谱数据存在共线性,为了减少模型运算量,提高计算精度,对预处理之后的光谱数据采用竞争性自适应重加权算法(CARS)、偏最小二乘(PLS)、连续投影算法(SPA),分别进行特征波长的提取。

CARS方法是基于蒙特卡罗采样和偏最小二乘(PLS)模型中回归系数的一种特征波长选择方法,旨在选择最具有竞争力的波数组合[10-11]。其通过蒙特卡罗采样选择的校正集样本建立对应的PLS模型,计算该次采样中波长回归系数的绝对值权重,去掉权重较小的波长后,采用自适应重加权采样的方法选择波长来建立PLS模型,选取交互验证均方根误差(RMSECV)最小的PLS模型对应的波长为特征波长[12]。

偏最小二乘回归系数法[13],是在PLS建模过程中得到的,是集主成分分析、典型相关分析于一体的一种特征波长提取方法。通过偏最小二乘回归分析,得到权重回归系数,并根据回归系数的极值进行特征波长的提取。

连续投影算法(SPA)[14]可以将波长变量间的共线性消除,有效避免信息重叠,从而用很少的信息量来代表多数样本的光谱信息[15-16],特征波长最终的选择结果为最小交互验证均方根误差(RMSEV)对应的波长变量个数。

1.4.4 模型的建立 采用BP神经网络[17](back propagation neural network,BPNN)方法构建检测模型。BPNN是一种按照误差逆向传播算法训练的多层前馈神经网络,采用经验风险最小和梯度下降法计算目标函数最优值从而逼近函数表达[18],使信号正向传播和误差反向传播交替循环进行,信号正向传播一次计算相应的误差一次,让误差沿着梯度负方向下降一个很小的变化量,将得到的误差变化量反向传播到BPNN各层,然后对各层参数的值进行调整,再进行下一次循环。当BPNN的误差收敛到一个较为稳定的范围,可认为各层参数的值达到了理想状态,模型达到了最优状态。

2 结果与分析

2.1 硬度结果分析

如表1所示,在贮藏期间硬度值随贮藏时间增长总体呈下降趋势,其中第3~5天硬度值下降趋势最明显。

表1 黄瓜硬度值

2.2 失水率结果分析

如表2所示,贮藏中黄瓜在第1~3天失水速率最高,可能是贮藏室整体环境温湿度不稳定造成的,环境稳定后随贮藏时间增长黄瓜样本失水率总体平稳增加。

2.3 高光谱测定结果分析

去除876.97~1 023.82 nm明显存在噪声的波段,保留371.05~876.47 nm范围内的平均光谱进行后续分析。各不同贮藏日期黄瓜样本原始光谱曲线如图2所示。

2.4 高光谱数据分析

2.4.1 高光谱图像预处理 分别采用SG、SNV、MSC 3种方法对光谱进行预处理,并基于预处理后的全光谱数据建立硬度和失水率指标的BP预测模型,结果如表3所示。

由表3可知,SG法预处理效果较好,其对硬度和失水率预测的R2分别为0.82,0.84,RMSE分别为0.03,0.39。但是整体R2较低,均在0.8左右,说明基于全波长信息的预测模型效果不理想,大约只有80%的有效信息,在全波长高光谱信息中存在较多的冗余信息,降低了模型的精度和可靠度,因此需对全波长高光谱进行特征波长的选择。

表2 黄瓜失水率

图2 黄瓜原始光谱图

表3 3种预处理方法的BP分析结果

图3为经SG卷积平滑法处理后的光谱数据。对比图2和图3可以发现,经SG法预处理后,减少了噪声和暗电流等因素对光谱数据的影响,曲线更平滑,更有利于模型的构建。

2.4.2 特征波长的选择 图4为CARS方法特征波长提取过程。如图4(a)所示,随着采样次数的增加,优化变量数逐步下降;图4(b)中RMSECV值表明了基于CARS选择的特征波长建立的PLS模型的效果,RMSECV值越小表明模型效果越好,*号即为RMSECV值最小的位置,对应RMSECV值最小的位置采集次数为59次,得到黄瓜硬度指标的较优特征波长个数为25个。同理,黄瓜失水率的采样次数为70次,得到的较优特征波长个数为20个,筛选过程如图4(c)和(d)所示。

图3 SG处理后黄瓜光谱图

运用PLS方法提取硬度和失水率特征波长个数分别为13,16个,得到黄瓜特征光谱的权重系数图,如图5所示。从权重系数图看,绝对值越大的波长点代表这些波长对模型的影响越大,这些波长都处在波峰或者波谷位置,第1主成分和第2主成分波动小,样本间的差异不明显;第3主成分波动大,样本间的差异明显,所以选取第3主成分回归系数波峰和波谷所对应的波长为特征波长。

SPA提取特征波长个数均为20个,特征波长提取如图6所示。

图4 基于CARS特征波长提取

图5 基于PLS特征波长提取

基于不同方法所筛选出的各个特征波长结果如表4所示。

2.4.3 特征波长下黄瓜硬度和失水率判别模型分析 分别基于3种方法提取的特征波长建立BPNN模型。每个等级的黄瓜样品的50条高光谱中35条作为训练集,15条作为预测集。

BPNN模型结果如表5所示。在BPNN模型中,迭代次数设置1 000次,学习速率为0.001,训练目标为0.000 1,隐含层神经元函数选择tansig函数,输出层神经元函数选择purelin函数,网络训练函数选择trainlm函数。在BPNN硬度模型中,输入层神经元个数为25,13,20个,分别对应CARS、PLS和SPA选取的硬度特征波长个数;在BPNN失水率模型中,输入层神经元个数分别为20,16,20个,分别对应CARS、PLS和SPA选取的失水率特征波长个数。输出层神经元数为6,对应样品种类。隐含层层数越多,精度越高,但网络结构越复杂,训练时间越长[19],最终选择的隐含层层数均为1。隐含层神经元个数的选择参照式(3),经调试,隐含层神经元个数为23时,判别效果最佳。

(3)

式中:

图6 基于SPA特征波长提取

表4 特征波长提取结果

表5 特征波长下BPNN判别正确率

N——隐含层神经元个数;

n——输入层神经元个数;

m——输出层神经元个数;

a——常数。

由表5可知,3种模型的预测效果均明显改善,SPA提取的特征波长建立的BPNN判别模型效果较好,硬度训练集和测试集正确率分别达到95.24%,91.67%,失水率训练集和测试集正确率分别达到97.78%,95.00%。与全波长光谱信息的预测模型相比,预测的精度大大提高。由表6可知,SPA选择的特征波长建立的判别模型对硬度和失水率的判别效果均较好,R2和RMSE值均优于其他特征波长选择方法。

基于SPA方法提取的特征光谱信息,构建BPNN硬度和失水率预测模型,预测结果如图7、8所示。

表6 特征波长下BPNN模型判别分析结果

图7 BPNN硬度模型训练和验证结果

图8 BPNN失水率模型训练和验证结果

3 结论

研究通过对原始高光谱数据的预处理及特征波长的提取,建立黄瓜硬度和失水率预测模型。采用Savitzky-Golar法、多元散射校正和标准正态变量变换3种方法对高光谱原始数据进行处理,基于全波段信息建立BP神经网络预测模型,结果表明Savitzky-Golar法预处理更优;在Savitzky-Golar法预处理基础上,采用竞争性自适应重加权算法、偏最小二乘、连续投影算法3种方法进行特征波长提取;基于特征波长,建立BP神经网络判别模型。李丹等[20]曾对黄瓜水分进行预测,通过对900~1 700 nm波段范围内的特征波长下建立的偏最小二乘水分预测模型,模型的相关系数和均方根误差分别为0.86和0.111。文中基于连续投影算法提取的特征波长所建立的预测模型,精度明显高于其他特征波长选取方法;硬度和失水率训练集准确率分别为95.24%,97.78%,测试集准确率分别为91.67%,95.00%,预测结果相对于全波长预测精度大大提高。

研究下一步解决的问题是硬度和失水率共同特征波长的提取并构建多理化指标预测模型,特征波长提取方法仍然是模型构建的关键点,是值得不断深入分析和研究的问题。

猜你喜欢
个数波长预处理
求解奇异线性系统的右预处理MINRES 方法
怎样数出小正方体的个数
杯中“日出”
污泥预处理及其在硅酸盐制品中的运用
等腰三角形个数探索
怎样数出小木块的个数
使用滤波器和探测器阵列的光纤陀螺光源平均波长漂移监测
基于针孔阵列型的单次曝光双波长叠层成像*
怎样数出小正方体的个数
基于预处理MUSIC算法的分布式阵列DOA估计