基于近红外的柚子品种判别和糖度检测通用模型

2019-06-14 08:02刘燕德欧阳爱国孙旭东姜小刚欧阳玉平
发光学报 2019年6期
关键词:井冈蜜柚方根

李 雄,刘燕德,欧阳爱国,孙旭东,胡 军,姜小刚,欧阳玉平

(华东交通大学机电与车辆工程学院,江西南昌 330013)

1 引 言

柚子不仅味道甜美,而且营养价值高,富含各种维生素,主要产于我国广东、福建、江西、广西、湖南等南方地区[1-2]。产地品种及可溶性固形物是评价口感和价格差异的主要指标[3],因不同产地的柚子外观相似,如价格2元/斤的井冈蜜柚与40元/个的梅州金柚外观极为相似,缺乏经验的消费者无法区分价格低廉、昂贵的柚子,传统的人工分选也难以判断柚子品种及等级差异,从而影响柚子产业的发展[4-8]。

目前有不少关于近红外光谱技术对薄皮水果快速分选的研究,如苹果[9-10]、柑橘[11]、梨[12]等都曾作为典型的薄皮水果用来分类研究。柚子作为一种具有代表性的厚皮果,由于透光性差,可见/近红外光谱技术检测内部品质及种类判别还未见相关研究报道,因此攻克厚皮果透光性的技术难题,研究出一种能够快速、无损、批量检测不同产地柚子品种及可溶性固形物的通用模型具有十分重大的意义。

本研究以不同产地的厚皮果柚子(江西井冈蜜柚、江西上饶马家柚和广东梅州金柚)为研究对象,建立不同品种柚子定性判别模型,并在柚子的有效波段内通过变异系数法进行了去差异化处理和无信息变量消除,完成3种柚子的可溶性固形物在线检测通用模型的建立,为厚皮果实际加工生产提供技术支持和参考依据。

2 材料与方法

2.1 试验材料

试验所用柚子分别来自2017年10月在广东省梅州市某果园采摘的梅州金柚145个、2017年11月在江西省吉安市某果园采摘的井冈蜜柚100个和2017年12月在江西省上饶市广丰区某果园采摘的马家柚79个。样品实验前编号处理,在室内温度25℃存放一天后采集光谱,并在相同位置采集柚子的可溶性固形物真值,取平均真值和光谱后共得到325个真值与光谱,分为建模集245个,预测集80个。图1(a)、(b)、(c)分别是江西井冈蜜柚、江西上饶马家柚、广东梅州金柚,井冈蜜柚和梅州金柚外观极为相似,而上饶马家柚个体大、皮厚,且同一个柚子的果皮厚薄程度不一,最厚的果皮可达6 cm。

图1 不同产地柚子样品实物图Fig.1 Physical map of grapefruit samples from different origins

2.2 光谱采集

如图2所示,在线检测系统包含光谱仪、计算机、数模转换器、PLC、传感器、探头、果杯、柚子样品、传输链、光纤、卤素灯。光谱采集采用漫透射方式,将样品放置在传送带上,卤素灯照射的光透过柚子,传送带下方的光纤探头接收光谱信息。传送带每秒传输5个柚子,积分时间100ms,卤钨灯光照强度为100 W,光谱采集前装置预热30 min,待光源稳定后用白色聚四氟乙烯球作为参比,采集的参比球能量谱标准差小于1%开始采集光谱。由于柚子具有果柄,故将柚子果柄与传输带运动方向一致、缝合面垂直于水平面放置。传感器安装在传送带下方2 mm处,果杯上转动一次触发传感器发出高电位信号,光谱仪采集一条光谱,保存在计算机软件中。

图2 可见近红外漫透射在线检测装置Fig.2 Visible/near-infrared diffuse transmission online detection device

2.3 可溶性固形物含量的测定

柚子样品的可溶性固形物的测量采用折射式数字糖度计(PR-101a)测量,测量时,将标记处(去皮后)的2~3 mm的果肉切下,挤出适量的柚子汁测量可溶性固形物,每次测量后用纯净水标定糖度0%后继续测量下一个点。每个柚子标记4个面,取平均值作为该柚子的可溶性固形物值。

2.4 数据分析

将采集的柚子光谱数据导入MATLAB和Unscrambler软件完成建模,模型建立后导入分选软件,实现柚子的定性定量在线检测。模型的优劣由相关系数、校正均方根误差和预测均方根误差进行评价,一个合适的模型表现为较高的相关系数和较小的均方根误差。

3 结果与讨论

3.1 柚子光谱特征分析

图3为井冈蜜柚、上饶马家柚和梅州金柚3种柚子的代表性近红外光谱,从中可以看出710 nm和800 nm附近有两个明显的吸收峰。柚子内部含有各种复杂的化合物,而化合物中又由C—H、N—H、O—H等官能团组成。前者吸收峰有可能是由C—H健的伸缩震动四级倍频导致的,N—H健伸缩震动和变形震动一级倍频致使后者出现吸收峰。而310 nm处的直线可能是由于光谱采集时机器的杂散光或者噪声导致。

3种柚子皮的厚度不同,造成3种样品的吸光度在600~900 nm之间有所差异。上饶马家柚称为棉花柚,皮厚,透光性弱,故导致吸光度最低,在710 nm和800 nm处吸收峰明显低于井冈蜜柚和梅州金柚;井冈蜜柚皮薄果肉紧实,透光性较好,特别是在710 nm左右;梅州金柚在800 nm左右吸光度强于井冈蜜柚可能是由于梅州地区光照时间充足,光合作用最强,化合物中的N—H数量偏多,伸缩振动和变形振动强度高于井冈蜜柚,所以800 nm处的吸收峰最强[13]。

图3 柚子近红外漫透射原始光谱Fig.3 Near-infrared diffuse transmission spectra of grapefruit

3.2 品种判别

3.2.1 连续投影算法

由于噪声和杂散光导致光谱中含有一些无用信息,在建模之前,通过光谱预处理方法消除无关信息是非常重要的过程。连续投影法是一种有效降低模型复杂度的新型特征波长筛选算法,目的是在重叠的光谱信息中提取有效信息、降低光谱变量之间的共性,以此来简化模型、提高建模速度。连续投影法(SPA)在MATLAB2012中运行,选择的变量数在10~50之间,结果如图4所示,得到 716,827,709,737,784,769,695,663,856,812 nm共11个波长为特征波长,并组成波长组合,每次运行结果后得到的特征波长组合相同。

图4 SPA运行结果Fig.4 SPA operation results

3.2.2 PLS定性模型建立与验证

PLS-DA是在PLS基础上衍生出的一种定性分析方法,通常将分类值代替真值,对预测结果进行分类,如公式(1)所示:

其中y是分类量,根据柚子样品的种类试验中设为[1 4 7],其中1为井冈蜜柚,4为马家柚,7为梅州金柚,两两分类值中间的平均值为分类的阈值。柚子近红外全波段范围和SPA消除无信息变量后的结果结合分类值分别建立的柚子PLSDA判别模型结果如表1所示。

表1 全波段和SPA无信息消除后PLS-DA测试结果Tab.1 PLS-DA test results after full spectrum and SPA no information elimination

从表1中可以发现,SPA筛选变量后作为模型输入值时,仅有一个值被误判,误判率为1.25%,而全波段作为输入时误判率为2.5%。全波段的误判率高于SPA筛选变量后的输入值可能是因为全波段数据中含有无用信息或冗余信息变量导致分类效果不佳。

特征波长建立的偏最小二乘判别模型PLSDA均方根误差与主成分数关系如图5所示,从图中可以看出在主成分为5时预测集均方根误差RMSEP最小,误判率最低。图6是建模集与预测集柚子分类变量与预测值相关图,无信息变量筛选后定性判别模型建模相关系数Rc为0.96,预测相关系数Rp为0.96,建模均方根误差为0.44,预测均方根误差为0.48。第一类和第二类样品之间的阈值为2.5,第二和第三类样品之间的阈值为5.5,若预测值大于0小于2.5时判断为井冈蜜柚,若预测值大于2.5小于5.5判断为上饶马家柚,若预测值大于5判断为梅州金柚,预测的柚子样品中只有1个第一类样品(井冈蜜柚)被误判。

图5 主成分因子数图Fig.5 Number ofmain component factors

图6 建模集与预测集柚子分析变量与预测值相关图Fig.6 Correlation between model set and prediction set of grapefruit analysis variables and forecast values

3.3 可溶性固形物定量模型建立与验证

3.3.1 光谱差异化

差异性分析时采用主成分分析法将柚子的近红外光谱矩阵转换成主成分得分矩阵,最大主成分数为20。图7是前2个主成分的分散点图,井冈蜜柚、上饶马家柚、梅州金柚大致能够分为2类,前2个主成分累计贡献率99%。不同品种的柚子光谱存在一定的差异性,这3类柚子样品存在的聚类现象,需要进一步处理以提高定量模型的精确性。

图7 柚子差异性分析散点图Fig.7 Scatter plot of grapefruit ariation plots difference analysis

图8 柚子预处理后的平均光谱与变异系数曲图Fig.8 Mean spectral and coefficient of variation plots of vgrapefruit after pretreatment

图8 是3种柚子光谱经过求导、MSC、平滑后的平均光谱与变异系数曲线的对比图。变异系数(CV)是不同光谱变化程度的参考量,系数越小且越稳定则表明差异性越小。黑线表示变异系数曲线,红蓝绿分别表示3种柚子预处理后的平均光谱。在550~750 nm波长范围内,变异系数值波动较大,则这3种样品光谱的离散程度较大,差异化较大时影响光谱的稳定性和准确性。在变异系数小于2的范围内,750~930 nm波段范围内变异系数整体较小,波动也较为平整,不存在明显的波峰和波谷,不会影响建模时模型的稳定性和准确性,因此图中红色线框内选择的波段范围是合适的。

3.3.2 模型建立与预测

最小二乘支持向量机通过调节惩罚因子和核函数建立光谱数据和化学组分间的定量分析通用模型。所有样品光谱去差异化后建立最小二乘支持向量机定量模型,在750~930 nm波段范围共180个波长点建模,讨论最小二乘支持向量机建模Lin-kernel、RBF-kernel等函数对模型的影响。

柚子糖度定量检测模型效果如表2所示,最小二乘支持向量机采用线性核函数Lin-kernel全波段和变异系数法选波段后的相关系数分别为0.63和0.68,径向基核函数 RBF-kerne 全波段和选波段后的相关系数分别为0.62和0.65。选择变异系数变化稳定的波段750~930 nm,偏最小二乘通过变异系数法去差异化之后预测相关系数有显著的提高,预测样本数为80,预测均方根误差为0.55,相关系数为0.86。偏最小二乘结合变异系数选波段法适合不同柚子品种糖度的定量检测。

表2 柚子糖度定量模型效果比较Tab.2 Comparison of quantitative effects of grapefruit sugar quantitativemodel

图9 PLS模型的测量值和真实值散点图Fig.9 Scatter plots ofmeasured values and true values for the PLSmodel

图10 主成分因子数和均方根误差关系图Fig.10 Relationship between principal component factor and rootmean square error

图9 和图10分别为偏最小二乘模型的测量值和真实值散点图和PLS定量模型的主成分因子数和均方根误差关系图。在750~930 nm波段范围共180个波长点划分好的建模集和预测集,建立柚子的可溶性固形物偏最小二乘定量模型,相关系数为0.87。建模集均方根误差为0.49。建模过程选择的主成分因子数(PC)过低会因为覆盖掉柚子光谱中的有效信息从而导致预测精度过低,选择PC为4或5时出现“欠拟合”现象。当PC选择过高时,如9或10时又将出现过拟合现象,PC选择6或8时预测精度尚未达到最优,所以本次定量建模的最佳主成分因子数为7。

4 结 论

本文采用近红外光谱漫透射技术结合偏最小二乘和最小二乘支持向量机模型,实现井冈蜜柚、上饶马家柚、梅州金柚等不同品种柚子的定性判别和可溶性固形物的在线无损检测。其中连续投影算法筛选无信息变量后偏最小二乘判别模型误判率为1.25%,能够准确地将不同品种的柚子推入分级入口。经过求导、MSC、平滑处理后获得柚子的可见/近红外光谱,用变异系数法对光谱去差异化,比较了PLS建模与LS-SVM建模结果,最终采用相似波段建立的PLS定量模型为最佳建模方式,预测相关系数达到0.86,预测均方根误差为0.55。本研究简化了同种水果不同品种生产加工过程,减少了模型的建立和维护成本,对柚子的生产加工在线分级具有参考意义。

猜你喜欢
井冈蜜柚方根
井冈的山泉水
井冈精神 培根铸魂
我们爱把马鲛鱼叫鰆鯃
红五军井冈突围
红肉蜜柚在合川引种的表现及栽培技术
浅谈如何提高新栽蜜柚幼树成活率
均方根嵌入式容积粒子PHD 多目标跟踪方法
福建·平和蜜柚罐头出口态势良好
数学魔术——神奇的速算
福建·龙岩蜜柚产销两旺