毛欣然, 夏静静, 徐惟馨, 韦 芸, 陈玥瑶, 陈月飞, 闵顺耕, 熊艳梅
中国农业大学理学院, 北京 100193
我国是梨子属植物的重要起源地之一, 在全球25个梨子属品种中, 我国有14种。 梨是我国三大水果之一, 是生活中常见的水果。 梨果脆甜多汁, 但仅感官很难分辨出它的品质, 可溶性固形物(soluble solids content, SSC)、 酸度(pH)、 硬度(hardness, HR)是评价其内在品质的重要理化指标, 通常采用湿化学方法进行测定, 存在步骤繁琐、 耗时长、 损耗样品等缺点, 无法满足水果收购、 流通、 质量监管中大批量样品品质现场检测要求。 因此, 找到一种快速、 无损检测水果品质方法对提高梨果的分选效率、 落实优质优价、 提高消费者的满意度具有重要的意义。
近红外光谱(near-infrared spectroscopy, NIR) 技术是一种简便快速、 无损检测技术, 已广泛应用于食品与农产品品质分析, 在梨、 苹果、 脐橙品质指标(SSC、 PH、 VC等)检测中有许多文献报道。 章海亮等[1]采用近红外漫反射法无损检测3个品种梨果糖度、 pH值; 李东华等[2]采用近红外技术对鞍山、 海城两产区南果梨果实硬度建立了PLS模型, 模型校正集相关系数为0.970, 校正均方根误差为0.124; Alex Goke等[3]采用近红外光谱结合PLS法预测Bartlett梨果糖含量; 罗亚琼等[4]设计了梨糖度无损检测红外光谱系统, 实现了对梨糖度快速检测。 Lee[5]等采用近红外漫反射光谱对韩国梨含糖量进行了无损分析。 Yuan等[6]利用Vis-NIR技术结合偏差融合建模方法对“云和”梨糖度进行无损分析; Xia[7]等利用Vis/NIR在线半透射技术建立梨(Pyrusbretschneideri“Ya”) SSC含量的多因素融合模型。 Li等[8]采用可见-近红外仪器(波长范围350~1 800 nm)建立3种梨子SSC(9.5%~13%)、 pH(4.5~5.25)、 HR(3.5~13.5)指标的LS-SVM模型, 模型RMSEP分别为0.25%、 0.058、 0.62; 韩东海[9]等采用近红外法检测苹果的SSC, 找到了消除果实大小影响的方法。 上述研究对梨的品质检测研究主要是对单一品种的梨建立模型, 由于不同品种梨的大小、 SSC、 pH、 HR、 色泽等均有较大差异, 对光谱有很大的影响, 适用不同品种梨品质检测的通用模型研发存在一定的困难。
采用手持式数字阵列微镜(DMD)近红外光谱仪, 建立了外形大小差异显著的5个品种梨可溶性固形物(SSC)、 酸度、 硬度三个品质指标的近红外光谱定量模型, 比较偏最小二乘法PLS和最小二乘支持向量机回归LS-SVM模型性能优劣, 消除梨的大小对建模结果的影响, 建立了梨三种品质指标通用模型, 为实现现场快速测定梨品质提供了新的途径。
表1 五个品种梨的理化数据统计结果
数字阵列微镜手持近红外光谱仪(IAS3125, 迅杰光远仪器有限公司, 中国), 配套光谱数据处理软件IAS Tool-Box;
WYA-2WA阿贝折射仪(上海申光公司); testo pH计(德国德图); GY-4硬度计(浙江温州艾德堡)。
蒸馏水、 无水乙醇(分析纯, 国药集团化学试剂有限公司)。
偏最小二乘法PLS算法软件为Unscrambler 9 .5和LS-SVM算法软件为matlabR2021a自编程序。
手持式近红外仪的光谱采集范围900~1 700 cm-1, 光学分辨率为12~15 nm, 采样点间隔1 nm, 扫描次数32次; 用仪器对梨赤道线120°等间隔采集3个区域光谱, 为避免小梨或者形状不规则的梨漏光干扰, 采集光谱时用黑色橡胶圈套住光源, 并尽可能避免病斑、 伤疤等表面缺陷部位, 以三个区域光谱的平均光谱代表该梨样品光谱。
梨的SSC、 pH、 HR测定: 用针在每个梨上划出3个区域, 测量该区域光谱后, 再用硬度计测量该区域的HR。 因为不同梨的大小不同, 而梨不同的深度硬度也不同, 所以每一个品种, 选择一个固定的深度测定HR, 依据标准NY/T 2009—2011《水果硬度的测定》测量; 然后将3个区域的梨肉挖出, 分别榨汁; 用pH计依据标准GB/T10468—1989《水果和蔬菜产品pH值的测定方法》测量3个区域的pH; 依据标准NY/T2637—2014《水果和蔬菜可溶性固形物含量的测定》测量3个区域样品的SSC指标。
所有样品化学值理化数据统计结果如表2所示。
在医院。我醒来时,儿子说,我已睡了很久。他说他一直在旁边看着输液管里的液体,怕它停止嘀嗒。我的眼泪一下子流了出来。
表2 五个品种的梨的三个点的化学值统计
所有光谱均采用一阶导数进行预处理, 按样品号顺序, 采用4∶1比例进行分集[10], 确定校正集样品143个与验证集47个, 分别采用偏最小二乘法PLS与最小二乘支持向量机法LS-SVM建模, 模型评价指标为决定系数(R2)、 校正集均方根误差(RMSEC)和预测集均方根误差(RMSEP);R2值越大、 RMSEP越小, 则表明模型预测能力越强。
1.5.1 最小二乘支持向量机LS-SVM模型
考虑到光谱采集时, 梨的尺寸大小及曲面影响光谱采集的重现性, 导致了模型误差, 为了拟合并扣除这些因素对模型的影响, 还采用了非线性算法LS-SVM方法建立梨平均光谱与品质指标测定的数学模型。
LS-SVM最小二乘支持向量机是一种新型支持向量机方法, 它能够处理线性和非线性多元分析, 采用最小二乘线性系统作为损失函数, 代替传统的支持向量机采用的二次规划方法, 基于结构风险最小化原则, LS-SVM优化以下问题
(1)
式(1)中,λ是正则化参数, 起到权衡拟合精度与模型复杂度的作用。 回归模型可描述为
(2)
式(2)中,xi为输入向量,αk为拉格朗日乘子, 称为支持值,b为偏置核函数。K(x,xi)定义了从原始变量所在的低维度空间向高维度空间做非线性映射的方式。 目前支持向量机研究中对于核函数的选择并无固定的方法, 但从核函数紧致性和计算复杂度来评价, 径向基核函数RBF更具优势, 有
K(x,xk)=exp(-‖x-xk‖2/σ2)
(3)
式(3)中,σ2是RBF核函数宽度。
正则化参数λ优化、 核函数K(x,xi)选择和核函数参数优化是LS-SVM的三个关键问题。 选用RBF核函数, 用单纯型搜索、 十折交叉验证优化参数λ和σ2, 这两个参数决定了LS-SVM的学习能力、 预测能力和泛化能力。
2.1.1 梨子光谱特征
梨样品的光谱如图1所示, 波长范围为900~1 628 nm, 960 nm为O—H的三倍频吸收, 1 190和1 450 nm分别为C—H的二倍频弯曲振动吸收和O—H的一倍频弯曲振动吸收。 从图1可以看出, 不同的梨吸光度差异较大, 但特征峰一致。 雪梨在波长为900 nm处吸光度为0.03~0.2左右, 在波长1 450 nm处吸光度在0.6~0.85, 结果见图1(b); 蜜梨在波长为900 nm处吸光度为0.1~0.35, 在波长1 450 nm处吸光度在0.75~1, 结果见图1(c)。 所以, 小梨吸光度较大, 而大梨吸光度较小。 采用一阶导数消除样品大小差异对光谱的影响。 以平均光谱的基线点(波长1 100 nm)和一阶导数峰位置(波长1 400 nm)进行光谱测定重复性分析, 1 100 nm处所有样品光谱的平均值为0.219, 标准偏差为0.074 5, 平均值除以标准偏差为6.37; 所有样品一阶导数光谱平均值为0.000 568, 标准偏差0.000 089 2, 平均值除以标准偏差得到信噪比为9.25。 1 400 nm处所有样品光谱的平均值为0.679, 标准偏差0.087 6, 平均值除以标准偏差为7.76; 所有样品一阶导数光谱平均值为0.007 89, 标准偏差为0.000 753, 平均值除以标准偏差为10.48; 可以看出, 经过一阶导处理后, 平均光谱值与光谱变化标准差比值明显增高, 说明经过一阶导数处理后光谱基线波动性减小, 即梨子大小对光谱影响明显减少。
图1 梨的光谱
2.1.2 异常值判断
为了保证建模成功, 异常样品处理是必要的步骤。 采用主成分分析得分图进行异常值分析如图2所示, 从得分图中判定红香酥-15, 蜜梨-33为异常样本; Hotelling’s T2统计量与杠杆率呈线性关系, 其临界极限基于F检验, 红线为临界值, 超过红线样本为异常样本, Hotelling’s T2检验图见图7, 判断红香酥-2、 红香酥-15、 红香酥-27、 红香酥-33、 蜜梨-10、蜜梨-33、 雪梨-42、 红肖梨-44为异常样本, 建模前对所有异常样本进行剔除。
采用偏最小二乘法建立可溶性固形物(SSC)、 酸度(pH)和硬度(HR)的近红外模型, 平均光谱与一阶导数光谱得到模型结果如表3所示, 三个化学值的一阶导PLS的建模结果如图3所示。
图3 三个化学值的一阶导PLS的建模结果
表3 PLS模型结果
一阶导数预处理后, 三个指标定量模型性能有了显著提高。 SSC、 pH、 HR预测值与化学值相关关系见图3。 SSC值、 pH、 HR值模型预测集标准差RMSEP依次分别为0.66%、 0.24、 0.23; 一阶导数处理后, 预测集SSC值、 pH、 HR值模型标准差RMSEP依次降低了20%、 41%、 74%。
与偏最小二乘算法相同分集方法, 建立可溶性固形物(SSC)、 酸度(pH)和硬度(HR)的偏最小二乘支持向量机回归LS-SVM模型, 平均光谱与一阶导数光谱建模结果见表4。 一阶导数光谱LS-SVM模型如图4、 图5和图6所示。
图4 一阶导数光谱LS-SVM模型糖度预测值
图5 梨酸度的一阶导数LSSVM模型预测值
图6 梨硬度的一阶导数LSSVM模型
表4 LS-SVM模型结果
从模型结果看, 一阶导数预处理后, 三个指标定量模型性能有了显著提高。 SSC、 pH、 HR值模型预测集标准差RMSEP依次分别为0.32%、 0.11%、 0.36%; 一阶导数处理后, 预测集SSC值、 pH、 HR值模型标准差RMSEP依次降低了37%、 56%、 48%。
模型适用于5个品种梨子SSC、 酸度和硬度指标的快速预测, 三项品质指标范围分别是: SSC为8.2%~14%, 酸度(pH值)为2.4~5.4, 硬度为1.4~7.8 bPa。 对比PLS模型与LS-SVM模型结果, SSC、 酸度、 硬度预测模型决定系数R2分别从0.739 5、 0.933 5、 0.886 6提高到0.976 3、 0.999 9、 0.996 0; 糖度、 酸度、 硬度模型预测集RMSEP从0.59、 0.19、 0.52降低到0.32、 0.11、 0.36; 三个模型的决定系数R2值有明显的提高, 同时RMSEP值也有一定程度的下降, 非线性LS-SVM模型性能比线性PLS模型有了大幅度的提高。 分析具体可能有下列原因:
(1)梨子大小影响: 本研究采用5个品种梨子, 果形最大的雪梨重量362.84 g, 果形最小的蜜梨重量在90 g; 最大的雪梨平均赤道周长27.64 cm, 最小的蜜梨平均赤道周长18.35 cm。 果形差异导致赤道位置曲率差异明显, 采集光谱有明显不同, 图7(a)、 (b)为雪梨和蜜梨的光谱。 为了解决果形大小对光谱的影响, 文献[9]采用等吸收点校正方法和导数法扣除果形大小影响。 本工作采用导数法扣除, 扣除结果见图7(c)、 (d), 从图中可以看出, 一阶导数光谱处理后光谱一致性明显改善, 但未完全扣除。 因此, 尽管5个品种梨子的样品个体大小差异很大, 采用非线性算法将部分拟合扣除了因果形大小带来的误差, 提高了模型预测能力。
图7 雪梨与蜜梨的光谱
(2)仪器光斑入射角度影响: 尽管测量时采用黑色密封垫避免外界光的影响, 但由于手持仪器采集光谱时对准样品的角度差异, 加上非平面果形漫反射影响, 使得每次测得光谱存在一定的差异, 采用多次采集光谱进行平均是降低这个因素影响的方法之一, 因此, 采用在赤道测定三个位置光谱进行光谱平均的方法, 部分解决了测定重复性的问题, 一定程度上也解决了梨子不同部位曲率不同、 品质不均匀性的影响。 另外, 非线性模型也拟合了这些因素的影响, 提高了模型的预测效果。
(3)不同品种梨的酸度与硬度差异较大, 酸梨的酸度在3以下, 蜜梨在4左右, 雪梨在5左右; 酸梨的硬度范围在5~7左右, 蜜梨的硬度在3~4, 雪梨的硬度在1~3左右。 而不同品种的梨的糖度差异较小, 除了酸梨的糖度最高在13左右; 这就要求建立的模型需要有比较宽预测范围, 非线性算法在解决宽范围模型具有一定的优势。
从上述讨论中可以得出, 采用非线性LS-SVM算法保证了本模型适用于大小不同的更多的品种、 更宽的品质指标范围的样品预测, 模型的准确度和稳定性有了显著提高。
采用数字阵列微镜型便携式近红外光谱仪对5个品种梨的可溶性固形物(SSC)、 酸度(pH)、 硬度进行了PLS、 LSSVM建模, 采用三点平均光谱代表样品光谱和一阶导预处理, 解决了样品不均匀性、 不同梨大小不同等因素的影响, 结果表明: LSSVM建模效果明显优于PLS, LSSVM模型糖度(SSC)、 酸度(pH)和硬度(HR)的校正集决定系数依次为0.976 3、 0.999 9、 0.996 0, 预测集决定系数依次为0.923 4、 0.977 7、 0.939 4, 预测集RMSEP依次为0.316 9、 0.108 9、 0.361 3; 模型RPD依次为6.10、 222.38、 16.95。
综上, 手持式近红外仪器可以实现无损检测梨的糖度、 酸度、 硬度, 检测的结果可以实现测量不同大小品种的梨, 建立梨的通用模型。 满足果园管理、 果品销售及市场监管需要, 为实现不同品种大小梨的品质指标的无损现场快速检测提供了新的途径。