影响花生秧近红外光谱预测准确性因素的分析

2022-06-28 01:17李改英王春秀蔡阿敏廉红霞张立阳高腾云
江西农业学报 2022年4期
关键词:导数准确性计量

李改英,王春秀,蔡阿敏,廉红霞,张立阳,傅 彤,高腾云

(河南农业大学 动物科技学院,河南 郑州 450046)

花生是我国种植面积最大的油料作物之一,花生秧是花生收获后的副产品,其产量高,营养丰富,约占花生生物总量的50%,在我国平均年产量约2700万t[1]。花生在河南省已经成为继小麦、玉米之后的第三大农作物,2018年花生秧产量约600万t[2]。花生秧的粗蛋白含量仅低于紫花苜蓿[1],是牛、羊等反刍动物的优质粗饲料资源。常规营养成分的含量是评价饲料营养价值的主要依据,目前对样品营养成分含量的测定分析主要采用传统的方法,但耗时费力,检测误差大,检测费用较高,对样品具有破坏性,不能够实时快速进行检测[3]。近红外光谱(NIRS)技术利用有机物中含氢化学键(X-H)振动,以漫反射方式在近红外区域获得相应的吸收光谱,通过多元线性回归分析、主成分分析、最小偏二乘法等现代化学计量方法建立反映物质光谱和待测成分含量之间关系的数学模型,实现对待测成分含量的快速计算。但是,近红外技术在实际推广应用中还存在一些缺点,如灵敏度低、模型精度要求高等[4];此外仪器类型、样品的形态、试验因素、光谱处理和分析方法等均会影响模型的精度,从而影响预测结果的准确性[5]。本研究采用湿化学方法和近红外扫描技术检测了花生秧样品的营养成分含量,并从样品数量、粉碎粒度、测定指标、计量方法及模型选择等方面分析了影响花生秧近红外光谱模型预测准确性的各种因素,旨在为后期建立和完善预测模型提供借鉴和参考。

1 材料与方法

1.1 试验样品

按照五点采样法采集不同地区不同品种的花生秧样品92份,去除花生秧上的杂质,并在65 ℃的烘箱中烘干48 h,然后将风干的样品粉碎,制作成待测样品。

1.2 测定方法

采用NIRS技术和湿化学方法分别对采集的花生秧样品的主要营养成分含量进行测定,之后对其测定结果进行相应的分析。

1.3 NIRS扫描及模型的建立

采用美国Unity公司生产的Spectrastar 1400Xl-3型光谱分析仪,对花生秧样品进行光谱扫描和信息采集。将通过湿化学方法测定的花生秧的营养成分含量数据以及通过近红外光谱仪收集的样品的光谱信息数据分别导入到建模软件中,对光谱图中的异常数据进行筛选和剔除,采用不同的预处理方法建立校正模型,应用最优预测模型对花生秧样品的营养成分含量进行预测。

2 结果与分析

2.1 用湿化学方法测定花生秧样品主要营养成分的含量

用湿化学方法测定的花生秧样品中各营养成分的含量如表1所示,92个花生秧试验样品中的粗蛋白质、干物质、中性洗涤纤维、酸性洗涤纤维、粗脂肪、粗灰分、钙、磷含量的变动范围分别为5.11%~16.96%、88.58%~94.56%、39.23%~65.21%、28.99%~51.51%、0.215%~5.760%、2.535~21.660%、0.767%~2.179%、0.025%~0.174%。各营养成分含量波动大,覆盖范围广,样品数量多,因此具备代表性。

表1 用湿化学方法测定的花生秧样品主要营养成分的含量 %

2.2 用NIRS技术扫描得到的预测值的离散度分析

标准差的大小受每个预测值的影响,当预测值的变异越大时,其标准差也越大。花生秧样品各营养成分含量预测值的最小值、最大值、平均值、标准差以及变异系数见表2。变异系数表示测定结果的离散程度,也反映了NIRS技术扫描得到的预测值的变异程度。在各营养成分中,干物质和中性洗涤纤维含量预测值的变异系数较低,表明以均数为准的预测值的分散程度小;而粗脂肪、钙、磷含量预测值的变异系数较大。

表2 用NIRS技术得到的花生秧样品营养成分含量的预测值 %

2.3 样品数量和测定指标对近红外预测结果的影响

表3为花生秧不同样本数量和不同测定指标的预测值与实测值之间的交叉验证相关系数(RSQV)。由表3可知:随着样本数量的增加,不同测定指标的预测值与实测值间的RSQV值均增大,其中以粗蛋白质、 干物质、粗灰分、钙最为明显;在不同的测定指标中,粗蛋白质、干物质、中性洗涤纤维、酸性洗涤纤维的RSQV值较高,预测效果较好。可见,样本数量影响NIRS技术预测的准确性,样本数量越多,NIRS技术预测的准确性越高。同时在预测花生秧样品的粗蛋白质、干物质、中性洗涤纤维、酸性洗涤纤维含量时准确性更高,更稳定,而对钙、磷含量的预测效果不理想。

表3 花生秧不同样本数量和测定指标的预测值与实测值之间的RSQV值

2.4 粒度对近红外预测结果的影响

由表4可以看出:6目样品集各指标(除粗蛋白质和中性洗涤纤维外)的RSQ和RSQV值均小于0.7,而SEC和SECV值总体均较大;18目样品集各指标的RSQ和RSQV值总体上大于6目样品集,而且SEC和SECV值总体上小于6目样品集,说明18目样品集的预测精度高于6目样品集;40目样品集各指标的RSQ和RSQV值总体上大于18目样品集,而且SEC和SECV值总体上小于18目样品集,说明40目样品集的预测精度得到了进一步提高。因此,在建立花生秧样品的近红外快速检测模型时,宜将样品粉碎至40目。

表4 不同粉碎粒度对花生秧各营养成分含量预测效果的影响

2.5 参数设置和计量方法对定标结果的影响

2.5.1 不同离群值对粗蛋白定标结果的影响 离群值也称为逸出值,是指在样本数据中与其他数据相比差异比较大、应当舍弃的一个或几个数值。离群值的选择会影响模型预测的准确性。表5为选择不同离群值对粗蛋白定标结果的影响,由表5可知,随着离群值的下降以及离群值数量的减少,群体数据增多,定标相关系数也逐渐增大,交叉验证相关系数和定标误差先增大后变小;当离群值达到5.0时交叉验证误差达到一个较低值;当离群值进一步增大而离群数量不变时,模型误差增大。经综合评判,建立预测模型时样本的离群值不宜大于5.0。

表5 离群值对粗蛋白定标结果的影响

2.5.2 不同计量方法对粗蛋白模型定标结果的影响 将离群值设置为2.5~5.0,分析了不同计量方法对粗蛋白定标结果的影响,结果如表6所示,采用标准正态(SNV)+一阶导数(1st Derivative)计量方法的相关系数高,误差小;采用SNV/Detrend相结合的计量方法时定标系数略有降低,但是误差也随之减少;相比于一阶导数的计量方法,二阶导数(2nd Derivative)处理模型的定标系数有所提高,误差明显减少。经初步判断,在试验设定的样本数量条件下,粗蛋白定标模型采用SNV/Detrend+二阶导数计量方法的效果较好。

表6 不同计量方法对粗蛋白定标结果的影响

2.5.3 模型选择对花生秧各营养成分定标结果的影响 计量方法的选择会影响花生秧各营养成分含量的预测效果,不同的测定指标需要选择不同的处理方法。通过对数据库的优化处理和模型的反复修正选择,花生秧各测定指标模型的最佳计量方法和结果见表7。各指标的计量方法均选择标准正态变换处理(SNV),其中粗灰分采用一阶导数处理,钙和磷分别采用一阶导数去散射处理和二阶导数处理后,定标结果得到了优化,但定标系数较低;酸性洗涤纤维、粗脂肪均采用二阶导数去散射处理,定标效果最佳;粗蛋白质、干物质、中性洗涤纤维分别采用二阶导数去散射、一阶导数、一阶导数去散射处理后,定标结果最佳,相关系数均在0.90以上,能够达到准确预测的效果。

表7 不同化学计量方法对花生秧各营养成分定标结果的影响

3 讨论

近红外扫描受外部环境、仪器稳定性以及测定样品本身等多重因素的影响。在操作中应保持样品的一致性以及仪器的清洁,保证每次填装都不受杂质的干扰;在建立近红外预测模型之前,要对光谱图进行预处理,以去除干扰信息,使建立的近红外预测模型更加稳定[6]。此外,样品本身的差异对预测效果也有影响,样品集的代表性,花生秧的刈割时间、品种、来源地、部位和种植水平等,都会导致其营养成分含量的差异[7]。

3.1 样品数量和测定指标对近红外预测结果的影响

在建立定标模型的过程中,样品集的数量和参比值含量范围对模型预测的精确度起着关键作用[8]。样品数量越多,其各个营养成分含量的分布范围越大,NIRS技术预测的准确性越高。本试验采集不同地区不同品种的花生秧,经过湿化学分析和初步预测分析,证明所采集的样品具有代表性。本试验发现:随着花生秧样品数量的增多,模型预测的准确性提高,其中60个样品集的RSQV值大于30个样品集的RSQV值;粗蛋白质、干物质、中性洗涤纤维、酸性洗涤纤维这4个指标的RSQV值较高,预测效果较好;而钙、磷、粗脂肪含量低,预测效果不理想,这可能与物质的结构和含量有关,因为NIRS技术对含有R-H和X-H键的无机物和高含量成分的吸收较好,准确性高。田旷达等[9]采用近红外光谱法结合最小二乘支持向量机测定了烟叶中钙、镁的含量,校正集的决定系数分别为0.9755和0.9961,证明该方法是可行的。一般来说近红外预测的极限含量是0.1%[10]。在本试验中,花生秧磷的平均含量只有0.06%,钙和粗脂肪的含量也比较低,并且钙、磷不含R-H键,这些是预测不准确的主要原因。

3.2 粒度对近红外预测结果的影响

样品粒度会影响光对样品的穿透性和反射性,当粒度大时漫反射吸光度增加,造成光谱的重现性变差,影响准确性。杨丹等[11]的研究结果表明,茶样的粒度越小,均匀性越强,稳定性和准确性越好。吴文辉等[12]研究了样品粒度对附子近红外(NIR)定量模型准确性的影响,发现粒度越大,误差越大;而中粉和极细粉的测定值较为稳定。朱贞映[13]利用近红外技术研究了整粒和粉碎颗粒(10、20、40、60和80目)对大豆建模的影响,结果表明:准确测定水分含量需要样品粉碎过筛40目;准确测定粗脂肪和蛋白质含量需要粉碎过筛60目。本研究结果表明:随着花生秧样品粉碎目数的增加,各测定指标模型的相关系数逐渐增大,因此最佳粉碎粒度为40目。

3.3 参数设置和计量方法对定标结果的影响

选择合适的计量方法和光谱预处理,能有效地降低噪声,减少干扰,简化运算,提高预测的准确性[14]。偏最小二乘法具有抗干扰能力强、易于回归建模和识别系统的信息与噪声等优点,是近红外建模常用的方法[15]。该方法在吸光度与化学组分含量呈线性关系的条件下所得结果十分准确。但受光的散射和化学键缔结等因素的影响,化学组分含量与红外光谱还会呈现复杂的非线性关系。对于固体粉末样品,多元散射校正和标准正态变换是有效的散射校正方法;此外,常用的方法还有平滑、求导、去趋势和标准化等[16]。导数处理可以提高光谱的分辨率,减少基线漂移[17]。李朋成等[14]用偏最小二乘法建立了126个玉米样本蛋白质、脂肪和纤维素的模型,结果显示,模型的决定系数均大于0.95,定标集的均方误差均小于0.14。阴佳鸿等[18]测试了不同含水量的燕麦种子,发现采用多元散射校正预处理方法所建立的近红外定量模型效果最佳,对预测集和校正集样本的鉴别率可以达到100%。本研究结果表明:花生秧粗蛋白模型的最佳离群值不宜大于5;粗蛋白定标模型的最佳计量方法是SNV/Detrend+二阶导数预处理;通过SNV处理后,干物质用一阶导数处理后预测的效果最佳,中性洗涤纤维通过去趋势校正和一阶导数处理后预测的效果较佳,粗蛋白质通过去趋势校正和二阶导数处理后预测的效果最佳,而钙、磷、粗灰分的含量无法准确预测。可见,不同的测定指标需要采用不同的化学计量方法,合理的化学计量方法对提高NIRS预测花生秧各营养成分含量的准确性有重要作用。

4 结论

样本数量、粉碎粒度和营养成分含量均会影响花生秧营养成分含量预测结果的准确性,样本越大,含量越高时预测准确性越高;粗蛋白质、干物质、中性洗涤纤维、酸性洗涤纤维的含量高,因此预测的准确性更高、更稳定,而粗脂肪、钙、磷的含量太低,不能准确预测;花生秧的最佳粒度为40目。参数设置和计量方法的选择会影响预测的准确性,不同的预测指标需要采用不同的化学计量方法。

猜你喜欢
导数准确性计量
CT及超声在剖宫产瘢痕部位妊娠中的诊治价值及准确性
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
高速公路合同计量变更管理策略
产前超声检查和磁共振成像对胎盘植入诊断的准确性评估
基于信息系统的计量标准管理
对公司计量管理工作的一些思考
关于导数解法
导数在函数中的应用
导数在圆锥曲线中的应用
函数与导数