刘亚 史勇 师旭明 孙美乐 宋鱼 仙鹤 姚国民
摘要:以饲料玉米为研究对象,采用化学计量学方法,利用全波段光谱数据建立玉米粗蛋白预测的简单快速精准预测模型。结果表明:原始光谱经去趋势算法预处理后,Rank-KS算法选择校正集和预测集,使用偏最小二乘(Partial least square,PLS)方法进行建模,校正集和预测集的相关系数分别为0.991 5和0.981 3,校正集和预测集的均方根误差分别为0.063 4和0.113 8。预测集的相对分析误差RPD为5.02,大于评估阈值3.0。所建模型精度和稳定性较为理想,可满足在线生成检测的要求。
关键词:化学计量学;饲料玉米;近红外光谱;Rank-KS算法
中图分类号:S816 文献标识码:A 文章编号:1674-1161(2022)03-0057-04
玉米是用途最为广泛的饲料作物,可为家禽和牲畜提供多种生长所需的营养成分,被称为“饲料之王”。粗蛋白含量是评价饲料玉米品质最常见和最重要的指标,传统的粗蛋白含量检测主要采用实验室湿化学方法,存在检测周期长、试剂种类多且用量大、操作繁琐等缺点。近红外光谱分析技术具有无损、快速、样品前处理简单、多组分同时在线检测等优点,目前已被大中型饲料企业用于饲料玉米原材料验收和成品出厂检验。近年来,近红外光谱技术结合化学计量学方法所建立的光谱与待测组分属性值关系模型技术不断发展,简单快速的分析预测模型可以显著降低近红外光谱分析仪器的造价,成为推广近红外光谱技术应用的一个重要方向。以饲料玉米为研究对象,结合化学计量学方法,利用全波段光谱数据建立玉米粗蛋白预测模型,以期为近红外光谱技术在饲料品质的在线快速检测提供依据。
1 实验数据
实验数据选用EVRI网站(http://eigenvector.com/data/Corn/index.html)公开的玉米近红外光谱数据集。该数据集包含80个玉米籽粒样本的近红外光谱信息,以及相应的水分、脂肪、粗蛋白和淡粉含量的营养指标数据。本研究使用的玉米光谱数据和粗蛋白含量数据,光谱仪波长范围均为1 100~2 498 nm,波长间隔为2 nm,共有700个波长点。玉米粗蛋白含量变幅7.65%~9.71%,平均值8.67%,标准差0.50,变异系数5.75%。
2 化学计量学方法
2.1 光谱数据预处理
为剔除光谱曲线中的噪声,突出原始光谱中的有效信息,本研究分别采用归一化变换、变量标准化变换(Standard normal variable,SNV)、多元散射校正(Multiplicative scattering correction,MSC)、导数处理、去趋势算法对玉米原始近红外光谱进行预处理,并比较预处理的效果,筛选出最佳的预处理方法。
2.2 样本集选择
Rank-KS算法是一种对校正集和预测集样品的空间分布优选的新方法,分为两个过程。一是“Rank”过程,即利用浓度梯度排序法的思想,将理化参量按数值大小顺序排列,然后将整个数据区间平均分为p份;二是“KS”过程,即在每个小数据区间分别使用KS方法,校正集选自光谱空间中差异性显著的样本,dx可以为欧氏距离,也可以为马氏距离。计算时,需要首先预定选出的校正集样本个数为m,然后每个小数据区间需要选出的样本个数为m/p,其中,p是均分区间个数。假如有一个小数据区间中样本个数小于m/p,则将此小数据区间内样本全部选为校正集。若最终选出的实际样本个数m_real小于m,则用余留下的样本再经KS法挑选出m-m_real个样本進行补充。预测集选择时,将理化参量按数值大小顺序排列,随后把整个性质区间均分为n个小区间,逐个在性质小区间内随机抽取出一个样本填入验证集,即可得到由n个样本组成的验证集。该方法综合考虑光谱空间和理化参量空间对样本进行选择,可以明显改善样本集随理化参量变化的分布均匀性。
2.3 偏最小二乘模型
偏最小二乘(Partial least square,PLS)方法集中了多元线性回归、典型相关性分析和主成分回归分析三种分析方法的优点,能够最大程度地利用光谱信息,提取出表征光谱数据变异的最大信息,对模型自变量具有良好的解释性以及良好的预测功能。因此,本研究中使用PLS方法构建原始光谱及预处理后的光谱与玉米粗蛋白含量的预测模型,并用独立的样本进行验证。模型评价指标有校正集相关系数(Rc)、校正集均方根误差(RMSEC)、预测集相关系数(Rp)和预测集均方根误差(RMSEP)、预测集标准偏差与标准误差的比值RPD。
3 结果与分析
3.1 光谱预处理分析
近红外光谱法存在吸收峰强度较弱、多组分信号重叠、背景干扰严重等问题,如何从复杂的光谱中提取待测组分的定量信息,消除背景和噪声等无关信息的干扰,一直是研究的重要内容。玉米光谱数据在采集过中,可能受到玉米籽粒形状的不规则性和光谱仪器本身温湿度响应特性的影响,导致玉米光谱数据除含有玉米自身的化学信息外,还含有其他无关信息和噪声,如电子噪声、样品背景杂散光、基线漂移等。为消除这些因素对玉米本身光谱的影响,需要对原始光谱进行预处理,预处理效果如图1所示。
由图1可以看出,归一化预处理、SNV预处理和MSC预处理均改变了光谱曲线的变幅范围,数据波动性变小;导数处理后的光谱吸收峰的个数明显增多,尤其是二阶导数预处理,同时光谱曲线的平滑连续性有所下降;去趋势算法预处理的光谱曲线更加平滑,吸收峰的位置更加明显,吸收峰的宽度明显增加,较好地克服了近红外光谱原始信息存在的缺陷。
3.2 偏最小二乘模型建立
对经过预处理后的光谱采用Rank-KS算法选择校正集样本60个、独立验证集样本20个,采用偏最小二乘法建立玉米粗蛋白的定量模型,结果如表1所示。
從表1可以看出,原始光谱所建立的PLS模型校正集和预测集相关系数分别为0.979 8和0.964 9,均方根误差分别为0.103 8%和0.116 9%。与原始光谱相比,经去趋势算法预处理后的光谱所建立的PLS模型效果最佳,这说明Rank-KS算法通过光谱空间和理化性质空间上样本的空间距离来选择校正集样本,并考虑校正集在理化性质空间分布的均匀性,选出的校正集和验证集可以明显改善样本数随理化性质分布的均匀性。预测模型的校正集和预测集相关系数均明显提高,校正集和预测集相关系数分别为0.991 5和0.981 3,均方根误差分别为0.063 4%和0.113 8%,预测集的RPD为5.023 1,大于评价阈值3.0。所建模型的预测值与实测值得的相关性见图2(a)和(b)。
4 结论
本研究以饲料玉米为研究对象,结合化学计量学方法,利用全波段光谱数据建立玉米粗蛋白预测的简单快速精准预测模型,结果表明:先对原始光谱进行去趋势算法预处理,再选用Rank-KS算法选择校正集和预测集,使用全光谱数据进行PLS建模,校正集相关系数和均方根误差分别为0.991 5和0.063 4,预测集相关系数和均方根误差RMSEC分别为0.981 3和0.113 8,预测集的相对分析误差RPD为5.02,大于评估阈值3.0,比陈素彬利用此数据所建立粗蛋白最佳预测模型的RPD值4.22还大,这说明该模型的精度和稳定性较为理想,可以满足在线生成快速检测的要求。
参考文献
[1] 陈素彬.饲用玉米质量检测的近红外光谱法与经典方法比较[J].黑龙江畜牧兽医,2021(7):114-118.
[2] 刘伟,赵众,袁洪福,等.光谱多元分析校正集和验证集样本分布优化研究[J].光谱学与光谱分析,2014,34(4):947-951.
[3] 李江波,郭志明,赵春江,等.应用CARS和SPA算法对草莓SSC含量NIR光谱预测模型中变量及样本筛选[J].光谱学与光谱分析,2014,34(4):947-951.
Chemometrics Method for Quality Analysis of Feed Corn
LIU Ya1,SHI Yong2*,SHI Xuming1,SUN Meile1,SONG Yu1,XIAN He1,YAO Guomin1
(1. Comprehensive Testing Ground,Xinjiang Academy of Agricultural Science, Urumqi Xinjiang 830013, China; 2. College of Electrical and Mechanical Engineering, Xinjiang Agricultural University, Urumqi Xinjiang 830052, China)
Abstract: Feed corn taken as the research object, stoichiometry was used to establish a simple and fast and accurate prediction model for maize crude protein prediction using whole-band spectral data. The results show that: After the original spectrum was preprocessed by detrending algorithm, the Rank-KS algorithm selected the correction set and prediction set, and used Partial least square (PLS) method for modeling. The correlation coefficients of the correction set and prediction set were 0.991 5 and 0.981 3, respectively. The root mean square errors of the correction set and the prediction set are 0.063 4 and 0.113 8, respectively. The relative analysis error (RPD) of the prediction set was 5.02, which was larger than the evaluation threshold of 3.0. The precision and stability of the model are satisfactory and can meet the requirements of on-line generation and detection.
Key words: chemometrics; feed corn; NIR; Rank-KS algorithm