王超,王春圻,徐黎莉,刘金明
(黑龙江八一农垦大学,大庆 163319)
玉米是我国主要的大田作物之一,其年产量占我国谷物总产量的25%以上,具有分布范围广、营养价值高、市场需求量大等特点,已经发展成为我国重要的粮食、饲料和工业原料作物[1]。玉米的蛋白质、脂肪、糖类和水分是玉米厂商在收购玉米时十分重视的检测指标,它直接决定着玉米质量的好坏。其中,玉米的水分含量决定着玉米的储存时间,在玉米的购回和储存过程中急需快速有效的检测方法。但采用传统烘箱恒重法检测玉米水分存在测试速度慢、损坏样品等问题。
近红外光谱(near-infrared reflectance spectroscopy,NIRS)能够基于被测物质所含C-H、N-H、O-H 基团的振动信息来进行样品成分检测,具有操作便捷、采样速度快、样品无损等优点,已成为农产品检测的重要手段之一[2-3]。但光谱数据采集时易受到随机噪声、基线漂移、光谱变异等因素的干扰,从而导致最终建立的回归模型预测精度下降[4]。因此,建模前需要对光谱数据进行预处理,以提高光谱数据的分辨率和信噪比。同时,光谱数据中还包含大量与待测目标间无关波长变量,这些无关波长变量不仅影响校正模型的建模速度,还影响了模型精度[5]。因此有必要采用特征波长优选方法对高相关性波长变量进行优选,以获取有效建模波长变量[6]。
因此,文章探讨了NIRS 结合化学计量学方法快速检测玉米水分的可行性,基于偏最小二乘(partial least squares,PLS)的交叉验证均方根误差(root mean squared error of cross-validation,RMSECV)对光谱数据预处理方法进行了优选,采用联合区间偏最小二乘法(synergy interval PLS,SiPLS)和后向区间偏最小二乘法(backward interval PLS,BiPLS)优选玉米水分对应的特征谱区,以确定了最佳光谱预处理方法和特征波长选择方法,为玉米水分含量的在线检测设备的开发与应用提供了理论依据。
研究采用的玉米样品光谱数据来自于艾根维克托档案馆,网址为https://eigenvector.com/resources/data-sets/。由80 个玉米样品组成的数据集,研究数据包括样品的水分、脂肪、蛋白质和淀粉含量,采样间隔为2 nm,波长范围为1 100~2 498 nm 的700 个波长变量。研究采用玉米水分含量作为研究对象,开展基于NIRS 的玉米水分含量快速检测方法研究。
在对样品进行NIRS 扫描过程中,样品光谱数据的质量易受仪器响应情况、环境条件变化、样品自身特性等因素的影响,使采集的NIRS 数据存在基线漂移、随机噪声、光谱变异等问题,造成准确度下降。为了解决上述问题,研究采用Savitzky-Golay(SG)光谱平滑[7]、多元散射校正(multivariate scattering correction,MSC)[8]、标准正则变换(standard normal variate,SNV)[9]、一阶导数(first derivative,FD)[10]及其组合方法对NIRS 数据进行变换和处理,以提高光谱数据的分辨率和信噪比,进而提高建模性能。
SiPLS 是在区间偏最小二乘的基础上发展而来的一种特征谱区优选算法[11]。SiPLS 将整个谱区划分为k 个等宽的子区间后,随机选择j(2 BiPLS 将整个谱区划分为k 个等宽的子区间后,首先剔除k 个区间中RMSECV 最大的子区间(相关性最差),对k-1 个区间建立PLS 模型,并计算相应的RMSECV。然后再次剔除剩余k-1 个区间中相关性最差的区间,对剩余k-2 个区间建立PLS 模型,并计算相应的RMSECV,以此类推,直到只剩下一个区间为止。以每次PLS 模型的RMSECV 为评价指标,并选择RMSECV 最小时对应的多个子区间组合作为优选后的特征谱区[13]。 研究在建立玉米水分含量NIRS 快速检测模型时,先使用SG、MSC、SNV、FD 及其组合方法进行光谱预处理,并建立全谱下的PLS 回归模型,计算不同预处理方法下的回归模型性能,并基于k 折RMSECV 确定光谱最佳预处理方法;在对光谱数据进行预处理后,使用Kernard-Stone(KS)法[14]将预处理后光谱数据按3∶1 比例划分成校正集样本和验证集样本,并使用SiPLS 和BiPLS 进行特征波长优选;在基于蒙特卡洛交叉验证(Monte-Carlo cross-validation,MCCV)的PLS 回归模型的预测残差平方和(prediction residual error sum of squares,PRESS)最小确定最佳主成分(principal components,PCs)个数后,分别建立全谱和优选的特征波长对应的PLS 回归校正模型,并基于校正决定系数(R2c)、验证决定系数(R2p)、校正均方根误差(root mean squared error of calibration,RMSEC)、预测均方根误差(root mean squared error of prediction,RMSEP)和残余预测偏差(residual predictive deviation,RPD)对回归校正模型的性能进行评价。 算法包括样品集划分、光谱预处理、特征波长优选、PLS 回归模型构建等全部在Matlab R2016b 软件平台中实现,其中BiPLS 和SiPLS 基于Lars Nφrgaard开发的iToolbox 工具箱实现[15]。 对80 个玉米样品的水分含量进行统计分析,并绘制统计直方图和箱线图,如图1 所示。经检验发现,样本水分含量基本呈正态分布,水分含量在10%~10.5%区域占比较大。 图1 玉米水分含量统计直方图和箱线图Fig.1 Statistical histogram and of moisture content in corn 在分析过程中,样品的近红外光谱会存在噪声信息,造成吸收光谱出现基线偏移、漂移等情况,这主要是由于样品的粒度、表面散射等因素。因此,光谱数据在使用前还需进行预处理,减少其它因素的影响。研究拟采用先使用SG、MSC、SNV、FD 及其组合的方法进行光谱预处理,通过校正集PLS 回归模型的k 折RMSECV 的结果确定最佳预处理方法。经计算比较后确定玉米水分含量回归模型光谱数据的预处理方法为SG+FD。通过不同预处理方法建立的回归模型得性能如表1 所示。 表1 不同光谱预处理方法对水分校正模型的影响Table 1 Effect of different spectral pretreatment methods on moisture calibration model 玉米样品光谱数据如图2 所示。由图2(a)可知,原始光谱数据存在基线漂移现象。由图2(b)可知,通过SG 平滑和FD 相结合对原始光谱进行预处理,修正了因扫描时间、周边环境、设备状态的不同导致的基线漂移和噪声干扰等问题,有效提高了光谱数据的分辨率和信噪比。其中,SG 用于去除光谱扫描时仪器本身产生的随机高频噪声,在一定程度上提高光谱的信噪比[16]。FD 常用来消除光谱基线不平对建模性能的影响[17],但导数处理在求导过程中会放大仪器产生的高频噪声,从而降低光谱数据信噪比。SG与FD 相结合能够有效避免导数处理放大仪器噪声的问题。 图2 样品光谱数据Fig.2 Spectral data of sample 对NIRS 数据进行预处理后,使用KS 法进行样本集分组(比例为3∶1),得到校正集样本60 个、验证集样本20 个。样品中水分含量测量结果如表2 所示。变异系数为标准差与均值的比值,指标可以有效消除因单位不同或平均值差异对建模性能产生的不利影响。校正集的变异系数是3.943%,验证集的变异系数范围是2.816%,较大的变异系数有利于建立高鲁棒性的回归校正模型[18]。 表2 样品中水分含量Table 2 Protein content in samples 用PCA 对预处理后的NIRS 数据进行计算,依次得到82.02%、11.30%和4.68%前3 个PCs 的贡献率值,可知前3 个PCs 的累积贡献率达98.00%。样本主成分空间分布情况如图3 所示。 图3 样本主成分空间分布Fig.3 Spatial distribution of sample principal components 由表2 和图3 可知,验证集基本处于校正集中,而且二者都均匀分布在PCs 空间上,由此说明,可以用样本划分方法进行NIRS 建模。 2.2.1 基于SiPLS 的特征谱区优选 为了研究区间划分个数对波长选择及建立模型性能的影响,在使用SiPLS 优化湿度特征谱时,将谱分为10~5 个子区间(步长为1),选取2~4 个子区间组成的总区间作为候选区间。根据RMSECV 分别作为SiPLS 优选的特征光谱区,其优选结果如表3 所示。 表3 SiPLS 优选谱区结果Table 3 Results of optimal moisture SiPLS spectrum 通过RMSECV 确定划分11 个子区间,对应的最佳组合区间[1 6 7 8]作为优选的水分特征谱区,其中水的-OH 基团的二级倍频对应区域为1 100~1 226 nm;水的-OH 基团的一级倍频对应区域为1 742~1 995 nm区域对应着水分;水的-OH 基团的组合频对应区域为1 997~2 121 nm。 2.2.2 基于BiPLS 的特征谱区优选 在使用BiPLS 算法进行NIRS 特征谱区优选时,区间划分个数的选择很重要。为了遴选最佳化分区间数,将预处理后的样本光谱数据划分为k(k=10,20,30,40,50)个子区间,利用BiPLS 计算每个k值对应的最佳特征谱区,完成划分区间个数的初选(如表4 所示)。 表4 BiPLS 优化光谱特征区间初选结果Table 4 Primary results of BiPLS optimization of spectral feature interval 由表4 可知,k=30 时,水分BiPLS 回归模型的RMSECV 最小;k=40 时,其RMSECV 取次最小值,因此可以推测水分最佳谱区划分个数在30~40 之间。为获得水分最佳谱区划分个数,采用BiPLS 计算区间个数从31 到39 对应的最佳特征谱区(如表5 所示)。 表5 BiPLS 最佳特征谱区筛选结果Table 5 Results of BiPLS optimal feature spectrum screening 由表5 可知,区间划分个数为34 时,BiPLS 优选出13 个水分特征谱区对应的RMSECV 最小(0.008 7),对应区间列表为[2 3 6 13 15 16 17 20 21 22 23 24 25],选中的特征波长点为267 个。其中,水分-OH 基团的二级倍频对应着1 142~1 224 nm 区域;水分-OH 基团的一级倍频对应着1 690~1 814 nm 区域,水分-OH基团的组合频对应着1 900~2 139 nm 区域。绘制SiPLS 和BiPLS 优选的水分特征谱区(灰色阴影区域)与光谱数据对比图(如图4 所示)。 图4 SiPLS 和BiPLS 优选光谱特征谱区Fig.4 Spectral characteristic regions selected by SiPLS and BiPLS 2.3.1 最佳PCs 个数的确定 PLS 回归模型的最佳PCs 个数对建模性能具有重要影响。PCs 个数太多,将出现过拟合,PCs 中将含有校正集的部分冗余信息,导致模型的预测能力下降。PCs 个数太少,将出现欠拟合,选用的PCs 难以反应校正集的足够信息,导致模型的解释能力不够,进而影响预测能力。合理的PCs 个数既可以提高PLS回归模型的预测精度,又可以提高模型的稳定性。文章在基于校正集MCCV 的PLS 回归模型PRESS 确定最佳PCs 个数时,设PCs 个数的搜索范围为1~30,步长为1,分别建立不同PCs 个数下的PLS 回归模型,并计算每个PLS 回归模型的PRESS,选取PRESS 值最小时对应的PCs 个数作为最佳PCs 个数。以预处理后的NIRS 全谱699 个波长点建立PLS 回归模型,绘制PRESS 随PCs 个数变化情况如图5 所示。 图5 PRESS 与PCs 关系图Fig.5 Relation Diagram between PRESS and PCS 由图5 可知,随着PCs 个数的增加,PRESS 呈先迅速减少,后趋于平缓的趋势。图中箭头所示红色圆点的PRESS 值最小(0.018 2),PCs 的个数为18,说明这18 个PCs 的解释能力最强。 2.3.2 回归模型性能分析 按上述最佳PCs 个数据确定方法分别建立全谱和SiPLS 和BiPLS 优选后谱区对应的PLS 回归校正模型,以确定玉米水分NIRS 校正模型的最佳特征波长。不同回归模型的性能如表5 所示。 由表6 可知,SiPLS 优选特征谱区建立的玉米水分NIRS 回归模型的性能最优,其R2P为0.994,RMSEP 为0.023,RPD 为12.777。模 型 的R2P≥0.99,RPD≥12.77,说明SiPLS 回归模型具有杰出的性能,能够满足水分含量快速检测的需求[19]。SiPLS 和BiPLS作为两种最典型特征光谱区间搜索方法,在特征谱区优选方面都具有良好的性能。选择SiPLS 作为水分特征谱区优选算法的主要原因在于:SiPLS 选择固定数量的子区间作为备选光谱区域,BiPLS 通过去除相关度较低的子区间,寻找RMSECV 最小子区间的组合作为光谱特征,SiPLS 更适合于解决波长分布特征较多的问题[20]。水分对应着谱区中的吸收峰在整个谱区分布比较集中,适合采用SiPLS 进行特征谱区优选。因此,SiPLS 优选特征波长建立的玉米水分PLS回归模型的预测性能优于BiPLS 特征波长优选方法建立的PLS 回归模型。选取SiPLS 作为玉米水分特征波长优选的最佳方法,以最终的特征波长建立PLS回归模型,并进行建模分析分析,其结果如图6 所示。 表6 水分回归模型评价指标Table 6 Evaluation indexes of moisture regression model 图6 水分实测值与预测值分布Fig.6 Distribution of measured and predicted water content 由图6 可知,玉米水分含量的实测值与预测值点基本呈对角线分布,且拟合线基本与1∶1 线基本重合,经检验发现各参数的预测值与实测值无显著性差异。说明基于SiPLS 优选特征谱区建立的PLS 回归模型能够满足玉米水分含量的实际快速检测需求。 探讨了基于近红外光谱结合化学计量学方法进行的玉米水分含量快速检测的可行性。为提高NIRS回归模型的准确性和高效性,分别应用SiPLS 和Bi-PLS 算法进行水分含量的特征波长优选,建立了相应的PLS 回归校正模型,并评测了各种特征波长优选方法的建模性能。基于SG 结合FD 光谱预处理、MCCV结合PRESS 确定最佳主成分个数和SiPLS 优选特征谱区建立的玉米水分含量NIRS 快速检测模型的R2P为0.994 1,RMSEP 为0.022 6,RPD 为12.776 6,能够满足玉米水分含量的实际检测需求。光谱预处理和敏感波长变量的优化有效地提高了近红外光谱预测模型的准确性和鲁棒性,为快速准确地测量玉米水分提供了一种新方法。1.4 模型的建立与评价
2 结果与分析
2.1 数据分析与处理
2.2 特征波长优选
2.3 回归模型评价与分析
3 结论