FT-NIR光谱半定性判别方法应用于土壤总氮的波段优选

2020-02-25 08:06陈华舟陈伟豪莫丽娜温江北
光谱学与光谱分析 2020年2期
关键词:定性波段光谱

辜 洁, 陈华舟, *, 陈伟豪, 莫丽娜, 温江北

1. 桂林理工大学理学院, 广西 桂林 541004 2. 广东星创众谱仪器有限公司, 广东 广州 510663

引 言

土壤肥力是农业可持续发展的基础。 土壤总氮含量是衡量土壤肥力的重要指标之一[1]。 传统的土壤总氮的检测一般是在化学实验室进行, 需要采用化学反应, 费时费力且操作繁琐[2]。 利用近红外光谱对土壤总氮的含量实现直接快速定量分析具有十分重要的意义[3-4]。 傅里叶近红外(FT-NIR)光谱分析可从大量的实验数据中提取样品中的待测成分信息, 具有快速简便、 无试剂、 非破坏性、 过程无污染等特点。 近年来, 随着信息技术和化学计量学的发展, FT-NIR光谱分析在食品、 农业、 环境、 生物医学等众多领域得到广泛的应用[5-7]。

偏最小二乘法(PLS)是FT-NIR光谱常用的定量分析方法[8-9]。 由于近红外光谱信号重叠严重, 没有明显的波峰能够反应单一待测成分的信息, 而且容易造成数据过拟合[10], 在此基础上建立的定标预测模型有可能被理想化, 不利于在线检测的实际应用。 因此, 我们考虑给定量分析模型添加容错机制, 将FT-NIR定量分析转化为半定性判别分析, 以加强光谱模型的应用能力。

逻辑回归(LR)一种常用的定性分析方法, 采用二分类模式进行定性建模和预测[11]。 考虑采用潜变量分析技术[12]结合LR回归建立FT-NIR半定性判别模型, 为PLS回归提供定量容错机制, 有望可以避免数据过拟合现象, 提供更为稳定的FT-NIR定标方案。 主成分分析(PCA)被视为最简单有效的潜变量分析技术, 合理选择恰当的主成分数是PCA技术的关键, 能够有效降低光谱噪声和充分利用光谱特征信息[13-14]。

另一方面, 由于特定的待测组分会在某一特定的光谱区域内形成较强的光谱响应信息[15], 考虑采用区间间隔波段搜索模式[16-17], 寻找土壤总氮的FT-NIR光谱信息子波段, 在每一个子波段中利用PCA进行潜变量提取, 进一步和LR回归建立能够实现对土壤总氮半定性判别的区间间隔PCA逻辑回归(iPCA-LR)模型。 在此之前, 采用标准正态变换(SNV)完成对测量光谱的降噪处理[18], 采用常规PLS算法做初步的定量预测, 并调试预测容错百分比, 设定半定性判别标记。

1 实验部分

1.1 材料和测量方法

采集135份广西土壤样本, 经过风干、 碾磨并过2 mm筛, 在实验室采用凯氏定氮法[19]测定样品中的总氮含量, 作为光谱分析的参考化学值。 全体样品的参考化学值最大值、 最小值、 平均值和标准偏差分别为0.289, 0.056, 0.133, 0.045(%)。 采用Perkin-Elmer公司的Spectrum One NTS傅里叶变换近红外光谱仪检测样本光谱, 如图1所示。 光谱扫描区域设定为10 000~4 000 cm-1, 每个样本经由系统自动扫描64次, 输出平均光谱。 实验保持恒温恒湿环境, 温度为(25±1) ℃, 湿度为(46%±1%)RH。

图1 135个土壤样品的FT-NIR光谱

1.2 PLS半定性转换机制

采用常规PLS算法建立FT-NIR光谱定量分析模型, 对所有样本的待测成分含量进行先验预测, 并将预测结果转换为半定性判别模式。 设定PLS半定性判别机制的阈值范围r(一般r≤0.2), 根据光谱建模预测值是否落在参考化学值的阈值范围内来赋予先验判别标记(M), 如果光谱建模预测值落在参考化学值的阈值范围内, 则认为半定性阈值先验判别准确(标记为M=1), 否则认为先验判别不准确(标记为M=0), 即

1.3 iPCA-LR建模方法

iPCA-LR方法的核心思想是采用区间间隔搜索模式寻找FT-NIR光谱信息子波段, 利用PCA算法在待测子波段中提取潜变量信息, 结合LR回归分析对既有的PLS半定性先验判别标记进行建模预测。 将整个光谱扫描区域划分为k个等宽子波段, 每个子波段的数据X包含波长点数量为t=[p/k],p为全谱段波长点个数。 在每一个子波段中对光谱数据提取潜变量V, 结合PLS先验判别标记M建立iPCA-LR模型, 利用交叉检验模式完成建模训练和参数优化, 进一步对测试集样本进行判别预测。

对输入的光谱潜变量值V寻找线性划分边界Z=θTV, 基于logistic回归方法构造预测函数

函数h(·)的值表示iPCA-LR预测判别结果为1的概率P(y=1|V;θ), 即

P(M′=1|V;θ)=hθ(Z)

P(M′=0|V;θ)=1-hθ(Z)

其中M′为iPCA-LR模型对每个输入样本的半定性判别的预测标记。 根据预测判别标记M′和先验判别标记M构建模型评价指标。

1.4 模型评价指标

建立PLS半定性机制结合iPCA-LR的FT-NIR光谱分析模型, 利用交叉验证的方式拟合建模系数, 进而对每个土壤样本总氮含量的半定性判别准确率进行评价, 通过构造混淆矩阵表来判断模型的预测准确率, 能够更详细地分析模型的预测性能。 混淆矩阵的结构如表1所示, 表1中的TP, FN, FP和TN 4个计数值分别用来记录模型预测判别准确与否。 进一步利用混淆矩阵中的数值计算FT-NIR光谱结合iPCA-LR半定性判别方法的预测准确率, 计算公式如下

表1 判别预测准确率的混淆矩阵

注: TP表示真正值计数, 即M=1且M′=1的数量; FN表示假负值计数, 即M=1且M′=1的数量; FP表示假正值计数, 即M=0且M′=1的数量; TN表示真负值计数, 即M=0且M′=0的数量。

2 结果与讨论

土壤FT-NIR光谱全扫描波段为10 000~4 000 cm-1, 光谱分辨率为4 cm-1, 形成1 512个波数点。 为了降低因固体颗粒大小、 表面散射效应和光程变化而形成的噪音干扰, 利用SNV方法对光谱数据进行预处理, 将预处理后的数据用于光谱建模半定性判别分析。

采用常规PLS算法建立FT-NIR光谱定量分析模型, 对135个土壤样本的总氮含量进行初步预测, 结合半定性机制, 针对阈值范围r的三个不同取值(0.05, 0.10和0.15)分别确定半定性先验判别标记, 标记样本数量如表2所示。 根据PLS半定性先验标记进一步讨论iPCA-LR建模的定性判别。 采用区间间隔搜索模式寻找土壤总氮的FT-NIR光谱信息子波段, 将整个光谱扫描区域划分成k个等宽子波段, 分别取k∈{5, 10, 15, 20}; 不同k值对应的每个子波段范围如表3所示。 在每一个子波段中利用PCA算法完成潜变量提取, 结合LR回归对三个不同的半定性阈值范围(0.05, 0.10和0.15)所对应的先验判别标记建立土壤总氮的FT-NIR光谱iPCA-LR模型进行判别预测。

表2 三个不同阈值范围对应的PLS半定性先验判别标记

Table 2 The quasi-qualitative prior discriminant mark of PLS regression corresponding to three different thresholds

The threshold rNumber of samplesM=1M=00.0558770.1098370.1512114

表3 不同子波段数(k值)对应的波段划分结果

Table 3 The waveband division corresponding to the different numbers of wavebands (k)

Number ofwavebands (k)Waveband/cm-1510 000~8 806, 8 803~7 607, 7 603~6 407, 6 403~5 208, 5 204~4 0081010 000~9 406, 9 402~8 806, 8 803~8 207, 8 203~7 607, 7 603~7 007, 7 003~6 407, 6 403~5 808, 5 804~5 208, 5 204~4 608, 4 604~4 0081510 000~9 609, 9 605~9 212, 9 208~8 814, 8 810~8 417, 8 413~8 020, 8 016~7 623, 7 619~7 226, 7 222~6 828, 6 824~6 431, 6 427~6 034, 6 030~5 637, 5 633~5 240, 5 236~4 842, 4 838~4 445, 4 441~4 0482010 000~9 708, 9 704~9 410, 9 406~9 112, 9 108~8 814, 8 810~8 517, 8 513~8 219, 8 215~7 921, 7 917~7 623, 7 619~7 325, 7 321~7 027, 7 023~6 729, 6 725~6 431, 6 427~6 133, 6 129~5 835, 5 831~5 538, 5 534~5 240, 5 236~4 942, 4 938~4 644, 4 640~4 346, 4 342~4 048

阈值范围(r)是影响iPCA-LR模型性能的一个关键参数, 阈值赋值越小, 所允许的定量容差范围越小, 转换为半定性判别分析之后的准确性要求越强, 预测准确率会相对较低。 讨论r对建模效果的影响, 对每一个固定的r值, 选择使用不同的子波段建立iPCA-LR模型进行预测, 比较各波段的预测准确率, 选择这个固定的r值所对应的最佳子波段, 对应的PCA因子数优选结果如图2所示, 阈值r=0.05的最佳子波段为6 030~5 637 cm-1, 其预测准确率随着因子数的增加基本呈上升趋势, 后期略有下降, 当因子数是27获得最高准确率75.6%; 阈值r=0.10的最佳子波段为6 824~6 431 cm-1, 其预测准确率也是随着因子数的增加呈上升趋势, 当因子数取值≥26时准确率达到了80%以上; 阈值r=0.15的最佳子波段为8 413~8 020 cm-1, 其预测准确率基本稳定在90%附近。 由此可见, 给定阈值范围越大, 调试PCA因子数越大, 半定性预测效果越好。 因此, 在线检测过程中, 如果环境条件允许, 可以选择更宽泛的阈值范围以提高光谱实时快检的准确率; 如果现场条件比较苛刻, 我们只能选择比较小的阈值, 其预测准确率也能够达到75%, 可以满足部分在线分析的需求。

图2 不同阈值范围对应最优波段的

Fig.2 The optimal predictive results of the optimal waveband based on PCA latent variable extraction, corresponding to the three designated thresholds

针对表3中不同的k值划分的每一个子波段, 比较不同阈值范围, 选择预测准确率最高值, 得到每一个子波段的最优预测准确率如图3所示。 由图3可知, 所有子波段的最优准确率均大于88%, 依此选择最优子波段为6 129~5 835 cm-1(k=20划分的一个子波段)和5 633~5 240 cm-1(k=15划分的一个子波段), 其对应最高预测准确率达到93.3%。 此外, 从次优准确率取值(92.5%)可选择次优子波段为6 824~6 034 cm-1(k=15划分的连续两个子波段)、 8 203~7 007 cm-1(k=10划分的连续两个子波段)和6 403~5 208 cm-1(k=5划分的一个子波段)。

图3 不同子波段对应最佳准确率分布

依据上述优选的几个波段建立潜变量逻辑回归半定性判别模型, 特别针对连续两个波段的情况进行波段合并, 结合PCA潜变量技术, 重新建模确定判别准确率, 结果如表4所示。 由表4可以看出, 针对不同的k值均能得到优选子波段或合并子波段; 尽管合并波段的预测准确率比单个波段有所下降, 但仍然保持在90%以上。 结果表明, 本半定性判别iPCA-LR建模方法应用于土壤总氮含量的NIR光谱定量预测能够获得较高的预测准确率。 图4表示SNV方法预处理之后的光谱曲线, 并在图中把几个光谱特征波段标记出来。

表4 优选(组合)波段的iPCA-LR建模结果

Table 4 The iPCA-LR modeling results based on the optimal selected wavebands or waveband combinations

kOptimalwaveband/cm-1CombinationLatentvariablesAccuracy/%56 403~5 208No2992.5108 203~7 007Yes2091.1156 824~6 034Yes2791.8155 633~5 240No2893.3206 129~5 835No2693.3

图4 经过SNV预处理的土壤FT-NIR光谱波段选择

Fig 4 The optimal wavebands highlighted for the full-range SNV-pretreated FT-NIR spectra

3 结 论

采用FT-NIR光谱检测土壤中的总氮含量。 首先利用PLS方法定量预测135个土壤样本中的总氮含量, 通过设定r=0.05, 0.10, 0.15三个不同的容错阈值范围, 给样本赋予先验判别标记, 将定量分析模式转换为LR半定性判别模式, 结合采用iPCA的区间间隔波段搜索潜变量提取方法, 经过样本训练, 建立土壤总氮近红外iPCA-LR半定性判别模型。 虽然不同阈值范围下的FT-NIR半定性判别模型的预测准确率差别较大, 阈值0.15的预测准确率基本达到90%以上, 而阈值0.10的预测准确率最优可达80%以上, 阈值0.05的最优模型也可获得大于75%的预测准确率, 可以满足不同程度的应用水平。 另一方面, 对比讨论了选择k=5, 10, 15, 20四种不同子波段数量区间划分的iPCA-LR建模判别准确率, 优选近红外光谱特征子波段, 并讨论优选连续子波段的组合建模情况, 优选的子波段或合并子波段的判别准确率均达到了90%以上。 结果表明, 利用PLS结合iPCA-LR将定量预测转换为半定性判别的方法能够应用于土壤的FT-NIR光谱分析中, 能够解决常规PLS定量问题中容易出现的数据过拟合问题, 定标判别结果更符合实际, 有利于光谱技术在线检测的应用推广。

猜你喜欢
定性波段光谱
基于三维Saab变换的高光谱图像压缩方法
最佳波段组合的典型地物信息提取
分裂平衡问题的Levitin-Polyak适定性
高光谱遥感成像技术的发展与展望
当归和欧当归的定性与定量鉴别
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
星载近红外高光谱CO2遥感进展
日常维护对L 波段雷达的重要性
共同认识不明确的“碰瓷”行为的定性