便携式短波近红外光谱仪器检测土壤总氮含量研究

2016-06-15 16:36章海亮
光谱学与光谱分析 2016年1期
关键词:过筛波长光谱

章海亮,何 勇

1. 浙江大学生物系统工程与食品科学学院,浙江 杭州 310058 2. 华东交通大学轨道交通学院,江西 南昌 330013

便携式短波近红外光谱仪器检测土壤总氮含量研究

章海亮1,2,何 勇1*

1. 浙江大学生物系统工程与食品科学学院,浙江 杭州 310058 2. 华东交通大学轨道交通学院,江西 南昌 330013

基于便携式短波近红外光谱技术检测了土壤总氮含量。采集浙江省文城地区农田土壤样本243个,将土壤样本分为三组,一组未经过粉碎、过筛等处理,一组做过2 mm筛处理,一组过0.5 mm筛过处理,采用usb4000便携式光谱获取土壤光谱数据,结合(savitzky-golay, SG)平滑算法,波长压缩算法和小波变换对原始数据进行预处理,然后采用竞争性自适应重加权、随机青蛙和连续投影算法进行特征波长选择。基于全光谱建立了偏最小二乘回归和基于特征波长建立了极限学习机和LS-SVM模型。结果表明过筛处理后的样本模型结果优于未过筛的样本模型结果,过0.5 mm筛处理的土壤样本模型预测结果略优于过2 mm筛处理的土壤样本模型预测结果,最优预测集的决定系数为0.63,预测均方根误差为0.007 9,剩余预测偏差为1.58。表明便携式仪器检测土壤总氮含量,经过过筛处理的土壤样品检测结果优于未过筛土壤样品检测结果,建议土壤样品检测总氮含量时需经过过筛处理,这样得到的结果较为理想,在此基础上采用性能较好的光谱仪器采集数据,以减小原始光谱噪声。

便携式短波近红外光谱;土壤总氮;LS-SVM

引 言

我国目前“测土配方施肥”多采用传统化学测试方法获取土壤养分含量信息,传统的土壤总氮含量测定基于化学分析方法,比较费时和繁琐,测量周期长,过程复杂,成本高,大大限制了“测土配方施肥”推广和社会经济发展,难以满足快速监测土壤总氮含量的需求。土壤总氮含量是鉴别土壤肥力的一样重要指标,也是作物生长发育所必需的营养元素,因此,快速测定土壤的总氮含量,对于农业和环境保护都很有意义。近红外外光谱检测技术由于其快速、无损和不污染环境等优点[1-2],在土壤养分含量检测中得到了大量应用[3-5]。本工作通过采用便携式近红外光谱仪器测定土壤样品总氮含量,以期达到在实际生产中应用的目的。

1 实验部分

1.1 样本采集和划分

采集浙江省盐城地区某一农田区域肥力比较均匀的土壤243份,分为三组,一组未经过粉碎、过筛等处理,一组做过2 mm筛处理,一组过0.5 mm筛过处,在室温条件下放置24 h,土壤总氮采用干烧法测量[6]。对于不过筛处理土壤样品简单处理如下:从田间采集到的土壤样品,去除土壤中作物、石块、杂物等干扰因素,自然条件下晾干处理,然后将土壤样品进行破碎,挑除颗粒较大的土块,得到颗粒直径不大于4~5 mm的土壤样品,倒入圆形透明玻璃培养皿中,抚平表面和压实土壤,光纤探头至样本垂直距离约为1厘米。对于过筛土壤样品处理如下:把取回的土壤样本拿回实验室经晾干、磨细、分别通过2和0.5 mm的筛子和烘干水分等处理。合适的校正集选择方法能增强模型的预测能力,SPXY样本划分方法用于本研究中。162个样本用于模型校正,81个样本用于模型预测集,表1为土壤样本总氮含量统计分析结果。

USB4000光谱仪波长范围200~1 100 nm,采集光谱数据前,关掉室内日光灯,减少日光灯对光谱信号的影响,为使光源保持稳定,卤素灯光源至少预热15 min左右。

1.2 光谱噪声去除

采用SG平滑[7],波长压缩(reduce,RD)和小波变换Min: minimal value; Max: maximum value; SD: standard deviation(wavelet transform, WT)[8]等算法对光谱进行处理,并对三种去噪声算法进行比较,SG平滑和RD在Unscramble 9.7软件自带算法完成处理,WT去噪声算法由Matlab 2010a软件的小波工具箱完成。Savitzky-Golay卷积平滑算法在对原始光谱进行处理时,不再使用简单的平均,通过采用最小二乘拟合系数建立滤波函数,对移动窗口内的波长点数据进行多项式最小二乘拟合。RD算法依据信号自身尺度特征将信号压缩,非常适合一阶微分和二阶微分后续处理,通过对连续15个波长反射率取均值作为一个有效波长,进行压缩处理以达到消除噪声和降低光谱维度双重目的,数据量是原始光谱数据量的十五分之一。WT是一种时频分析法,其中连续小波变换是一种基于给定小波基函数的积分变换。

Table 1 Sample statistic of calibration and prediction data of sample sets

1.3 特征波长选择算法

原始光谱数据量大容易造成计算量大和模型复杂,同时存在冗余和大量的共线性信息,对光谱分析及建模产生干扰和影响[9]。采用CARS算法(competitive adaptive reweighted sampling)[10]、random frog算法和连续投影算法(successive projections algorithm, SPA)[11]选择特征波长,减少数据共线性和数据冗余,简化模型和减少运算量。CARS基于十折交叉验证,选择N个偏最小二乘子集模型预测均方根误差最小的子集,该子集为最优变量组合。依据交互验证选出交互验证均方根误差最小的变量子集,该子集所包含的变量即为最优特征波长变量组合。random frog是一种较新的特征波长选择算法,由Li等[12]提出并用于基因变量的选择。random frog是一种类似于可逆跳转马尔可夫链蒙特卡洛的算法,计算每个变量的被选择概率,从而进行重要变量的选择。SPA可以从光谱矩阵中选择无共线性和无冗余的特征波长组合,在简化模型复杂度的同时提高建模的运行速度和效率,本工作设置选择特征波长数的范围为5~60。

1.4 建模分析方法

基于全谱建立偏最小二乘回归(PLS)分析模型,分别基于选择的特征波长建立极限学习机(extreme learning machine,ELM)模型以及LS-SVM分析模型。PLS是最为常用的化学计量学建模方法。同时考虑光谱矩阵X和样本理化值Y,建立预测模型,通过降维获取潜在变量,消除光谱无用的变量。ELM是一种简单有效的单隐层前馈神经网络学习算法,原理图详见图1。

偏最小二乘支持向量机[13]建模时利用了径向基函数的内核,参数γ和σ2的最优组合被选中,预测均方根误差(RMSEC)建模时交叉验证获得稳定值。LS-SVM建模过程是一个不断寻优过程,搜索最优变量遵从特定的寻优机制和算法。

Fig.1 Schematic diagram of ELM

2 结果与讨论

2.1 光谱提取与分析

未过筛和过筛(2 mm)获取的土壤光谱如图2所示。比较发现,图2(a)中未经过筛处理土壤样品光谱曲线的噪声大于图2(b)中光谱曲线,说明土壤样品过筛与不过筛处理对土壤光谱噪声影响非常显著,且过筛后的土壤光谱反射率也明显大于未过筛的土壤光谱反射率。

Fig.2 Spectra of soil samples

2.2 特征波长选择

分别基于CARS,random frog和SPA算法选择土壤总氮的相关特征波长,详见表2所示。从表2可知,CARS所选择的土壤总氮特征波长的个数要多于random frog和SPA算法。SPA提取的土壤总氮特征波长按贡献值的大小排序,数量少,含有最低限度冗余,避免了信息重叠和共线性问题发生。random frog确定特征变量是通过频率值的大小来选择,要说明的一点random frog算法每次运行的结果稍有不同,因此为减小随机因素的影响,针对土壤总氮特征波长的选择,分别运行random frog算法10次,统计了10次运行结果的均值。横坐标是波长变量,纵坐标是被选概率,概率的大小用来评价变量的重要性,概率越大的变量其重要性越大。将所有变量按被选概率排序,以0.15为阈值,分别选出概率最大的前19个、37个、37个变量作为未过筛、过2 mm孔径筛和过0.5 mm孔径筛的特征波长,见表2。

Table 2 Number of characteristic wavelengths collected by CARS, random frog and SPA

2.3 基于全波长的PLS模型

为了较好评价PLS模型检测土壤总氮含量便携式仪器的性能,将对SG,RD和WT三种光谱预处理方法后建立的PLS模型相比较,结果如表3所示。

由表3,比较过筛和未过筛全谱波长建立的PLS模型可知,过筛后PLS建模效果要优于未过筛PLS建模效果。过筛0.5 mm后基于SG平滑预处理去噪声的光谱效果最好。预测集的决定系数为0.62,均方根预测误差为0.008 2,剩余预测偏差为1.57。WT分析虽然较好的消除了部分光谱噪声,但也去除了部分有用光谱信息,导致PLS预测效果最低,其预测集的决定系数为0.60,均方根预测误差为0.008 3,剩余预测偏差为1.51。故后文提取特征波长的分析在SG平滑预处理去噪声后的基础上进行。

2.4 基于特征波长的ELM模型

基于CARS,random frog和SPA藤征波长选择算法得到的特征波长的ELM模型的计算结果如表4所示。

Table 3 Results of PLS models

Table 4 Results of ELM models

从表4可知,采用SPA提取的特征波长建立的ELM模型的效果最好,预测集的决定系数为0.60,均方根预测误差为0.008 3,剩余预测偏差为1.51。采用CARS选择的特征波长取得了相对较差效果,预测集的决定系数为0.57,均方根预测误差为0.008 9,剩余预测偏差为1.41。比较基于CARS和random frog算法提取的特征波长建立的ELM模型可知,基于random frog提取特征波长的ELM模型效果要优于基于CARS提取特征波长的结果,究其原因,CARS选择的特征波长包含有用信息的同时还含有噪声信息,没有达到最优选择。

2.5 基于特征波长的LS-SVM模型

LS-SVM模型预测效果见表5。从表5的结果可知,采用SPA提取的特征波长建立的LS-SVM 模型优于其他两种方法选择的特征波长建立LS-SVM模型的预测结果,类似于ELM模型方法,采用CARS提取特征波长建立的LS-SVM 模型同样取得了相对较差的预测结果。基于SPA的LS-SVM模型的预测结果优于其他模型是由于SPA选择的特征波长达到最优,没有冗余信息,而其他方法选择的特征波长或多或少包含一些冗余信息,致使模型的预测能力下降。

2.6 PLS模型,ELM模型和LS-SVM模型的比较

过筛后基于SPA算法提取的特征波长建立的模型都取得了最优的效果。未过筛土壤样品基于CARS,random frog和SPA算法提取的特征波长建立的模型中,PLS模型、ELM模型和LS-SVM模型的效果都较差。过筛0.5 mm后土壤样品基于SPA算法提取的特征波长建立的LS-SVM模型取得了最佳预测结果,其LS-SVM模型预测集的决定系数为0.63,均方根预测误差为0.007 9,剩余预测偏差为1.58,略优于过筛2 mm的相应结果。LS-SVM模型是一种非线性建模方法,考虑到了模型建立过程中的非线性因素,如土壤水分、颜色和颗粒大小等非线性影响因素,提高了模型的预测精度。在所有模型中,ELM模型的预测效果最差,LS-SVM模型的效果最优。

图3为过筛0.5 mm孔径,基于LS-SVM土壤总氮建模集和预测集模型检测结果。

Fig.3 Model result of soil TN calibration and prediction set

3 结 论

基于光谱技术对过筛和未过筛土壤样品检测总氮含量进行了研究,用SG,RD和WT对原始光谱数据进行去除噪声处理。基于全光谱建立了PLS模型。结果表明采用SG预处理算法最优,建立的全谱PLS模型优于RD和WT算法去噪声处理后建立的全谱PLS模型,在SG平滑基础上,同时采用CARS算法、random frog算法和SPA算法提取特征波长,并基于特征波长建立ELM和LS-SVM预测模型,获得了较高的预测精度。过筛处理后土壤基于SPA选择的特征波长建立的LS-SVM模型取得了最佳效果,LS-SVM模型预测集的R2为0.63,RMSEP为0.007 9,RPD为1.58。表明由于土壤过筛和未过筛的土壤光谱噪声不同,致使检测结果各异,经过过筛处理的土壤样品检测结果优于未过筛土壤样品检测结果,未过筛处理的土壤样品采用便携式仪器检测结果不理想,建议土壤样品检测总氮含量时需经过过筛处理,过2 mm和过0.5 mm结果相差不大,为取得更为理想的检测结果,建议采用性能较好的光谱仪器采集数据,以减小原始光谱噪声。

[1] Wu D, Nie P C, He Y, et al. Food and Bioprocess Technology, 2012, 5(4): 1402.

[2] Liu F, He Y, Wang L, et al. Food and Bioprocess Technology, 2011, 4(8): 1331.

[3] Vohland M, Ludwig M, Thiele-Bruhn S, et al. Geoderma, 2014, 223-225: 88.

[4] Pietrzykowski M, Chodak M. Ecological Engineering, 2014, 62: 115.

[5] Kuang B Y, Mouazen A M. Biosystems Engineering, 2013, 114(3): 249.

[6] BAO Shi-dan(鲍士旦). Soil Agriculturalization Analysis(土壤农化分析). Beijing: China Agriculture Press(北京: 中国农业出版社), 1990. 30.

[7] Chen H Z, Pan T, Chen J M, et al. Chemometrics and Intelligent Laboratory Systems, 2011, 107(1): 139.

[8] Peng J, Shen H, He S W, et al. Environmental Earth Sciences, 2013, 69(1): 279.

[9] ZHANG Chu, LIU Fei, KONG Wen-wen, et al(张 初,刘 飞,孔汶汶, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2013,(20): 270.

[10] SUN Tong, XU Wen-li, LIN Jin-long, et al(孙 通,许文丽,林金龙,等). Spectroscopy and Spectral Anlysis(光谱学与光谱分析), 2012, 32(12): 3229.

[11] Martin M P, Orton T G, Lacarce E, et al. Geoderma, 2014, 223-225: 97.

[12] Li H D. X Q S L. Analytica Chimica Acta, 2012, 740(1): 20.

[13] Shao Y N, Zhao C J, Bao Y D, et al. Food and Bioprocess Technology, 2012, 5(1): 100.

*Corresponding author

Measurement of Soil Total N Based on Portable Short Wave NIR Spectroscopy Technology

ZHANG Hai-liang1,2, HE Yong1*

1. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China

2. School of Railway Jiaotong, East China Jiaotong University,Nanchang 330013,China

Near infrared spectroscopy analysis as a reliable, rapid, little sample preparation requirement, low-cost, convenient, nondestructive and green technique becomes more and more important in the area of soil nutrition measurement. Near infrared spectroscopy are highly sensitive to C—H, O—H and N—H bonds of soil components such as total nitrogen (TN) making their use in the agricultural and environmental sciences particularly appropriate. The analytical abilities of near infrared spectroscopy depend on the repetitive and broad absorption of light by C—H, O—H and N—H bonds. A total of 243 soil samples were collected from wencheng, Zhejiang province. Raw spectra and wavelength-reduced spectra with 3 different pretreatment methods (Savitzky-Golay smoothing (SG), Reduce (RD), and Wavelet Transform (WT)) were compared to determine the optimal wavelength range and pretreatment method for analysis. Spectral variable selection is an important strategy in spectrum modeling analysis, because it tends to parsimonious data representation and can lead to multivariate models with better performance. In order to simply calibration models, the preprocessed spectra were then used to select sensitive wavelengths by competitive adaptive reweighted sampling (CARS), Random frog and Successive Projections Algorithm (SPA) methods. Different numbers of sensitive wavelengths were selected by different variable selection methods with Wavelet Transform (WT) preprocessing method. Partial least squares (PLS) was used to build models with the full spectra, and Extreme Learning Machine (ELM) and LS-SVM were applied to build models with the selected wavelength variables. The overall results showed that PLS and LS-SVM models performed better than ELM models, and the LS-SVM models with the selected wavelengths based on SPA obtained the best results with the determination coefficient (R2), RMSEP and RPD were 0.63, 0.007 9 and 1.58 for prediction set. The results indicated that it was feasible to use portable short wave near-infrared spectral technology to predict soil total nitrogen and wavelengths selection could be very useful to reduce redundancy of spectra.

Portable short wave NIR spectra; Soil total nitrogen; LS-SVM

Sep. 14, 2014; accepted Dec. 11, 2014)

2014-09-14,

2014-12-11

国家自然科学基金项目(61134011)和江西省科技支持项目(2014BDH80021)资助

章海亮, 1977年生, 华东交通大学轨道交通学院副教授 e-mail: hailiang.zhang@163.com *通讯联系人 e-mail: yhe@zju.edu.cn

O433.5

A

10.3964/j.issn.1000-0593(2016)01-0091-05

猜你喜欢
过筛波长光谱
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
焦糖布丁
小牛粒
曲线拟合方法测定土工布有效孔径
基于频域分析方法的轨道高低不平顺敏感波长的研究
美好小确幸:杏桃酸奶布丁小蛋糕
日本研发出可完全覆盖可见光波长的LED光源
星载近红外高光谱CO2遥感进展
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量