基于NIR及PLS-PCR-SVR预测森林土壤有机碳含量

2014-02-28 03:03:32李耀翔汪洪涛耿志伟徐浩凯

安徽农业科学 2014年15期

李耀翔，汪洪涛，耿志伟，张鹏，徐浩凯

(东北林业大学工程技术学院，黑龙江哈尔滨150040)

森林土壤碳库是全球土壤碳库的重要组成部分，也是森林生态系统中的最大碳库，约占全球土壤碳储量的73%，森林土壤碳库的微小变化都会对大气CO2浓度及全球变化产生巨大影响［1］。森林土壤碳库分为有机碳和无机碳，其中以有机碳为主，且有机碳含量是表征土壤有机质的重要方式。土壤有机质作为土壤肥力保持的重要因子，在为作物提供养料，改善土壤物理性质，防止土壤侵蚀，实现土壤的可持续利用以及提高森林土壤的涵养水源功能方面发挥重要作用，可以确保植物的生长发育与种群的演替。因此，寻求快速测定土壤有机碳含量的方法在森林土壤理化性质、森林可持续利用及森林生态系统的相关研究中至关重要。

由于不同的有机物含有不同的基团，不同的基团有不同的能级，不同的基团和同一基团在不同物理化学环境中对近红外光的吸收波长都有明显差别，且吸收系数小，发热少，因此近红外光谱可作为获取信息的一种有效的载体［2-3］。近年来，近红外反射光谱分析技术(NIR)是一种快速、环保、无损伤、简便的技术，波长范围介于350～2 500 nm之间，近红外光主要吸收含氢基团X-H(X=C、N、O)振动的倍频和合频，这些基团反映大多数有机物的组成和结构信息［2］。近红外反射光谱分析技术在农业、林业、中药、烟草、食品等行业中都有广泛的应用，并已成为一种快速的例行分析方法［4-6］。目前，关于近红外反射光谱分析技术在木材的物理和化学性质方面研究较多，包括木材的密度、含水率、力学性质，纤维素、木质素和总纤维素等方面［7-9］，并且分析应用领域不断拓宽，用于土壤成分分析的研究日益趋增，其中包括土壤有机质、含水率、全氮和pH等［10-28］。土壤的组成包括矿物质、有机质和微生物等，它们的构成包含丰富的氢基团，而含氢基团是关乎土壤有机碳含量的重要信息，因此，近红外光谱可以有效地反映土壤有机碳含量情况，为快速测定土壤有机碳含量提供了技术可行性。

该研究利用近红外光谱技术建立小兴安岭林区土壤有机碳含量的定量分析模型，可以实现对森林土壤有机碳含量的快速、无损、精准检测，为野外实时、大面积、快速地测定森林土壤有机碳含量提供了技术支持，为林区抚育管理的有效施行提供技术支持和理论依据。

1 材料与方法

1.1 土壤样品的采集与制备土壤样品采自东北小兴安岭带岭林业局东方红林场，该林场位于 46°50＇～46°59＇N，128°57＇～129°37＇E，海拔 650 m。该区属温带季风性气候，夏季温暖多雨，冬季严寒多雪，年均气温1.5℃，年平均降水量670 mm，无霜期约114 d［29］。树种以落叶松为主，平均年龄19 a，平均胸径14 cm，平均树高11 m，郁闭度为0.9，林区土壤为暗棕壤。

研究样地以东方红林场林区小班为单位，从中随机选取10个小班，每个小班分别设置对照和抚育2块样地，共有20块，单块面积为50 m×20 m，每块样地沿对角线布置3个取土样方，每个样方分为上下2层，上层为0～10 cm，下层为10～20 cm，每层取1个土壤样本，最终获得120个土壤样本。将土壤样品带回实验室进行风干处理，使用木棒压磨、去除肉眼可见的砂砾和植物残体，然后过40目土壤筛均匀混合。

1.2 土壤样品近红外光谱采集与分析土壤样品近红外光谱采集所用的仪器为美国ASD公司制造LabSpec Pro近红外光谱仪，它是一款通用便携式的仪器，配有内置光源(色温为3 000 K)、光纤探头和旋转样品杯，光谱仪的光谱测量范围为28 571～4 000 cm-1(350～2 500 nm)，输出的波段为2 151，分辨率为2 cm-1(波数单位)，每条土壤近红外光谱取30次扫描的平均值，每10个样品进行一次背景校正［30］。

应用多变量统计分析软件The Unscrambler和仿真软件MATLAB，结合PLS，SVR和PCR 3种方法建立土壤样品有机碳含量的校正模型，并采用完全交互预测方式获得样品预测模型的相关参数。

1.3 建模方法

1.3.1 偏最小二乘(PLS)建模。将n(120)个土壤样品m(1)个组分的土壤有机碳含量浓度矩阵Y=(yij)n×m和仪器测定n(120)个土壤样品p(2 151)个波长点处吸光度矩阵X=(xij)n×xp分解成特征向量形式:Y=UQ+F;X=TP+E

其中U和T分别为n行d列(d为抽象组分数)的浓度特征因子矩阵和吸光度特征因子矩阵，Q为d×m阶浓度载荷矩阵，P为d×p阶吸光度载荷矩阵，F和E分别为n×m，n×p阶浓度残差阵和吸光度残差阵。

PLS法是根据特征向量的相关性分解Y和X，建立回归模型:U=TB+Ed，其中Ed为随机误差阵，B为d维对角回归系数矩阵。

待测样品，如果吸光度向量为X，则浓度为:Y=X(UX)'BQ

1.3.2 支持向量机回归(SVR)方法。该法可以实现非线性拟合，同时能够防止过拟合现象的出现。主要是用f(x)拟合目标值yk(土壤有机碳含量)，构造函数为:f(x)=∑(ai-其中都可以由优化方程求得，K(xi，x)是某种核函数(线性核函数、多项式核函数、径向基核函数等)，不同的核函数建立的模型的预测效果不同，该文使用线性核函数。

1.3.3 主成分回归。该法是设法将原来众多具有一定相关性的自变量，通过线性组合的方式重新组合成一组较少的线性无关的综合指标来代表原来的指标，新变量能反映原变量的绝大部分信息，通过这种方式达到降维的目的。

假设实际问题有p(2 151)个波长指标，这p个波长指标可看作 p个随机变量，记为 X1，X2，...，Xp，主成分回归就是要把这p个波长指标的问题转变为讨论p个波长指标的线性组合成新指标的问题，而这些新的指标F1，F2，...，Fk(k＜p)充分表征了原指标的大部分信息，并且相互独立，其中:

前k个变量可以代表原始数据的绝大部分信息，在研究土壤有机碳含量问题时，即使不考虑后面变量也无损大局。主成分不仅起到浓缩信息作用，还具有不相关的性质，消除了变量间的多重共线性，避免信息重叠。

1.4 模型评价评价化学计量学建立的模型性能的基本指标有相关系数R和均方根误差RSME，评价应用建立的模型预测样品时的基本指标有相关系数R、均方根误差RSME和预测标准差SEP等。

相关系数(R)取值越接近1，模型拟合性越好:

均方根误差越小，模型的拟合效果越好，预测精度越高:

校正标准差SEC越小，模型拟合的效果越好:

预测标准差SEP越小，模型的预测精度越高:

式中n为建模样本数，yi为实测值，y为预测值，为实测值的平均值，Bias为系统偏差。

2 结果与分析

按国家标准-重铬酸钾外加热法测定了120个土壤样品的有机碳含量，结果见表1。其中上层土壤有机碳含量平均值为87.616 g/kg，下层平均值为61.959 g/kg，上层土壤的有机碳含量平均值高于下层土壤。

表1 土壤有机碳含量的分布

2.1 土壤样品的近红外光谱图1为120条不同有机碳含量的土壤样品的近红外光谱。从光谱图的整体来看，3条光谱的变化趋势基本一致，最显著的特征是近红外光谱均在1 414，1 918，2 207 nm附近出现较强的吸收峰，光谱的吸光度随着有机碳含量的增大而增大，说明土壤近红外光谱的吸光度对土壤有机碳含量有一定的响应。这主要是由于1 414 nm波长吸收峰与亚甲基CH2、C-H组合频和烃类或脂肪类有关;1 918 nm波长吸收峰与水分子O-H;2 207 nm波长对应芳基C-H、CONH2、β-折叠结构中与肽主链呈直角的N-H和C=O［33］，这些特征波长点能很好地反映样品的基团信息，不同基团的吸收峰和吸收强度不同，由于土壤样品的有机碳含量不同，使各个样品的基团含量不同，最终使光谱特征发生相应的变化。

土壤近红外光谱均在1 414、1 918、2 207 nm附近出现较强的吸收峰，这与申艳［31］、Cozzolino 和 Moron［32］得到的土壤近红外光谱图比较相似，但峰值出现的位置稍有差异。关于吸收峰对应基团响应与Cozzolino和Moron研究相似，但是对应基团稍有不同，他们认为1 400 nm处的峰通常与O-H键及脂肪C-H键有关，1 900 nm处的峰通常与氨基化合物中的N-H和O-H键有关，而2 200 nm处的峰通常是由羒基化合物的O-H键、氨基化合物的N-H键、胺基中的N-H键以及脂肪链中的C-H键振动引起的。

图1 原始的不同有机碳含量的土壤样品近红外光谱

2.2 基于全波段光谱的预测模型基于样品的原始近红外光谱数据，为分析预处理方法对校正模型效果的影响，分别采用未处理、S+MSC、S+d1、S+d2、S+MSC+d1、S+MSC+d2(S为Savitzky-Golay平滑处理，MSC为多元散射校正，d1为一阶导数，d2为二阶导数)预处理方法结合PLS、SVR及PCR方法建立模型，获得样品的校正模型和预测模型的参数结果如表2～7。

由表2～7可知:采用同一种光谱预处理方法，不同的建模方法获得样品的校正模型和预测模型的参数不同，最佳的主成分数也各不相同。同样，应用同一种建模方法，但采用不同的光谱预处理方法，获得样品的校正模型和预测模型的参数也不同。无论采用哪种光谱预处理方法，PLS法建立校正模型和预测模型的R最大，RMSE、SE的值较小，同时3种方法建立的模型效果依次为:PLS＞SVR＞PCR。

光谱经过预处理之后，无论应用何种方法建模，样品校正模型和预测模型的R明显变高，RMSE、SE明显变小，主成分数也有所不同。由此说明，光谱预处理方法的采用有利于改善模型的效果，但是预处理方法的交叉使用对模型效果的改变程度也各不相同。

由表2～7亦可知:在全波段谱区，对光谱采用平滑、多元散射校正和一阶导数(S+MSC+d1)预处理，应用PLS方法建模，样品校正模型和预测模型效果最好。相关参数为:校正模型的 R、RMSE、SEC 分别为0.761 2、0.514 9、0.515 2;预测模型的 R、RMSE、SEP 分别为0.739 2、0.515 3、0.515 7，最佳主成分数为7。

综上比较，在全波段谱区，采用S+MSC+d1光谱预处理方法，应用PLS方法建立的校正模型和预测模型效果较好。

表2 原始光谱的全波段校正与预测模型结果

表4 S+d1方法预处理全波段光谱校正与预测模型结果

2.3 基于优选谱区的预测模型谱区优选是数据集压缩的常用方法，从样品的光谱信息中可知，近红外光谱的数据点一般达到上千个，短波区的近红外光谱信息较弱，而在1 300～2 500 nm的光谱信息较为丰富。在利用光谱建模时，选择谱区过宽，会增加无效信息，过窄会减少有效信息，所以谱区的优选是建立较好模型的重要环节。为获取最佳谱区，首先计算全光谱每个波长点的吸光度与分析的参比值［33］的相关性，得到各个波长点吸光度对参比值的回归系数，再根据回归系数进行优选。由土壤样品全光谱吸光度和有机碳含量值回归系数分布图可以得出，至少有3段回归系数比较平滑的谱区与土壤有机碳含量有很高的相关性，即1 380～1 450 nm，1 800～1 950 nm，2 050～2 300 nm这3段光谱作为建模谱区(图2)，进一步分析确定最佳谱区。对土壤样品的近红外光谱在选定谱区内进行不同的预处理，并分别应用PLS、SVR和PCR 3种方法建立土壤有机碳含量的数学模型。优选谱区，不同的预处理方法，内部完全交互预测获得校正模型和预测模型的相关参数如表8～10。

表5 S+d2方法预处理全波段光谱校正与预测模型结果

表6 S+MSC+d1方法预处理全波段光谱校正与预测模型结果

表7 S+MSC+d2方法预处理全波段光谱校正与预测模型结果

由表2～7和表8～10可知:经过谱区优选后，无论采用何种预处理方法，应用何种建模方法，所得到的校正和预测模型效果都优于未做谱区优选的模型。由表8～10可知:在优选谱区建立土壤有机碳含量的预测模型，无论应用何种建模方法，S+MSC+d1预处理后建立的模型优于其他预处理后的模型，最佳主成分数各有不同，这一结果也呼应了上面S+MSC+d1预处理方法可以优化模型的作用。采用同一种预处理方法，应用不同的建模方法可知:PLS方法建立的模型优于其他2种方法所得的模型，最佳主成分数各有不同，这一结果也呼应了PLS是3种建模方法中最优的分析结果。

图2 土壤近红外光谱吸光度和有机碳含量值回归系数分布

综上可知，土壤样品光谱优选区域为1 380～1 450 nm，1 800～1 950 nm，2 050～2 300 nm，采用平滑、多元散射校正和一阶导数预处理方法，应用偏最小二乘(PLS)方法建立的预测模型最优，土壤样品有机碳含量模型的参数如下:校正模型的 R、RMSE、SEC 分别为0.805 2、0.512 2、0.512 5;预测模型的 R、RMSE、SEP 分别为0.768 1、0.514 3、0.514 6，最佳主成分数为8。同时给出全波段和优选谱区的校正模型土壤样品有机碳含量的预测值和实测值的关系(图3)，由此可知，该模型具备一定森林土壤有机碳含量的预测能力。

表8 PLS方法下不同预处理方法在优选波段的校正与预测模型结果

表9 SVR方法下不同预处理方法在优选波段的校正与预测模型结果

表10 PCR方法下不同预处理方法在优选波段的校正与预测模型结果

图3 校正模型预测值与实测值的关系

3 结论

该研究基于近红外光谱技术，通过不同的预处理方法交叉运用，全波段谱区和优选谱区的选取，不同的建模方法(PLS、SVR、PCR)的应用，建立了小兴安岭次生林土壤有机碳含量的校正模型和预测模型。从森林土壤的光谱可知，吸光度随土壤有机碳含量的增加而增加，并且在波长1 414、1 918、2 207 nm附近出现较强的吸收峰。当光谱区域为优选谱区，光谱数据预处理方法为Savitzky-Golay平滑+多元散射校正+一阶导数，建模方法为PLS，主成分数为8时，建立的校正模型有最佳预测效果。其中校正模型的R、RMSE、SEC分别为0.805 2、0.512 2、0.512 5;预测模型的 R、RMSE、SEP分别为0.768 1、0.514 3、0.514 6，最佳主成分数为8。结果表明:应用近红外光谱技术结合不同预处理方法、谱区优选、不同建模方法可以寻找有效测定森林土壤有机碳含量的新方法，为大面积、实时、精准测定森林土壤有机碳含量提供了新检测技术，为施行有效的林区抚育管理提供技术和理论依据。

［1］周国模，刘恩斌，佘光辉.森林土壤碳库研究方法进展［J］.浙江林学院学报，2006，23(2):207-216.

［2］高荣强，范世福.现代近红外光谱分析技术的原理及应用［J］.分析仪器，2002，3(9):12.

［3］刘旭，陈华才，刘太昂，等.PCA-SVR联用算法在近红外光谱分析烟草成分中的应用［J］.光谱学与光谱分析，2007，27(12):2460-2463.

［4］相秉仁，李睿，吴拥军，等.近红外光谱分析技术在药学领域中的应用［J］.计算机与应用化学，1999，16(5):327-328.

［5］王多加，周向阳，金同铭，等.近红外光谱检测技术在农业和食品分析上的应用［J］.光谱学与光谱分析，2004，24(4):447-450.

［6］ALVES A，SANTOS A，ROZENBERG P，et al.A common near infraredbased partial least squares regression model for the prediction of wood density of Pinus pinaster and Larix × eurolepis［J］.Wood Science and Technology，2012，46(1/3):157-175.

［7］XU Q，QIN M，NI Y，et al.Predictions of wood density and module of elasticity of balsam fir(Abies balsamea)and black spruce(Picea mariana)from near infrared spectral analyses［J］.Canadian Journal of Forest Research，2011，41(2):352-358.

［8］邹鑫.近红外光谱分析法预测欧美杨材性的研究［D］.北京:北京林业大学，2010:63-64.

［9］RINNAN R，RINNAN Å.Application of near infrared reflectance(NIR)and fluorescence spectroscopy to analysis of microbiological and chemical properties of arctic soil［J］.Soil Biology and Biochemistry，2007，39(7):1664-1673.

［10］BELLON-MAUREL V，MCBRATNEY A.Near-infrared(NIR)and midinfrared(MIR)spectroscopic techniques for assessing the amount of carbon stock in soils-critical review and research perspectives［J］.Soil Biology and Biochemistry，2011，43(7):1398-1410.

［11］陈鹏飞，刘良云，王纪华，等.近红外光谱技术实时测定土壤中总氮及磷含量的初步研究［J］.光谱学与光谱分析，2008，28(2):295-298.

［12］黄光群，王晓燕，韩鲁佳.基于支持向量机的有机肥总养分含量NIRS分析［J］.农业机械学报，2010，41(2):93-98.

［13］陈强，吴慕春，薛月菊，等.支持向量机回归的碳通量预测［J］.计算机工程与应用，2009，45(21):235-238.

［14］杨绍锷，黄元仿.基于支持向量机的土壤水力学参数预测［J］.农业工程学报，2007，23(7):42-47.

［15］宋海燕，何勇.基于OSC和PLS的土壤有机质近红外光谱测定［J］.农业机械学报，2007，38(12):113-115.

［16］毕卫红，陈俊刚，白立春.基于近红外光谱技术预测土壤中的全氮含量［J］.分析仪器，2006(3):47-49.

［17］于飞健，闵顺耕，巨晓棠，等.近红外光谱法分析土壤中的有机质和氮素［J］.分析试验室，2002，21(3):49-51.

［18］丁海泉，卢启鹏，朴仁官，等.土壤有机质近红外光谱分析组合波长的优选［J］.光学精密工程，2007，15(12):1946-1951.

［19］纪文君，史舟，周清，等.几种不同类型土壤的VIS-NIR光谱特性及有机质响应波段［J］.红外与毫米波学报，2012，31(3):277.

［20］沈掌泉，王珂.用近红外光谱预测土壤碳含量的研究［J］.红外与毫米波学报，2010，29(1):32-37.

［21］韩瑞珍，宋韬，何勇.基于可见/近红外光谱的土壤有机质含量预测［J］.中国科学:信息科学，2010，40(S1):111-116.

［22］卢艳丽，白由路，杨俐苹，等.基于高光谱的土壤有机质含量预测模型的建立与评价［J］.中国农业科学，2007，40(9):1989-1995.

［23］张娟娟，田永超，姚霞，等.基于近红外光谱的土壤全氮含量估算模型［J］.农业工程学报，2012，28(12):183-188.

［24］郑立华，李民赞，安晓飞，等.基于近红外光谱和支持向量机的土壤参数预测［J］.农业工程学报，2010，26(S2):81-87.

［25］YANG X M，XIE H T，DRURY C F，et al.Determination of organic carbon and nitrogen in particulate organic matter and particle size fractions of brookstone clay loam soil using infrared spectroscopy［J］.European Journal of Soil Science，2012，63(2):177-188.

［26］HUMMEL J W，SUDDUTH K A，HOLLINGER S E.Soil moisture and organic matter prediction of surface and subsurface soils using an NIR soil sensor［J］.Computers and Electronics in Agriculture，2001，32(2):149-165.

［27］CHANG C W，LAIRD D A.Near-infrared reflectance spectroscopic analysis of soil C and N［J］.Soil Science，2002，167(2):110-116.

［28］岑益郎，宋韬，何勇，等.基于可见/近红外漫反射光谱的土壤有机质含量估算方法研究［J］.浙江大学学报:农业与生命科学版，2011，37(3):300-306.

［29］李耀翔，张鸿富，张亚朝，等.基于近红外技术的落叶松木材密度预测模型［J］.东北林业大学学报，2010，38(9):27-30.

［30］张慧娟，李耀翔，张鸿富，等.基于近红外光谱不同波段的红松木材含水率预测分析［J］.东北林业大学学报，2011，39(4):83-85.

［31］申艳，张晓平，梁爱珍，等.近红外光谱分析法测定东北黑土有机碳和全氮含量［J］.应用生态学报，2010，21(1):109-114.

［32］COZZOLINO D，MORON A.The potential of near-infrared reflectance spectroscopy to analyse soil chemical and physical characteristics［J］.The Journal of Agricultural Science，2003，140(1):65-71.

［33］严衍禄，陈斌，朱大洲，等.近红外光谱分析的原理、技术与应用［M］.北京:中国轻工业出版社，2013.