张静
摘要 [目的]对土壤有机碳含量进行预测研究。[方法]利用高光谱仪对表层土壤进行光谱测定并且进行光谱数据的预处理,通过多元线性逐步回归(SMLR)和偏最小二乘回归(PLSR)方法对土壤有机碳含量进行预测,并对2种模型的精度进行比较。[结果]LSR模型的精度高于SMLR模型。[结论]偏最小二乘回归法优于多元逐步回归法,对有机碳的预测具有更好的效果。
关键词 土壤;有机碳;高光谱;多元线性逐步回归;偏最小二乘回归
中图分类号 S126 文献标识码 A 文章编号 0517-6611(2018)02-0001-03
Abstract [Objective]To predict soil organic carbon content.[Method]Surface soil was detected by high spectrometer spectrometric and spectral data was treated, through stepwise multiple linear regression(SMLR) and partial leastsquares regression(PLSR) method,soil organic carbon content was predicted ,and the accuracy of the two models was compared.[Result]The accuracy of PLSR model was higher than SMLR model.[Conclusion]PLSR method is better than SMLR method in forecasting organic carbon.
Key words Soil;Organic carbon;Hyperspectral;SMLR;PLSR
土壤是人類生活和农业生产的支撑和基础,对土壤类型的区分可以帮助人类因地制宜地利用土壤,同时也给土地利用规划、土地评价、农业技术推广提供重要的依据。
伴随着高光谱遥感技术的不断发展,可利用高光谱技术提取具有诊断意义的地物光谱特征。土壤光谱反射率是反映土壤理化性质的综合指标,故土壤的光谱特征可用于土壤各种物质含量的反演、分类等。Bowers等[1]发现影响土壤反射特性的主要原因是土壤有机质,并且还氧化了土壤有机质,发现能提高土壤的反射系数。徐彬彬等[2]发现在可见—近红外波段,有机质对土壤光谱的影响最大。Van Waes等[3]基于一阶微分变换结合偏最小二乘回归预测模型,成功预测了自然草地和农业草地的土壤有机质含量。卢艳丽等[4]利用逐步回归分析和主成分回归分析等统计方法对土壤进行了处理,最终建立了东北黑土有机质含量预测模型。
目前国内外对高光谱土壤有机碳含量研究进行了大量的工作,但是由于不同土壤类型、不同区域土壤都有其各自的特性,研究特定区域的土壤就势在必行。笔者主要是对丰乐河流域的土壤进行研究,基于土壤高光谱反射特性对土壤进行反射率、一阶微分和连续统去除法的数据变换,并且通过多元线性逐步回归模型和偏最小二乘回归模型对土壤有机碳含量进行预测。
1 材料与方法
1.1 土壤样品的采集
研究区为丰乐河流域,为巢湖的重要支流之一。地理坐标为116°45′~117°21′E、31°18′~31°33′N。丰乐河流域西起横塘岗乡,东至柿树岗乡,南起东河口镇,北至椿树镇,面积为1 500 km2。流域地形以丘陵为主,土地利用类型主要为林地和农业耕作用地,林地主要为松林和果园,农业耕作用地一般为水田和旱地,其土壤类型也较多,有黄褐土、黄棕壤、红壤、潴育水稻土等。土壤样品采集自表层0~20 cm,共162个土样,每个土样分成2份:1份过20目筛,用于光谱测量;1份过100目筛,用于化学方法测定土样有机碳含量。光谱测量通过室内光谱仪进行,化学分析利用重铬酸钾-硫酸亚铁滴定法进行。
1.2 光谱的测定
光谱测试采用荷兰Avantes公司生产的型号分别为Avaspec-2048×14、Avaspec-NIR256-2.5的2种地物光谱仪,其中Avaspec-2048×14光谱仪光谱范围为188~1 170 nm,光谱分辨率为2.4 nm,光谱采样间隔0.6 nm。型号Avaspec-NIR256-2.5光谱范围是928~2 528 nm,光谱分辨率为15 nm,光谱采样间隔6 nm。2种光谱仪所输出的光谱曲线均设定由10条原始扫描光谱自动平均所获。对于每一个土壤样品进行测试前使用标准参考白板进行定标,同时每份土壤从4个不同方向对所有土样进行平均值运算,最终得到土壤样品的光谱反射率数据。
1.3 光谱数据预处理
1.3.1 异常样本剔除。在获取样本土样和测量样本时,由于各因素的影响,会出现部分误差甚至错误,因此在进行数据处理前,需对样本进行检验,判定和剔除异常样本。该研究采用箱形图对异常样本进行剔除,剔除后样本共156个。
1.3.2 光谱曲线平滑。
光谱曲线平滑是为了剔除获取的原始光谱曲线的高频噪声,以及曲线上的细小“毛刺”现象,得到一条较为平滑的曲线。该研究使用移动平均法,对获取的原始光谱反射率数据进行平滑去噪处理。移动平均法是对包括待平滑光谱数据点及前后各若干个数据点进行平均,用平均值取代该点原来的光谱值[5]。图1为平滑后的曲线图。
1.3.3 微分变换。
一阶微分变换下的光谱曲线值反映了原始光谱反射率曲线的斜率值及其变化情况,获得相应的曲线拐点。光谱一阶微分的最大值所对应的波段是光谱反射率增加速度最大的波段位置,而最小值则是反映了光谱反射率减少速度最大的波段位置。对于一个离散光谱,其波长k点处的一阶微分[6]为:
对光谱曲线进行分变换,主要是为了扩大重叠混合部分光谱的差异,以便更好地辨别样品之间的光谱特征[8]。另外光谱微分变换可以降低因土壤组成成分含量不同而引起的对土壤光谱特征的影响[7],并且还可以减弱由大气散射和吸收作用带来的对地物光谱特征的影响。如图2所示,在1 000~2 300 nm波段之间,原始光谱中的细节吸收谷和吸收峰也得到了凸显。
1.3.4 连续统去除。连续统去除法即去包络线法。光谱曲线由一条接连不断的折线段包裹(这个折线段即称为包络线),将包络线看作背景,去掉包络线后可以压制光谱背景,获得光谱特征吸收带,提取光谱特征信息。光谱特征吸收带的计算公式是:
式中,Rc、Rcr、R分别是光谱特征吸收带、包络线和原始光谱反射率;λ为波长。
连续统去除法可显著地突出光谱曲线的反射和吸收特征,并将其归一到同一个光谱背景上,在与其他光谱曲线的特征数值的比较上具有很大的优势[9]。如图3所示,原始数据经过去包络线处理后,3个水汽吸收带在1 400、1 900、2 200 nm处的吸收谷更加明显,还可以看出在可见光 500 nm附近有2个又窄又深的吸收谷,800~1 100 nm 波段处还有一个又宽又浅的吸收谷。
1.4 建模方法与精度评价
该研究采用多元线性逐步回归模型(SMLR)和偏最小二乘回归模型(PLSR)分别建立土壤有机碳含量预测模型。SMLR是按规则对输入的自变量进行筛选,找出最优组合建立回归方程,它要求自变量与因变量之间为线性关系,并且自变量之间不存在严重的共线性,因变量符合正态分布;选择特征波段数据作为预测模型的因变量。PLSR 在进行预算前先对数据进行降维,在数据压缩时,兼顾了目标变量矩阵的作用[10]。另外PLSR对样本数量的要求较低,样本个数小于自变量个数时,也可建立回归模型。PLSR突出的特点是逐步提取光谱数据中的成分,并且还考虑了对目标变量的最大解释。
模型精度评价主要按照以下几个参数进行:均方根误差RMSE,决定系数R2,以及统计量F所对应的显著性水平Sig.。RMSE越小越好,R2越大越好,Sig.<0.05即代表显著性水平高,模型有效。
2 结果与分析
2.1 有机碳的多元线性逐步回归模型
该研究将156个土壤样本分为建模集97个,验证集59个。对土样进行相关分析选取特征波段,分别将反射率、一阶微分以及连续统去除这3个光谱指标的特征波段作为多元逐步回归模型的自变量,土壤有机碳含量作为因变量,建立有机碳含量反演模型。表1为多元逐步回归模型的检验结果。观察发现3种模型精度都不高,可能的原因是土壤中有机碳成分复杂,其光谱特性很难用几个波段解释,只关注相关性高的波段,而忽略了整个波段都有一定的相关性。相比较之下,一阶微分变换下R2最大,RMSE最小,模型效果最好,可能是因为其扩大了重叠部分的光谱差异。
多元逐步回归模型的有机碳含量反演模型表达如下。
图4是多元线性逐步回归模型下土壤有机碳含量实测值与预测值的散点图。样点越接近1∶1线,说明模型预测的精度越好。从图4可以看出,3种数据下的散点图紧凑性差不多,一阶微分变换下的R2最大。综合考虑模型的精度稳
定性和预测的实际精度,一阶微分变换下的多元逐步回归所得的模型效果最好。
2.2 有机碳的偏最小二乘回归模型
与构建SMLR的建模集和验证集相同,但PLSR是全波段参与建模,数据量庞大,它可对庞大且有多重共线性的土壤高光谱数据进行压缩,并提取出与因变量相关的主成分。
从表2可以看出,3种偏最小二乘回归模型的建模精度都很高,反射率、一阶微分、连续统去除法的R2相差不多,验证模型也相差不多。图6为3种偏最小二乘回归模型下的预测值与实测值的比较,可以看出,样点几乎都分布于1∶1线的周围,紧凑度各有差异,相对而言,一阶微分变换下的散点图比反射率、连续统去除法的散点图稍好,R2值也稍大,故綜合考虑,一阶微分变换下的偏最小二乘回归模型效果最好。
表2与表1相比,明显表2的建模精度高于表1。图5与图4相比,图5的3幅图整体精度也高于图4。由此对比可发现,PLSR优于SMLR,预测值更逼近于实测值。
3 结语
该研究对土壤样品进行异常样本的剔除,避免影响有机碳含量预测精度。运用反射率、一阶微分以及连续统去除3种光谱数据进行多元逐步回归(SMLR)和偏最小二乘回归分析(PLSR),发现一阶微分变换下的SMLR和PLSR效果最好。当研究的土壤样本中某一物质组分含量较低且无明显的吸收峰时,进行微分变换后,易找到相关性高的波段,使得该方法在反演土壤成分含量时应用较多;当土壤光谱信息重叠时,微分变换还可以扩大光谱之间的特征差异,故在土壤属性的反演和类型区分上较多使用。对于所建模型结果,PLSR精度总体上比SMLR要高一些,尤其是建模精度。PLSR解决了自变量之间的多重共线性问题,能提供更可靠的建模结果,对于样本个数小于自变量个数的情况下比较有利。验证集的预测值和实测值散点图也表明了整体性PLSR优于SMLR,因此PLSR具有快速预测有机碳含量的潜力。
参考文献
[1]BOWERS S,HANKS R J.Reflection of radiant energy from soils[J].Soil science, 1965, 100(2):130-138.
[2] 徐彬彬, 季耿善,朱永豪.中国陆地背景和土壤光谱反射特性的地理分区的初步研究[J].环境遥感,1991,6(2):142-151.
[3] VAN WAES C,MEATDAGH I,LOOTENS P,et al.Possibilities of near infrared reflectance spectroscopy for the prediction of organic carbon concentrations in grassland soil[J].Journal of agricultural science,2005,143(6):487-492.
[4] 卢艳丽,白由路,杨俐苹,等.基于主成分回归分析的土壤有机质高光谱预测与模型验证[J].植物营养与肥料学报,2008,14(6):1076-1082.
[5] 张芳,熊黑钢,龙桃,等.实测反射率与影像反射率对土壤碱化预测的对比分析[J].光谱学与光谱分析,2011,31(1):227-232.
[6] 王欣.近红外分析中光谱预处理方法的研究与应用进展[J].科技资讯,2013(15):2.
[7] CLOUTIS E A.Hypersoectral geological remote sensing: Evaluation of analytical techniques[J].International journal of remote sensing,1996,17(12):2215-2242.
[8] 于士凯,姚艳敏,王德营,等.基于高光谱的土壤有机质含量反演研究[J].中国农学通报,2013,29(23):146-152.
[9] 谢伯承,薛绪掌,刘伟东,等.基于包络线法对土壤光谱特征的提取及其分析[J].土壤学报,2005,42(1):171-175.
[10] 纪文君.基于野外viS-NIR高光谱的土壤属性预测及田间水分影响去除研究[D].杭州:浙江大学,2014:67-72.