基于支持向量机的皖北旱作区表层土壤有机质含量估测

2021-06-21 01:35杨邵文
黑龙江工程学院学报 2021年3期
关键词:参量波段光谱

杨邵文

(安徽理工大学 空间信息与测绘工程学院,安徽 淮南 232001)

作为地理环境中的重要组成部分,土壤在人类生存和社会发展过程中具有十分重要的地位[1]。而有机质作为土壤中的重要组成部分,是衡量土壤肥力的重要理化指标,在土壤结构和性状的改善方面具有重要的作用[2],因此,实现土壤有机质含量的测定显得尤为重要。传统的做法是通过实验室化学分析测定土壤有机质含量,该方法测定的结果较为准确,但是却存在费时、费力以及耗资较高的问题[3]。由于土壤光谱曲线可以很好地反映出包括土壤有机质含量在内的多种土壤属性[4],且遥感影像具有获取简单、便捷、覆盖面积广、时间分辨率较好等特点,为土壤有机质含量的快速监测提供了一个新的途径[5]。该方法的基本原理是利用有机质的颜色、吸湿作用以及相关化学键对土壤反射光谱特征的影响,寻找可见光与近红外范围内光谱信息与土壤有机质间的响应关系,以实现基于遥感影像的土壤有机质含量空间估测。

近年来,以统计学中的回归方法为基础,在探讨涉及土壤有机质的遥感影像反演的过程中,国内外学者进行了大量研究。Guo等人基于高光谱影像通过偏最小二乘回归(Partial Least Squares Regression,PLSR)等方法实现了全区范围内的土壤有机碳含量估测[6];Chen等人则是通过对有机碳含量进行对数变换,并利用线性模型实现可见光波段范围内基于航空相片的研究区有机碳含量估测[7];刘焕军等人基于多光谱影像的可见光与近红外波段建立了土壤有机质含量估测模型[8];栾福明等人探讨了不同土壤深度范围内基于多光谱影像建立土壤有机质含量估测模型的可行性[9];乔娟峰等人则是对多光谱遥感影像的反射率进行相应预处理后,对比单波段和多波段模型的估测效果,并进行有机质含量估测模型的优选[10]。上述研究表明,基于遥感影像的土壤有机质快速估测技术具备较高的可行性,均取得了令人满意的结果。但以上研究多是以单期影像为基础构建反演模型,忽略了多时相影像中所包含的变化信息,已有研究表明,利用这种多余观测的方法来丰富光谱信息可有效增强影像中所隐藏的弱信号[11],且在较大范围的旱作区下,利用支持向量机这一机器学习方法来建立土壤有机质多光谱估测模型的可行性问题鲜有研究。同时,对于建模数据优化、建模方法优选等问题还有待进一步分析。

本文以两期landsat8 OLI遥感影像为数据源,采用不同的波段变换方法构建光谱参量,尝试不同的建模数据选取方法,利用不同核函数构建支持向量机(SVM)模型,遴选土壤有机质含量优化估测模型,以期为皖北旱作区土壤有机质含量快速监测的实现提供技术参考。

1 材料与方法

1.1 研究区概况

以坡度小于5°且每平方公里内旱地占耕地比例在40%以上作为界定的依据,确定安徽省旱作区范围,即皖北旱作区。该区域以平原为主,范围为东经114°52′~118°11′,北纬32°24′~34°39′之间,涵盖了宿州、淮北、蚌埠、阜阳、淮南、亳州6个省辖市,四季变化较为明显、气候温和、雨水适中且平均海拔在30 m左右,主要土壤为砂姜黑土,此外还包括褐土和潮土[12]。

1.2 数据采集

以研究区25个县中的耕地土壤为研究对象,综合考虑成土条件、土壤环境、土壤类型、耕作方式等自然和人为因素的影响,采用网格布点结合分层抽样的方法均匀布设土壤采样点,以确保样点的代表性与合理性。采样时间为2017年,采样深度为0~10 cm,利用GPS对采样点进行精确定位,采用梅花法、“S”法或棋盘法在每个采样点所处位置采取混合样,共采集样点34个,采样点具体分布情况如图1所示。

图1 研究区位置及采样点分布

采集到的土壤样本经自然风干及过筛后采用重铬酸钾-外加热法检测土壤有机质含量。为确保数据划分的合理性,采用 Kennard-Stone(K-S)方法[13]基于两期遥感影像中各样点对应的光谱反射率划分建模集与验证集,比例设为2∶1,其中,建模集样点23个,验证集样点11个。表1为样点有机质含量统计特征,可以发现建模集样本整体分布与总体样本较为相似,具备较高的代表性,而验证集虽然与建模集相比数值分布较为集中,但均值与总体样本接近且分布趋势也较为相似,因此,也可以认为具备较好的代表性。

表1 土壤有机质含量统计特征

1.3 影像预处理

Landsat8 OLI影像共有9个波段,包括分辨率为30 m的海岸波段、蓝光波段、绿光波段、红光波段、近红外波段和2个短波红外波段以及1个红外卷云识别波段,此外,还包括1个分辨率为15 m的全色波段[14],本次主要选用前7个波段作为建模依据。数据级别为L1T级,数据来源为地理空间数据云(http://www.gscloud.cn/)。

由于土壤有机质含量短期内变化幅度较低,为了进一步丰富影像的光谱信息,且考虑到云层和植被对影像反射率的影响,分别选取2017年11月和12月两期云量低于5%的四景Landsat8 OLI影像作为研究数据,该时期研究区的植被覆盖度整体相对较低,更易反映出土壤的光谱信息。影像轨道号分别为P122R36、P123R37、P122R37、P121R37,由于受云量影响,11月轨道号为P123R37的影像使用10月30日获取的影像来代替。对前7个波段进行辐射定标、FLAASH大气校正、镶嵌、裁剪等预处理,最终得到研究区的两期遥感影像,并提取样点对应的光谱反射率。

1.4 光谱预处理

本文结合已有研究[15],对两期影像中获取的7个波段反射率,分别尝试进行对数、倒数、倒数之对数3种数学变换以及波段组合等预处理以进一步增加光谱参量。其中,波段组合包括比值形式、差值形式、差值倒数形式以及差和与和差比值形式,具体如表2所示,其中,Bi和Bj表示第i和第j波段的反射率,i,j取1到7且i不等于j,每期影像可得到7个原始光谱参量和147个波段变换参量(不考虑正负号),两期数据共获得308个光谱参量。

表2 波段变换形式

1.5 建模数据的选取

为探讨合理的建模数据选取方法,本次分别将全参量、显著性参量、极显著性参量以及基于最优多元逐步回归模型选取的优化参量作为建模数据,建立研究区土壤有机质含量的估测模型,即基于皮尔森相关系数对采样点有机质含量实测值与相应光谱参量进行相关性分析,其中,全参量是以所有的光谱参量作为建模依据,显著性参量是选择通过P=0.05水平上的显著性检验的光谱参量,极显著性参量则是仅选取通过P=0.01水平上的显著性检验的光谱参量;而基于多元逐步回归模型的建模数据选取方法则是基于样点的实测值与对应光谱参量建立多元逐步回归模型,选取最优模型对应的光谱参量作为后期的建模依据。

1.6 建模方法与精度评价

由于支持向量机(SVM)具备较好的小样本学习能力,且能够很好地处理非线性问题[16],因此,尝试使用该方法建立土壤有机质含量估测模型,并探讨不同核函数下模型的精度变化。支持向量机作为1种内核统计模型,是1种监督类学习方法,它可以依据定义的核函数将输入数据映射到高维特征空间,以寻找1个满足分类或回归的超平面来实现分类与回归决策[17]。本次分别采用线性函数、多项式函数、高斯径向基函数作为核函数进行对比分析,其中,多项式函数选择较为常用的二次和三次多项式,模型的其余相关参数通过网格搜索法结合十折交叉验证的方式来确定[18]。

选用均方根误差(Root Mean Square Error,RMSE)和平均相对误差作为模型精度评价指标,两者值越小说明误差越小,估测精度越高。

(1)

(2)

式中:SOMob为样本有机质含量实测值;SOMpre为预测值;n为样本数量。

本文所涉及的数据处理与分析均是基于ENVI5.3、Matlab2018以及SPSS20来实现,图片制作与优化则是利用ArcGIS10.1软件来完成。

2 结果与分析2.1 土壤光谱与有机质含量相关分析

将有机质含量实测值与对应的308个光谱参量进行基于皮尔森系数的相关性分析,结果显示在11月的影像中不存在极显著性相关的光谱参量,显著性相关的参量共18个,以差值组合及其倒数形式为主,倒数形式居多,此外,还包括红光波段、短波红外波段(SWIR 2)以及2个短波红外波段的3种数学变换形式;在12月的影像中显著性参量较多,达到42个,其中,极显著性参量数量达到29个。42个显著性参量中有25个是差值组合及其倒数形式,分别为12个和13个,还包括1个和差比值形式以及红、绿波段和2个短波红外波段及其3种数学变换形式,而极显著性参量与显著性参量相比,剔除了红、绿波段、和差比值形式以及其余形式中的部分光谱参量。最终,基于两期的Landsat8 OLI影像共获取60个显著性参量以及29个极显著性参量,其中,12月的海岸波段与短波红外波段差值的倒数形式与有机质含量实测值相关性最高,相关系数绝对值达到0.56。所有显著性参量的具体信息如表3所示。

表3 土壤有机质含量与光谱参量的相关分析

2.2 基于多元逐步回归模型的光谱参量优选

根据样点有机质含量实测值与相应光谱参量,构建多元逐步回归方程,选取拟合效果最优,即解释能力最强的模型。该模型下筛选的光谱参量即为多元逐步回归模型确定的重要参量,将其作为下一步建模过程中的光谱参量,实现优选。此方法共筛选出6个参量,分别是11月影像中海岸波段与蓝光波段的和差比值形式((B1+B2)/(B1-B2))、红光波段与短波红外波段的比值形式(B4/B6)、红光波段与蓝光波段的比值形式(B4/B2)、绿光波段与红光波段差值的倒数形式(1/(B3-B4))、近红外波段与短波红外波段差值的倒数形式(1/(B5-B6))以及12月影像中海岸波段与短波红外波段差值的倒数形式(1/(B1-B6))。可以发现入选参量均是经预处理后得到的变换参量,且两期影像中的光谱参量均有包含。

2.3 土壤有机质含量估测模型及验证

基于3种核函数与4种建模数据选取方式建立土壤有机质含量估测模型并对验证集进行精度评定,结果如表4所示。

表4 土壤有机质含量估测模型验证

由表4可知,各建模方式下估测精度存在一定程度的差异,基于优化参量建立的估测模型取得了最好的估测效果,RMSE普遍在5以下,表明模型具有较好的估测能力,且在多项式函数下的模型取得了最好的估测效果;其次是全参量下的估测模型,该建模方式在多项式函数下也取得了相对较好的估测效果,RMSE位于5以下,MRE最低达到21.55;而基于显著性参量与极显著性参量建立的估测模型整体上效果要弱于优化参量与全参量,MRE整体位于25左右,且RMSE均出现大于5的情况。

从建模方法上来看,基于线性函数的估测模型在4种建模方式下均未体现出较为优越的估测效果;基于多项式函数的模型在全参量和优化参量建模形式下拥有最好的估测能力,但在显著性参量和极显著性参量建模方式下效果较差,尤其是以极显著性参量作为建模数据时,二次多项式下验证集的MRE已经达到30以上,从整体估测效果来看三次多项式下模型估测性能更为稳定;而RBF函数下的估测模型则在显著性参量和极显著性参量建模方式下体现出较好的估测效果。

为了进一步探究模型在研究区不同土壤类型下的估测精度,以整体估测效果最优的优化参量建模方式为例,按土类对验证集样点进行划分,分析各模型在3种主要土壤类型下的估测效果,结果如表5所示。从土类来看,估测模型在砂姜黑土和褐土中的估测效果较好,MRE与RMSE均处于20和4以下,而潮土的效果整体较差,其MRE与RMSE均分别处于30和7以上。从建模方法上来看,在砂姜黑土和褐土中,三次多项式下的SVM模型依然取得了很好的估测能力。而在潮土中,RBF函数下的SVM模型则取得了相对最好的估测结果,但考虑到潮土下各模型的MRE均位于35附近,因此,4种建模方法并无较大差异。综合来看,三次多项式下的估测模型在3种土类中的整体估测效果较好。

表5 优化参量下不同土类的有机质含量估测模型验证

2.4 研究区土壤有机质空间格局分析

基于上述各建模方式和建模方法以及不同土类下验证集的估测效果,遴选优化估测模型,最终决定以优化参量建模方式下的三次多项式SVM模型对研究区进行全区范围内的表层土壤有机质含量估测。为防止异常值和水体的干扰,利用ENVI中的band math功能实现土壤相关区域的掩模,其中,考虑到研究区土壤养分的实际情况以及未经处理前有机质含量反演图中像元值的分布情况,将非异常值范围设为0~50 g·kg-1以去除少数异常值,而水体的掩模图像则是基于归一化水体指数(Normalized Difference Water Index,NDWI)来制作,最终得到皖北旱作区的土壤有机质含量空间格局特征,并以全国第二次土壤普查养分分级标准为依据对皖北旱作区的土壤有机质含量进行分级。其中,小于6 g·kg-1为六级,6~10 g·kg-1为五级,10~20 g·kg-1为四级,20~30 g·kg-1为三级,30~40 g·kg-1为二级,大于40 g·kg-1为一级(见图2)。

图2 研究区土壤有机质含量反演

由反演结果可得,全区土壤有机质含量以三级和四级为主,分布较为广泛,其中,三级面积占比最高,在6个等级土壤的总面积中占比为62%左右,四级则为26%。而一级、五级和六级占比较低,三者在总面积中的占比大约为4%。二级分布则较为分散,其在研究区的东北部相对较为明显。综合分析可得,皖北旱作区土壤有机质等级基本位于四级及以上,各级土壤在全区均有分布,且东北方向有机质含量整体较高,而南部地区整体较低。

3 讨论与结论

3.1 讨论

研究结果表明,红、绿及两个短波红外波段与土壤有机质含量存在显著的负相关关系,且7个原始波段经进一步预处理后相关性可以得到进一步提升,尤其是在波段组合形式下存在较为显著的相关性,相关系数绝对值最高达0.55以上,而从筛选的优化参量也可以发现,基于波段组合的光谱参量对土壤具备更好的解释能力,这表明对原始波段进行这种波段组合的变换后可以有效减小地形、大气对光谱数据的影响[19],更好地凸显出光谱与土壤有机质含量间的关系。值得指出的是,筛选的优化参量与显著性参量存在差异,在确定的6个优化参量中,仅2个存在显著性相关,这可能是因为显著性参量是利用基于双变量的相关性分析选取的,而多元逐步回归模型综合考虑到每个入选变量的重要性[20],筛选出的是解释程度较高且相互之间相关性较低的参量组合。此外,筛选的优化参量包含两期影像的光谱参量,则表明利用多期影像可有效解决多光谱数据信息量较少的问题,提升光谱数据对土壤属性的解释能力[21]。

不同核函数的SVM模型在各建模方式下的估测效果也存在差异,可以发现线性函数下估测模型由于核函数较为简单,对数据的敏感性较差,整体估测效果并不突出。而多项式函数和RBF函数下的部分模型则体现出更好的估测效果,这表明相较于线性函数,多项式函数和RBF函数在小样本学习下具备一定的优势;而从建模方式上可以看出,相较于选取显著性参量建立估测模型,将整体解释度较高的全参量和优化参量组合作为建模数据应是更理想的选择,其中,在优化参量建模方式下取得了最好的估测结果则表明在保留较强解释度的前提下,考虑光谱参量之间的多重相关性,实现建模数据的降维可进一步提升估测精度;在不同土类下,估测模型也体现出不同的估测效果,结果表明模型对砂姜黑土和褐土的估测精度整体较高,对潮土的估测能力却较差,这可能是受影像的光谱分辨率以及采样点数量的影响,更多的光谱信息与样本数据理论上可以增强潮土下模型的学习效果,因此,在建立有机质含量的估测模型时可考虑增加潮土采样比例或选用波段数量更多的遥感影像以提升潮土的估测精度。同时值得注意的是由于皖北旱作区面积较大且基于遥感影像获取的光谱数据受大气条件、影像分幅等多种因素的影响,如何进一步提升模型的估测精度还有待于进一步分析[22]。

3.2 结 论

本文以两期Landsat8 OLI遥感影像为数据源,结合有机质含量实测值探讨在不同的建模方式和建模方法下建立皖北旱作区有机质含量估测模型的可行性,得到以下结论:

1)红、绿、短波红外波段与表层土壤有机质含量存在较高的相关性,且对两期影像的7个原始光谱反射率进行基于波段组合的变换后可以更好地实现研究区土壤有机质含量的估测。

2)相较于选择显著性参量,利用全参量以及优化参量可以更好地反应出光谱参量与土壤有机质含量间的关系,实现更高精度的估测,且在优化参量建模方式下模型的估测效果更好。

3)在不同的建模方式下可结合不同种类的核函数以提升SVM模型的估测精度,其中,基于优化参量建立的三次多项式核函数下的估测模型可以更好地实现研究区内土壤有机质含量的快速估测,整体上具有较好的估测效果,其反演结果可以为耕地质量评价、土壤肥力估算提供一定的参考。

猜你喜欢
参量波段光谱
基于三维Saab变换的高光谱图像压缩方法
最佳波段组合的典型地物信息提取
高光谱遥感成像技术的发展与展望
太阳黑子自动识别与特征参量自动提取
含参量瑕积分的相关性质
基于含时分步积分算法反演单体MgO:APLN多光参量振荡能量场*
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
L波段kw级固态功放测试技术
自然条件下猪只运动参量提取算法