基于TASI热红外数据的黑土土壤发射率光谱与土壤全钾含量关系研究

2020-09-05 04:12赵宁博赵英俊
光谱学与光谱分析 2020年9期
关键词:发射率方根波段

李 明, 秦 凯, 赵宁博, 田 丰, 赵英俊

核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室, 北京 100029

引 言

土壤是植被生存的基础, 即是人类赖以生存的基础。 土壤中含有大量的养分, 这些养分能直接或经转化后被植物根系吸收的矿质营养成分, 一般包括氮、 磷、 钾、 钙、 镁、 硫、 铁、 硼、 钼、 锌、 锰、 铜和氯等元素[1], 与传统的土壤元素化学测定方法相比, 航空及航天高光谱能够高效地对大面积地区进行检测, 其通过定量研究不同波段光谱与元素含量的关系进行建模反演, 能够获取大面积研究区某元素的含量分布图。 国内外学者在可见-近红外波段对土壤的水分[2-3]、 有机质[4-5]、 含盐量[6-8]、 养分元素[9-11]等的定量反演做了大量研究工作, 这一波段范围已经无法满足诸多学者的研究热情, 因此中红外波段成为了新的土壤理化参数定量反演研究热点。 阿尔达克·克里木等[12]利用4种变换后的热红外发射率光谱特征通过多元回归的方法建立其与土壤含盐量的模型; 夏军等[13]通过分析125个土壤样本热红外波段与土壤含盐量的相关性以及通过偏最小二乘与逐步回归建模, 得到土壤热红外发射率估算盐分含量的模型, 并得出偏最小二乘法定量反演土壤含盐量效果比逐步回归好这一结论, 模型预测的R2达到0.958, RMSE为1.911%; 杨永民等[14]基于热红外数据, 对土壤含水量四种估算方法进行对比分析, 使用ASTER数据估算了黑河流域中游地区的土壤水分状况。 由此可见, 发射率数据与土壤众多理化指标有较为紧密的关系。 而发射率数据对于土壤K元素含量的反演研究较少且模型精度较差, 本文旨在探究提高模型精度的新方法。

1 实验部分

1.1 数据采集与处理

热红外航空成像光谱仪(thermal airborne hyperspectral imager, TASI)是加拿大研制的先进的机载热红外高光谱设备。 该设备在8~11.5 μm范围内有32波段, 波段间隔为0.109 5 μm, 半高宽为0.054 8 μm, 总视场角为40°(表1)。 本文利用核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室的TASI航空高光谱成像系统, 在东北黑龙江省海伦地区附近获取了高空间分辨率的高光谱热红外遥感数据, 在经过大气校正等数据预处理后, 采用杨杭等[15]改进的TES(temperature-emissivity separation)分离方法进行温度与发射率的分离, 获取研究区发射率数据。

表1 TASI各通道中心波长

土壤样品采集地点为东北黑龙江省海伦地区, 该地区土壤类型主要为黑土, 土壤腐殖质层较厚, 约30~60 cm, 有机质含量在2.5%~4.5%之间, 粘粒含量在40%~60%之间, 属于粘土, 西南部旱田土壤基本为中性, 中部及东北部旱田土壤为酸性。 在工作区不同位置共采集土壤样本40个(图1)。 测区表层为黑色腐殖质层, 当天同步飞行采集表层0~20 cm的土样, 剔除大的植物残茬、 石砺等杂物, 置于实验室风干研磨, 过0.15 mm筛选用于含量测定。 全钾含量采用X射线荧光光谱法测定(表2)。

图1 TASI数据采集区域及采样点分布图

表2 土壤样本钾(K)元素含量信息表

1.2 建模方法及实现

探究多个自变量与因变量之间关系的方法很多, 对于光谱数据, 常用的建模方法有最小二乘法、 多元逐步回归拟合、 BP神经网络、 支持向量机SVM等。 机器学习类方法虽然能较好地训练模型并进行预测, 但是存在较多的人为干预调参问题, 同时对于某一元素在研究区整体的提取具有较大难度。 本研究主要聚焦于偏最小二乘法与多元逐步回归拟合, 尤其利用多元逐步回归方法研究发射率与K元素含量关系时创新性地使用了全二次逐步回归进一步提高模型的精度。

相比常规的n元线性逐步回归仅有的常数项和线性项, 多元全二次逐步回归引入了交叉乘积项和平方项进行回归, 以对回归方程中常数项、 线性项和二次项进行的t检验的p值是否小于等于0.05为判定依据, 依次引进显著项剔除非显著项, 可以有效地解决自变量的多重共线性问题。 但参数不宜引入过多以免数据产生过拟合, 其中, 引入了4个参数进行全二次多元逐步回归方程如下所示, 由于增加了更多的系数, 因此能够更加精确地进行回归模型的建立。 本次研究所有建模方法均利用Matlab编程实现。 TASI影像数据预处理及温度与发射率分离利用ENVI5.3-IDL编程实现。

式中,yi为响应变量(预测值);b0,bi,bij和bii分别为回归方程常数项、 线性项、 交叉乘积项、 平方项的系数;xi为预测变量(输入值), 本文中为输入的四个相关性强波段值;εi~N表示数据服从期望值μ为0的正态分布。

2 结果与讨论

2.1 土壤热红外发射率光谱曲线特征

物体的发射率除了取决于其材质, 更取决于其所存在的环境。 对于土壤, 其热红外发射率光谱曲线形态主要取决于土壤中所含的矿物种类以及含量、 水分、 有机质含量和温度等因素。 研究所采集的40个土壤样本的发射率光谱曲线在8~9.6 μm变化趋势基本一致(图2), 9.6~11.45 μm后形态有所变化但基本变化趋于平缓, 发射率值在8.38, 8.6以及9.26 μm处出现了三处非常明显的波谷, 其中8.38与9.3 μm的两处波谷出现了类似石英的波谱特征。 夏军等研究发现, 土壤中硅酸盐矿物导致发射率光谱曲线呈现明显的Reststrahlen吸收特征, 即不对称双吸收谷, 两个吸收谷分别位于8.23和9.27 μm波长附近, 且后一个吸收谷较深, 宽度较大[13]。 9.6 μm后光谱曲线出现不同波动是由于土壤中所含不同矿物的基团内部振动产生的谱带不同所致, 但总体幅度变化较小。

图2 40个土壤样本的热红外发射率光谱曲线

2.2 土壤元素含量与发射率相关性分析

通过40个土壤样本K元素含量与发射率各波段做皮尔森相关性分析可以看出, K元素与32个波段发射率呈负相关关系, 其中相关系数大于0.6呈强相关的波段有5个, 分别是6, 11, 15, 22和23波段; 相关系数介于0.4~0.6中等相关的波段有17个(图3), 整体具有较强的相关性。

图3 钾元素含量与发射率相关性

由于多元全二次逐步回归引入的参数数量直接决定了模型建立引入系数的多少和复杂程度, 因此, 为了避免建模时系数过多导致过拟合增大无谓的计算量, 初步选取与K元素含量相关系数最高的4个波段用于模型的建立。 土壤中钾元素有多种赋存形态, 大部分以原生或次生的结晶硅酸盐状态存在于土壤中, 其中云母族矿物参考(白云母、 黑云母)及富钾长石(正长石)中含钾元素最多, 白云母、 黑云母以及正长石特征吸收位置选择6, 11, 15和23波段作为特征波段(表3)。

表3 土壤元素含量与发射率显著相关所对应的TASI波段

2.3 光谱定量预测

将40个土壤样本随机分为两组, 其中32个样本用于含量预测模型的建立, 8个样本用来测试模型的精度。 验证K元素含量数据符合正态分布后, 以所选4个特征波段发射率数据作为自变量, K元素含量为因变量, 以对回归方程中常数项、 线性项和二次项进行的t检验的p值是否小于等于显著性水平0.05为判定依据, 依次引进显著项剔除非显著项, 同时对模型总体进行F检验的p值是否小于等于显著性水平0.05来验证样本观测值与总体假设值是否存在显著性差异从而建立模型[图4(a,b)]。

图4 逐步回归模型预测值与真实值拟合效果图

常规逐步回归建立的回归拟合模型均方根误差RMSE为0.031, 调整后的判定系数R2为0.569, 测试集的均方根误差RMSE为0.031, 调整后的判定系数R2为0.78[见图5(a)]; 全二次多元逐步回归建立的回归拟合模型均方根误差RMSE为0.027, 调整后的判定系数R2为0.667, 测试集的均方根误差RMSE为0.032, 调整后的判定系数R2为0.82[见图5(b)], 所有指标均通过p值小于0.05的显著性验证(表4)。 通过模型拟合结果及评价指标来看, 全二次多元逐步回归比常规多元逐步回归建模精度以及验证精度均有所提高。

表4 逐步回归模型建模结果

为进一步提高建模精度, 利用Matlab回归诊断的学生化残差来进行模型改进。 通过|Sei|>2来查找远离数据集中心观测点即异常点, 剔除异常点来进一步提高模型精度。 同时, 以32个波段发射率数据为自变量, K元素含量为因变量进行偏最小二乘法建模, 进一步对比三种模型的优劣。

(2)

偏最小二乘法建立的回归拟合模型入选主成分数为2, 均方根误差RMSE为0.033, 判定系数R2为0.45, 测试集的均方根误差RMSE为0.037, 判定系数R2为0.51(图6)。

图5 钾元素含量实测值与预测值散点图

图6 钾元素含量实测值与预测值散点图

通过评价指标分析改进后的多元逐步回归模型发现, 虽然建模精度有所提高, 但测试集的精度却均有所下降。 与改进前模型相比, 常规多元逐步回归建模样本的均方根误差RMSE降低了0.7%, 判定系数R2提高了0.163; 测试集的均方根误差RMSE提高了0.2%, 判定系数R2降低了0.015; 全二次多元逐步回归均方根误差RMSE降低了0.71%, 判定系数R2提高了0.135; 测试集的均方根误差RMSE提高了0.2%, 判定系数R2降低了0.1, 同时由于剔除了某些不显著的变量, 模型再次引入了新的变量, 参数从7个增加到了10个(表5)。 改进后的模型训练集精度上升而测试集精度下降的原因应该是训练集数据发生了过拟合, 从实验结果分析, 改进前的模型泛化能力更强, 更适用于研究区K元素的反演。 同时对比偏最小二乘法建模, 全二次多元逐步回归各项评价指标均优于其余两种方法。 由于混合像元影响以及样本的选择有所差异, 模型整体拟合精度不是很高, 但本研究提出新的逐步回归方法有效地提高了模型的精度。

表5 建模结果对比

相比常规多元逐步回归仅考虑常数项和线性项, 全二次多元逐步回归能够引入更多的变量参与到回归模型的建立中, 从而提高模型的反演精度。 说明利用TASI数据的相关波段通过全二次多元逐步回归方法反演元素含量是可行的, 比起传统的化学填图, 遥感反演的方法在损失部分精度的条件下能够高效大面积地反演某个地区元素含量。

3 结 论

针对土壤中K元素含量反演, 利用热红外航空成像光谱仪TASI数据的发射率数据, 创新性地使用了一种新的逐步回归方法-“全二次多元逐步回归”建立模型, 相对于常规多元逐步回归, 引入了更多的参数进行模型的建立, 能够有效提高反演精度。 通过研究发现, 土壤发射率数据对于选用有效特征波段对K元素具有较高的反演精度。 K元素通过多元逐步回归建模与预测的均方根误差RMSE: 0.027和0.032, 判定系数R2: 0.667和0.82, 相比于常规多元逐步回归建模与预测的均方根误差RMSE: 0.031和0.031, 判定系数R2: 0.569和0.78与偏最小二乘法建模与预测的均方根误差RMSE: 0.033和0.037, 判定系数R2: 0.45和0.51评价指标精度均有所提高, 说明本方法有效提高了利用发射率数据对K元素的反演精度。

猜你喜欢
发射率方根波段
最佳波段组合的典型地物信息提取
氧气A(O,O)波段气辉体发射率和临边辐射强度模拟与分析
失效红外低发射率涂层发射率测量及分析
我们爱把马鲛鱼叫鰆鯃
积雪地表微波发射率模拟与分析
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
均方根嵌入式容积粒子PHD 多目标跟踪方法
日常维护对L 波段雷达的重要性
数学魔术——神奇的速算