基于WorldView-2数据和随机森林算法的遥感水深反演

2019-05-17 08:18:06邱耀炜沈蔚惠笑张华臣
遥感信息 2019年2期
关键词:水深波段反演

邱耀炜,沈蔚,惠笑,张华臣

(1.上海海洋大学 海洋科学学院,上海 201306;2. 上海河口海洋测绘工程技术研究中心,上海 201306)

0 引言

浅海水深是重要的地形要素,对于近岸海域开展经济和军事等活动都具有十分重要的意义。目前,浅海水深遥感反演有许多经验和半经验算法[1-3]。一般来说,经验算法都是采用回归分析法进行一次或多次多项式拟合,算法简单,计算方便,但推导出的水深反演关系式依赖于采用的具有相同统计性质的数据。半经验算法是一种简化模式的理论解析模型,一般通过线性回归的方式来获取模型中难以求解的参数,计算获取经验参数来代入模型求解水深。Lyzenga等人[4]基于底层反射模型,对水深值和波段辐射亮度进行线性回归反演获得了水深信息。Stumpf等人[5]则利用波段之间的比值和水深值进行线性的回归获取了水深,在一定程度上消除了浅海海底不同的底质的影响。Su和Bramante[6-7]对Lyzenga和Stumpf的水深反演模型进行了优化改进,提高了精度。然而,当遥感影像存在噪声时,比如,海水受到风浪影响在遥感图像上容易形成耀斑,在高分辨率图像上尤为明显,这使得水深和水体表面辐射亮度之间的线性关系并不成立。因而水深反演的经验半经验算法都具有一定的局限性。

随机森林(random forest,RF) 算法是由Leo Breiman和Cutler Adele 在2001 年提出的一种机器学习方法[8],可用于分类和回归。随机森林算法在非线性回归上表现十分出众,非常适合解决非线性的复杂问题。

李旭青等[9]利用随机森林算法构建了高精度的水稻冠层氮素含量光谱反演点模型,模型具有普适性和有效性;王丽爱等[10]利用HJ-CCD 数据和随机森林算法对小麦叶面积指数进行了反演,解决了复杂的非线性回归问题。目前,随机森林算法在水深反演上的应用较少。

本文以甘泉岛为研究区域,利用实测的水深数据和WorldView-2遥感影像4个波段组合构建了随机森林水深反演模型,确定了模型的中的主要参数,并同其余3种水深反演模型:单波段模型、双波段比值模型、多波段模型进行了对比;同时利用实测水深值进行了验证,旨在为提升大范围水深探测精度提供技术和方法。

1 水深反演模型

1.1 线性回归模型

可见光水深探测是依据光线对水体的穿透能力和水体的漫衰减系数成反比,水体的漫衰减系数因水体所含物质的不同而有所差异。利用可见光在水体的穿透能力通过一定的解算方法可以获取水体的深度值。

遥感水深理论解析模型从辐射传输模型出发来求取水深值,需要多种水体内部参数,由于水体内部光学参数获取困难,模型求解复杂,没有得到广泛的应用。在此基础上发展的半理论半经验模型,是一种简化模式的理论解析模型。目前应用较广泛的有以下3种模型:

单波段线性回归模型:

Z=a·ln(Li-Lsi)+b

(1)

双波段比值线性回归模型:

(2)

多波段组合线性回归模型:

(3)

式中:Z是水深值;Li(Lj)是影像第i(j)波段的辐射亮度;Lsi(Lj)是影像第i(j)波段深水区辐射亮度,反映了水面辐射、水体散射及大气散射等的总和,不包含底质反射;a(ai)是回归系数。

1.2 随机森林算法

随机森林是一种集成式的监督学习方法,在其算法中,同时生成多个预测模型,并综合分析每个模型的预测结果来提升预测准确度。随机森林算法设计对样本和变量进行抽样,从而生成大量决策树,对于每棵树进行自助抽样,利用袋外样本数据进行误差估计。在生成决策树的时候,随机选择变量,因此随机森林不会随着树数目的增多而产生过度拟合[11]。随机森林算法能够在大数据集的情况下仍有高效的学习速率,可以计算变量的相对重要度,对结果具有可解释性。

如图1所示,随机森林算法首先把原始训练数据集分成k个子集,也就是构建k棵树,对于每颗树进行自助抽样。一般来说,抽取其中2/3的数据集作为袋内数据,生成大量的决策树。而未被抽到的样本组成了袋外数据集(out of bag data,OOB),OOB可以用来估计输入的各个变量在模型中的重要性,同时可以计算模型的泛化误差。假设模型有M个变量,每棵树在分割节点生成决策树时,随机抽取m

图1 随机森林回归分析流程图

在随机森林回归算法中,需要对回归树个数ntree和分割节点所需的变量数目mtry进行优化。

2 数据处理

2.1 研究区与数据

如图2所示,研究区选取的是我国西沙群岛中的甘泉岛,研究区范围为111°34′41″E ~111°35′38″E,16°29′56″N ~16°31′17″N。遥感图像采用的是高分辨率WorldView-2数据,成像时间是2014年4月2日03:33(格林尼治时间),一共有蓝、绿、红和近红外4个波段,空间分辨率为2 m。本研究对WorldView-2数据进行辐射定标、大气校正和噪声去除等预处理。实测水深数据由机载LiDAR SHOALS-3000获得,水平精度2.5 m,测深精度25 cm。由于遥感影像和实测水深数据存在时间差,根据中国海事服务网查询当日的潮位进行改正。

图2 研究区示意图

2.2 耀斑消除

当浅海区域受到风浪影响时,太阳光在粗糙海面发生菲涅耳反射,而在遥感图像的就产生白色的耀斑,这对浅海水深的探测精度会产生一定的影响。根据Lyzenga[12]等人的理论,水体对近红外波段具有强吸收的特性,可认为在近红外波段的辐射亮度只有大气散射和太阳耀斑组成,在经过大气校正后的图像上,只受太阳耀斑的影响。在图像上选择不包含水体信息的深水区中的N个样本点,可见光波段i与近红外波段j之间的协方差ρij表示为:

(4)

式中:Lin代表第n个样本点在波段i上的辐射亮度值;Ljn则代表第n个样本点在近红外波段上的辐射亮度值。

Lyzenga等人的理论将耀斑去除的公式表示为:

(5)

图3(a)中的影响存在大量的耀斑,经改正后入图3(b)所示,图像质量明显提升。

图3 甘泉岛耀斑改正对比图

2.3 数据利用与分析

根据实测数据的经纬度坐标,利用IDL编程提取遥感图像上对应位置的各波段象元值。结合潮位改正后的水深值,以及甘泉岛遥感数据,用IDL编程建立单波段法、双波段法、多波段法算法水深反演模型。用R语言编程实现随机森林算法,确定随机森林算法中的回归树个数ntree和分割节点所需的变量数目mtry。针对每种模型,采用相关系数(R2)和均方根误差(root mean square error,RMSE)作为评价指标,将模型反演获得的水深值和实测水深值进行回归分析,比较这4种模型的反演精度。

3 结果与分析

3.1 水深反演模型构建

传统的线性水深反演模型,单波段线性回归模型选用对水体信息敏感的绿波段作为自变量,双波段线性回归模型选用对水体具有较强穿透性的绿波段和蓝波段的比值,多波段线性回归模型则采用全部的4个波段。

利用353个训练样本点,使用随机森林算法构建水深反演模型,采用4个波段B1、B2、B3、B4和各个波段之间的比值B1/B2、B1/B3、B1/B4、B2/B3、B2/B4、B3/B4作为自变量,实测的水深值作为因变量。在随机森林模型构建中,通过多次试验和经验,确定随机森林算法中的回归树个数ntree和分割节点所需的变量数目mtry分别为1 000和6。随机森林模型根据袋外训练数据集计算了模型中的各个自变量的重要性,图4反映了10个变量对模型的影响力,变量的重要性值越大,说明变量特征在模型中越重要。在10个变量中B1/B2重要性最高,也就说明在模型中与水深信息最为密切,传统的双波段线性回归模型选用的也正是这两个波段。在B1、B2、B3和B4中B2的重要性最高,这也与单波段线性回归模型选用对水体信息敏感的绿波段(B2)十分符合,水体在近红外波段(B4)区间表现为强吸收,所以B4对水深信息不敏感,重要性较低。

图4 变量重要性分布

3.2 模型精度验证与比较

为了探究随机森林算法遥感反演水深能力,在

模型构建中,根据多次试验,确定随机森林水深反演算法中最佳的模型参数ntree和mtry,利用模型反演的水深数据与相应的实测水深数据进行比较,采用R2和RMSE为精度评价标准(表2),并同传统的单波段线性回归模型、双波段比值线性回归模型和多波段线性回归模型进行比较,绘制了各个模型反演值与实测值的1∶1关系图,结果如图5所示。

图5直观地反映了各个检验点的水深反演值和实测值的偏离情况,所有检验点越接近图中的直线说明偏离越小,反之亦然。从图5(a)中可以看出,单波段线性模型的检验点总体存在一定的偏离,在水深值大于10.0 m时,反演水深值比实测水深值要小很多,这可能是单波段模型的采用的绿波段受限于对水深的探测能力。图5(b)反应的双波段比值模型检验点的偏离程度比单波段线性模型要大,水深值在0~2 m之间时反演值偏高。由图5(c)和图5(d)可知,多波段线性模型和随机森林模型检验点总体偏离程度相对较小。

表2 浅海水深反演模型比较

图5 水深反演值与实测值1∶1关系图

表2比较了随机森林模型和其余3种传统水深反演的线性回归模型,由表2可知,随机森林模型最优,检验点之间的R2达到 0.967,且均方根误差最小(0.868 m)。多波段模型次之,单波段模型和双波段模型较差。

结果表明随机森林算法反演获得水深值和实测水深值之间显著相关,R2最高且RMSE最低,优于传统的单波段模型、双波段比值模型和多波段模型。

4 结束语

本文根据WorldView-2遥感影像和实测水深数据,利用随机森林非线性回归模型对甘泉岛地区进行浅海水深反演,并同前人已经使用线性回归反演模型进行对比。结果分析表明:随机森林水深反演模型反演精度优于单波段线性回归、双波段比值线性回归、多波段组合线性回归模型。可以有效快速获取大范围水下地形信息。

本文的研究工作仍存在不足之处,在随机森林水深反演模型构建中,主要参数的ntree和mtry的确定需要一定的人为干预,在一定程度上会影响反演效率。在今后的工作中,还需要在保证精度的条件下研究参数的自适应选取,对模型进行完善。

猜你喜欢
水深波段反演
春日暖阳
书法静水深流
河北水利(2022年10期)2022-12-29 11:48:12
基于水深分段选择因子的多光谱影像反演水深
海洋通报(2022年4期)2022-10-10 07:40:32
反演对称变换在解决平面几何问题中的应用
中等数学(2022年5期)2022-08-29 06:07:38
基于低频软约束的叠前AVA稀疏层反演
基于自适应遗传算法的CSAMT一维反演
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
西藏科技(2015年4期)2015-09-26 12:12:58
GPS RTK技术在水深测量中的应用
叠前同步反演在港中油田的应用