朱明洋
(安徽理工大学空间信息与测绘工程学院,安徽 淮南 232001)
随着遥感技术的不断发展,基于卫星影像的陆表水体监测逐渐替代了传统的人工监测。从单波段的阈值法到多波段的水体指数法,水体监测经历了从人工到全自动提取的转变。现如今机器学习技术正广泛应用于各个领域,基于机器学习的水体提取方法也逐渐成为水体提取的优先选择。
湖泊是重要的国土资源,对调节河流流径、提供水源、繁衍水生物等有重要作用。三江源地区位于青藏高原东部,是长江、黄河及澜沧江 (湄公河)的源头汇水区,也是高山不连续多年冻土区域,此处受人类活动影响较小,可以呈现湖泊最自然的变化状态。青藏高原湖泊类型大致可以分为构造湖、热融湖和冰湖。如今,全球气候变暖,多年冻土区域地下冰层融化,在融化过程中伴随着物质重分布的过程,在冻土层内地下冰融化使地面发生沉陷,出现沉陷漏斗和浅洼地漏斗,洼地集水成湖,则称为热喀斯特湖,也称为热融湖[1]。由于青藏高原温度升高,热融湖大量蓄水,导致了冻土融化深度加大,湖面面积逐年扩张。热融湖是多年冻土退化的重要表现,监测热融湖时空变化是开展冻土区域工程、地表地下水文工作的重要途径之一。
遥感技术以其覆盖广、时效性强、信息量大以及不受地理环境影响等优势[2],为检测水体的变化过程提供了良好的技术手段,特别是青藏高原地区等人类无法进入的环境恶劣地区或高海拔地区,遥感技术是监测这类环境恶劣地区或高海拔地区的地表水体的唯一手段。
国内外学者在水体识别的研究中已经做了大量的工作。陆家驹等[3]针对专题制图仪 (Thematic Mapper,TM)影像引进比率测算法,大大增加了识别精度与速度,不足之处是无法识别大量的小区域水体; 汪金花等[4]提出了利用谱间关系法提取水体,相较于常规的阈值分类法,其分类精度更高; 武国瑛等[5]为解决阈值选取困难的问题,将改进的OTSU算法用于阈值选取,结果表明该算法相较于原OTSU 算法极大地提高了水体信息的精度和速度;MCFEETERS[6]提出了归一化水体指数 (Normalized Difference Water Index,NDWI)的概念,利用了反射的近红外辐射和可见绿光来增强水体特征,同时消除土壤和陆地植被的特征; 徐涵秋[7]提出了在NDWI 的基础上改进的归一化水体指数(Modified Normalized Difference Water Index,MNDWI),可以很容易地区分阴影和水体; 沈占锋等[8]提出了采用高斯归一化水体指数 (Gaussian Normalized Difference Water Index,GNDWI)提取水体模型,能够应对更为复杂的水体信息,并且能够有效地剔除阴影的影响; 闫霈等[9]提出了区分干涸水系与背景噪声的增强型水体指数8 (Enhanced Water Index 8,EWI8)可以快速准确地提取半干旱地区的水系; 倪衡等[10]提出了一种区分滩涂、海岸带地物信息的新型水体指数8 (New Water Index 8,NWI8); 陈旺等[11]提出了有效抑制背景地物干扰并有效降低云对水体提取影响的指数水体指数 (EXPonential Water Index,EXPWI); FEYISA 等[12]提出了可以提高包括阴影在内的深色表面区域水体分类精度的自动水体提取指数 (Automated Water Extraction Index,AWEI); 彭凯峰等[13]提出了基于LBV 变换的水体提取算法,从而能够更好地将水体与土壤植被建筑物等区分开来; 贾永红等[14]提出使用K-T 变换提取多光谱影像的水体信息,从而能够有效地区分水体与湿地的光谱特性。
由于传统的分类方法存在着诸多问题,例如阈值选取具有主观性、人工解译过于耗时等,因此利用多棵决策树样本对样本进行训练并预测的分类器——随机森林 (Random Forest,RF),被广泛应用与遥感分类中。PETERS 等[15]基于RF 与Logistic回归分析,建立了水文分布模型。
针对青藏高原多年冻土区域,在复杂环境下要考虑云雾及阴影对于水体提取的影响,更要考虑湖冰及冰雪对于热融湖提取的影响。本文选取最适宜提取多年冻土区域热融湖的方法,实现水体提取的自动化。
青藏高原被称为世界屋脊和第三极,该研究区位于青藏高原的三江源地区西部、可可西里国家级自然保护区西北处,面积大于1 km2的湖泊超过100个,年平均气温为-10~-4.1 ℃,最低气温可达-46.2 ℃,年平均降水量达173~495 mm。此处冻土面积超过保护区面积90%,冻土最厚超过400 m。热融湖分布于高平原、山间盆地、洼地及小于3°的缓坡,伴生有冻胀丘、串珠状河流等现象,湖水的补给来源为地下冰融化水和冻土层上水补给。地表水为瞬时的片流状水系补给,汇水面积小[16]。图1为研究区影像。
选取Landsat8-OLI 数据,数据获取时间为2019 年8 月10 日。陆地成像仪 (Operational Land Imager,OLI)包括9 个波段,空间分辨率为30 m,其中包含1 个15 m 的全色波段,成像宽幅为185 km×185 km。OLI 包括了增强型专题制图仪(Enhanced Thematic Mapper Plus,ETM+)传感器的所有波段,新增了蓝色波段和短波红外波段。热红外 传 感 器 (Thermal Infrared Sensor,TIRS)包 括2 个单独的热红外波段,空间分辨率为100 m。表1为Landsat 8 的传感器参数。
图1 热融湖提取的研究区影像
表1 Landsat8 的传感器参数
相较于单波段阈值法与多波段谱间关系法,水体指数的应用更为广泛。水体指数算法已经过多年的发展与改进,在MCFEETERS 提出基于绿波和近红外波段的NDWI 后,徐涵秋等相继提出了MNDWI,EXPWI,AWEI,EWI8 等。
针对不同的地物特点,不同的水体指数算法具有各自不同的优势。NDWI 可以有效地抑制非水体,但难以区分土壤和阴影; MNDWI 对人工地物、阴影、植被有较好的抑制作用,难以消除大气影响; GNDWI 适用于细小河流的提取; NWI8 适用于Landsat8 数据的水体提取; AWEI 分为AWEInsh 和AWEIsh,分别适用于没有阴影和有阴影的水体提取; EWI8 适用于提取半干旱地区的水系,但是提取湿润地区的水系则受大气噪声的影响较大; EXPWI 能够有效地抑制云、气溶胶的影响,从而适用于提取微弱水体信息; 此外,还有穗帽水体 (Tasseled Cap Water,TCW)、脉冲神经网络 (Spiking Neural Network,SNN)等水体指数算法。表2 为各种水体指数算法; 图2 为各种水体指数算法的提取结果。
表2 各种水体指数算法汇总表
图2 各种水体指数算法的提取结果
RF 作为一种基于决策树学习器的集成学习方法,利用随机选择的特征和样本集的决策树作为其弱学习器,采用所有的决策树投票结果得到最后的结果。RF 算法是当下最热门的算法之一,其容易实现、计算所需的环境简单且投票结果精度高,成为当下水体识别中广泛应用的算法。对于热融湖水体识别来说,RF 能够在保证较高精度的同时又具有很好的稳健性。
RF 是一种集合分类方法,先构建一组分类器,再通过投票决定最终的预测分类结果。最常用的集合分类方法有RF,Bagging 和Boosting。RF 是比较好的集合分类方法,集成一组树状分类器。在RF算法中,N 为训练样本个数,M 为总的特征数目。输入特征数目m,用于确定决策树上一个节点的决策结果,其中m 应远小于M。在N 个训练样本中做有放回抽样,取样次数为N 次,构成一个训练集; 并使用未抽到的样本作为预测,评估其误差。训练每一个节点时,选择m 个特征,决策树上每一个节点的确定都是由这些特征确定的。根据这m 个特征,计算其最佳的分裂方式。每棵决策树都会完整进行而不会中断,这在整个流程进度完成后会被模型采用。图3 为随机森林简化图的构建模型; 图4 为随机森林算法的提取结果。
图3 随机森林简化图的构建模型
图4 随机森林算法的提取结果
在利用各种水体指数算法及RF 算法进行水体提取后,为验证精度,对原始图像进行目视解译,选取了超过500 个样本点进行神经网络分类,作为精度验证的验证数据。精度分析主要是通过混淆矩阵来评价样本精度。混淆矩阵 (Confusion Matrix)也称为误差矩阵,混淆矩阵中将样本的真实类别属性和模型预测结果分为4 类: 一是True Positive,即样本的真实类别为正,并且模型预测也为正; 二是True Negative,即样本的真实类别为正,模型预测为负; 三是False Positive,即样本的真实类别的负,模型预测为正; 四是False Negative,即样本的真实类别为负,模型预测也为负。选择Kappa 系数、总体精度、用户精度、制图精度作为精度评价指标,得出各种水体指数算法的提取结果精度评价,见表3。
表3 各种水体指数算法的提取结果精度评价
根据水体提取结果和精度评价可知,传统的NDWI 及EWI8 相较于改进的MNDWI 等水体指数算法,能更加有效区分水体区域与冰雪覆盖区域;TCW 在区分冰雪覆盖区域与土壤边界时混淆程度较大,但能够成功区分大部分冰雪覆盖区域与水体区域。
在RF 分类之后,并且经过多数 (Majority)分析、少数 (Minority)分析、聚类处理之后,即可利用ArcGIS 计算热融湖面积。根据热融湖面积统计可知,0.01~0.02 km2的热融湖数量占到了热融湖总数量的20%,小于0.02 km2的热融湖数量所占比例近乎50%。由此可得,该研究区热融湖大部分处于初生阶段,同时反映了多年冻土的退化情况较为严重。
Landsat8-OLI 影像用于获取可见光、近红外、短波红外波谱范围的遥感图像,并采用推扫式结构设计,使其具有了很好的几何稳定性,获取的图像质量也更好。OLI 获取的遥感图像辐射分辨率达到12 b,图像的几何精度和数据信噪比也更高了。利用Landsat8-OLI 影像进行水体指数的运算,拉大了水体和非水体的灰度值,使得水体更易提取。本文比 较 了NDWI,MNDWI,NWI8,AWEI,EWI8,TCW,SNN 等水体指数算法,根据水体提取结果和精度评价可知,NDWI 与EWI8 在提取多年冻土区域水体时精度更高; 在利用RF 进行水体提取时,通过建立训练集,区分出冰雪、河道、湖面,精度更高,且效果最好。
当前,由于青藏高原的自然环境比较恶劣,导致大部分观测局限于遥感技术手段,如何通过有限的遥感技术手段获取无限的资源是目前应该要考虑的主要问题。陈前等[17]利用卷积神经网络和Deeplabv3 语义分割神经网络,探讨了深度学习在水体提取中的应用能力。在当前的地球大数据背景下,深度学习极大地提高了海量地理空间数据服务于科学研究的价值与效率,因此未来可以尝试使用深度学习算法进行水体提取。