遥感影像中辫状河道提取的CART决策树分类方法研究*

2022-08-09 06:16罗信闫奇奇宋思涵杜泓达兰志玺龙颖波
计算机时代 2022年8期
关键词:辫状河决策树波段

罗信,闫奇奇,宋思涵,杜泓达,兰志玺,龙颖波

(长江大学地球科学学院,湖北 武汉 430100)

0 引言

辫状河道在河流沉积体系中分布广泛,多发育在山区或河流上游的辫状河段、辫状河与三角洲的结合处,以及冲积扇上。辫状河道信息是研究辫状河沉积特征,识别沉积环境重要信息,对其几何特征的识别和表征对河流沉积体系现代沉积研究具有重要意义。

近年来,随着各类遥感图像数据和遥感解译软件工具易得性和应用性的提高,遥感监测被广泛应用于各种地物的提取,其中用于水体信息提取遥感方法不断推陈出新。沈占锋等提出采用高斯归一化水体指数GNDWI 提取河流水体的模型,使得指数能够更大程度上保证河流提取的连续性,并通过DEM的辅助实现了其他干扰信息的去除。丁凤在对水体及其背景地物进行光谱特征分析的基础上,结合水体在近红外和中红外波段均具有强吸收性这一典型特征,提出了一种新型的水体指数NWI。曹子荣采用SVM 监督分类方法进行地表水体提取试验,证明了SVM 方法在同质性较好地表区域进行分类的适用性。陈云等用基于影像多种特征的CART决策树分类方法进行地物分类,结论是分类精度较高,尤其较好地提取了围网养殖区和建设用地。那晓东等以三江平原东北部沼泽湿地为例,利用分类回归树算法进行分类提取,发现分类精度较最大似然监督分类方法有明显提高,是内陆淡水沼泽湿地信息提取的有效手段。

基于影像分类的方法与基于指数计算的方法都有一定的缺点。单一地使用现有的水体提取方法均会混淆一部分地物。使用基于影像的提取的方法,基本可以提取出水体,但仍有小部分的河滩归为水体,且一小部分水体被误分为其他地物,尤其对辫状河道这种形态复杂的水体提取存在明显的局限性。决策树分类方法充分利用了空间辅助信息,对影像的多个特征变量进行选择性组合,识别繁多而有效的信息,从而实现对未知数据的分类、预测和挖掘,具有分类精度高,速度快的优点。因此,本文基于CART 的自动决策树分类法,以勒拿河入海口的过渡带为例,利用Landsat 8数据源,进行辫状河道的提取方法研究。

1 研究区概况

研究区位于俄罗斯的萨哈共和国布伦斯基区的勒拿河入海口的过渡带。该区域夏季短暂,每年冰封期长达八个月,具体地理位置为71°0′58.50″~73°22′54.98″N,124°2′49.10″~131°44′29.39″E(图1)。勒拿河河床上以砂为主,砾石含量较低,属于砂质辫状河,它水道和心滩坝较砾质辫状河稳定,河漫滩宽7~15km,其上遍布湖沼,多河汊,航道变化无常,水深常在16~20m,弯曲度低,小于1.5,分叉系数大于1,对其进行河道水体提取存在一定的难度。

图1 研究区原始影像图

2 数据来源与研究方法

2.1 影像数据源与地物光谱特征

本文选取的数据是2018 年6 月28 日Landsat 8 OLI_TIRS的卫星获取到的研究区域遥感影像数据,影像数据来源于中国科学院计算机网络信息中心开发建设的“地理空间数据云”(http://www.gscloud.cn/search),该数据已经经过几何校正和地形校正,因此仅需对下载的数据以ENVI 作为图像预处理软件进行辐射校正、大气校正、图像裁剪处理。图2显示的是研究区域主要地物的波谱曲线,可以发现在波段5(近红外波段)中,水体与其他类型地物的光谱曲线存在的明显差别,因此在使用自动决策树提取水体前,根据研究区地物在近红外波段的特点进行特征数据集的构建,提高水体提取的精确度。

图2 研究区主要地物光谱曲线图

2.2 NDWI计算方法

Mcfeeters.S.K 提出的归一化差异水体指数(NDWI)通过利用水体在不同波段的吸收反射特性进行比值计算,可达到抑制植被信息,增强水体信息的目的。水体在绿波段反射率高,在近红波段反射率低而植被恰好相反(图2),基于此将绿波段和近红外波段的差与和进行比值运算,增强了水体的特征,公式如下:

其中,Green 表示绿波段;NIR 表示近红外波段。在Landsat8 OLI影像中,分别为2,4波段。

2.3 CART决策树分类

本文采用基于CART的自动决策树分类法对影像对象进行分类,主要包括生成决策树树与决策树剪枝两个步骤。首先基于训练数据集,递归构建二叉决策树;然后用验证数据集对生成的树进行剪枝,并选择最优子树,以损失函数最小作为剪枝的标准。其中CART分类树的剪枝过程中损失的度量采用基尼系数,其定义如下:

其中,(/)是训练样本集中随机抽取的某样本当其测试变量值为时属于类的概率;n()为训练样本中测试变量值为时,属于第类的样本个数;()为训练样本中该测试变量值为的样本个数;为类别个数。由于每次分割都只将样本集划分为两个子集,因此最终生成的决策树是一个二叉树。

3 河道提取实验与分析

3.1 实验流程

在进行决策树分类时,合适的波段组合有利于提高分类精度。为了进一步提高水体的分类精度,对预处理后的研究影像分别进行NDWI 水体指数法和ISODATA分类的操作,其中NDWI方法可突出水体的基本信息,ISODATA 分类法则对波段信息进行聚类,将两种方法的结果影像与原始影像进行组合,构建特征数据集。在组合形成的特征数据集上进行训练样本的选取,建立分类规则。实验中主要是通过目视方法来确定地物的特征种类,在分析了研究区域的主要地物类型后,确定了沙地、裸地、植被、水体、草地五种主要地物。在ENVI 5.3软件中,利用CART 扩展工具对研究区进行分类,最后选择分类后的水体,将分类结果转换为矢量文件输出。具体实验流程如图3所示。

图3 总体分类流程图

3.2 特征数据集构建

通过波段组合的方法,将预处理后影像的数据、NDWI 指数数据、ISODATA 分类数据进行波段组合,合并成9个波段的特征数据集,用于本文决策树分类。图4中(a),(b),(c)和(d)分别是原始影像、NDWI指数数据、ISODATA 分类数据和合成数据的显示效果。其中特征数据集的影像中灰色代表了植被,颜色越深表示植被越茂盛,浅色部分代表沙地,黑色部分代表水体。由于研究区域位于勒拿河入海口附近,可以推断高亮部分的沙地大部分属于泥沙沉积物。

图4

3.3 训练样本选择

CART 决策树分类是一种典型的监督分类算法,因此训练样本的选择直接影响分类的效果。将研究区分为沙地、裸地、植被、水体、草地5 类地物,在此分类体系下,选择297 个样本点作为训练对象,其中,沙地、裸地、植被、水体、草地的样本数分别为58、63、53、60、63 个。沙地的样本来自河流冲刷的泥沙沉积,裸地主要是冻土和解冻的植被稀少区域,植被以灌木丛、林地为主,水域是勒拿河的主干和支流部分等,草地是覆盖在土地上苔原或者植被区。训练样本点也将会作为对比算法(最大似然分类)的样本,以便于精度分析。

3.4 分类结果及分析

本文方法分类结果和最大似然分类结果如图5(a)和图5(b)所示。总体上这两种方法的分类结果都能够提取主要的地物类别,尤其对水体主河道的提取效果较好,但是最大似然分类对河流中存在的浮冰、融雪不能很好地分辨,部分浮冰和融雪识别分为沙地,其导致在辫状河道中存在较多的碎屑物,相比而言本文方法识别的河道更加连续。

图5 分类结果

采用混淆矩阵对分类结果分别进行精度评价,结果如表1 所示。本文分类精度为96.53%,Kappa 系数为0.9558,水体生产精度达到99.47%,水体用户精度达到了99.80%;最大似然分类的总体分类精度为93.54%,Kappa 系数为0.9180,生产精度为97.55%,用户精度为99.36%。相较于最大似然分类法,本文方法表现出了更好的分类精度,总体分类精度是最大似然分类的1.03倍,Kappa 系数是最大似然分类的1.02倍,水体生产精度是最大似然分类的1.04 倍;同时最大似然分类的水体错分误差是本文方法的2.56倍,水体漏分误差是本文误差的4.22倍。可见本文提出的结合NDWI指数与ISODATA 分类的特征数据集进行CART 决策树分类的方法是一种更加精确的水体提取方法。

表1 混淆矩阵精度评价

4 结束语

本文针对遥感影像中的辫状河道识别问题进行了多信息融合的CART决策树分类研究。在landsat 8原有七个波段上添加NDWI 水体指数和ISODATA 分类数据两个波段,组合成具有九个波段的特征数据集。基于此,构建CART 决策树模型对俄罗斯勒拿河部分辫状河道进行提取。结果表明,相较于最大似然分类法,本文方法表现出了更好的分类精度,其中总体分类精度、水体生产精度和Kappa 系数分别是最大似然分类的1.03 倍、1.02 倍和1.04 倍;同时,最大似然分类的水体错分误差和水体漏分误差是本文决策树分类的2.56 倍和4.22 倍。说明构建特征数据集后的CART 决策树分类对辫状多分叉河道水体的提取具有较好的效果。

猜你喜欢
辫状河决策树波段
PL油田浅水辫状河三角洲隔夹层精细表征方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
杭锦旗地区辫状河定量地质知识库建立及应用
辫状河储层内部建筑结构及剩余油分布研究
基于决策树的出租车乘客出行目的识别
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于SPOT影像的最佳波段组合选取研究