基于随机森林模型的岸线不透水面提取方法研究

2022-03-11 09:42张友才臧英平李树明仲跻文韦立新

地理空间信息 2022年1期

张友才，李强，臧英平，李树明，程宇，仲跻文，韦立新，张泉，潘鑫

（1.南京市长江河道管理处，江苏南京 210011；2.长江下游水文水资源勘测局，江苏南京 210011；3.河海大学地球科学与工程学院，江苏南京 211100）

近年来，随着城市化进程的加速，大量自然景观取代了人工地表。不透水面泛指能阻止水渗透到地表以下的下垫面类型，主要包括建筑、道路和工矿用地等人造地表。不透水面的扩张可以衡量城市发展的进程，也可提供环境质量的判断标准；但其大规模扩张使城市的生态体系遭到了破环，从而导致了一系列的生态问题。不透水面的形成往往是以减小植被覆盖面积为代价的，严重影响了城市绿色生态系统[1]。同样的太阳辐射下，不透水面的温度高于自然地表，因此其面积增加也将增强城市热岛效应[2-4]。

长江是我国的母亲河，也是永续华夏文明发展的支柱。随着城市化的发展，人们不合理的生产生活方式对长江经济带水环境的影响尤为突出，进而导致生态系统格局的变化，主要表现为农田、植被、湖泊、自然保护区等生态面积的减少以及水生生物多样性指数的持续减少等。因此，长江大保护成为长江经济带战略中亟需完成的一项重大任务，长江沿线的不透水面提取对于长江大保护时期（2016-2019年）前后岸线以及岸滩区域主要涉水工程的变化监测具有重要意义。

相较于传统的手工数字化和地面测量方法，遥感图像解译技术具有成本低、数据获取周期短、覆盖率高和空间尺度大等优点，已成为研究不透水面提取和动态变化监测的基本方法。现有研究方法大多基于Landsat TM/ETM+等中、低分辨率影像数据，利用有利于识别建筑、道路等人工地表的中红外、热红外等光谱波段进行大尺度不透水面制图[5]。高分辨率影像所包含的细节信息更有利于地物提取分析，但除了少数具有中红外波段外，大部分仅有可见光和近红外波段，从而限制了很多不透水面提取方法的使用[6]。

机器学习方法是目前大范围不透水面制图或城市尺度下不透水面信息提取中具有优势的高级算法。与传统方法相比，其可在经验学习中进行自动改善，从而克服主观因素，在处理噪声和复杂数据源等方面具有良好的精度。郜燕芳[7]等利用随机森林和支持向量机两种机器学习方法，基于Landsat8影像对呼和浩特市的不透水面进行了提取，并利用各种抽样比例的训练样本来提取城市不透水面。结果表明，随机森林算法的精度均优于支持向量机，且随机森林模型对于地物的分类辨识度更高，更有利于城市不透水面的提取。然而，仅靠单一的光谱特性很难解决光谱类内变异和“同物异谱”等问题，将给分类效果带来影响。多特征融合则能提高地物的识别精度，获得比单一特征提取的图像更完整的信息。赵艺淞[8]等利用随机森林的多特征组合方式对深圳市福田区进行了不透水面提取，在一定程度上克服了“同物异谱”和“异物同谱”的问题，阴影区的植被和个别细微的水体信息被正确区分，且城市道路轮廓清晰，总体精度可达92%以上。唐志光[9]等基于Google Earth Engine遥感大数据平台，以光谱特征和纹理特征集为随机森林模型参数，进行了近30年湖南省不透水面制图，获得大尺度长时序的不透水面信息，并进行了时空变化分析。

本文基于Sentinel-2影像，利用随机森林算法对南京长江岸线不透水面进行了提取，并分析了南京长江岸线不透水面的时空变化特征，在一定程度上揭示了社会发展与长江岸线环境保护之间的动态变化过程，为进一步科学合理制定沿江岸线的开发保护政策提供了依据。

1 研究方法

1.1 随机森林算法原理

随机森林算法是Breiman L[10]在2001年结合自己的Bagging集成学习理论[11]和Ho T K[12]的随机子空间思想创建的一种机器学习方法。该模型利用分类与回归树（CART）算法构建森林中独立分布的二叉树，每颗二叉树对样本分类时都会进行预测并投票，得票最多的预测结果将作为最终结果输出。随机森林算法作为一种抗噪能力强、异常值敏感度低的机器学习方法已越来越多地应用到遥感影像分类和回归分析中[13-14]。随机森林算法流程如图1所示，每棵树的生长过程为；

图1 随机森林算法流程示意图

1）根据Bootstrap采样方法随机有放回地对原始训练集D抽样，获得N个具有差异性且独立分布的新训练集。

2）利用N个新训练样本集Dn构造N棵CART决策树。对于每个节点，假设每个样本具有M个属性，随机地从这M个属性中选择m个属性（其中m＜0＜M），再通过不纯度分割标准的计算结果选定最佳特征组合，进而构造决策树。

3）生成的决策树无需剪枝，根据随机特征完整的生长。在由N棵二叉树组成的随机森林里，利用未抽到的样本进行每棵树的预测，并根据众多投票结果输出最终预测结果。

1.2 随机森林模型的构建

影像空间分辨率的提高，虽然能使细节信息更明显，但也会导致光谱类内变异和“同物异谱”等问题。为了提高分类精度，本文选取3个光谱指数作为新波段，加入到随机森林模型中参与分类。为了提取水体信息，可利用水体和植被在不同波段的反射率不同来构建水体指数[15]，从而达到抑制植被、增强水体的目的，但该指数仍无法消除房屋建筑与水体的噪声。因此，本文选用可增强水体与建筑物反差的归一化差异水体指数（MNDWI）[16]来掩膜水体信息。

归一化植被指数（NDVI）通常作为特征参数来评估地表植被的生长情况，被广泛应用于植被信息提取[17-19]。本文将NDVI作为南京长江沿线绿地覆盖状况的主要特征参数，将2016年7月1日-2017年1月1日以及2019年7月1日-2020年1月1日两个时段内所有去云后的Sentinel-2数据作为辅助数据，计算所有影像的 NDVI值，并根据影像时间对NDVI波段进行排序；再计算已排序的NDVI序列两个时段内所有NDVI的平均值，并将得到的结果作为一个特征波段，即NDVI时序数据，加入到随机森林模型中参与分类。

由于不透水面和裸土信息在可见光范围具有相似的光谱特性，因此大多基于高分辨率影像提取的不透水面会存在与裸土信息的错分。本文利用二者在近红外、Sentinel-2短波红外1、2波段的光谱差异显著的特征，构建了归一化差值不透水面指数（MNDISI）[20]，从而区分不透水面与裸土。

式中，Blue、Green、Red分别为蓝、绿、红光波段；NIR、SWIR1和SWIR2分别为近红外和短波红外1、2波段。

2 数据来源与样本选取

2.1 研究区概况

南京市是我国东部长江下游的丘陵地区，距长江入海口347km。长江干流呈西南—东北走向穿越南京市区，南京长江岸线范围为118°28′～119°13′E、31°46′～32°14′N。长江南京段为宽窄相间的藕节状分汊河形状，上连马鞍山段、下接镇扬河段，沿线约为92.3 km，是长江中下游重点干流河段（图2）。结合南京长江沿线保护范围线，由保护范围线向陆地拓展构建约200 m的缓冲区，即为研究区范围。

图2 长江南京段范围示意图

2.2 数据来源

本文采用高分辨率多光谱成像卫星Sentinel-2的影像数据，下载于美国地质勘探局官网。两景影像日期分别为2016年2月7日和2019年12月28日，影像选择应确保无云且天气状况良好，避免因季节不同而导致雨季和非雨季各植被类型、生长情况、水田作物收割、灌排水情况和水体水位的差异，从而提高数据的准确性和有效性。

2.3 样本选取

本文参照地理国情检测云平台土地利用分类一级分类标准，结合遥感影像的目视解译和实地考察，将研究区的土地类型划分为城乡工矿用地、绿地、水域和裸土4种，其中城乡工矿用地为不透水面。针对每种地物选取具有光谱代表性的地物样本进行分类模型的构建和精度验证。南京长江沿线流域面积较大，应在整个研究区内充分选择样本，确保每块流域样本包含每个地物类别信息，且在随机森林分类过程中需不断地对训练样本和验证样本进行修正，使得训练和验证样本既能代表地物特征又不至于使样本选择过多。样本的空间分布如图3所示。

图3 长江南京段土地利用类型样本空间分布

由于2016年、2019年南京长江沿线地物变化程度不是十分明显，因此选择一景影像进行样本选择即可，但在选取样本的过程中应保证样本选择区域在2016-2019年没有发生变化。本文利用2019年影像进行样本选取，需避开可能发生变化的地物，以免影响分类精度，因此不透水面样本中少部分为工矿用地，港口码头几乎没有。本文将所选样本集划分为70%的模型训练样本集和30%的独立验证样本集，最终共选取样本636个，其中训练样本445个、验证样本191个，并保证样本点在研究区内均匀分布。土地利用类型样本统计如表1所示。

表1 南京长江沿线土地利用类型样本统计

本文基于训练样本集构建多参数随机森林算法分类模型用于土地利用分类，同时基于随机抽取的独立样本构建混淆矩阵对结果进行精度检验。

2.4 精度评价指标

精度评价是将分类结果与已知属性的训练样本集进行对比分析，是对遥感分类精确性进行评估的方法，是对分类工作好坏的评估，是遥感分类的一个不可或缺的环节[21-22]。在目前的相关研究中，普遍采用的方法是基于混淆矩阵建立的各项统计参数的位置精度检验。本文选取的参数主要包括生产者精度、用户精度、总体精度和Kappa系数。

3 实验结果与分析

3.1 不透水面提取实验

3.1.1 提取结果

本文采用随机森林算法提取了南京长江沿线地区的不透水面，结果如图4所示。结合Sentinel-2真彩色影像对分类结果进行分析发现，在长江南岸主城区即人口密度最大的地区不透水面覆盖率最高，其中图5a为南京长江大桥区域，城市建筑覆盖密集，不透水面主要是城乡居民用地和工矿用地，可以看出该区域不透水面的整体提取效果良好，一些建筑的细节提取也较好，但仍存在极少部分裸土与不透水面混分的问题；图5c为八卦洲湿地公园，该区域多为裸土、植被和山体，不透水面主要是建筑，可以看出随机森林算法能将裸土、植被、山体与城乡居民用地区分开，在建筑物较少的区域也可得到不错的提取效果；图5e为八卦洲下游区域，北岸多为裸土、植被且有少部分工矿用地，南部主要为栖霞区工业用地和码头，可以看出，尽管南岸存在极小部分裸土与植被覆盖，随机森林算法仍能较好地提取不透水面，也可将北岸的工矿用地与植被、裸土区分开。

图4 南京长江沿线不透水面提取结果

图5 Sentinel-2影像与不透水面提取结果对比图

综上所述，随机森林算法对于南京长江沿线的不透水面提取整体上精度良好，但经详细目视判别仍能发现极少部分裸土与不透水面混分的问题；对比Sentinel-2的真彩色影像发现，较少的高反射率的蓝色、红色房屋无法作为不透水面被提取出来。

3.1.2 精度评价

本文从原始样本集中随机抽取30%的样本建立2016年、2019年分类结果的混淆矩阵，从而进行分类精度检验。结果表明，2016年的总体精度为88.25%，Kappa系数为0.76，2019年的总体精度为90.51%，Kappa系数为0.80。本文对Sentinel-2影像进行目视解译，并结合高空间分辨率影像进一步检验不透水面的比例结果。结果表明，Sentinel-2 影像提取的不透水面参考数据与实际不透水面比例分布基本一致，精度能满足不透水面提取的要求。

为了验证随机森林算法提取不透水面精度的可靠性，本文利用最大似然法进行对比实验。最大似然法是基于概率统计的一种监督分类判别规则，在不透水面提取方面得到广泛应用，并取得了较好的效果。

本文以江心洲南部和绿水湾湿地公园为验证数据，两种方法的提取结果如图6所示，可以看出，随机森林算法的提取效果明显优于最大似然法，随机森林算法可清晰提取道路、桥梁和田埂的轮廓，而最大似然法提取的整体轮廓非常模糊，尤其是密集房屋之间的轮廓混淆得非常严重，这样不仅影响了不透水面的提取精度，而且影响了房屋建筑之间的植被提取效果。由于随机森林算法中加入了区分裸土信息的参数，因此提取结果中建筑与裸土被很好地区分开；而最大似然法则将二者混淆，严重影响了不透水面的提取精度。两种方法的精度评价对比如表2所示。

表2 2016年、2019年随机森林算法与最大似然法提取精度评价对比表

图6 随机森林算法与最大似然法提取结果对比图

3.2 时间变化特征分析

由实验结果可知，2016年、2019年的不透水面面积分别为31.231 km2和28.447 km2，整体呈减少趋势。不透水面面积的减少在很大程度上与城市建设有关，推进城市化发展的过程虽然会导致居民用地的不断扩张，但工矿用地将随着时间逐渐减少，从而影响了不透水面的覆盖率。2016年、2019年不透水面和透水面的面积占比如图7所示。

图7 两期不透水面和透水面的面积占比

本文利用随机森林算法将透水面进一步划分为绿地、水域和裸土，并将其提取出来。通过统计计算得到不透水面及其相应的面积占比，其中不透水面面积占比从9.52%下降为8.69%，呈减少趋势，各种土地利用类型面积占比如图8所示。

图8 两期不同土地利用类型面积占比

由不透水面与透水面的面积转移矩阵（表3）可知，南京长江沿线不透水面的变化显著，2016-2019年不透水面转化为透水面的面积为4.06 km2。

表3 2016－2019年南京长江沿线不透水面与透水面面积转移矩阵/km2

由于透水面可细分为绿地、水域和裸土，因此通过不透水面与其细化的土地利用类型之间的面积转移矩阵可以更加清晰地了解不同地物之间的变化，如表4所示，可以看出，2016-2019年各地物均有不同程度的面积转移，其中不透水面转移为绿地的面积为3.38 km2，占总变化面积的32.3%；绿地转移为不透水面的面积为1.16 km2，占总变化面积的11.1%；绿地转移为水域的面积为2.61 km2，占总变化面积的24.9%。

表4 2016－2019年南京长江沿线不透水面与其他用地类型面积转移矩阵/km2

随着对生态环境保护重视程度的加深，2016-2019年湿地公园和自然保护区的维护效果较为显著，面积比重持续上涨，这是南京市作为长江流域沿岸较发达的高城市化水平城市，第二产业向第三产业优化过渡发展过程中，坚持响应政府退耕还林还草、退耕还湿的号召，开展沿江大保护生态工程产生的直接效应。近年来，南京市从全局角度实施的湿地资源保护与开发措施，在减少耕地和工矿用地侵占长江沿岸资源上取得了显著成效，可为其他城市的生态治理、沿江保护提供一定的借鉴。

3.3 空间变化特征分析

随着生态文明城市建设，退耕还林还草、自然保护区维护，大力开展湿地公园的建设与保护等措施缓解了很多生态问题，这也与南京长江沿线不透水面面积变化趋势，即湿地公园面积和自然保护区面积增加、工矿用地面积减少相应证。

南京长江沿线湿地公园不透水面的空间变化主要体现在新济洲湿地公园、绿水湾湿地公园和八卦洲湿地公园，2016-2019年湿地公园中的建设用地以及正在施工的工矿用地大多已转移为林地，新济洲上的港口码头已基本撤除。为坚持响应政府对长江沿岸湿地中围垦的控制，绿水湾湿地公园和八卦洲湿地公园中的部分耕地已转移为湿地公园中的小路和建筑。南京长江沿岸自然保护区不透水面的空间变化主要体现在江豚保护区，包括核心区、缓冲区和实验区3个部分，每个区域均有不同程度的变化，不透水面覆盖面积整体呈减少趋势，大多工矿用地转移为湿地或绿地资源，使得保护区发挥了稳定的生态环境调节和保护的功能。2016-2019年不透水面与透水面的转移情况如图9、10所示。

图9 2016－2019年透水面转移为不透水面

图10 2016－2019年不透水面转移为透水面

4 结语

本文利用随机森林算法提取了南京长江沿线2016年、2019年的不透水面，并对其进行时空变化分析，得到的结论为；

1）该方法可满足不透水面提取的精度需求，并能准确反映不透水面的空间分布情况。

2）2016-2019 年南京长江沿线不透水面比例整体呈减少趋势，总面积减少2.784 km²，年均减少0.928 km2。其中，以新济洲湿地公园、绿水湾湿地公园和八卦洲湿地公园为主的湿地公园以及各自然保护区的不透水面减少趋势最明显，大多为工矿用地转移为植被或水体。

3）2016-2019 年南京长江沿线南岸的不透水面主要是城市建设，今后应在沿江建设滨江生态带，既能对生态环境进行保护，又能提升城市美观度。

本文从不透水面比例的时空变化方面分析了南京长江沿线的发展变化规律，未来需要加强基于城市扩张变化驱动力和不透水面变化的城市环境研究。