耦合GF-2遥感影像与街景影像的广州市城中村识别

2022-10-15 06:20崔成赵璐任红艳逯伟利黄耀欢

遥感学报 2022年9期

崔成，赵璐，任红艳，逯伟利，黄耀欢

1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;

2.中国科学院大学资源与环境学院,北京100190

1 引言

快速的城镇化在带动区域经济增长的同时，也伴随着贫民窟、棚户区、城中村UV（Urban Village）等城市非正规居住空间的出现。与常规城市建成区相比，非正规居住空间常游离于城市管理体系之外，其内部街道空间品质低下，具有土地利用类型杂乱、建筑物密度高且质量差、基础设施缺乏、环境脏乱等特点（Ghasempour，2015），对城市景观和公共健康造成了负面影响（Ren等，2019）。随着中国新型城镇化建设的推进，高质量发展成为新时期主题，及时准确地获取这些非正规居住空间的分布及其环境质量信息对于优化城市空间、改善人居环境具有重要意义（Liu等，2010）。

不同的地理环境和文化背景，导致各个国家和地区对非正规居住空间的定义以及描述存在差别（Kuffer等，2016）。城中村是中国常见的非正规居住空间。它通常指城市扩张过程中政府为减少成本而避开或绕过农村居民点进行建设用地开发所形成的一种特殊城市居住区，是非正规居住空间在中国的本土化实例（Li和Wu，2013）。中国的城中村与国外的贫民窟存在较多共性，如居住条件差、缺乏管理、为低收入和流动人口提供住房等，但城中村与贫民窟的不同之处在于城中村的形成与发展依赖于中国特有的城乡二元体制（李培林，2002）；此外，两者虽然具有相似的形态特征，但这些特征会因为所处国家和地区的不同而产生变化（Kuffer等，2016）。因此，在进行城中村识别时需要依据当地的实际情况选取有效特征。

城中村空间信息的获取方法与其他非正规居住空间类似。现场调研踏勘或普查数据可以提供详实的城中村资料，如用地面积、建筑面积、建筑密度、平均层数等（仝德等，2011），但现场调查或普查人力成本高且效率低，难以在大范围空间尺度上进行，且现势性难以满足应用需求（Huang等，2015）。高空间分辨率的遥感影像因其观测范围广、地物信息丰富、获取方便等优势，已经成为城市规划和管理的重要数据源（宋明辉，2019；井然等，2020），国内外学者利用高分影像及相关技术开展了大量城中村和贫民窟的识别工作（Kuffer等，2016；刘辉，2018）。

基于高分影像的目视解译是获取小范围内城中村空间分布信息最精准的识别方法，但该方法需要丰富的专业经验和充足的实地调查资料，因此识别难度大，效率较低（郭洪旭等，2013）。面向对象的分类方法OBIA（Object Based Image Analysis）是目前提取城中村或贫民窟空间分布的常用技术（Kuffer等，2016）。OBIA根据像元之间关联关系和地物内部纹理信息，构建适宜的分割尺度，将分割后的图斑对象作为分类基本单元（Kuffer等，2016）。与仅利用光谱特征的基于像素的分类方法相比，OBIA还能获取高分影像中形态、纹理、空间语义等上下文信息，便于对城市中的复杂整体进行识别，减少提取时的“椒盐现象”，能在一定程度上保留地物的精准边界（Tan等，2019）。

城中村或贫民窟是由大量单体住宅建筑及少量辅助设施组成的复杂整体，通过对比城中村与常规城市建成区在建筑密度、屋顶材料、建筑格局、周边环境等方面的差异，从高分遥感影像中获取光谱、纹理、形状等特征对两者进行区分，如Kohli等（2013）基于Hofmann等（2008）提出的slum本体论，选取了Ahmedabad市内的3个子区域作为研究区，探究面向对象分析技术识别贫民窟的可行性与特征可迁移性，结果表明纹理特征（熵、对比度等）最具有可移植性；D’Oleire-Oltmanns等（2011）基于SPOT-5和Quick Bird影像上的亮度、形状、尺寸等特征识别城中村，整体分类精度约为68%；Huang等（2015）基于遥感影像的光谱纹理特征以及景观指标等信息，提取了深圳市和武汉市的城中村，精度评价结果显示，Kappa系数大于0.82。

基于高分遥感影像的面向对象分类方法可以实现对城中村的宏观实时监测，然而城中村内部结构复杂，包含了形状尺度不一的各类地物，具有多尺度特性（刘辉，2018）。单一的分割尺度难以同时兼顾影像的宏观和微观特征。此外，数据融合是提高遥感影像应用能力的重要手段（赵崇悦，2018；张良培和沈焕锋，2016）。多源数据融合能够突破单一传感器的限制，发挥多平台互补观测的优势，如POI、社交媒体等辅助数据可弥补高分影像中社会属性的缺失，提升城市内部土地利用制图精度（Liu等，2017b；Song等，2018）。为了提高城中村的提取精度，研究者尝试耦合腾讯用户密度数据、建筑物轮廓数据及POI等多源大数据，结果显示广州市天河区城中村识别正确率在89%以上（赵云涵等，2018）。

城中村与常规城市建成区的主要差异在于其内部建成环境，即街道空间品质低下。然而内部建成环境难以在基于俯瞰视角的遥感影像中直接体现。而街景地图提供了街道的360°全景影像，具有覆盖范围广、位置精度高、采集成本低等优势（Anguelov等，2010）。街景影像SVI（Street View Image）以人本视角呈现了街道景观真实形态，是城市景观的直观表示，为城市建成环境的量化研究提供了重要数据源（张丽英等，2019）。Li等（2015）利用谷歌街景影像评估纽约市的街道绿化状况；Liu等（2017a）利用AlexNet卷积神经网络提取街景影像特征，结合支持向量机算法，对北京市建筑单体的外立面品质和建筑群体的房屋连续度进行评估；甘欣悦等（2018）构建了基于残差学习的卷积神经网络对街景图片进行分类，在测试集上准确率约为79%，进而对北京老城区的非正规性进行量化评价。

基于街景影像可有效地评估城市内部建成环境（叶宇等，2019）。研究者尝试进一步耦合街景影像与遥感影像的信息，如Barbierato等（2020）耦合高分遥感影像和谷歌街景影像的多视角优势，对城市森林生态系统的服务能力进行综合评估；Hoffmann等（2019）利用街景影像反映的建筑物侧立面信息，与航空相片的信息进行决策级融合，提高了建筑物尺度的土地利用分类精度。但整体而言，耦合高分遥感影像和街景影像的信息识别城中村等非正规居住空间的研究较为缺乏。

综上表明，高分遥感影像是目前高效获取城中村空间分布的可靠数据源，然而由于城中村内部建筑的密集性和复杂性，仅依靠高分影像难以满足城中村识别的高精度需求。多源数据耦合已被证实能提高城中村识别精度。基于此，本研究以城中村问题突出的广州市越秀区为例，提取街景影像中的街道空间品质信息，进而将街道空间品质作为特征融入到基于高分遥感影像的城中村提取流程中，获取信息融合后的城中村分类结果。该方法有望提高城中村识别精度，可为城市精细尺度的土地覆盖分类提供参考。

2 数据与研究方法

2.1 研究区概况

广州市位于广东省中南部，是中国最早形成城中村的特大城市之一。广州市属于海洋性亚热带季风气候，四季常绿，城市内部植被等景观相对稳定。广州市下辖11个区，越秀区（23.11°N—23.17°N，113.24°E—113.32°E）是广州市11个城区中面积最小、人口密度最高的城区。越秀区总面积为33.80 km2，2017年常住人口为116.38万人，人口密度约为34432人/km2（数据来源：广州市统计局）。越秀区（图1）有登峰、西坑、瑶台等典型城中村。

图1 研究区位置概况Fig.1 Location map of the study area

2.2 高分遥感影像及预处理

本文所用高分遥感影像来自于GF-2 PMS1传感器，包括1 m空间分辨率的全色波段和4 m空间分辨率的多光谱波段（蓝、绿、红、近红外），影像的采集时间为2017年9月15日。

GF-2影像预处理的步骤包括：正射校正、辐射定标、大气校正、图像配准和影像融合。首先利用全色和多光谱影像自带参数进行正射校正，其次采用GF-2绝对辐射定标系数对多光谱数据进行辐射定标，并利用ENVI 5.3中的FLAASH模块对多光谱辐射定标后的辐亮度图像进行大气校正；以全色影像为基准进行图像配准，在待校正影像中选取地面控制点进行几何校正，最终选用Gram-Schmidt方法将校正好的多光谱和全色数据进行影像融合，融合后影像空间分辨率为1 m。

越秀区的土地利用类型包括水体、植被、道路、城中村建筑区和非城中村建筑区。采用归一化差分植被指数NDVI（Normalized Difference Vegetation Index）来获取越秀区植被分布状况。本文通过多次调整和试验，发现以NDVI≥0.36作为阈值可以较准确地提取研究区中连续分布的植被信息。越秀区的路网数据和水体矢量数据来自于OSM（OpenStreetMap），由于原始路网为线状数据，为更真实地反映实际道路形态，本研究参考常规车道宽度（中华人民共和国住房和城乡建设部，2016），在线状路网两侧生成4 m缓冲区作为路网面状数据，结果表明生成的面状路网可以较好覆盖影像中的道路。越秀区土地利用类型的预提取结果见图2，后续只需在待分类区中区分城中村和非城中村建筑区。

图2 越秀区GF-2真彩色影像与预分类结果Fig.2 The GF-2 image of Yuexiu district and pre-extraction results

本文采用面向对象的分类方法OBIA（Object-Based Image Analysis）来提取城中村。鉴于城中村的复杂性，对高分影像进行多尺度分割来同时兼顾城中村的宏观和微观特征。城中村与周边其他类型用地之间通常有相对宽阔的道路，因此在传统的多尺度分割方法基础上，利用OSM提供的道路网络辅助影像分割过程，可提高分割准确性（D’Oleire-Oltmanns等，2011）。广州市行道树茂密，也可作为城中村和其他区域的隔断，因此加入连续分布的植被数据约束分割过程。多尺度分割过程中需要设置尺度、形状、紧致度3个参数。本文构建了建筑对象级和地块级两个尺度的分割层用于计算特征指标（其中建筑级对象作为地块级对象的子对象）。利用试错法选择适宜的分割参数，最终地块级别的分割参数为320/0.9/0.8，建筑对象级别参数为100/0.8/0.5。GF-2影像多尺度分割过程基于eCongnition Developer 9.0平台完成，将地块级别的分割结果作为统计单元进行特征提取和城中村识别（Kuffer等，2016）。

分别在地块尺度提取基于高分遥感影像的光谱、形状、纹理、建筑结构等特征和基于街景影像的街道空间品质特征，采用随机森林算法融合两种影像的特征来进行城中村识别。整体技术流程如图3所示。

图3 基于多视角影像的城中村提取流程Fig.3 Framework of UV extraction based on multi-view images

2.3 街景影像与人工标注

本文所用街景影像源自百度地图，在越秀区路网上以50 m间隔生成采样点，根据采样点所在道路朝向，分别获取平行于道路（前、后）和垂直于道路方向（左、右）共4张街景影像，最终获取广州市越秀区14930个采样点上的59720幅街景影像，街景影像的实际拍摄时间为2017年5月，与高分影像的采集时间基本一致。对4个视角部分街景影像进行人工标注，将其分为低质量和高质量两类（图4），作为街道空间品质评估模型的训练集和测试集。详细技术流程请参考本团队前期研究成果（崔成等，2020）。

图4 越秀区不同视角高/低空间品质的街景影像示例Fig.4 Sample of SVIs with high/low street space quality from four orientations of Yuexiu district

2.4 机器学习算法

支持向量机SVM（Support Vector Machine）和随机森林算法RF（Random Forest）被用于判别街景影像的空间品质。SVM将低维空间线性不可分样本转化至高维空间内线性可分的样本，并通过间隔最大化的原则在高维空间内寻找最优分类超平面；SVM核函数采用径向基核函数，算法主要参数正则化参数C与径向基核函数的带宽gamma采用网格搜索法进行筛选（陆波等，2005）。

RF利用样本随机和特征随机的策略构建多棵互不依赖的决策树，通过降低方差的策略提高了模型的泛化性能（Breiman，2001），其算法主要参数包括决策树数量、决策树最大深度和单棵决策树可用特征数量。本研究中RF的决策树数量为100，其余参数同样采用网格搜索法确定。

在RF算法构建过程中，本研究采用平均Gini减小值（Mean Decrease Gini）方法评估各特征重要性，该方法原理为依据节点不纯度最小原则进行节点分割时计算指标xi的Gini系数减少值Di，将RF中所有Di求和后对所有决策树求平均值，以此作为指标xi的重要性。

3 城中村特征体系构建

3.1 高分遥感影像特征提取

不同地区城中村在高分影像上的表征存在差异，在某地区具有良好区分度的指标在另一区域可能就不再适用（Hao等，2013）。结合前人研究（Zhao等，2020）和实地考察，分析了广州市城中村同常规城市建成区在高分遥感影像上的差异（表1）；从GF-2影像中获取多个类别的特征来刻画广州市城中村，包括光谱特征、形状特征、纹理特征、建筑结构和场景特征，并选取了对应指标（表2）。

表1 GF-2影像中城中村与常规城市建成区的差异Table 1 Differences between UV and normal construction land on GF-2

表2 基于高分影像和街景影像的特征体系Table 2 Features based on SVI and GF-2 image

光谱特征体系中包含GF-2影像4个原始的多光谱波段和降维后包含影像大部分信息的第一主成分PCA1的均值（Mean）和标准差（Standard deviation），还包括亮度（Brightness）和亮度差异最大值（Max-diff）2个常用指标。

形状特征包括地块面积（Area）、密度（Density）、形状指数（Shape index）这3个指标。灰度共生矩阵通过研究灰度像元的联合分布情况有效地描述了图像纹理模式（Zhao等，2020），本研究采用的纹理特征包括灰度共生矩阵GLCM（Gray Level Co-occurrence Matrix）的相关性、熵和标准差。

建筑结构特征包括建筑对象面积均值和建筑对象PCA1均值的标准差。场景特征中采用NDVI表征地块内部植被覆盖情况，同时以Veg_P表征周边环境的绿化状况（每个地块15 m缓冲区内植被面积占比）；Shadow_P表示各地块内阴影面积占地块面积的比例。阴影数据基于高分影像的PCA1进行阈值分割提取（Wang和Wang，2009），最终从GF-2影像中获取23个特征。

3.2 街景影像特征提取

本研究从街景影像获取了多个特征，包括手工设计的特征（加速鲁棒特征，方向梯度直方图特征）和基于深度学习的特征（语义特征），采用串行方式对多个特征向量进行组合，利用SVM和RF构建街道空间品质评估模型，利用模型在测试集上分类精度和Kappa系数来选择各视角最优模型及对应的特征组合方式。

结果表明各视角最优模型在测试集上表现良好，均为多特征融合模型，分类精度和Kappa系数均值为80.6%和0.62。因此用其评估越秀区59720张街景影像中的街道空间品质。模型判断某幅街景影像属于高品质街道的概率值越高，则表示街道空间品质越高（崔成等，2020），通过计算各采样点4幅街景影像所反映街道空间品质的均值，最终获取越秀区采样点尺度街道空间品质的空间分布。

基于街景影像评估街道空间品质的详细过程请参考崔成等（2020）研究成果；基于采样点尺度的街道空间品质，采用反距离加权的空间插值策略获取空间连续的街道空间品质评分图，从而获取各地块内街道空间品质的均值、方差、最大值、最小值、极差共5个特征。

3.3 模型构建

基于我们多尺度分割结果，参考实地调查情况和Google Earth高清影像在待分类区标注8个城中村地块和23个非城中村地块作为训练集。由于高分影像和街景影像来源于不同视角的传感器，适合进行特征级别融合（张良培和沈焕锋，2016）。因此，分别基于高分影像特征、街景影像特征、两者融合后特征，采用随机森林算法利用训练样本构建分类器，再通过训练后的随机森林分类器判断其余地块是否为城中村。

结合实地调研、Google Earth目视解译等手段综合获取地块尺度的越秀区城中村空间分布现状，以此作为地面真实值（Ground truth）对分类结果进行验证。基于两者的混淆矩阵计算整体分类精度、Kappa系数、城中村建筑区识别结果的用户精度和生产者精度评估各模型性能。

由于非城中村地块包含多种情况，如正规住宅小区、商业及公共设施用地、裸地等，导致城中村与非城中村地块的总量相差较大，在保证验证样本丰富性和完整性的同时也造成了城中村和非城中村样本数量存在不平衡现象，影响总体分类精度指标的有效性（Zhao等，2020）。所以后续比较不同模型的精度时更关注充分利用整个混淆矩阵信息的Kappa系数以及反映城中村提取效果的用户精度和生产者精度。一般而言，Kappa系数达到0.6，则认为分类结果与地面实际情况高度一致。

4 城中村识别结果

4.1 城中村分类精度对比

采用高分影像各类特征建立的模型对城中村识别的整体精度为94.5%，Kappa系数为0.58（表3）。该结果证实了高分遥感影像是提取城中村的良好数据源。仅基于街景影像建立的模型生产者精度（63.5%）略优于基于高分影像的模型生产者精度（63.1%），但其用户精度、整体精度和Kappa系数却远低于对方。

表3 基于各类影像特征的城中村提取精度Table 3 Classification accuracy based on different image features

虽然仅基于街道空间品质特征建立的模型整体精度较低，然而在基于高分影像的城中村提取流程中融入街道空间品质信息后，模型各项评价指标均有了不同程度的提高。其中用户精度提升幅度最高，相对于仅基于高分影像或街景影像的模型，分别提升了15.5%和47.4%，而生产者精度仅是略有提升。各项度量指标表现最优的模型都是高分影像与街景影像特征融合后的模型，其分类精度和Kappa系数分别达到了96.1%和0.67。

图5进一步阐释了精度提升的原因。基于高分影像提取城中村时存在错分现象，即将部分低矮建筑密集区判定为城中村，而通过街景影像可观察到这些区域街道空间品质中等，主要为工厂库房等建筑区，不属于城中村地区；而基于街景影像提取城中村时会将部分老旧小区或者小商贩聚集区识别为城中村，通过高分影像可观察到这些区域建筑稀疏或者建筑楼层较高，也不属于城中村。城中村识别精度提高主要是用户精度的提升（表3），即通过耦合高分影像和街景影像的多视角特征信息，大大减少了模型错分现象。鸟瞰视野的高分影像和人本视角的街景影像提供的信息可以综合互补，提高城中村识别精度。

图5 基于不同影像的城中村提取结果Fig.5 UV classification results bases on different images

4.2 特征重要性评估

基于随机森林算法可以获取全特征模型中（高分影像+街景影像）各特征的重要性（表4）。重要性最高的特征是街道空间品质特征，其最小值和均值指标共贡献了约20%的特征重要性。后续第3至第5重要的特征依次为纹理特征（GLCM_Correlation）、场景特征（Veg_p）、形状特征（Area）。基于街景影像提取的度量街道空间品质的5个指标贡献了31.6%的特征重要性。由此可知街道空间品质对城中村提取起着关键作用。

表4 特征重要性及排名Table 4 The rank and importance of features

5 讨论

城中村是一种复杂的城市景观，具有建筑密度高、屋顶建筑材料多样，内部地物的空间构成混乱等特点（Li和Wu，2013）。在高分遥感影像中，城中村的光谱纹理、建筑结构等物理景观与常规城市建成区存在较大差异（Kuffer等，2016）。然而，我们的研究结果表明，高分遥感影像大多为俯视视角影像，仅能获取城中村的屋顶表层信息，容易与同样具有较高建筑密度的工厂库房区域混淆；而融合了街景影像与高空间分辨率遥感影像信息的城中村识别方法，则较好地弥补了单一遥感影像的信息缺失问题。

在全特征模型中，基于街景影像获取的街道空间品质特征在28个特征中的重要性最高，其次是基于地块对象计算得到的纹理特征。这说明与基于像素的分类方法相比，面向对象分析中的纹理、形态特征能更好地描绘复杂的城中村环境。而街道空间品质特征所反映的社会经济信息的差异同样也是区分城中村和常规城市建成区的重要指标（李立勋，2005）；高分影像和街景影像在描述上述两类特征时各有所长（Jia等，2018），两者耦合后可有效地综合不同类别、不同视角的特征（Blasch和Huang，2000）。在后续研究中也可以继续融合其他反映人类社会经济活动的数据，如POI、夜间灯光数据、手机信令数据等（Hu等，2016），来更精准地刻画城中村的人口学特征、社会经济特征，从而构建更有区分度的特征空间（林文盛等，2018；Cao等，2020）。

街景影像作为感知城市环境的新型地理大数据，不但可直接对城市建成环境进行量化研究，而且可作为遥感影像的重要补充（Hoffmann等，2019）。相比于POI等辅助数据源，街景影像更侧重于以人本视角直观记录城市街道层级的景象，它能在一定程度上代替基于现场观测的城市环境评价工作（He等，2017），在城市环境评价领域具有广阔的应用前景。

虽然街景影像可有效弥补高分影像中信息的缺失，但它属于地基观测数据，空间插值方法等以“点”代“面”的策略限制了仅基于街景影像的城中村识别精度。一方面有必要探索不同空间插值方法对模型精度的影响，同时有必要将街景影像与空间全覆盖的遥感影像等数据进行融合以充分发挥其在土地利用精细分类领域的应用潜力；此外，本研究仅选择了广州市越秀区作为研究区对耦合高分遥感影像和街景影像的城中村识别方法进行探索，未来可以尝试将该方法推广至广州其他城区以及周边城市。

6 结论

城中村是中国城镇化进程的产物之一，对城市的管理和规划提出了挑战，本文提出了一种耦合高分遥感影像和街景影像的城中村提取方法，以广州市越秀区为例，通过融合高分辨率遥感影像的光谱、形状、纹理、建筑结构、场景特征和街景影像的街道空间品质特征，以多尺度分割的地块为基本单元对城中村进行识别。研究结果显示：

（1）两类影像特征耦合后的城中村识别的Kappa系数可达0.67，明显高于单独基于遥感影像（Kappa系数：0.58）或街景影像（Kappa系数：0.31）的提取精度。

（2）融入街景影像提供的城中村特征信息可提高识别精度。基于街景影像提取的度量街道空间品质的5个指标贡献了31.6%的特征重要性。街道空间品质在城中村识别中起着关键作用。

（3）鸟瞰视野高分影像提供的光谱、形状、纹理、建筑结构和场景特征，同人本视角街景影像提供的街道空间品质信息可以综合互补，构建了更有区分度的特征空间，提高了城中村识别精度。

该结果证实了将街景影像的特征融入到基于高分影像的城中村提取流程中能有效提高识别精度。本文提出的方法获得了较为稳定可靠的城中村分类精度，后续将增加其他数据以进一步丰富现有的耦合方法和技术体系。本研究构建了耦合多视角数据（高分遥感影像和街景影像）的城中村综合提取方法，为基于高分影像的特大城市精细化土地利用分类拓展了思路，对类似研究有启发和示范作用。

志谢感谢中国资源卫星应用中心提供实验区的高分遥感影像，在此表示衷心的感谢！