基于Mask R-CNN和样方密度法的城市功能区识别

2023-09-13 04:08:40牛成英邢晓文闫新宇
关键词:功能区网格精度

牛成英,邢晓文,闫新宇

(兰州财经大学 统计学院,兰州 730020)

在城市发展过程中,由于物质资源的聚集效应和集群效应,逐步形成了为城市居民提供特定服务的各类功能聚集区域。清晰把握城市的空间特征,尤其是各功能区的空间分布情况及功能属性,对城市管理者进行“去量保质”的高水平发展和“事半功倍”的高效率治理具有重要意义。在传统的城市功能区识别研究中,大多采用土地利用类型现状图、统计调查等数据,利用各种聚类或建立指标体系等方法对城市功能区进行划分[1-2]。然而,传统的研究方法在确定权重系数时主观因素太强。随着对地观测技术的快速发展,遥感影像数据出现,为提取土地特征信息、准确识别城市功能区提供了数据支持。遥感影像能获取的地物空间细节信息更清晰,且具有数据量大、特征丰富等特点,使得基于遥感影像数据进行城市空间分类的研究成为该领域的热点。

传统的图像识别方法需要人工设定有效图像特征,泛化能力较差。深度学习是由数据驱动进行特征提取,泛化能力相对较好。如Zhang等[3]提出了利用遥感数据和卷积神经网络(convolutional neural network,CNN)模型的功能区识别方法,并证明了该方法的可行性。Zhou等[4]提出超对象-卷积神经网络(super object-CNN,SO-CNN)模型进行城市功能区的识别。Girshick等[5]引入区域卷积神经网络(region-CNN,R-CNN)模型,成功地将深度学习应用到地理影像目标检测领域。在此之后提出的Fast R-CNN及Faster R-CNN[6-7]模型在不同程度上对R-CNN模型进行改进并提升了测试和训练速度。He等[8]提出的掩膜区域卷积神经网络(mask region-CNN,Mask R-CNN)模型不仅能同时进行地理影像目标检测与分割,还能扩展到其他任务中。Mask R-CNN由2部分构成,一部分是负责提取目标检测的Faster R-CNN,另一部分是预测目标掩膜的全连接卷积神经网络。Mask R-CNN模型与其他神经网络模型相比,最大区别在于增加了掩膜部分,通过全连接卷积神经网络对特征图中每个像素点进行分类,从而实现对像素级目标的分割。刘青松等[9]证明Mask R-CNN模型在图像识别中比其他主流神经网络效果更好,因此,将Mask R-CNN深度网络模型应用到城市功能区识别研究中,可以提高识别精度。

然而,对地观测数据只能记录地表自然要素的特征[10],即遥感影像数据所提取的特征仅代表城市外部自然特征,无法反映城市土地功能的社会特征。近年来,随着移动互联网、大数据等技术以及社交软件的发展和应用,产生了大量记录人类行为的数据,如反映人类空间移动、社交、消费等各种行为的信息,能够表征人类社会经济活动的内在特征,为感知人类活动的城市社会经济特征提供了可能。人类行为数据填补了遥感影像数据无法精细描述微观个体与地物空间内在联系的空白,有助于提高城市功能区识别的精度。

人类行为数据在城市功能区识别中已得到了许多应用。其中,兴趣点(point of interest,POI)数据是地理要素在空间上抽象的点实体,是城市功能结构研究中最常用的数据之一。国内众多学者基于POI数据对城市空间结构、设施布局、生活便利度等方面展开了理论与实证研究。同时,部分学者已将POI数据应用于城市功能区识别与评价研究工作中。如池娇等[11]利用实体建筑物POI数据加权重分类,用颜色叠加法分析了武汉市单一及混合功能区。Yuan等[12]通过地理信息系统(geographic information system,GIS)轨迹数据对区域进行了划分,并基于主题模型对区域内的POI数据进行处理,以推断和总结区域功能。周杭等[13]基于POI数据和开放街道图(open street map,OSM)数据,提出基于特征向量分析法,实现了城市功能区识别。宋丽洁等[14]基于POI数据、手机信令数据等多源数据,通过对POI数据构建“空间面积—人口热度”二元权重计算模型,进行功能区划分。但是,POI数据、OSM数据等多源地理数据的产生与人类活动息息相关,导致其分布存在着空间异质性,难以感知城市自然特征。

综上所述,发现单一的遥感影像和POI数据能分别从城市自然特征和人文特征角度进行城市功能区识别,但在利用单一数据进行城市空间特征识别时,分类精度往往不高。因此,提出将遥感影像和POI数据相结合的基于Mask R-CNN和样方密度法(mask R-CNN and quadrat density method,Mask R-CNN-QDM)模型,通过遥感影像和POI数据相结合的城市功能区识别方法,克服利用单一数据时难以实现功能区精确划分的不足,为城市功能区识别研究提供参考。

1 研究方法

1.1 分割遥感影像的Mask R-CNN模型

Mask R-CNN模型基于Faster R-CNN模型将图像分解为像素级别,提取目标特征的空间分布,可实现多任务输出,其算法流程如表1所示。由表1可知,模型将图像输入骨干网络ResNet50得到相应的特征图;然后通过区域生成网络(region proposal network,RPN)模型在特征图上使用滑动窗口,将特征映射成一维特征向量,并在特征向量基础上通过2个全连接层输出类别概率和边界框坐标。整层感兴趣区域(region of interest,ROI)使用双线性插值法,通过调整边界框坐标来减少RPN造成的偏差,以得到校正后的特征点位置;再使用非极大值抑制(non-maximum suppression,NMS)模型剔除重叠检测框,得到与真实检测框最接近的候选框。最后使用全连接层将特征向量映射成一维特征向量,得到预测结果。

表1 Mask R-CNN模型Tab.1 Mask R-CNN algorithm

Mask R-CNN模型在Faster R-CNN模型基础上,通过添加每个ROI上的掩膜分支,能够并行处理分类以及边界的回归,在缩短检测时间的同时能提高检测结果的准确度。陈红顺等[15]将Mask R-CNN模型的损失定义为1个多任务损失函数L,如式(1)所示:

L=Lcls+Lbox+Lmask,

(1)

其中,Lcls为分类损失函数,用来区分前景和背景;Lbox为检测损失函数,用来修正前景锚点坐标,从而得到最佳检测框;Lmask为掩膜分割结果损失函数,是平均二值交叉熵损失函数,利用Sigmoid函数对每个像素进行特征映射,为不同类别ROI提供独立掩膜预测。

1.2 基于POI数据赋值的QDM

不同类型的POI数据能反映城市功能分区的信息和规律。然而,POI数据是点数据,不能表现其信息规模大小。若仅从POI数据频数的角度来识别城市功能区,会使得区域主要功能被占地面积小但数量多的便利店、小商铺等所主导,导致计算结果与真实情况不符。因此,参考贾斐雪等[16]面积赋分的思路,与QDM相结合,对POI数据进行赋值。

考虑到每个POI数据的规模对功能区影响程度不同,参考中华人民共和国商务部发布的《零售业态分类》(GB/T 18106-2021),对占地面积1000m2以下的相关设施进行分类,并依照《2021年中国城市建设统计年鉴》对1000m2以上的设施进行归类。评价标准如表2所示。

表2 POI面积与评分标准Tab.2 Areas of POI and scoring criteria

QDM先将研究区分割成一系列子区域,即样方,然后计算落入各个样方的POI数与该样方面积的比值。由于使用POI频数计算样方密度会与真实情况有出入,因此使用面积赋分代替频数,即根据POI面积的赋分结果计算各单元不同类型POI面积与网格单元面积的比值,从而得到该网格内占主导地位的POI类型,计算公式如下所示:

(2)

(3)

1.3 识别城市功能区的Mask R-CNN-QDM模型

Mask R-CNN模型基于遥感影像数据进行建筑物检测和识别。建筑是人类劳动的产物,未检测到建筑物的区域大多数为山地、湖泊等不适宜人类居住的自然区域。因此,将网格中是否检测到建筑物作为判断城市自然特征的依据:检测到建筑物的网格,即不符合自然特征,否则符合自然特征。另一方面,QDM适用于通过POI数据进行功能区识别。POI数据是城市人文特征的直接体现,因此将网格中是否存在POI数据作为判断城市人文特征的依据:存在POI数据的网格,即设定有人文特征,否则不具备人文特征。

表3 功能区分类Tab.3 Functional area classification

2 研究区概况和数据来源

2.1 研究区概况

兰州市位于北纬36°03′,东经103°40′,现辖城关、七里河、西固、安宁、红古5区和永登、榆中、皋兰3县。实验仅选取城关区、七里河区、西固区和安宁区4个主城区作为研究区域。

兰州市主城区地理形态呈现依山傍水态势,黄河自西向东穿城而过,呈现为南北两山夹一河的山谷地形。市区东西狭长,约30km,南北较窄,最窄处仅为5km左右,具有带状盆地特征。兰州市主城区依河而建、依河而生,安宁区位于兰州市西部,七里河区和西固区分别位于主城区南部和西部,城关区地处研究区域的东北部,经济相对较发达,是兰州市的政治、经济、文化中心。

2.2 数据来源及预处理

结合对地观测的遥感影像数据和反映人类活动行为的POI数据进行城市功能区识别。遥感影像数据基于Bigemap软件(http://www.bigemap.com/),经过行政区域矢量数据裁剪后爬取得到。数据地理坐标系为WGS1984,获得数据的行列栅格数分别为5825个和2883个。

POI数据是与人类日常生活密切相关的地理空间实体,包含名称、地理位置、详细地址、所属类别及采集时间等属性。通过调用高德地图应用程序接口(application programming interface,API),使用Python以及后羿爬取器等软件,爬取兰州市主城区2022年全类别POI数据,共获得约120000条数据。为了得到更加准确的研究结果并实现城市功能区的精准识别,需对爬取数据进行删减与合并,具体情况如表4所示。由表4可知,对POI原始数据进行删减与合并后,可将数据分为商务、风景、公共、工业、居住5个一级类别和若干个二级类别,各类别POI数据量不同。

表4 POI数据的重分类Tab.4 POI data reclassification

3 实验与分析

3.1 基于QDM的功能区识别

将研究区划分为3883个500m×500m的网格后,通过GIS相交功能确定研究区内重分类后5类POI数据所属网格,对存在POI数据的1290个网格,根据式(2)(3)及表3中的功能区判别规则进行功能区识别,发现单一功能区有841个,占21.66%,其中包括公共区320个,商务区304个,风景区85个,居住区69个,工业区63个;另外,混合区共449个,占11.56%;其余为无功能区,共计2593个网格,占66.78%。QDM的识别结果分布如图1所示。

注:本图基于全国行政区划信息查询平台下载的审图号为GS(2022)1873地图制作,底图无修改;浅蓝色部分为黄河。图1 基于QDM的功能区识别结果Fig.1 Distribution map of the identification results of the functional area using QDM

由图1可知,单一功能区中的公共区数量最多,大多分布在中心城区的周边,部分散落在乡镇与城郊,如七里河区南部和西固区中部,结果表明基于单一QDM的公共区识别与已定义的公共区分类标准对应得不好,这主要是由于城市边远地区的POI数据较少引起的偏差。混合功能区主要分布在城关区、七里河区、安宁区等繁华区域,基础设施完善且生活便利度高,与混合功能区性质相符合。无功能区大多分布在研究区的边缘地区、南部山区以及河流附近。通过与实际情况对比分析发现,基于POI数据赋值的QDM功能区识别方法在城市核心区域的识别效果较好,而在城镇、村落等边缘区域,识别结果与实际情况存在一定偏差。

3.2 自然特征与人文特征的提取

遥感影像数据用于识别和提取建筑物,选取兰州市主城区用于训练和测试。将原始的遥感影像裁剪为5000m×5000m固定大小的117个遥感栅格数据,为了尽量降低分割遥感数据带来的精度损失,选择使用栅格3次卷积插值法进行分割,并使用Mask R-CNN模型,标记相应的建筑物掩膜图像。

在ArcGIS Pro中进行Mask R-CNN模型的训练,随机选取70%的数据作为训练集,即随机选取约82个遥感栅格数据作为训练集,每次训练时再从训练集中随机选取10%作为验证集;剩余的30%数据作为测试集。根据硬件性能,将模型训练的最大轮数设定为30,即默认循环训练30轮。训练时的切片大小根据训练集所处的区域不同而分别设定,并与制作训练集时设定的分块大小保持一致,以实现最佳学习率。选取ResNet50作为骨干网络模型进行特征提取,同时设定当模型训练改进效果低于0.01时终止训练。Mask R-CNN模型的训练结果示例如图2所示,其中,图2(a)是供深度学习训练使用的人工标注掩膜,图2(b)是Mask R-CNN模型的预测掩膜。

图2 基于Mask R-CNN模型提取建筑物示例

由图2可知,经过训练后的Mask R-CNN模型可以在遥感影像中清晰识别建筑物并形成掩膜;对比图2(a)(b)发现,经过多轮识别后的预测结果与人工标注结果基本一致,且识别准确度和精度都较高,另外还能识别出区域内人工标注遗漏的建筑。训练过程中模型的总损失变化如图3所示。由图3可知,当模型训练到500次时损失达到了较低水平,模型训练结果较好,可以对研究区内的建筑物进行检测和识别。

图3 训练过程中的损失变化

使用训练过的Mask R-CNN模型对研究区的遥感影像进行建筑物识别。为更好体现研究区内的功能区分布情况,并便于后续研究,参考3.1节中的方法,将研究区同样按照500m×500m的面积标准分割成3883个网格,通过GIS软件的相交功能将建筑检测结果与网格进行关联,并通过几何计算功能测算不同建筑物的占地面积。按照城市自然特征判断的依据,研究区中有2775个未检测到建筑物的网格,认为其符合自然特征,另有1108个检测到建筑物的网格,认为其不符合自然特征。关于自然特征与人文特征,使用训练过的Mask R-CNN模型对研究区的遥感影像进行建筑物识别,与3.1节中基于POI数据赋值的QDM功能区识别结果不一致,因此需要进行校验。

3.3 基于自然特征与人文特征校验的城市功能区识别结果

基于遥感影像和POI数据使用Mask R-CNN模型及空间统计方法分别提取自然特征与人文特征,结果不同,将提取结果进行补充校验,最后可将网格数据分为以下4种情况:

1) 自然特征和人文特征均存在。即未检测到建筑物但存在POI数据,共328个。关于此类网格,一种可能是POI数据与检测到的建筑物间存在偏移,可以通过基于POI数据赋值的QDM判断其功能区类型;另一种可能是部分场所,如工厂设施和村镇建筑未被检测到,且POI数据数量较少,并分布在城市边缘,参考实际情况将其归类为居住区。

2) 存在自然特征,不存在人文特征。即未检测到建筑物且无POI数据,共2447个。此类网格大多分布在研究区的边缘地区、南部山区以及河流附近,根据功能区识别方法将其定义为无功能区。

3) 不存在自然特征,但存在人文特征。即检测到建筑物且存在POI数据,共962个。对此类网格直接通过基于POI数据赋值的QDM判断其所属功能区类型。

4) 自然特征和人文特征均不存在,即检测到建筑物但无POI数据,共146个。关于此类网格,一种可能是建筑物占地面积较大,POI数据与建筑检测数据间产生了偏移,可以采用近邻匹配方法确定其功能区类型;另一种可能是处于山地、河流的边缘地区,将其判断为无功能区。

3.4 基于Mask R-CNN-QDM模型的城市功能区识别

3.4.1 单一功能区识别结果 对分类后的网格按照表3中的功能区判别标准及3.3节中的校验分类情况,采用基于Mask R-CNN-QDM模型,得到兰州市主城区功能区识别结果的空间分布,如图4所示。

注:本图基于全国行政区划信息查询平台下载的审图号为GS(2022)1873地图制作,底图无修改;浅蓝色部分为黄河。图4 基于Mask R-CNN-QDM模型的功能区识别结果Fig.4 Distribution map of functional area recognition results for Mask R-CNN-QDM model

由图4 可知,兰州市主城区的功能区识别结果分布中单一功能区的功能性质由在网格单元中占主导地位的POI数据类别决定,共573个网格,其空间分布如图5所示。

注:本图基于全国行政区划信息查询平台下载的审图号为GS(2022)1873地图制作,底图无修改;浅蓝色部分为黄河。图5 基于Mask R-CNN-QDM模型的单一功能区识别结果Fig.5 Distribution map of single functional area recognition results for Mask R-CNN-QDM model

如图5可知,基于Mask R-CNN-QDM模型识别单一功能区的分布中,商务区共202个网格,其数量占比最多,主要集中在城关区核心街区和七里河区与安宁区的交界处,形成了兰州市主城区东西2个商业中心。东部城关区商业中心主要集中在西关什字、国芳百货、东方红广场、雁滩等区域;西部商业中心则呈现整体西扩的态势,主要为兰州中心、金牛街商业广场等区域。其次,公共区共175个网格,主要集中分布在城市周边,距离城市核心街区存在一定距离,一般是大型企业以及高校的所在地。另外,居住区共69个网格,主要分布在城郊和研究区域北部,其中,当前城市核心区域内的小区和住宅大多临近办公设施和商业设施,因而大多归属于混合区内。最后,工业区和风景区主要分布在远离城市的郊区;其中,工业区共60个网格,主要集中在安宁区西部和西固区东部,是各类工业产业的聚集区;风景区共67个网格,分布在南部山区和北部城郊。

3.4.2 混合功能区识别结果 混合功能区主要集中在城市核心区域城关区和七里河区,此类区域为老城区,建筑面积大且POI数据量多,很难使用单一功能进行识别。混合功能区共444个网格,对商务区、工业区、公共区、居住区、风景区5类功能区识别结果运用信息熵标识,以分析各区域的混合程度,结果如图6所示,颜色越深、越绿的区域信息熵越高,表明该区域混合程度越高。

注:本图基于全国行政区划信息查询平台下载的审图号为GS(2022)1873地图制作,底图无修改;浅蓝色部分为黄河。图6 基于Mask R-CNN-QDM模型的混合功能区识别结果Fig.6 Distribution map of mixed functional area recognition results for Mask R-CNN-QDM model

由图6可知,商务混合区中混合程度较高的区域主要集中七里河区龚家湾街道和晏家坪街道,见图6(a);工业混合区中混合程度较高的区域主要集中在西固区临洮街街道,见图6(b);居住混合区中混合程度较高的区域主要集中在城关区铁路西村街道,见图6(c);风景混合区中混合程度较高的区域主要集中在城关区广武门街道,见图6(d);公共混合区中混合程度较高的区域主要集中在西固区福利路街道,见图6(e)。

3.4.3 无功能区识别结果 无功能区主要集中分布在山地、河流的边缘地区,体现了城市的自然特征,共2866个网格。由于该区仅体现自然特征,不再对其进行功能区识别分析。

3.5 精度评价

为验证城区功能区识别结果的可靠性,构建混淆矩阵对识别结果进行精度验证。参考宋丽洁等[14]的精度评价指标:总体精度和Kappa系数;其中,总体精度指随机样本分类结果与对应网格实际类型一致的概率,Kappa系数是由混淆矩阵计算得到,取值范围为[0,1],数值越大,说明分类精度越高。计算公式如下所示:

(4)

(5)

混淆矩阵每行表示数据的真实类别,每列表示数据的预测类别。虽然真实功能区是客观存在的,但在利用机器学习进行功能区识别前,功能区是未知的。为验证模型识别结果的精度,通常利用随机抽样方法抽取若干网格,然后采用实地调研或目视解译判别方法。因此,随机选取20个网格,通过目视解译判别方法来估计、构建混淆矩阵,评价功能区识别精度;为降低随机性抽样产生的偏差,随机抽样重复5次。功能区识别结果的总体精度和Kappa系数计算结果如表5所示。

表5 5次随机抽样分类精度验证结果Tab.5 The verification results of classification accuracy for five random samples

由表5可知,基于POI数据赋值的QDM计算平均总体精度为0.770,平均Kappa系数为0.541;基于Mask R-CNN-QDM模型计算的平均总体精度为0.900,平均Kappa系数为0.802;结果表明,随机抽样后,基于Mask R-CNN-QDM模型的平均分类精度较高,利用该模型对城市功能区识别具有一定的合理性和可行性。

4 结论

针对基于POI数据赋值的QDM城市功能区识别中数据信息来源单一、识别结果精度相对不高的问题,提出了融合Mask R-CNN模型和QDM来提升功能区识别准确性;同时充分考虑城市自然地理特征和人文活动特征,融合地理遥感影像数据与POI数据,采用Mask R-CNN模型提取遥感影像中自然特征,再利用POI数据识别人文特征,并通过补充校验得到结合自然特征与人文特征的分类结果;采用面积赋分的QDM,对城市功能区进行识别,依据功能区划分标准将城市功能区识别为单一功能区、混合功能区等,对其分布进行分析;最后,选取总体精度和Kappa系数2个指标对城市功能区识别精度进行检验,以兰州市主城区为例来验证提出的方法;结果表明,Mask R-CNN-QDM模型对提高城市功能区识别精度效果显著。

由于城市环境的复杂性和数据的自身局限性,城市混合功能区属性复杂,在后续研究中可采用轨迹数据、人口密度数据、社交媒体数据等多源数据表征城市特征的不同方面,对混合功能区的类型进行更细致地划分,进一步提升识别准确性。

猜你喜欢
功能区网格精度
用全等三角形破解网格题
反射的椭圆随机偏微分方程的网格逼近
烧结混合机各功能区的研究与优化
山东冶金(2019年3期)2019-07-10 00:53:54
基于DSPIC33F微处理器的采集精度的提高
电子制作(2018年11期)2018-08-04 03:25:38
衡水市不同功能区土壤营养元素的比较
现代园艺(2017年23期)2018-01-18 06:57:44
重叠网格装配中的一种改进ADT搜索方法
基于曲面展开的自由曲面网格划分
GPS/GLONASS/BDS组合PPP精度分析
水功能区纳污能力计算及污染物总量控制
改进的Goldschmidt双精度浮点除法器