基于POI数据的城市功能区识别

2022-04-05 12:59:16郭亚峰蓝贵文范冬林杜永良

桂林理工大学学报 2022年3期

郭亚峰, 蓝贵文, 范冬林, 杜永良

(桂林理工大学 a.测绘地理信息学院; b.广西空间信息与测绘重点实验室, 广西桂林 541006)

0 引言

随着城市的发展, 不同类型的城市功能活动集聚和扩散使城市中形成了多种城市功能的混合体, 同时也出现了各种各样的功能区。城市功能区的研究不仅可以解决现有的城市问题[1-3], 如交通拥堵、房价上涨等, 还可以优化城市的空间结构, 为城市的健康发展提供数据支持依据。目前, 对于城市功能区的划分主要采用主观判别和调查统计[4]等方法, 这两种方法存在着人力、物力消耗过大、耗时长、实时更新困难等问题。

随着网络技术和通信技术的发展, 使得人们的生活与网络紧密相连, 人们出行分享的地址、公共交通轨迹以及公共设施位置等各类数据信息被记录在网络上, 利用这些数据可以方便快捷地分析城市功能区分布。近年来, 一些学者使用POI数据分别结合公交车刷卡数据[5]、出租车轨迹数据[6-7]和地理监测数据[8-9]等对城市单一功能区识别进行了研究, 但在城市的实际功能区中, 不仅仅存在着单一功能区, 还存在着大量的混合功能区, 混合功能区的存在体现了现有城市空间结构与城市规划之间的差别, 混合功能区的识别结果也有助于城市的管理者更好地了解现阶段城市功能的分布, 为城市发展规划提供数据支持。基于这种情况, 一些学者使用POI数据分别结合矢量路网[10-11]、遥感[12]、公共自行车库存[13]等数据对城市混合功能区进行了研究, 但存在着数据获取难度大、成本高、更新周期长、操作麻烦等缺点; 而开源的POI数据容易获取、成本低、动态更新, 因此本文以开源免费的POI数据为基础, 利用基于频数密度算法的城市功能区定量分析方法实现北京市中心城区的功能区识别, 再以核密度分析法验证城市各类功能的聚集区域, 最后利用《北京城市总体规划(2004年—2020年)》和2018年谷歌遥感图像分别对本文识别结果、结合了矢量路网和遥感图像的城市功能区识别结果以及无权重的城市功能区识别结果进行精度验证, 证明本文识别方法的有效性。

1 基于POI的定量识别城市功能区

本文的研究区域是北京市中心城区, 包括东城区、西城区、朝阳区、丰台区、石景山区和海淀区, 面积1 288.84 km2, POI数据来源于北京市中心城区2018年百度地图数据, 包括地点名、类型、地址、所在区域、坐标等公开属性。这些POI数据存在较多的分类和庞大的数量, 并且POI数据的类型之间存在着重叠现象, 如学校的宿舍会存在于教育科研中, 也会存在于住宅小区中。如果直接使用此时的POI数据进行研究, 不仅会增加工作量, 同时也会对功能区的划分产生影响, 因此参考《城市用地分类与规划建设用地标准》(GB 50137—2011)并结合研究区的实际情况与功能区的特点, 本文将城市POI数据分为公司企业、公共管理与医疗服务、休闲娱乐与风景名胜、教育科研、住宅小区、交通枢纽、商业金融七大类, 同时基于POI数据和研究区的行政区划图, 建立1 km×1 km的格网, 计算单元格内不同类型POI数据的频数密度比例, 从而研究城市功能区的划分。

1.1 POI数据的预处理

共获取研究区域内1 173 560条POI数据, 这些数据使用的原始坐标系是百度坐标系, 而本文所采用的坐标系是WGS84坐标系, 通过坐标转换将这些POI数据的坐标系转换为WGS84坐标系。坐标转换结束后, 将POI数据中的ATM、公交站、道路、河流、湖泊等对功能区划分无用的数据删除, 同时删除丢失了坐标信息的POI数据, 确保数据的准确性。

将以上划分的七大类POI数据(公司企业、公共管理与医疗服务、休闲娱乐与风景名胜、教育科研、住宅小区、交通枢纽、商业金融)，同时参考赵卫锋等[14]的公众认知度, 对一些重要交通枢纽(火车站、飞机场)、大型商场(购物中心、百货商场、商业大厦等)、大学(国内本科高校)、医院(国家二级及以上医院)、政府机构(市委市政府及以上单位, 各国大使馆等)、风景名胜(风景区、古迹、公园等)等地标性POI赋予一定的权重(表1)。根据权重增加地标性POI的数量, 例如某大型商场原有1个POI, 而大型商场的权重为16, 则该大型商场现在POI的数量为16个。加入权重有助于将地标性POI与其同类的普通POI之间的影响力有效区分, 使功能区的识别更贴合实际情况(表2)。

表1 地标性POI权重

表2 POI数据重分类

1.2 主要研究方法

通过添加渔网将北京市中心城区划分为1 km×1 km格网, 并基于频数密度算法[15], 提出一种城市功能区的定量识别方法, 计算公式为

(1)

式中:Ni表示格网单元内的第i种POI类型的数量占该类型的POI总数的频数密度;Ci表示第i种类型POI的频数密度占单元内所有类型POI频数密度的比例。

通过上式计算出格网中每个格网单元的POI频数密度比例, 用来判断每一个格网单元的功能。现有研究大多以0.5为阈值[16], 只要某一类POI频数密度比例大于0.5, 就将此区域划分为单一功能区, 否则即为混合功能区。这种方法最终结果较为准确, 但是在某些特殊情况下会产生错误的划分, 例如当7种POI频数密度比例中有一类a为0.51, 另一类b为0.49, 其余5类为0时, 如果以频数密度比例0.5为划分依据, 此区域被划分为单一功能区, 但实际上此区域被划分为ab混合功能区更为合理。因此, 本文提出将各类POI频数密度比例之间的差值作为功能区划分依据, 判断过程如图1所示。

图1 功能区划分流程图

如果某格网单元内数值最大的POI频数密度比例与排名第二的POI频数密度比例相差大于20%时, 判定此功能区为单一功能区, 属性由频数密度比例中数值最大的POI决定。混合功能区则由以下规则判定: 1)如果某格网单元内数值最大的a类POI频数密度比例与排名第二的b类POI频数密度比例相差小于20%, 但排名第二的b类POI频数密度比例与排名第三的c类POI频数密度比例相差大于20%时, 称此格网单元为ab混合功能区; 2)如果某格网单元内数值最大a类POI频数密度比例与排名第二b类 POI频数密度比例相差小于20%, 且排名第二b类POI频数密度比例与排名第三c类POI频数密度比例相差小于20%时, 称此格网单元为abc混合功能区。例如当a是住宅小区、 b是商业金融、 c是公司企业时, 此格网单元的性质就由这3种城市POI数据类别决定。

当此格网单元内未包含任何一种城市POI数据时, 这种类型的格网单元就被称为空值区。

2 城市功能区识别结果分析与验证

2.1 识别结果与分析

根据功能区的判别规则, 本文共产生了7种单一功能区和48种混合功能区。本文图例作如下统一规定： A—公共管理与医疗服务功能区； B—公司企业功能区; C—交通枢纽功能区; D—教育科研功能区; E—商业金融功能区; F—休闲娱乐与风景名胜功能区; G—住宅小区功能区。

根据图2识别的北京市中心城区功能区分布图, 共有1 412个功能区, 其中中心区域大部分功能区为混合功能区, 而单一功能区的数量为732个。在单一功能区中, 休闲娱乐与风景名胜功能区数量最多, 为175个, 约占单一功能区数量的1/4, 这主要是因为休闲娱乐与风景名胜功能区中的景区、公园等POI占地面积较大, 且周围其他类型的POI相对较少, 容易被识别。

在图2a中可以发现, 休闲娱乐与风景名胜功能区分布在研究区的中心位置、北五环周围及研究区的西部边界等位置, 主要对应着故宫、天安门广场、中山公园、北海公园以及大部分的森林公园等景点。单一功能区中商业金融功能区的数量最少, 仅有52个, 包含二环内较为有名的西单、王府井等商业中心。公共管理与医疗服务功能区数量为63个, 主要分布在二环内和东三环周围, 这部分区域分布着重要的政府机构和大使馆等POI要素。教育科研的功能区主要分布在北三环到北五环之间的区域内, 这部分区域中主要分布着清华大学、北京大学、中国科学院生态环境研究中心等高校和研究所; 而教育科研功能区数量较少主要是由于教育科研POI要素周围多分布着公司企业、商业金融以及休闲娱乐与风景名胜等类型的POI要素, 导致功能区中教育科研属性占比较小。公司企业功能区数量为167个, 分布比较分散, 呈现“大分散和小集聚”的特点, 其中主要的聚集点是北四环周围的中关村、上地等地区。交通枢纽功能区数量为69个, 大部分处于四环以外, 原因是交通枢纽一般占地面积较大、人流较多, 其设在四环以外有利于缓解城市中心用地压力, 便于疏通人流。

图2 功能区分布图

在混合功能区中数量最多的是公共管理与医疗服务公司企业-住宅小区混合功能区, 有116个, 主要分布在四环以内。从功能区统计结果中可以得出北京市中心城区的功能区混合情况, 如在409个混合功能区之中都出现了公共管理与医疗服务属性, 充分说明了北京市是我国政治中心及拥有完善医疗保障体系的事实; 在496个混合功能区中出现了住宅小区属性, 显示了北京市中心城区的人口密度之高。此外, 在北三环和北五环之间的大学聚集区, 除了单一的科研教育功能区外, 周边的混合功能区大部分都具有科研教育属性; 而住宅小区功能往往和商业金融功能以及公共管理与医疗服务功能等混杂在一起; 教育科研功能往往和公司企业功能、住宅小区功能混杂在一起; 单一功能区周边的混合功能区都具有该单一功能区的属性。

2.2 城市功能区识别结果验证

2.2.1 城市功能分布情况验证核密度分析法是研究地理空间数据分布特征的重要方法, 可以挖掘各类要素主要的聚集区域, 被广泛应用于城市热点探测[17]、中心识别[18]等地理空间结构的研究。该方法所得核密度的值越高, 表示此区域中POI要素分布越密集。依据这一思想, 本文利用核密度分析法[19-20]对7类POI要素定性分析, 经过多次试验选取最优的搜索半径, 提取核密度分析等值线, 得到7类POI要素的核密度分布图, 并对其数值进行归一化[21], 使7类POI核密度图之间具有一定的可对比性。从图3中可看出, 公共管理与医疗服务的POI要素主要集中在二环内及东三环附近；公司企业的POI要素主要集中在北四环和北五环附近；交通枢纽POI要素则分散在研究区域的各个地方, 体现了北京市公共交通的发达程度；教育科研的POI要素主要集中在北三环到北五环之间的区域内, 这里主要分布着北京市各大高校；商业金融的POI要素主要分布在东城区、西城区和东三环周围的区域内, 这部分区域分布着西单、王府井、国贸等商圈；休闲娱乐与风景名胜的POI要素分布最密集的区域是研究区的中心, 这里分布着故宫、景山公园、北海公园、中山公园等风景名胜；住宅小区的POI要素主要分布在三环之内, 占据了东城区和西城区的大部分地区。7类核密度分布图中住宅小区、休闲娱乐与风景名胜、交通枢纽、商业金融和公共管理与医疗服务相对密度最大的区域都集中在三环以内, 尤其是公共管理与医疗服务核心区域占据了东城区、西城区的大部分区域, 显示了东城区、西城区行政中心的主要属性。核密度分布图中POI聚集结果与前文城市单一功能区的识别结果基本吻合。

图3 7类POI要素核密度分布图

2.2.2 城市功能区识别结果对比验证为了充分验证识别出的功能区结果的准确性, 利用加权POI数据结合矢量路网和遥感数据对城市功能区进行识别并将识别结果的精度与本文识别方法精度对比。其中矢量路网数据来自于open street map (osm)网站, 遥感数据为谷歌2018年的卫星影像图。利用卫星影像图对矢量路网进行修整, 删减重复与过于密集的路网, 然后对矢量路网数据进行拓扑转换, 将路网数据由线要素转化为面要素, 利用矢量路网单元对城市功能区进行划分, 得到城市功能区分布情况, 如图4所示。同时为了验证POI权重对城市功能区识别精确度的重要性, 利用未赋权重的原始POI数据对城市功能区进行识别, 识别结果如图5所示。

图4 采用路网单元的功能区划分结果

图5 原始POI数据功能区划分结果

本文识别方法得到的结果中混合功能区单元数量有680个, 无权重识别方法的结果中混合功能区单元数量有869个, 路网单元识别方法的结果中混合功能区单元数量有378个, 采用置信度95%的样本分析方法, 分别抽取246、 267、 191个混合功能区单元, 同时选择3种识别方法得到功能区分布结果中全部的单一功能区单元, 以这些功能区单元作为验证对象, 参照《北京城市总体规划》(2004年—2020年)和2018年谷歌遥感图像, 进行人工判断分区[3, 5, 9]。而当二者区域属性不一致时, 以2018年谷歌遥感图像显示的区域属性为主。其中《北京城市总体规划》(2004年—2020年)土地类型与本文功能区类型之间的对应关系为: 公共设施用地和市政公用设施用地→公共管理与医疗服务功能区, 工业用地和仓储用地→公司企业功能区, 铁路用地和机场用地→交通枢纽功能区, 教育科研设计用地→教育科研功能区, 商业金融用地→商业金融功能区, 体育用地、绿地、水域和农业用地→休闲娱乐与风景名胜功能区, 居住用地→住宅小区功能区, 混合用地→混合功能区。而人工判断分区主要采用专家判断法, 即邀请5位具有相关专业知识的专家, 对照《北京城市总体规划》(2004年—2020年)和2018年谷歌遥感图像对所选出的功能区单元所属类别进行判断。综合5位专家判断结果, 确定以上所选出的功能区单元类别, 即功能区的真值。利用功能区真值对照3种方法识别出来的功能区分布结果, 确定3种方法的功能区识别精度, 验证本文识别方法的有效性, 3种方法的识别精度如表3所示。

表3 不同识别方法的功能区识别结果精度评价

可知, 本文识别方法中功能区识别精度最高的是休闲娱乐与风景名胜功能区, 为93.14%, 最低的是交通枢纽功能区, 为79.71%。交通枢纽功能区识别精度最低主要是由于交通枢纽要素周边往往聚集着物流公司、商店和住宅小区等POI要素, 导致交通枢纽功能区被识别为公司企业功能区、商业金融功能区或住宅小区功能区。同样地, 在路网单元识别方法中交通枢纽功能区识别精度较低的原因也是如此。此外, 休闲娱乐与风景名胜功能区在本文功能区识别方法和路网单元识别方法中识别精度都较高, 主要是因为休闲娱乐与风景名胜要素周边其他类型POI要素较少, 因此休闲娱乐与风景名胜功能区的识别精度也会随之增加, 这也造成了无权重识别方法中休闲娱乐与风景名胜功能区的识别精度达到了82.42%的较高水平。3种方法对于混合功能区的识别, 其中精度最低的是无权重识别方法, 仅为26.97%, 证明了权重对于混合功能区识别的重要性, 而本文功能区识别方法中混合功能区的识别精度为83.74%, 比路网单元识别方法中的混合功能区的识别精度高了1.02%, 主要是由于本文识别方法与路网单元识别方法采用的评价尺度不一样, 本文识别方法采用的是1 km×1 km的单元格网, 而路网单元识别方法采用的是北京市的真实路网, 而路网单元的面积不固定, 在路网稀疏的部分会造成功能区识别精度的下降。这说明了本文功能区识别方法对于混合功能区识别的有效性以及增加权重的必要性,从总体上来看, 无权重识别方法的平均精度最低, 仅为59.43%, 证明了通过赋权重增加城市功能区识别精度的必要性; 而本文功能区识别方法和路网单元识别方法精度相差不大, 分别为84.88%、 85.61%, 总体精度良好。

3 结束语

本文以北京市中心城区的POI数据为基础, 提出了一种基于频数密度算法的城市功能区定量分析识别方法, 并对识别结果进行了精度验证。从验证结果来看, 本文提出的基于POI数据的城市功能区划分方法对城市功能区的识别有较高的精确度, 验证了该方法的可行性，但由于POI数据几何特征为点状类型, 导致在识别大面积地物类别时精度稍显不足, 如在路网识别方法中公共管理与医疗服务功能区、教育科研功能区等识别精度要略高于本文识别方法精度, 因此在今后的研究中将会结合POI数据的实际面积来实施功能区识别。本研究有助于人们对城市空间结构的了解和管理者更好地了解城市功能的分布, 提高土地利用效率, 为城市的发展提供数据支持, 并进一步提供辅助决策支持。