DBSCAN算法在城市科教文化设施集群识别中的应用研究

2019-05-14 06:18刘甜甜齐述华
创新科技 2019年2期
关键词:空间分析贵阳

刘甜甜 齐述华

摘 要:通过高德地图API获取的贵阳市中心城区科教文化设施点数据,验证DBSCAN算法在识别城市科教文化设施集群识别中的应用,研究共识别有效POI2 673个,科教文化设施集群163个,集群在空间特征上表现出以贵阳市老城区为核心的中心发散型结构。集群规模共划分为4个等级,通过计算各等级结构的空间形态指标,分析贵阳市科教文化设施集聚特征规律。研究发现,科教文化设施资源配置不均衡,高等级集群分布差异明显,难以实现科教文化资源共享。研究利用DBSCAN算法识别科教文化设施集群,为深入挖掘城市地理POI信息提供理论方法,同时为定量认知城市实体空间规划、优化城市资源配置提供支撑。

关键词:DBSCAN空间聚类;集群识别;空间分析;贵阳

中图分类号:TP311.13 文献标识码:A 文章编号:1671-0037(2019)2-18-7

DOI:10.19345/j.cxkj.1671-0037.2019.02.004

文化作为城市的发展动力和城市软实力评价指标之一,具有深远的经济价值和社会价值。城市的文化由城市历史的诸多自然因素、社会因素和经济因素决定,共同影响着城市文化发展的区位选择,从而影响城市文化产业的空间布局。科教文化设施作为城市文化的空间载体,为城市居民从事文化活动或文化交流提供集聚空间,是城市文化环境的一种具体表现。因此,对城市的科教文化设施进行相关研究,有助于揭示城市文化设施或文化产业现有布局,深入认识城市文化设施资源配置与供求平衡现状,为提高城市文化软实力、辅助城市规划提供理论支持。

目前,國内对于城市文化设施的空间格局研究已取得一定的成果。研究多围绕特定城市或区域文化设施的空间分布情况及文化设施的规划及发展政策展开[1-4]。赵宏波等以文化设施兴趣点为研究对象,定量分析文化设施的空间格局,探究居民行为对城市文化设施空间形态的影响[5];翟秀娟等绘制城市文化设施密度分布图,定量测算文化设施空间分布的均衡程度,挖掘人口密度与城市文化设施分布格局的相关性[6];何丹等通过构建文化设施服务水平综合评价指标,探讨北京中心城区的公共文化设施的空间分布格局和服务水平差异[7]。以往的研究多从宏观层面挖掘城市文化设施的分布特征及空间驱动因素展开,鲜有对文化设施集群的定量探讨。因此,本研究从识别城市文化设施集群入手,提取并分析不同集群的规模及空间形态特征,定量描绘城市的文化空间格局,为城市文化设施资源配置提供理论参考和现实依据。

在以往的集群空间格局研究中,数据多采用传统的区域或城市统计数据或调查数据,且研究方法多局限于片面的地理集中测度方法,无法从微观角度挖掘集群的形态特征,从而忽略了集群所表现的局部空间集聚性。空间聚类通过相似性度量区分不同的空间目标,从而识别空间目标的分布模式及各目标间的相互关系。在地理学领域,林冬云等针对北京海淀区的企业点位置进行空间位置聚类,挖掘企业点数据空间分布模式[8];张珣等利用神经网络算法划分京津冀城市群等级,明确城市群空间结构特征[9];邹凤琼等运用尺度空间理论对江西省县域单元经济区进行经济区划分,并分析江西实际经济发展情况[10]。基于此,本研究引入基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法识别文化设施集群,为后续研究提供技术支撑。

贵阳市作为贵州省会,是贵州省的经济、政治、文化、科教、交通中心,“十三五”规划的制定及大数据战略的实施为贵阳市创新型中心城市的建设带来了新的机遇。近年来,贵阳市在科技创新、旅游发展、基础教育方面均取得了一定的成就。研究以贵阳市中心城区为例,利用高德地图API获取科教文化设施兴趣点数据,在通过DBSCAN识别文化设施集群的基础上,划分集群的等级结构,并分析不同集群的几何形态,利用不同的形态指标刻画城市文化设施的空间布局,深入挖掘贵阳城市科教文化兴趣点集群聚集特征规律。

1 数据获取与研究方法

1.1 研究数据获取

在大数据时代,地图开发产业得以长足发展,许多在线地图服务商整合了大量的地理空间数据。研究选取高德地图(https://lbs.amap.com/)作为基础数据来源,通过官方API爬取贵阳市中心城区科教文化设施类兴趣点(Point of Interest,POI)4 008个,经预处理后建立贵阳市中心城区科教文化设施点空间数据库。

1.2 DBSCAN空间聚类算法

DBSCAN算法是具有代表性的基于密度的聚类算法。算法通过分析数据分布密度来发现簇,对于构成簇的每一个对象,其[ε](半径参数)邻域包含的对象个数须大于或等于某个给定的值,即MinPts,若此邻域内的某个对象的[ε]邻域也满足上述要求,则继续聚类,并重复整个聚类过程直到处理完所有的数据对象[9]。在聚类结果中,同一个簇的对象往往有较高的相似度,不同簇对象间的相似度则偏低。

算法引入数据集中“类”与“噪音点”的定义:在DBSCAN中,如果一个数据点在其[ε]邻域内所包含的点个数大于阈值MinPts,即[Nεp≥MinPts],则称该点为位于“类”中的核心点;如果一个数据点的[ε]邻域范围内点的个数小于阈值MinPts,但其邻域集合中存在核心点,则称该点为处在类边界处的边界点。通过阅读相关文献,研究中半径参数[ε]采用排序k最近邻距离法(欧式距离)确定,MinPts设置为ln(n),n为数据集D中包含的地理实体数目。

算法执行步骤具体如下所示。

①读取数据集D,依据N确定MinPts;

②构建k-d tree,遍历数据集D中所有点与其他点距离,形成距离分布矩阵[Distn×n],[Distn×n={dist(i,j)|1≤i≤n,1≤j≤n}]([dist(i,j)]为数据集D中对象i与对象j之间的距离),对[Distn×n]的每一列元素取值按照升序排序,则k+1行的元素即可构成数据集中每一个对象点到第k个最近邻对象的距离[10],取k=MinPts,排序k-dist,选取k曲线中在平稳上升后曲率突变的点所对应的距离,即可确定[ε];

③从数据集D中随机抽取未被处理的点对象p,在[ε]近邻中找到对象p的密度可达对象点,构成一个新的簇;

④通过密度相连形成最终簇;

⑤重复执行步骤3和步骤4,直到数据集中所有对象点被处理完毕。

⑥输出所有簇及包含的对象点。

1.3 基于K-means的集群等级结构特征划分算法

K均值聚类算法(K means clustering algorithm,K-means)是基于划分方法的聚类算法之一,其对海量数据的集合能够实现快速聚类,且效果明显。研究在利用K-means进行聚类时,过程如下[11]。

①随机选择k个初始聚类中心,人为确定分簇数目k;

②遍历每一个点,计算每一个点到k个初始聚类中心的欧式距离,通过比较得出该点离哪个初始聚类中心最近,并将该点与其初始聚类中心归为一簇;

③将点集分好簇后,重新确定聚类中心;

④当簇内数目不发生变化或者达到最大的迭代次数时,算法结束。

由于K-means属于非监督学习,聚类结果往往无法比较。因此,研究采用误差平方和法(Sum of the Squared Errors,SSE)和轮廓系数法(Silhouette Coefficient)综合作为聚类结果的评估方法,计算公式如下。

[SSE= i=1kp∈Cip-mi2] (1)

在公式(1)中(误差平方和法),[Ci]是第i个簇,p是[Ci]中的样本点,[mi]是[Ci]的质心(即[Ci]中所有样本的均值),SSE是所有样本的聚類误差。当聚类数k增大时,簇的聚合度会随着样本划分的精细程度而提高,误差平方和即SSE会逐渐变小;当达到真实聚类数k值时,SSE的下降幅度会随着簇的聚合而骤减,直至趋于平缓[12]。

[s= a-bmax (a,b)] (2)

在公式(2)中(轮廓系数法),s为平均轮廓系数,a为每个类中样本彼此距离的均值,b为一个类中样本与其最近类所有样本距离的均值。通常平均轮廓系数的取值范围在[-1,1]之间,簇内样本距离越近,簇间样本距离越远,平均轮廓系数越大时,聚类的效果就越好。

1.4 集群几何形态特征分析方法

研究基于现有空间分析方法,利用ArcGIS生成集群最小边界矩形和最小凸包,用于表述不同集群的外形轮廓,通过查阅相关文献[13],研究选取紧凑度(COR)、延伸度(ELG)、集中度(G)、密度(DENS)作为空间形态指标,以刻画出不同集群的空间形态。具体公式如下。

2 结果分析

2.1 科教文化设施集群识别结果及空间格局

研究通过绘制科教文化设施点集的排序k-dist图,将邻域半径设置为[ε]=50m,MinPts=9,利用JAVA语言编程实现DBSCAN聚类算法,在贵阳市中心城区范围内识别有效点2 673个,离群噪声点1 335个,研究共识别出科教文化设施点集群163个,规模前十的科教文化设施集群如表1所示。用SPSS软件对集群的规模S与规模位序m进行回归分析,得出结果如下:[s=6.753×e0.009mR2=0.873,p<0.001],集群规模符合指数分布规律。

对设施点进行核密度分析,根据结果(图1)可以看出中心城区科教文化设施点主要在中心老城区绵延密布。云岩区中部及南明区西北部,大致对应贵阳老城的主体部分。云岩区经济总量多年位居全市首位,城市开发强度及社会发展水平较高,科技创新要素广泛;南明区交通通达性较高,人口稠密,吸引了大量教育资源。

由集群识别结果(表1、图1、图2)来看,规模前三的科教文化设施集群同时对应于核密度分析结果中密度值最高的区域之中;在规模前十的集群中,以云岩区和南明区居多,其中规模最大的中山西路集群位于云岩区市中心,地处一环路内,亦是老城区最繁华的商业中心地段;观山东路作为《贵阳市城市总体规划(2011—2020年)》中“老城服务核心”(南明区、云岩区)和“观山湖服务核心”(观山湖区)连接的纽带,随着老城区人口向观山湖区人口的流入,其科教文化资源规模位列第二;中环路南段集群虽位于南明区东西部,但由于周边有南明区教育局及多家中小学集聚,教育资源配套完善,位列第三。

2.2 科教文化设施点集群等级结构特征

利用集群识别规模结果对科教文化设施集群划分等级结构,等级划分方法采用K-means,利用误差平方和法与轮廓系数法综合判定最佳划分等级数k(图3),确定k=4。利用SPSS软件对其进行聚类,以此得到各级科教文化设施集群(表2),在表2的基础上计算并分析各集群的空间形态指数均值结果,并绘制前3个等级集群的空间分布图(图4)。

根据等级划分结果可知:①一级集群可认为是面向全市的科教文化中心,其集群中心经纬度位于贵阳市云岩区北京西路,周边有贵阳市第十七中心、贵州电大、第五中心、第七中心、黔灵小学等丰富的教育资源,云岩区密集的人口分布是其最主要的驱动因素;②在二级等级集群中,花溪区成为除云岩区以外分布第二大的二级科教文化设施等级分布区域,这主要是因为2009年贵阳市规划花溪区建设15 km2的高校发展用地,其中包括贵州大学、贵州民族大学、贵州财经大学等高校,因而该类等级集群可视为是贵阳市高等教育聚集主中心;③修文县阳明西路附近学校分布过于集中,具有科教文化二级集群等级特征,但县区其他区域资源分配极度不均衡;④贵阳市中心城区整体科教文化设施空间分布不均,高等级集群主要覆盖中心老城区,不足以满足市域范围内整体需求,资源共享性较差。

2.3 贵阳市科教文化设施点集群几何形态特征

通过表2中各等级集群的空间形态指标,分析不同等级集群的空间形态特征:①高等级科教文化设施集群有着较高的紧凑率(COR)和较低的延伸度(ELG),随着集群的逐渐降低,其集群形态由“以点带面”的团块状逐渐演变为较小规模的条带状;②围绕主城核心区建设而成的科教文化设施一级等级集群表现出高地理集中度(G),与低等级集群差异明显,这说明随着中心城区空间扩张,大部分区域的科教文化设施依旧有较大缺口;③集群空间形态密度(DENS)随着等级集群由高到低,其平均值趋于上升,区域内科教文化设施服务范围覆盖能力不足,无法形成高等级集聚中心。

3 结论与展望

研究引入DBSCAN空间聚类算法,利用高德地图中贵阳市中心城区科教文化设施点数据识别科教文化集群,并在此基础上分析科教文化集群的空间布局及等级结构,计算不同集群的空间形态指标并分析结果,结论如下。

第一,通过DBSCAN空间聚类算法,研究识别出贵阳市科教文化设施点集群163个,其集群规模与位序呈现指数分布规律。科教文化设施点主要分布在贵阳市中心老城区,其等级集群分布与当前贵阳市空间规划、人口密度、经济状况及交通通达性息息相关。

第二,研究将集群划分为4个等级,高等级集群主要分布在云岩区及花溪区,清镇市、乌当区、白云区高等级集群分布较少。根据不同的空间形态指标发现,其集群形态隨着等级由高到低逐渐由团块转变为小规模的条带状,地理集中度趋于分散,空间形态密度逐渐上升。

第三,贵阳市高等级科教文化集群过度集中于老城区,城市建设水平较低的中心城区外围基本无高等级集群覆盖,需要加强外围区域大型科教文化设施建设,发挥高等级集群对周边区域的带动效应,以此增强文化设施空间联系,实现老城区向周边区域的科教文化服务疏解。

第四,贵阳市作为省会城市,其科教文化设施布局极度不均衡,科教文化产业集群形态单一,城市定位与科教文化配套设施存在差异。在今后发展规划中建议依托城市中心区域,进一步加强非中心城区科教文化设施建设力度,以保证城市整体文化设施布局均衡。同时,针对不同的科教文化设施分布特征,应充分挖掘相关文化资源,推动文化产业发展,促进低等级科教文化设施集群向高等级文化设施集群的转变。随着“一带一路”倡议提出,贵阳市作为节点城市之一,应抓住城市建设发展的重大契机,建设与贵阳市当前发展相适应的文化环境,充分提高贵阳市文化软实力,为推动城市经济发展提供智力支持和精神动力。

第五,本研究利用DBSCAN算法实现了海量POI数据中的集群识别与提取,同时通过空间等级结构划分和空间形态指标的计算方法,应用于科教文化基础设施数据的集群研究与分析中,从而验证了该方法的可行性,研究中所采用的方法可同样应用于商业消费、公共交通、城市规划等相关地理基础设施点数据,对于海量POI数据的信息挖掘具有一定的参考价值。

参考文献:

[1] 赵星,赵仁康,董帮应.基于ArcGIS的我国文化产业集聚的空间分析[J].江苏社会科学,2014(2):52-58.

[2] 扈瑞鹏,马玉琪,赵彦云.中国城镇居民文化消费的空间分析:基于混合地理加权回归模型[J].消费经济,2016(6):45-50.

[3] 田冬迪.基于扩展SQL的上海市公共文化设施空间格局测度模型研究[D].上海:上海师范大学,2012.

[4] 王北海.基于用户研究的城市公共文化基础设施区位选择[D].武汉:武汉大学,2016.

[5] 赵宏波,余涤非,苗长虹,等.基于POI数据的郑州市文化设施的区位布局特征与影响因素研究[J].地理科学,2018(9):1525-1534.

[6] 翟秀娟,孙希华,孙宗耀.基于POI数据的淄博市中心城区公共文化设施数量与空间分布格局研究[J].山东师范大学学报(自然科学版),2017(2):73-79.

[7] 何丹,金凤君,戴特奇,等.北京市公共文化设施服务水平空间格局和特征[J].地理科学进展,2017(9):1128-1139.

[8] 林冬云,刘慧平.应用空间聚类进行点数据分布研究[J].北京师范大学学报(自然科学版),2006(4):419-423.

[9] 罗启福.基于云计算的DBSCAN算法研究[D].武汉:武汉理工大学,2013.

[10]张文元,谈国新,朱相舟.停留点空间聚类在景区热点分析中的应用[J].计算机工程与应用,2018(4):263-270.

[11] 王勇,唐靖,饶勤菲,等.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014(5):1331-1335.

[12] 王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019(8):27-33.

[13] 杨帆,徐建刚,周亮.基于DBSCAN空间聚类的广州市区餐饮集群识别及空间特征分析[J].经济地理,2016(10):110-116.

Abstract: Based on the data of science and education cultural facilities in the downtown area of Guiyang obtained through Amap API, the application of DBSCAN algorithm in identifying clusters of urban science and education cultural facilities has been verified. 2673 effective POIs and 163 science and education cultural facilities clusters were identified, and a central divergent structure of the clusters has been showed centered on the old city town of Guiyang. The clusters were divided into four levels, by calculating the spatial form indicators of each level structure, the agglomeration characteristics of science and education cultural facilities in Guiyang were analyzed. The research showed that the resource distribution of science and education cultural facilities was imbalanced, the distribution of high-level clusters was significantly different, and it was difficult to realize the sharing of science and education cultural resources. In the research, DBSCAN algorithm was used to identify clusters of science and education cultural facilities, which provided a theoretical method for deeply mining the urban geography POI information, and a support for quantitative cognition of urban physical space planning, and optimization of urban resource allocation.

Key words: DBSCAN spatial clustering; cluster identification; spatial analysis; Guiyang

猜你喜欢
空间分析贵阳
高速通到我的家
“学”字的意义
找朋友
朋友圈
白居易写诗
浙江省麻雀数量变化与环境关系研究
无锡市低效用地再开发监管平台设计与应用
基于GIS的汽车4S店空间布局特征研究
基于Matlab的水下碍航物可视化研究
基于遥感与GIS空间分析的电力优化选线研究