基于位置签到数据的城市空间分析与可视化

2017-10-16 10:15王海起
地理信息世界 2017年3期
关键词:格网高值次数

陈 冉,王海起,孟 斌,桂 丽,刘 玉

(1. 中国石油大学(华东) 地球科学与技术学院,山东 青岛 266580;2. 北京联合大学 应用文理学院,北京 100191)

0 引 言

基于位置服务(Location Based Service,LBS)曾被预测很快就会成为移动商务的“杀手级应用”[1],后续LBS市场规模的迅猛发展印证了这一预测,现已成为地理空间信息的重要获取途径,通过LBS获得的空间数据被Goodchild定义为志愿者地理信息(Volunteered Geographic Information,VGI)[2]。位置社交网络(Location-based social network,LBSN)服务,如Twitter,Foursquare,微博等,允许用户通过签到(Check-in)记录他们在某些位置的访问历史[3]。LBSN用户探索城市与社区,并通过图片、文字等分享他们曾访问过的各个位置的感受和经验,这些位置可能是餐馆、咖啡店、商场、火车站等各种各样的兴趣点(point of interest,POI)[4]。签到数据表示了LBSN用户所发布的一段带有地理标记的内容,通常包括短文本消息、照片以及消息发布的时间和地点[5-6]。

位置签到数据实际反映出了LBSN用户与城市公共空间之间的互动[7],借助于用户的历史签到数据进行人类行为模式及城市空间研究成为近年来的研究热点。隋正伟等人基于格网划分的方式考虑地理位置和用户轨迹,提出用户空间出行相似性的度量方法[8];王波等利用签到数据剖析城市活动空间的变化规律进而划分城市活动区域[9]。韩昊英等利用公交刷卡和兴趣点数据进行了北京市功能区的有效识别[10]。王明等根据签到属性显著度的差异获取城市分层地标,为城市层次性空间知识获取提供了思路[11]。许泽宁等利用兴趣点与城市要素空间分布之间的相关性,提出以兴趣点密度分布识别建成区边界的城市空间结构研究方法[12]。总的来说,新兴的LBSN签到数据作为遥感等传统数据源的有力补充,为城市空间研究提供了新的思路,即通过人的行为活动理解城市地理环境,使得城市社会空间研究更加立体化。虽然从空间角度分析网络社区的研究已受到学术界的广泛关注,但由于数据获取和研究方法的局限,大范围、高空间分辨率的城市空间结构特征的综合研究相对较少。

本文基于香港、深圳两个城市2014年的新浪微博POI位置签到数据,以0.001°×0.001°的城市经纬度格网为研究单元,从空间角度出发采用定量分析的方法对城市空间进行了签到数据空间特性、旅游热点分布和居民活动空间3个方面的综合分析,构建起大范围高分辨率城市空间定量分析的一套综合研究方法,为新时期“以人为本”的城市规划、城镇治理和商业咨询提供理论依据。

1 数据与研究方法

1.1 数据

本文所用数据为2014年1月至2015年1月时间段内的新浪微博位置签到数据,涉及香港、深圳两个城市共28个区县255万多条记录。图1展现了两个城市签到数据在空间上的整体分布情况。

图1 签到数据空间分布情况Fig.1 Spatial distribution of check-in dataset

深圳市签到次数的统计结果表明,宝安区、福田区、龙山区签到最活跃,龙华新区作为新秀,签到次数排在第六位,远超其他3个新区及盐田区。深圳市POI类型按照签到次数第一位的是居住类,其次为交通类,商业类与旅游类分别排在第三和第四位。宝安区交通类POI签到次数是各区不同类型POI签到中最多的。而在“购物天堂”香港,签到次数最多的是油尖旺区,也即居民活动规模最大的区域,另外,香港的商业类POI签到次数远远大于其他各类,可见其经济贸易之繁荣,其中商业类签到中油尖旺区所占比重最大。

1.2 探索性空间分析方法

1.2.1 签到数据的空间格网化

根据兴趣点签到数据的地理坐标和用户属性,以深圳市行政区域为研究区,其经纬度范围是东经113°46′~114°37′,北纬22°27′~ 22°52′,构建0.001°×0.001°经纬度格网G={G1,G2,…,Gn},并将其与签到数据进行空间连接,格网化处理的示意图如图2。图中的P1~P5代表经纬度在格网G1范围内的5个签到兴趣点,每个兴趣点有各自的类型、签到次数和签到用户数,以签到次数占整个研究区域内最大签到次数的百分比作为权重等级,计算格网内每一种签到类型的权重,权重最大的POI类型作为格网类型,各类型总的签到次数作为格网权重。按照此方法最终将深圳市的兴趣点签到数据简化为18779个格网数据集。

图2 签到数据空间格网化处理方法Fig. 2 Grid processing of check-in dataset

1.2.2 签到数据的空间特性

托布勒地理学第一定律描述了地理学的一个基本现象:邻近的地理事物往往比相距遥远的事物具有更多的相似性。空间自相关性由空间自相关系数度量,检验不同空间区域的同一属性在空间上是否高高相邻分布或者高低间错分布。空间聚集和空间分异实质上是同一个空间现象在不同空间尺度上的表现,背后的机制是整个空间是一个随机运动过程,但这个随机过程是不平稳的,在不同的空间位置是不同的随机过程[13]。因此,本文首先从全局尺度探索签到数据的空间依赖性,发现其存在空间正相关性,于是将尺度拉近从局部尺度探测空间异质性,分析签到数据局部空间上的分布特性。

1)全局空间统计量Global Moran's I

采用Moran's I统计量度量位置签到数据在研究区的全局空间自相关性,其计算公式如下[14]:

式中,n是研究区域内签到格网单元个数,xi和X分别是格网单元i的签到频数观测值和平均值,wij表示单元i和j连接关系的空间权重矩阵。

Moran's I结果的统计检验可利用理论标准偏差Z值检验完成:

当Moran's I结果为正数且通过检验时,说明存在正的空间自相关,表明研究区内相似的签到属性值趋于彼此毗邻,局域地理差异变得抑制,区域变异的统计度量趋于显著;结果为负值且通过检验说明存在负的空间自相关,不相似的签到属性值趋于彼此毗邻,局域地理差异变得显著,区域变异的统计量趋于不显著;结果为0则说明签到属性值在空间上无相关性,是随机分布的。

2)局部空间统计量Local Moran's I

采用Anselin Local Moran's I方法度量签到数据在局部空间的相似性,对于空间单元i计算公式[15]为:

用理论标准偏差Z值检验完成:

当Ii为正数且统计显著时,表明格网单元i与其邻近单元存在签到属性的高值聚类(HH)或低值聚类(LL)现象;当Ii为负数且统计显著时,表明格网单元与其邻近单元存在签到属性的高低(HL)或低高(LH)交错现象;否则格网单元不具有统计显著性,签到事件存在局域的空间随机现象。

1.3 签到热点探测

空间聚集性扫描统计方法是通过对研究区内的地理对象进行扫描,根据扫描范围内外地理对象属性值之间的差异,探测是否存在统计意义上的高风险聚集区,基于圆形窗口的扫描统计是经典方法之一[16-17]。该方法以研究区内的每个地理对象作为扫描起始单元对周围单元进行扫描,根据窗口覆盖区域内外属性实际比值和随机分布假设下理论比值计算扫描统计量——对数似然比LLR(Log Likelihood Ratio),直至统计量不再变化,在生成的候选聚集窗口中选取统计量最大/最小的聚集窗口(对应高值聚集/低值聚集),并对聚集窗口进行假设检验,验证其分布的非随机性,从而确定聚集程度最高的空间区域,称为最可能聚类MLC(Most Likely Cluster)。

1.4 活动空间分析

位置签到数据实际反映出了LBSN用户与城市公共空间之间的互动,借助于用户的历史签到数据进行居民活动空间分析是当前城市空间研究的热点之一[18-19]。首先以区县为研究单元,分别统计各单元总的签到次数和单位面积的签到次数用以度量居民活动规模和居民活动强度;再以整个研究区为单元,以签到点数据为研究对象,选择合适的搜索半径,通过空间核密度法分析居民活动空间分布情况,从而突破行政区划的壁垒,按照居民活动聚集程度划分城市活动空间的核心区。

签到位置s处的核密度计算方程可以表示为:

式中,h为搜索半径;n为与签到兴趣点s的距离小于或等于h的兴趣点数;k为空间权重函数;ci为核心签到点,该处密度值最大;密度值在远离ci的过程中逐渐减小,直至与ci的距离达到阈值h时核密度值降为0。

2 空间分析与可视化

2.1 基于位置签到数据的空间特性分析

在研究区深圳市行政边界内,将签到点数据栅格化为0.001°×0.001°经纬度格网,既保留了签到次数、类型和时空专题属性,又使离散的签到点数据具有了空间邻接性,便于进行探索性空间分析。

2.1.1 全局空间相关性分析

全局空间自相关性分析结果如图3所示。Moran's I指数0.013 104表明签到次数在研究区域内表现为空间正相关性,Z得分为11.971 595远大于2.58,随机产生此聚类模式的可能性小于1%,说明签到数据空间分布为典型的聚类模式。

图3 Global Moran's I空间自相关性分析报表Fig. 3 Global Moran's I of check-in dataset

2.1.2 局部自相关性分析

图4 签到数据热点和异常分布情况示意图Fig. 4 Hotspots and Outliers distribution of check-in dataset

采用Anselin Local Moran's I方法度量签到数据在局部空间的相似性,挖掘出签到事件的热点和异常,分析结果的三维效果如图4所示。通过局部自相关性分析共得到具有统计显著性(0.05水平)的高值聚类特征签到位置299个(HH),图中用红色表示;具有空间异常特征的签到位置14个,其中低值由高值包围的异常值6个(LH),图中用蓝色表示,高值被低值包围的异常值8个(HL),图中用黄色表示,其余项不具备统计显著性。

2.2 基于SaTScan方法探测签到高值聚集区

使用SatScan方法以圆形扫描窗口探测深圳和香港共28个区县的签到事件高值聚类区域,通过蒙特卡洛模拟假设检验的聚类区域按照最大似然函数比值LLR排序,依次得到1st-MLC,2nd-MLC……

图5 圆形扫描窗口扫描统计结果Fig.5 Distribution of MLCs detected by SaTScan

圆形扫描窗口扫描统计结果显示,最大可能聚类地区是南山区、福田区、罗湖区,其次是大埔区、东区、观塘区、黄大仙区、九龙城区、沙田区、西贡区,第三可能聚类地区是油尖旺区,共七个可能空间聚集区。从结果来看机场、火车站等交通枢纽、CBD商圈等所在地经济交通发达的区县有较高的空间集聚性。

2.3 港深地区旅游目的地热点探测

针对旅游类兴趣点的签到数据,分别对香港和深圳进行了旅游目的地关注度的时序分析,如图6所示。

图6 旅游类POI月签到次数统计表Fig. 6 Check-in number of tourist POI by month

以月份为时间单位分析,从总体趋势来看,香港和深圳旅游类POI点签到次数的变化基本一致,上半年呈稳步增长态势,最高峰都是出现在2014年8月,其后数据出现起伏波动,此外,2014年10月和2014年12月,均同时出现局部峰值。尽管数据的时间跨度有限,但是仍能看出,旅游类目的地的关注度时间聚集性与我国的寒暑假及法定小长假的时间基本一致。

从空间分布角度来看,深圳市旅游目的地微博签到点空间分布可见图7a图所示。

图7 旅游类签到数据空间分布和格网化Fig.7 Spatial distribution and grid of tourist check-in dataset

对深圳市1902个签到数据格网做局部空间自相关性分析,得到具有高值聚类特征的签到位置34个(均为高值聚类HH),具有空间异常特征的签到位置1个为HL型,其余项不具备统计显著性,可视化结果如图9a所示。同理对香港1265个签到数据格网处理分析,得到具有高值聚类特征的签到位置31个(均为高值聚类HH),具有空间异常特征的签到位置3个为LH型,其余项不具备统计显著性,可视化结果如图9b所示。两地局部自相关聚类结果中的具有统计显著性的高值聚类热点,提取结果如图9c所示。局部空间自相关性聚类分析所得的结果显示,深圳香港两地的旅游目的地集聚热点主要分布在市区区域,集中在福田区、罗湖区、南山区毗邻香港的地带以及维多利亚港两岸,并少量集聚热点零星分布在市郊区域。

从图中可以看出,深圳市的旅游目的地分布主要集中在毗邻香港的福田区、南山区、罗湖区,而香港的旅游目的地主要集中在了维多利亚港两岸的油尖旺区、九龙城区、中西区和湾仔区。由此可以反映出上述区域的旅游目的地数量多而且相对聚集程度高,旅游资源相对其他区县更丰富,此外以上区域与城市核心区重叠,发达的经济交通也为其增加了对游客的吸引力。如图7b图所示,综合考虑空间分辨率和计算量的大小,在香港和深圳行政区域内构建0.01°×0.01°经纬度格网,并与签到数据进行空间连接,在该研究尺度上进行旅游目的地的全局空间自相关性分析,结果如图8所示,两地旅游类签到数据均存在空间聚类模式。

图8 旅游类签到数据全局自相关性分析结果(左侧为深圳,右侧为香港)Fig. 8 Global Moran's I of tourist check-in dataset(Shenzhen on the left, Hong Kong on the right)

图9 旅游类签到数据热点空间分布情况Fig. 9 Spatial distribution of tourist check-in hotspots

2.4 港深居民空间活动范围划定

在区县尺度上以签到事件的规模、强度和集聚程度作为居民活动的表征,研究城市居民活动空间。首先分别统计各单元总的签到次数、不同POI类型签到次数和单位面积的签到次数用以度量居民活动规模和居民活动强度,结果如图10a~图10b所示。

由图10a所示,可视化结果图显示出居民活动规模在空间上存在较大的差异性:深圳市基于签到数据的城市活动规模等级自西向东呈逐级递减的三级阶梯状,香港地区的城市活动规模等级呈现“一核多中心”的特性。深圳、香港两地不同类型签到活动规模的空间差异可视化如图10b所示。以深圳为例,对于签到活跃的六个区各有不同的突出签到类型,宝安区和龙华新区交通类签到点最为频繁,龙岗区、南山区、福田区、罗湖区则是居住类签到点最活跃,对比其他类型签到活动的规模,可见在居民活动类型空间分布上,深圳仍受传统行政区划的影响。

由图10c所示,居民活动强度存在着空间差异:深圳市整体活动强度密集区以福田区和罗湖区为核心,向两侧分别延伸至光明新区和大鹏新区;香港地区整体活动强度密集区以油尖旺区为核心,向外较均匀的辐射,其中维多利亚港两岸的活动强度最高。由图10d所示,根据以125km为搜索半径的空间核密度分析结果,按照居民活动集聚程度逐级递减将城市划分为核心区、次核心区、潜在核心区和非核心区4个等级,可以看出居民活动空间的核心圈层仍是传统行政区划中的城市中心,但活动分布已初步呈现出“多心开敞”的都市区空间形态。

图10 深圳香港两城市居民活动空间分析结果Fig.10 Analysis of citizen activity space in Shenzhen and Hong Kong

3 结束语

本文基于深圳、香港两城市2014年1月至2015年1月新浪微博POI位置签到数据,从3个方面进行了城市空间的综合分析:借助空间相关性分析方法,探测出签到事件在城市空间的分布具有明显的聚集性,并根据空间扫描统计结果依次标识出签到事件高值聚集区;针对旅游类签到数据分析发现香港和深圳两城市的旅游目的地关注度的时间变化趋势基本一致且峰值与我国学生的寒暑假和法定小长假的时间分布相吻合,而旅游热点主要分布于城市中心地带,少数分布在市郊地区;以签到事件的规模、强度和集聚程度作为居民活动的表征分析了城市活动空间差异性,进一步将城市划分为核心区、次核心区、潜在核心区和非核心区4个等级,结果表明居民活动的核心圈层仍受传统行政区划的影响,但活动分布已初步呈现“多心开敞”的空间形态。

本文分析了3种空间尺度下的分布特征,没有考虑时间属性的影响,缺少与传统城市空间研究的对比分析,因此研究内容具有一定的局限性,借助更加丰富的社交媒体地理时空数据和其他社会经济数据进行城市空间分析是进一步研究的方向。

致谢

特别感谢“空间信息智能感知与服务深圳市重点实验室第二届城市数据大赛”的支持。

猜你喜欢
格网高值次数
养殖废弃物快速发酵及高值转化土壤修复生物肥料关键技术
机场航站楼年雷击次数计算
麻文化发展与高值利用前景展望
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
实时电离层格网数据精度评估
依据“次数”求概率
高值无害化利用 废白土大有可为
基于空间信息格网与BP神经网络的灾损快速评估系统
平均Helmert空间重力异常格网构制方法