朱晨曦,晏王波
(1.江苏省土地勘测规划院,江苏 南京 210098; 2.江苏省测绘研究所,江苏 南京 210098)
基于微博签到的地理空间信息研究
朱晨曦1,晏王波2
(1.江苏省土地勘测规划院,江苏 南京 210098; 2.江苏省测绘研究所,江苏 南京 210098)
随着Web2.0时代的来临,志愿者地理服务(VGI)逐渐改变了传统的地理信息服务模式。以新浪微博为例,从网络社会空间入手,实现了数据的获取、清洗、可视化及空间分析,对南京市热点地区进行了研究。研究表明,南京市辖区的鼓楼、建邺、秦淮等老城区和浦口、江宁、栖霞等地区分别由于商业聚集地吸引大量人流和大学城聚集成为整个城市的热点地区,集聚程度高,人流量相对较大。该模式为城市应急、城市规划、基础设施建设提供了依据,也为VGI模式下的地理空间信息研究提供了可能。关键词:空间分析;热点分析;VGI;南京市
随着互联网技术的不断深入,特别是移动互联网的蓬勃发展,社会化媒体已成为人们日常生活的重要部分[1]。微博是结合了社会化网络、空间信息、微型博客的一种新应用模式。它让空间位置信息可以被实时记录,是Web2.0时代社会化媒体的代表[2]。与Web1.0侧重点不同,Web2.0更注重用户的交互作用,用户既是互联网的读者,也是网站内容的制造者。
2007年,Goodchild院士[3]首次提出了VGI的概念,指出传统的单向地理信息服务模式将逐渐向交互式的协同模式转变,用户既是地理信息的使用者,同时也是提供者。普通用户可以参与、共同完成地理信息数据创建和交叉引用,极大地缩短了地理信息获取和传播的时间,提高了数据生产效率,丰富了数据类型[4]。
2012年,新浪微博基于位置服务(LBS)平台开放,正式开启了LBS2.0时代。其最具特色的是基于用户和基于兴趣点(POI)的接口,基于用户的相关接口,使用户能获取单个人的时间线动态,包括微博信息、点评签到等,有点类似Twitter的时间线功能,用户可以查看自己或好友的时间纵线动态;基于POI的接口是基于某个具体位置的接口,用户可以按兴趣、标签进行分类查找,获取该地点所有微博用户、微博信息、照片、商家等,同时支持查询地点和获取地点详情。
本文基于新浪微博开发者平台的API接口,获取覆盖整个南京市的签到数据,并对具有空间信息的数据进行数据清洗,进行可视化,再在此基础上进行空间分析,探索地理空间聚类和热点地区信息。
如图1所示,本文研究步骤主要分为申请准备、数据获取、空间分析3个部分。其中,申请准备主要是调用微博API所需的准备。先进行微博开发者注册,向新浪微博提交申请,待申请通过后会返回一个App Key和App Secret。数据获取是基于申请返回的App Key和App Secret,调用新浪微博开发平台提供的API接口获取数据。由于API接口返回的是json结果,还需对结果进行抽取、格式转换并进行数据清洗、剔除重复的记录,形成最终结果,存入数据库。空间分析是将获取数据中包含的空间位置信息可视化,依据空间分析理论,对获取的数据进行聚类分析及热点分析。
图1 研究方法流程图
2.1 OAuth授权
新浪微博开发平台采用的是OAuth认证和授权方式。用户获得授权后,才能通过微博开发平台提供的API获取平台资源。
OAuth授权过程主要包括以下步骤:①用户登录客户端向服务提供方请求一个临时令牌;②服务提供方验证客户端身份后,授予一个临时令牌;③客户端获得临时令牌后,将用户引导至服务提供方的授权页面请求用户授权,在这个过程中将临时令牌和客户端的回调链接发送给服务提供方;④用户在服务提供方的网页上输入用户名和密码,然后授权该客户端访问所请求的资源;⑤授权成功后,服务提供方引导用户返回客户端的网页;⑥客户端根据临时令牌从服务提供方处获取访问令牌;⑦服务提供方根据临时令牌和用户的授权情况授予客户端访问令牌;⑧客户端使用获取的访问令牌访问存放在服务提供方上的受保护资源。
2.2 微博API
目前,微博API提供了包括粉丝服务接口、微博接口、评论接口、用户接口、关系接口、帐号接口、收藏接口、搜索接口、提醒接口、超链接口、公共服务接口、位置服务接口、地理信息接口、地图引擎接口、支付接口和OAuth2授权接口等16个接口供开发者调用微博资源。就开发工具而言,微博开发者平台提供了支持目前主流的编程语言SDK,如Java、JavaScript、C++、C#、Ruby、Python等。
2.3 数据获取
本文选择Python语言作为开发语言,在安装必要的运行环境和微博提供的Python SDK后,调用位置服务接口中2/place/nearby/pois的API,该API的作用是以经纬度形式定点查询以此点为中心,一定范围内的POI(默认为2 000 m,最大可设置为10 000 m),返回POI点ID、POI坐标、地址和签到总次数等信息。需要注意的是,若返回结果较多,默认只返回第一页的结果,因此,针对这种情况要将结果分页展示。
由于本文只针对签到数据,因此只将POI的经纬度、签到总数及地址信息保存下来,通过遍历南京市的市域范围,返回得到覆盖整个南京市的POI信息及签到信息,如表1。
表1 API返回的结果示例
2.4 数据可视化
经过对南京市整个市域范围的遍历,最终获取签到点28 965个。由于返回结果有经纬度的空间属性,因此将结果进行可视化,如图2所示。
空间热点检测是通过监测空间数据的总体模式和趋势来进行热点评估[5-8]。当高值和低值同时聚类时,它们倾向于彼此互相抵消,如果低值和高值同时聚类时量测空间聚类,则使用空间自相关工具;当存在完全均匀分布的值且要查找高值的异常空间峰值时,首选Getis-Ord General G 工具。
为了汇总空间集聚程度,检查南京市市域范围微博活动的程度,选取Getis'G指数(),Getis-Ord标准化处理,的公式为:
图2 研究区数据可视化(审图号:GS(2010)6011)
标准化处理后的公式为:
式中,xj为样本;Wij为研究对象i、j之间的空间邻接矩阵,反映了空间单元的邻近关系;和分别是的数学期望值和方差。如果为正且显著,表明位置i周围的值相对较高,属高值空间集聚,即热点区;如果为负且显著,表明位置i周围的值相对较低,属低值空间集聚,即冷点区。
首先,将整个南京市打上1 km×1 km的格网,然后利用叠加分析进行POI与格网的裁切,统计落入每个格网中的POI点数,通过每个格网的ID唯一属性与POI属性进行挂接匹配,再综合每个格网内的点的签到总和,计算Getis’G指数,最后按属性分类出图。图3中红色代表签到次数较多的区域,即热点区域,也是空间聚类较为明显的区域。
从空间的角度来说,红色区域主要集中在鼓楼、秦淮、建邺等老城区,但浦口因为有南京大学金陵学院、南京审计学院、南京工业大学、东南大学成贤学院等多所高等院校,签到次数相对较多,同样江宁、栖霞与浦口类似,因此也成为了新热点。而溧水、高淳则更集中于主城区,其余农村则集聚程度较差。
图3 热点分析(审图号:GS(2010)6011)
从人口分布角度来说,依据《中华人民共和国全国分县市人口统计资料2014》南京市的统计结果,鼓楼、江宁、秦淮3区的常住人口已超100万人,而栖霞、浦口也已超70万人,人口基数非常大,尽管建邺只有40万常住人口,但其辖区有万达商贸圈、奥体等各类生活化设施,聚集程度非常高,因此签到次数也较多,无疑成为南京的热点地区,监测的结果与人口统计分布的结果一致性较高。
本文从社会空间的视角,借助微博签到研究了城市的热点地区。这对信息化影响下的城市热点或集聚度分析是一个新的尝试。基于对新浪微博的分析,从签到总和来说,数量较高的地点主要出现在车站(南京南站、南京站)、各大高校、著名景点,正是由于车站等地的人流量巨大,因此签到的次数一般也会较高。当然,微博的出现使得记录人群的集聚效应更为便捷,从事数据挖掘或信息挖掘的研究者可从显式信息中发现隐式信息,这也为应急预警、城市规划、大型基础设施建设等方面提供了参考依据。
当然,针对微博的研究也有其局限性,微博的使用并未完全实现大众覆盖,仍然存在一部分人没有或从不使用微博签到,因此,本文的研究只能代表一定程度上城市热点的聚集程度。随着微博的用户量呈量级指数上升,结果依然是可靠的。
[1] 彭兰.社会化媒体、移动终端、大数据∶影响新闻生产的新技术因素[J].新闻界,2012(16)∶3-8
[2] 甄峰,王波,陈映雪.基于网络社会空间的中国城市网络特征∶以新浪微博为例[J].地理学报,2012,67(8)∶1 031-1 043
[3] Goodchild M F. Citizens as Sensors∶the World of Volunteered Geography[J].GeoJournal,2007,69(4)∶211-221
[4] SUI D Z, Elwood S, Goodchild M F. Crowdsourcing Geographic Knowledge∶ Volunteered Geographic Information (VGI) in Theory and Practice[M]. New York∶ Springer, 2012
[5] Anselin L. From SpaceStat to CyberGIS, Twenty Years of Spatial Data Analysis Software[J]. International Regional Science Review, 2012,35(2)∶131-157
[6] 王劲峰,李连发,葛咏,等.地理信息空间分析的理论体系探讨[J].地理学报, 2000,55(1)∶ 92-103
[7] 王劲峰.空间分析[M].北京∶ 科学出版社, 2006
[8] 晏王波,张晓祥,姚静,等.基于GIS 的盐城市区域发展时空特征研究[J].地理空间信息,2013,11(2)∶106-110
P208
B
1672-4623(2016)05-0028-03
10.3969/j.issn.1672-4623.2016.05.009
朱晨曦,工程师,主要从事GIS与空间分析研究。
2015-07-28。
项目来源:国家自然科学基金资助项目(41201394)。