邵世维,黄 新,刘 辉,陈 伟
(1.武汉市国土资源和规划信息中心,湖北 武汉 430014;2.武汉大学 资源与环境科学学院,湖北 武汉 430079)
智慧城市是起源于20世纪80年代的信息城市,伴随着数字技术的发展,经历了智能城市与数字城市,在21世纪之后逐步演化为智慧城市[1,2]。智慧城市[2]是关于如何将通信和信息科技运用到改善城市功能、提升城市效率、增强城市竞争力,并且提供新的解决城市公平、贫困和环境污染等问题的城市发展概念。智慧城市[3,4]通过将真实世界的形态使用数字化的方式进行模拟,关注真实世界的设施,服务城市市民和社会组织,为城市的运行提供总体筹划。
当前人们在谈及智慧城市时,经常会涉及到大数据。利用大数据的处理技术为智慧城市服务和城市规划服务是当前研究的热点[5,6],也是智慧城市以人为主、服务于人的重要途径。近年来,FaceBook、Twitter、微博和微信等社交网络作为全新的互联网应用得到了迅猛发展[6],并且在不同的领域都发挥着重要作用。
社交网络不仅为用户提供了地理位置,也提供了用于分享实时空间位置信息的功能[7]。基于位置的社交网络数据(本文以带有位置点的新浪微博数据作为主要数据源)具有丰富的位置信息和属性信息,新浪微博用户会发布包含有文本、图片和带有空间位置的消息,为时空分析提供了丰富的地理空间信息[8-10]。胡庆武等利用基于位置的签到数据探索城市热点商圈,为区域经济规划提供决策[8];基于海量的新浪微博数据,常晓猛等探究反映城市空间的相互作用,用虚拟网络环境反映城市相关吸引力[9];张恒才等分析对象在真实世界中的具体轨迹,提高了关系数据库的查询效率等[10]。
然而,当前已有研究对文本数据利用相对不足,探究各种城市公共设施分布状况的研究则相对较少。本文充分考虑了社交网络数据的属性和位置信息,利用基于文本和空间聚类的方法反映城市公共设施空间分布状态,并探索不同类型的设施对人们的吸引力,最后用POI数据验证了本文方法得到的结论。
基于位置的社交网络数据是携带有文本信息和空间位置信息的离散的GIS点[11],提取有用的社交网络数据,可以反映城市公共设施在空间的分布状况和不同公共设施的关注程度。通过人工先验知识,对城市服务设施进行分类,并将所分的类别作为微博数据分类的依据,将服务设施分为公司、风景名胜、体育休闲服务等10类。
首先,提取用户注册的地理位置信息和分享的空间位置信息,用以识别每个微博的地理空间位置;其次,对带有位置信息的数据进行筛选和坐标转换等处理,以将偏离过大或者坐标异常的数据删除;再次,依据服务设施类别对微博谈论的主题进行分类,用以标识用户关注的服务设施;最后,采用聚类分析度量结果的地理空间分布,得到不同类型的服务设施在空间的聚集状态和空间分布情况。具体流程如图1。
图1 方法流程图
空间位置信息在空间上表现为大量离散的GIS点对象,而分散的点不利于探索其在空间上的分布情况[8]。本文首先对选定区域的微博预处理,包括位置数据筛选、异常点的剔除。数据预处理的具体流程是:通过ArcGIS软件,在设定范围内,筛选提取出指定范围内的数据点,将坐标归纳到统一的坐标系下,并重新构建数据集;根据选定的数据集,将其与现有的地图数据叠加,将不符合实际且偏差比较大的离散点剔除,保证数据在空间上的有效性。
用户发布的消息是局限在140字以内的短文本,主题来源丰富,通过甄别文本表达的主题确定用户谈论的公共设施(如果表达的主题不清晰,不予考虑)。为了便于甄别文本表达的主题,文中使用Python提供的Jieba分词包实现对微博文本的主题归类。通过设定常用词识别每条微博表达的最相关的主题,实现将微博文本归入到对应的主题,并将主题作为属性附加给每个微博数据点。
利用K-means聚类方法对区域进行聚类,选择不同的聚类数以达到最佳的实验效果。结合本文设定类别,将聚类数目设定为5类,再利用K-means聚类算法实现聚类分析。K-means聚类的结果具有在同一类中相似度高、类间相似度低的特点。聚类分析后得到每类设施在每类中所占的比重,以此确定每类公共服务设施在研究区域内的分布状况。K-means聚类结果如表1所示。
表1 各类公共服务设施在聚类区域中每类中所占的比重表
对区域内提取的POI数据进行分类统计,然后对统计的POI数据进行标准化,并得到区域内各种类型的POI所占比重;再利用K-means聚类方法对POI数据进行聚类,获取区域内每一类中各类型POI占据的比例。POI的K-means聚类结果如表2所示。最后将各类POI的比重和空间聚类结果比较,验证相应服务设施的分布状况。
表2 聚类后各类POI在每类中所占的比重表
本实验通过获取的微博数据,在设定的5类基础上,完成了聚类分析,得到每类设施所属类的比重。图2和图3是依据表1和表2中数据绘制的折线图和柱状图。由图2a可知,微博数据聚类后类5的比重值最大,图2b中最大值为类5的风景名胜。由图4可知,在空间分布上最多的是类5,图2直观地给出了类5中风景名胜是微博文本中出现最多的公共设施,这与图b中北京市风景名胜的分布状况总体上一致。由图2~4可知,类5在一定程度上反映了城市公共设施在空间中的分布情况。
图2 POI和微博聚类比重图
图3 POI数据和微博数据在聚类区域中分布状况
图4 风景名胜在空间上布局结果对比
由图2和图3可知,结合文本的微博数据与现有的POI数据在聚类后,除了类2有些不同以外,其他几类在整体上表现出了高度的相似性。类2在折线图和柱状图上体现的区别主要为:POI数据中类2比重是最低的,本文的结果跟POI的折线具有相似性,反映了设施在空间上的关注程度不同。
本文通过结合文本数据和位置数据以反映城市公共设施在空间上的分布状况,结合POI数据验证了方法的可行性和准确性。通过柱状图和折线图中的比值,可以反映出人们对不同公共设施的关注情况。
本文利用基于位置的社交网络数据,通过从中挖掘有效的信息,可有效探测城市公共服务设施的空间分布状况,为智慧城市的建设提供贴近大众的建设意见。首先,本文利用社交网络数据中的文本数据;其次,利用社交网络数据中的位置数据,能将谈及的服务设施映射到现实世界,进而获取设施的位置;最后本文通过社交网络数据分析,可以掌握各种公共设施的空间分布和关注程度。本文研究的结果反映了不同城市公共服务设施对民众的吸引程度,有利于政府部门根据不同服务设施对民众吸引程度作出合理的决策,为智慧城市基础设施的完善提供辅助决策。但是,该方法还不够自动化,对社交网络数据挖掘还不够深,在空间分析方面做得不够。在将来的研究中,需要考虑时间维度,结合社交网络数据的实时性,从时间尺度去分析公共设施的动态变化过程,实现对城市的检测和分析。同时,需要进一步深入挖掘文本的内在语义,避免结果存在偏差。
[1]王鹏,杜竞强.智慧城市与城市规划——基于各种空间尺度的实践分析[J].城市规划,2014(11):37-44
[2]Batty M, Axhausen K W, Giannotti F, et al.Smart Cities of the Future[J].The European Physical Journal Special Topics,2012,214(1):481-518
[3]Harrison C, Eckman B, Hamilton R, et al.Foundations for Smarter Cities[J].IBM Journal of Research and Development,2010,54(4):1-16
[4]石晓冬.大数据时代的城乡规划与智慧城市[J].城市规划,2014(3):12
[5]赵勇,张浩,吴玉玲,等.面向智慧城市建设的居民公共服务需求研究[J].地理科学进展,2015,34(4): 473-481
[6]吉根林,赵斌.面向大数据的时空数据挖掘综述[J].南京师大学报:自然科学版,2014(1):1-7
[7]秦萧, 甄峰,熊丽芳,等.大数据时代城市时空间行为研究方法[J].地理科学进展,2013,32(9):1 352-1 361
[8]胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报, 2013,43(3):314-321
[9]常晓猛,乐阳,李清泉,等.利用位置的虚拟社交网络地理骨干网提取[J].武汉大学学报:信息科学版,2014(6):706-710
[10]张恒才,陆锋,陈洁.移动对象时空轨迹及社交关系一体化数据模型[J].武汉大学学报:信息科学版,2014(6): 711-718
[11]李清泉,常晓猛,萧世伦,等.中国城际社交关系网络特征分析[J].深圳大学学报:理工版,2013,30(5):441-449