李军利,李 莹,何宗宜 ,何撼东
(1.安徽省智慧城市与地理国情监测重点实验室,安徽合肥230061;2.安徽农业大学资源与环境学院,安徽合肥230036;3.河南省商丘市气象局,河南商丘476000;4.武汉大学资源与环境科学学院,湖北武汉430079)①
传统气象灾害等观测数据存在数据稀疏性、滞后性以及高成本特性,在社会感知中,每个居民个体都扮演着传感器的角色,利用带有GeoTag标记微博等社会感知数据的高分辨特性、泛在性等特性,开展灾害性天气条件下的群体时空行为特征感知、公共行为模式与地理位置的相关性研究,有助于减轻灾害[1-2]。GeoTag数据是指互联网上带有地理位置信息的文本、图片、声音与视频等信息,微博是一种迅速快捷、低成本的GeoTag数据源。近年来已有不少学者,借助GeoTag数据开展相关研究。Kryvasheyeu等通过Sandy飓风的轨迹与Twitter活动有很高的相关性,认为社交媒体有助于大尺度的灾害评估提供研究[3]。Chae等以飓风为例,开展灾害事件演化趋势研究,抽取飓风灾前、灾中与灾后的群体公共行为,为危机管理、灾害响应、评估规划提供服务[4]。Slavkovikj等以社交媒体侦察林火事件,发现社交媒体作为以人为中心的传感器,在大尺度自然灾害侦察与管理中发挥着重要作用[5]。Landwehr等利用Twitter开发了一个印尼巴东海啸预警系统,辅助灾害的应急响应[6]。Yusuke研究了日本东京大地震中,居民回家的交通行为模式[7]。王艳东等利用社交媒体研究了北京特大暴雨事件,认为社交媒体有助于灾害的应急响应[8]。廖一兰对山东疫苗事件做了时空可视化分析[9]。何宗宜等利用微博数据挖掘的用户行为,依据微博识别事件发生所在地理位置[10]。上述研究从不同角度阐述了社交媒体有助于灾害应急或热点事件识别,而与突发寒潮气象事件相关的研究并不多见。
在全球气候变暖大背景影响下,各种灾害性天气开始频繁出现,气象灾害和次生灾害成为城市健康和谐发展的制约因素。寒潮是合肥市下半年主要灾害性天气[11],寒潮带来的大风强降温、暴风雪以及冻雨等天气,给城市交通安全及生活带来不便,给农业经济也造成严重的损失[14-15]。本课题尝试在此背景下,研究寒潮天气下合肥市主城区微博GeoTag时空特征并进行语义演化分析。
通过新浪平台位置服务开发接口,本研究设计开发了一个定时自动获取用户微博数据采集系统,获取的数据覆盖范围包括合肥市主要城区,时间选取为2016年1月19日6点至1月27日24日,时间覆盖了合肥市当次整个寒潮天气发生的全过程。筛选微博文本当中的“用户ID”“用户名”“微博消息 ID”“微博内容”“发表时间”和“用户坐标”等信息建立地理空间数据库。经过数据清洗等预处理,本次获取带有地理位置标志的微博信息27 007条。
基于上述获取的寒潮天气下新浪微博数据,利用GIS空间分析等方法探索寒潮发生前、中、后的微博用户时空聚集特征。
核密度分析方法,是通过核函数将离散分类变量经过核密度转换并转变为连续性数值变量的一种方法,主要是识别与分析热点和冷区的探索性工具[12]。Kernel密度分析方法主要是计算表面密度的方法,比传统的方法生成的表面更平滑。Kernel方法的原理是在每个样本点周围画一圆形区域,应用从中心到边界为由1至0变化的数学函数,形成一个适合每个样本点的平滑、弯曲的表面。每个单元的密度值是把覆盖在该单元上所有的Kernel值相加的结果除以该半径下的搜索面积。搜索半径直接决定Kernel的大小,半径越大Kernel越平滑[12-13]。
核密度分析是假设Y1,Y2,…,Yn是从一维总体Y中抽出的样本,Y具有未知的密度函数f(y),则f(y)的密度核估计为[12-13]:
(1)式中K()称为可测函数的窗或核函数,h为阈值,n为阈值范围内的点数[12-13]。
热点分析可借助Getis-Ord Gi*工具计算。应用工具可得到Z和p值,p值表示概率,Z得分表示标准差的倍数。如果要素的Z得分高且p值小,则表示有一个高值的空间聚类。如果Z得分低并为负数且p值小,则表示有一个低值的空间聚类。Z得分越高(或越低),聚类程度就越大。如果Z得分接近于零,则表示不存在明显的空间聚类。热点分析工具的工作原理是查看邻近要素环境中的每一个要素。高值要素往往比低值要素更容易引起注意,但高值要素可能不是最具有显著统计学意义的热点,其计算公式如下[14]:
借助Anselin Local Moran’s方法对微博数据进行识别,如下式[15]:
Anselin Local Moran’s I方法根据 Anselin Local Moran’s指数、Z得分和p值对微博位置数据进行分类标识。Z得分按下式计算[14]:
若Z>1.96,则表示邻近微博格网数据具有相似值,将具有统计显著性高值聚类表示为HH,低值聚类表示为LL;若Z<-1.96,则表示其为空间异常值;其他情况表示不具有统计显著性。对于第一种情况,若区域内及其各方向邻域,在正常状态下均为非热点,如计算结果成立,则表示该区域成为了热点,可认为该处发生了事件,在热点分布图上可直观显示。地理区域通常被划分成多个格网,若某区域为热点区域,则其上的连续多个格网均为热点格网,这种情况下,如果该区域热点格网的范围扩大可看作是正常波动,不认定为发生热点事件。第二种情况,则通过:
计算热点区域微博数量的增长率η,η≥100%,则认定发生了事件。(5)式中,ni为第i号格网内的当天微博数,为正常状态下第i号格网内的平均微博数。
对合肥市区主城区每天的微博数据分时段进行统计,把24小时分为4个阶段进行统计,时间段分别为:时段1(0点0分0秒至5点59分59秒)、时段2(6点0分0秒至11点59分59秒)、时段3(12点0分0秒至17点59分59秒)、时段4(18点0分0秒至23时59分59秒)。制作从1月20日到1月27日的分时段微博数量统计图,如图1所示。图1为按每天每小时统计的微博数,微博发布量随时间段的变化越来越大,微博发布量在整体上呈上升趋势。时段1为微博发布量较少的时间段,时段2微博发布量略有增加,在此基础上时段3微博量略有增加,时段4为微博发布量高峰时间段。由图1可看出,0点至6点处于人夜间睡眠的主要时间段,微博发布量少表明居民活动少;6点至12点微博发布量逐渐增加,表明居民活动开始增加,该时段处于城市居民的上班工作时间;18点至24点,居民进入夜间消费阶段,微博发布量持续上升并达到微博数量分时间段的高峰,在目前普遍采用的“朝九晚五”作息规律的前提下,由于该时段是居民下班后餐饮、购物、休闲娱乐和居家等活动的主要参与时段,因此微博数量值最大。
图1 微博发布数量时间段统计图
对合肥市主城区发布的微博数据,按每天发布总量进行统计,分析表明微博发布量在1月20日达到顶峰,随后逐渐下降,与现实中的天气状况相吻合。在20日这天,气温急剧下降并伴随大雪,微博量达到峰值,表明人们对寒潮所带来的降温、雪具有更大的敏感性并对其给予更大的关注。伴随着降雪过程的结束、寒潮的退去,人们对降雪的关注度也开始降低,微博量随后逐渐下降,在整体上呈下降趋势。
图2为通过蜂窝密度图分析得出寒潮期间合肥市微博的主要集中地。从图2可看出,寒潮主要集中在一环二环内,政务文化新区、天鹅湖附近区域、大学城翡翠湖附近等区域。一环二环是市区经济中心、商业中心,人口相对集中;天鹅湖附近区域是政治文化中心,人口也比较集中;而大学城翡翠湖附近集中了部分高校,高校师生分布相对集中,该区域也是微博用户集中地。
图2 蜂窝密度图
将核密度图与合肥市主城区路网叠加进行分析,微博发布地主要集中在一环、二环内及政务文化新区翡翠湖附近。图3所示,颜色越深代表密度越大,活动越密集;颜色越浅代表密度越低,活动频率越小。由核密度图可看出,微博发布地主要集中在一环和二环内,且一环内密度更集中。一环内是经济政治文化中心,该区域人口密度较高,相对微博发布量也大。还有一部分集中在徽园、欢乐岛、明珠广场和翡翠湖附近,这部分区域是旅游观光中心与教育集中区,如在翡翠湖附近集中了部分高校,一般高校学生相对普通民众使用微博的频率更高一些。
借助热点分析,制作寒潮期间合肥市微博数据的热点图,如图4所示,颜色深的红色区域表示发布微博的热点区域。通过与城市地理位置兴趣点比对,发现热点区域主要集中在合肥火车站、合肥南站、一环内的高校集中区、政务文化新区的天鹅湖附近、淮河路步行街。具体体现在南一环路、站前东路、徽州路、环城路、天鹅湖路、潜山路、翡翠路以及沿河路。合肥市是华东地区综合交通和通信枢纽之一,火车站和高铁南站是人流聚集地,而且寒潮期间赶上农民工返乡及高校放寒假的高潮,车站人流量较大,有关寒潮灾害的微博也相应增加,使车站成为热点区域之一;在一环附近集中了安徽农业大学、安徽大学(老校区)、安徽医科大学、安徽中医学院、中国科技大学等高校,师生群体相对集中,从热点图来看该区域微博发布量较大;政务文化新区的天鹅湖是合肥市民旅游休闲的新去处,不但环境优美,还是目前合肥市内最大的开放式公园之一,旁边新建了体育场、大剧院、市政办公中心等多处建筑,成为合肥的政治文化休闲中心地,该区域微博发布量也较大;而淮河路步行街是集购物、旅游、文化、休闲、餐饮等功能为一体的现代文化商业步行街,人流相对集中,也是微博发布集中地。
对合肥主城区创建400 m×400 m格网,统计出每个格网面数据中微博点的数量,对每个格网中的微博点进行聚类与异常值分析,将不显著的格网面删除,得到聚类与异常值分析图,如图5所示。图中显示了热点高区域,发现除一环与二环内热点相对比较集中外,唯独南部区域相对独立集中,该区域为合肥市滨湖新区,有万达乐园、滨湖西河公园、轮滑场、美术馆等娱乐场所,寒潮期间微博发布量较平常发布相对多,实地调查发现该地区游玩的人数较平时增长较多,参观及欣赏雪景的同时,用户发布相应主题的微博。
图3 微博发布用户空间分布核密度图
表1 寒潮主题词库
针对寒潮期间微博相关主题,构建寒潮灾害主题特征词库表,如表1所示。按从寒潮的名称、形成、结构、路径、灾害等级、警报级别、灾害链以及灾害等相关概念进行总结归纳。
图4 微博发布用户空间分布热点图
图5 聚类与异常值分析图
利用寒潮主题词库,进行自然语言处理,借助词频-逆文件频率方法[16-17],统计出寒潮相关主题词在微博文档中出现的频率,该方法强调字词重要性与其在微博文本中出现的次数成正比。图6为频率统计制作词云图,词语字体的大小直接反映了词语出现频率的高低,从图中可看出,词语主要与人们的日常生活相关,但同时观察到在寒潮期间人们对寒潮的关注度上升,出现了“雪”“寒”“冷”和“冻”等一系列和寒潮相关的热词。对比日常生活出现的热词,发现此次微博热点除了集中在日常生活方面,还重点体现在寒潮的发生方面,表示这一时间段出现了特殊的天气状况。如在此次热词当中“雪”出现了218次,对比其他分词出现的频率,表明在1月19日至1月27日这个时间段里雪受到的关注度比较大。结合高频寒潮词汇发生的时空分布特征,有助于开展灾害性天气条件下的群体公共行为模式与地理位置的相关性研究。
图6 热词统计词云图
借助合肥市寒潮期间新浪微博数据,分别从时间、空间与语义方面探讨寒潮发生前、中、后的GeoTag微博用户时空聚集特征。在时间上,微博发布量的变化与寒潮发生存在一定的相关性,一天当中18时至24时是微博高发时段,且1月20日总发布量达最大。在空间上,微博发布高密度区域地主要集中在三大类区域:第一类是购物商圈,如淮河路步行街商圈;第二类是高校区域,如翡翠湖附近的高等院校;第三类是合肥市区的观光游玩之地,如徽园、欢乐岛、万达乐园等。这与城市的人口空间结构基本稳合,且与其旅游行为与生活习惯相关。在语义词频统计方面,“雪”“寒”“冷”和“冻”等一系列和寒潮相关的热词,在寒潮期间出现频率有突升的趋势。本研究暂未结合定位导航大数据、交通智能卡大数据与移动通信大数据探讨突发寒潮天气下公共群体行为模式等问题,后续研究中将进一步完善。