徐战亚,熊 艳,高仁刚
(1.中国地质大学(武汉) 信息工程学院,湖北 武汉 430074;2.中国地质大学(武汉) 公共管理学院,湖北 武汉 430074)
挖掘居民的时空行为模式,能为交通流预测、公共安全管理、城市规划及商业决策等应用提供重要依据。以往的多数研究是以问卷调查的方式研究出行者的行为模式[1-3]。基于问卷调查的方式存在数据更新周期慢,缺乏时效性,且研究的空间尺度局限于小范围等问题[4]。近年来,国内外不少学者尝试利用社交媒体研究用户的时空行为模式,Comito等[5]利用序列模式挖掘算法对Twitter数据的时空行为模式进行探究。Li等[6]分析了加利福尼亚州Twitter数据和Flickr照片在时间和空间上的分布特征。新浪微博作为国内的主流社交平台,已得到学界的广泛关注,它能提供签到服务。其中,签到数据记录用户的时间、位置、评论等信息,是一种时空数据源,也是用户时空行为模式的一个表征,王波等[7]基于此数据,分别从时间、空间两个角度分析南京市的居民签到行为特征并进行功能区划分;张子昂等[8]基于这类数据,分别从时间和空间两个维度,对南京钟山风景区内部游客行为活动的演变特征进行探索;陈宏飞等[9]研究西安市夜间用户签到行为在时间与空间上的演变规律。上述研究都是单纯地从时间和空间两个不同的维度来分析签到行为的时空分布特征,而未能将时空属性有机联系起来,尤其是研究方法局限在常规的经典统计和地理统计,这就导致对时空数据源的时空特征挖掘不够全面和深入,继而为用户行为分析、商业决策和基于位置的推荐服务等应用带来困难。
时空聚类作为时空数据挖掘研究的重要问题之一,对揭示地理要素的时空格局与演变规律具有重要意义[10]。现阶段,时空聚类主要应用于全球气候变化、公共卫生安全、疾病预防和犯罪热点挖掘等领域[11-15]。时空聚类综合考虑时空耦合因素,因而为研究社交媒体位置服务大数据提供一种新的途径和方法。
本文以北京地区的新浪微博签到数据为例,首先,采用扩展Knox指数对签到点进行全局时空交互性检验,确定满足聚类的时空尺度。然后,利用时空重排扫描统计进行时空聚类分析,挖掘局部时空热点。最后,对时空热点的分布范围、分布时段及持续时长等特征进行探讨。挖掘新浪微博签到数据的时空热点,不仅能探测北京市居民日常行为的时空交互规律、评估不同时间尺度的聚集范围和活动时长,并可为城市规划、公共安全管理以及商业决策等应用提供科学依据。
本文以北京市为研究区(见图1),北京市的行政区划数据来源于北京地图网(http://www.bjmap.gov.cn/bjmap/index.jsp)。利用新浪微博开放平台(http://open.weibo.com)提供的位置服务读取接口,获取研究区域内2016年2月份的签到数据。本文中使用的签到数据信息包括:用户Id、签到时间、经度与纬度。
首先,对重复的签到数据进行去重和剔除处理。接下来,结合百度地图对已处理的数据进行纠偏和空间匹配操作。最后,得到2016年2月北京市有效签到数据62 393条。
图1 研究区域
Knox指数是检验时空点的时空交互性的简易方法之一[16],这种方法能探测全局的时空交互性程度(聚集性趋势)。其研究思路为:首先,基于本文的研究问题,在空间(d)和时间(t)上都设定一个临界点;其次,定义空间和时间的邻近性度量准则:如果两个事件点的空间距离在[0,d]内则属于距离邻近,否则属于距离非邻近,如果两个事件点的时间间隔在[0,t]内则属于时间邻近,否则属于时间非邻近;然后,对所有的签到点进行两两组合(共有N=n(n-1)/2个事件对),进一步判断其时空邻近性并进行统计;最后,得到2×2的时空邻近性统计表,如图2所示,其中,Oi,Si和N分别代表事件点对的频数。
依据时间和空间的邻近关系可将Knox指数表示为[17]
(1)
式中,如果事件点i和事件点j的距离满足阈值条件,则Dij=1,否则Dij=0;如果事件点i和事件点j的时间间隔满足阈值条件,则Tij=1,否则Tij=0。k值越大,表明满足时空邻近性的事件点对越多,时空交互性就越强。
鉴于Knox检验的时间和空间阈值较难确定,因此Knox对此检验方法进行了扩展[18]。将时间维度和空间维度进行细分,构造χ2统计量,并采用蒙特卡罗模拟判断该统计量的显著性水平。χ2统计量的模型[19]为
(2)
式中:Oi对应图2(a)的观察值;Ei对应图2(b)的期望值。
时空重排扫描统计由美国哈佛医学院教授Kulldorff[13]于2005年正式提出,是一种应用于犯罪和疾病等领域的时空聚集性分析方法[20]。本文采用时空重排扫描统计方法,顾及时间和空间因素,以动态变化的圆柱形扫描窗口对不同的时间和区域进行扫描,探测事件点的时空聚类特征。时空重排扫描统计量的计算过程如下[21]:
令z代表某区域,d为某时间段。如果某个区域z在时间段d内的签到点数为nz,d,则所有区域在所有时间范围内的总签到点数nc为
nc=∑z∑dnz,d.
(3)
首先,统计单位区域及单位时间内的期望签到点数μz,d为
(4)
式中:∑znz,d为d时间段内整个研究区的签到点数;∑dnz,d为区域z整个研究时间范围内的签到点数。
接下来,计算动态变化的圆柱体扫描窗口A内的期望签到点数μA为
μA=∑(z,d)∈Aμz,d.
(5)
鉴于∑z∈Anz,d和∑d∈Anz.d相对于总签到点数nc而言非常小,圆柱体窗口A中的实际签到点数NA近似服从均值为μA的泊松分布。基于这一近似,采用广义似然函数(Generalized Likelihood Ratio, GLR)判定圆柱体窗口中的签到点是否为集聚的表达式为
(6)
最后,采用蒙特卡罗法产生模拟数据集,利用相同的方法对模拟数据集和真实数据集进行计算,找出时空聚集性最高的窗口,并计算检验统计量的P值,P值越小,表明零假设“圆柱体窗口A内的签到点的时间分布与空间分布无关”成立的可能性越小。
3.1.1 以时为尺度的时空交互性检验
通过多次实验,本文以4 h为时间间隔单位,以1 km为空间单位,对签到数据进行拓展Knox指数计算和显著性检验,结果如表1所示。
表1 以时为尺度的签到点的Knox指数联列表
注:表中所有Knox指数均通过99.9%的置信度检验
从表1可看出,在时间尺度为[0,24] h、空间尺度为(0,6] km内,签到点都表现出明显的时空交互性特征(置信水平均达到99.9%),这意味着用户发起的签到行为在时间和空间上存在相互依赖关系。并且通过进一步分析可知:当空间距离不变时,随着时间间隔的增大,签到行为的时空交互性逐渐减弱,反之则逐渐增强;而当时间间隔不变时,随着空间距离的增大,签到行为的时空交互性逐渐增强,反之则逐渐减弱。
3.1.2 以天为尺度的时空交互性检验
以1 d为时间间隔单位,以1 km为空间单位,对签到数据进行拓展Knox指数计算和显著性检验,结果如表2所示。
表2 以天为尺度的签到点的Knox指数分析结果
注:①*代表p<0.01,**代表p<0.001;
②为了使得Knox指数具有可比性,对于时间间隔在[8,28]内计算的Knox指数进行了平均处理
由表2可知,在时间尺度为[0,28] d、空间尺度为(0,6] km下,签到点都有明显的时空交互性特征。进一步分析可知,当空间距离不变时,签到点的时空交互性随时间间隔的变化规律较复杂。总体上签到时间在同一天内的时空交互性最弱,时间间隔在1 d的时空交互性突然增大,随后时间间隔在[2,5] d的时空交互性逐渐减弱,并且时间间隔在6 d时达到最强,之后又开始减弱。而当时间间隔不变时,随着空间距离的增大,签到点的时空交互性逐渐增强,反之则逐渐减弱,这与3.1.1节的结论相同。
3.2.1 以时为尺度的时空热点
利用时空重排统计量对本文的签到数据进行时空聚类分析时,根据3.1节的时空交互性检验分析结果,设置最小的聚类时间跨度为4 h,最大的聚类时间跨度为24 h,空间聚类最大范围为6 km,并选取置信度水平在95%(即p<0.05)以上的聚集区作为时空热点区域。实验中总共探测到12个时空热点区域(图3),主要分布在主城区的繁华商业地段(故宫、中关村、三元桥、十八里店、管庄、清河),比例高达58.3%。
图3 以时为尺度的时空热点区域分布图
进一步对时空热点的分布模式特征进行统计分析,结果如表3所示。从时空热点的分布范围来看,覆盖半径主要集中在2~6 km(字体加粗表示);从热点区域的分布时段来看,发现时间段主要集中在11:00—17:00(字体加粗表示),且持续时长一般在3~5 h,少数的时空热点能持续到6 h以上。
表3 以时为尺度的时空热点区域统计结果
3.2.2 以天为尺度的时空热点
由于签到点存在较强的周期性变化规律(见图4),为排除周期性趋势所导致的签到数量异常而引起的不连续时空热点现象,将同一个星期(如星期一)的所有签到点记录进行汇总分析(共7组)。
图4 签到点随日期的数量变化规律
根据3.1节的时空交互性检验分析结果,实验过程中设置聚类时间跨度最小为1 d,最大为7 d,空间聚类最大范围为6 km,然后进行计算。选取置信度水平在95%(即)以上的聚集区作为时空热点区域,共探测到22个时空热点区域(见图5),主要分布在主城区的繁华地段(五道口、前门大街、后海、青塔街心公园、朝来森林公园、建国门内大街、海淀区森林公园、三里屯、中关村公园),比例达40.9%。而在其它区县的热点分布数量比较均匀,平均每个区县的时空热点个数为1,且主要分布在交通发达路段附近,这间接反映了交通网络的发达程度会影响签到点的时空分布。
图5 以天为尺度的时空热点分布图
进一步对时空热点的分布模式特征进行统计,结果如表4所示,结合热点分布的空间范围和时间段来看,用户签到行为在5~6 km的空间尺度和在时间段2016-02-07—2016-02-13内具有极强的时空聚集性,且热点持续时间长一般在3~6 d。
表4 以天为尺度的时空热点信息统计表
本文以北京市2016年2月份的62 393条有效签到数据为研究对象,使用扩展Knox指数进行全局时空交互性分析并结合时空重排扫描统计挖掘时空热点,得到以下结论:
1)传统的地理学研究认为空间上越接近事物的关联性越强,但本文的研究结果表明,签到点的时空关联性随着空间距离的增大而增强,这是因为职住分离现象的普遍性以及居民移动的频繁性使得签到点在空间上的异质性较高,从而在短距离内的关联性降低;
2)一天当中,居民签到行为的时空关联性随时间间隔的增大而减弱,表明居民的行为模式具有时间上越接近则关联性越强的特征(如同信号传播一样,时间越短衰减越小),这主要是受传统的作息规律和通勤因素的影响。但是一周内的签到点的时空关联性随时间间隔的变化规律比较复杂,总体上呈现双峰特征,时间间隔在1、6 d达到峰值,表明居民签到行为的“关联效应”,在一或六天时达到最强;
3)以“时”为尺度的时空热点主要分布在主城区的繁华商业地段,热点的覆盖半径集中在2~6 km、时间集中在11:00—17:00且热点持续时长大约为3~5 h。这体现了居民倾向于选择在下午时段内在繁华的商业区进行社交活动的特点;
4)以“天”为尺度的时空热点的空间分布特征为:主城区的热点数量多且集中,城外的热点少且分散,时空热点的覆盖半径集中在5~6 km,时间集中在2016-02-07—2016-02-13(春节假期),热点持续时长大约为3~6天。由于节假日期间,用户的出行意愿要比工作日更强,因而签到点在节假日、长距离下的时空关联性更强。而商业地段则往往存在固定的经营模式,较长时间内都维持高密度人流状态,导致时空热点的持续时间比较长。
综合来看,居民的签到活动受作息规律、通勤因素以及节假日的影响。本文通过讨论短时间尺度和长时间尺度下的时空交互性规律以及时空热点的分布范围、分布时段、持续时长等特征,为人类行为模式的研究提供新的视野。但是,由于人类行为模式的复杂性,多种因素会影响签到行为的时空分布模式,未来将结合用户的兴趣与偏好、社会经济和文化等因素进行深入分析。
[1] 蔡明, 蔡晓禹, 张梦歌,等. 山地城市轨道车站周边住宅区居民出行研究[J]. 交通科技与经济, 2016, 18(3):4-9.
[2] 姜伟, 赵阿柱, 罗以丹,等. 居民长距离交通出行方式选择行为研究[J]. 交通科技与经济, 2016, 18(4):12-16.
[3] 杜先汉, 李岩. 武汉关-中华路过江乘客出行选择行为研究[J]. 交通科技与经济, 2015,17(1):61-63.
[4] 马云飞. 基于出租车轨迹点的居民出行热点区域与时空特征研究[D]. 南京:南京师范大学, 2014.
[5] COMITO C, FALCONE D, TALIA D. Mining Popular Travel Routes from Social Network Geo-Tagged Data[M]//Damiani E, Howlett R J, Jain L C, et al. Intelligent Interactive Multimedia Systems and Services. Cham: Springer International Publishing, 2015:81-95.
[6] LI L, GOODCHILD M F, XU B. Spatial, temporal, and socioeconomic patterns in the use of Twitter and Flickr[J]. Cartography and Geographic Information Science, 2013,40(2SI):61-77.
[7] 王波, 甄峰, 张浩. 基于签到数据的城市活动时空间动态变化及区划研究[J]. 地理科学, 2015,35(2):151-160.
[8] 张子昂, 黄震方, 靳诚,等. 基于微博签到数据的景区旅游活动时空行为特征研究:以南京钟山风景名胜区为例[J]. 地理与地理信息科学, 2015, 31(4):121-126.
[9] 陈宏飞, 李君轶, 秦超,等. 基于微博的西安市居民夜间活动时空分布研究[J]. 人文地理, 2015(3):57-63.
[10] 王劲峰, 葛咏, 李连发, 等. 地理学时空数据分析方法[J]. 地理学报, 2014,69(09):1326-1345.
[11] TAKAHASHI K, KULLDORFF M, TANGO T, et al. A flexibly shaped space-time scan statistic for disease outbreak detection and monitoring[J]. International Journal of Health Geographics, 2008,7(1):14.
[12] GRUBESIC T H, MACK E A. Spatio-temporal interaction of urban crime[J]. Journal of Quantitative Criminology, 2008,24(3):285-306.
[13] KULLDORFF M, HEFFERNAN R, HARTMAN J, et al. A Space-Time Permutation Scan Statistic for Disease Outbreak Detection[J]. PLoS Medicine, 2005,2(3):e59.
[14] LEITNER M, HELBICH M. The Impact of Hurricanes on Crime: A Spatio-Temporal Analysis in the City of Houston, Texas[J]. Cartography and Geographic Information Science, 2011,38(2):214-222.
[15] 李双双, 杨赛霓, 刘焱序, 等.1960~2013年京津冀地区干旱-暴雨-热浪灾害时空聚类特征[J]. 地理科学, 2016,36(1):149-156.
[16] KULLDORFF M, HJALMARS U. The Knox method and other tests for space-time interaction[J]. Biometrics, 1999,55(2):544-552.
[17] 刘巧兰, 李晓松, 冯子健, 等. Knox方法在传染病时空聚集性探测中的应用[J]. 中华流行病学杂志, 2007,28(8):802-805.
[18] 陶海燕, 潘中哲, 潘茂林, 等. 广州大都市登革热时空传播混合模式[J]. 地理学报, 2016,71(9):1653-1662.
[19] 王晓莉, 李勇强, 李清光, 等. 中国环境污染与食品安全问题的时空聚集性研究:突发环境事件与食源性疾病的交互[J]. 中国人口·资源与环境, 2015,25(12):53-61.
[20] 徐敏, 曹春香, 程锦泉, 等. 甲流感疫情时空聚集性的GIS分析[J]. 地球信息科学学报, 2010,12(5):707-712.
[21] 张文增,李长青,冀国强,等.回顾性时空重排扫描统计量在手足口病聚集性研究中的应用[J].中华疾病控制杂志,2012, 16(1):73-76.