基于GPS轨迹挖掘的城市空间动态交互特征研究

2020-07-02 06:55冯慧芳周丹凤
交通运输系统工程与信息 2020年3期
关键词:工作日栅格社团

冯慧芳,周丹凤

(西北师范大学数学与统计学院,兰州730070)

0 引 言

大量具有时空属性大数据的出现为高精度、高效研究移动对象时空特征提供了可能[1].出租车GPS 轨迹是城市计算研究中的主要数据源,含有丰富的时空信息,可反应城市居民的社会活动特征[2].因此,通过GPS轨迹挖掘发现隐含的知识,研究人类移动行为规律,探求城市动力学机制,不仅有利于优化城市功能布局,对加强城市精细化管理也具有十分积极的意义[2].

出租车轨迹挖掘研究取得了丰硕成果,主要包括出行路线、载客路径推荐和城市热点区域识别等[3-4].城市结构是指城市各组成要素相互关系、相互作用的形式和方式,主要包括经济结构、社会结构、空间结构.文献[5]应用厦门市出租车GPS轨迹研究了城市功能区划分问题,识别了城市居住、工作和娱乐三大功能区.文献[6]利用北京市12 d 私家车出行数据,研究出行目的地分布变化及其与城市空间结构的关系.文献[7]利用香港社交媒体数据识别高密度城市的城市空间结构和城市活力.

城市社团结构指城市空间在某些因素的影响或作用下能够被分割成多个内部联系紧密的组团,体现城市组团性结构.文献[8]指出研究城市社团结构对深入理解城市结构具有重要意义,其利用澳大利亚布里斯班市车辆GPS 数据,建立了多层次复杂网络识别该城市的社团结构.文献[9]提出基于交通流量的社团识别方法,以北京市GPS轨迹为基础,揭示城市路网和交通出行量之间的时空相关性.文献[10]提出基于社团识别的交通拥挤区域预警方法,并利用济南市真实数据进行验证.文献[11]提出交互式视觉分析系统方法,研究共享自行车系统的社团结构,以杭州市真实数据验证方法的有效性.文献[12]基于城市路网数据和兴趣点数据,采用Infomap算法识别城市道路中的层次社团,研究道路规划设计与城市功能区分布的关系,探讨社团功能属性.文献[13]根据阿姆斯特丹的智能手机数据,通过社团识别方法研究了该市城市功能区域的划分.

空间交互网络是人、商品和信息等在地点之间流动形成的嵌入在空间中的有向流网络.城市用户出行轨迹能够真实反映用户社交行为和出行特征,体现城市内部不同地块间的空间相互作用.对城市空间交互网络的社团结构进行挖掘可获得更加丰富的城市画像.本文根据城市出租车GPS轨迹,结合城市路网拓扑,建立动态有向加权网络,采用Infomap 算法识别城市网络的社团结构,研究城市结构的时空交互特征.

1 研究区域与轨迹数据预处理

1.1 城市区域栅格划分

兰州市城区包括城关区、七里河区、安宁区、西固区和红古区.红古区属于兰州市远郊区,距市区110 km,故不包含在本文研究区域内.

栅格模型是研究城市形态的常用方法[14],借助地理信息系统生成栅格,其大小根据不同研究目的而定,每个栅格可储存地块的多种信息,例如车流量、人口密度、POI数量、建筑密度等.

1.2 轨迹数据预处理

使用兰州市2017年3月6~12日的出租车GPS轨迹数据,包含车辆ID、记录时间、经度、纬度、瞬时速度、车头方向和车辆载客信息.轨迹点采样时间间隔最大为30 s.GPS数据采集过程中由于终端设备故障,传输故障等原因,采集的GPS数据可能存在不完整、不一致.使用线性插值方法补充原始GPS 数据中的缺失值,通过地图匹配识别去除离群值.GPS轨迹详细预处理过程参见文献[15].

1.3 出租车上下车点提取

设某一条轨迹为T={P1,P2,…,Pr,…,Pn} ,其中,Pr=(Xr,Yr,tr,fr),(Xr,Yr)为出租车的位置信息,tr为该位置点时间,fr为载客状态,fr=0 为空载,fr=1 为重载,n为这条轨迹的GPS 点的总数.补充点的车辆状态继承前一时刻的状态,即前面时刻是空载状态(重载),下一时刻也预测为空载状态(重载).车载信息状态fr由“0”变为“1”时,轨迹点中fr=1 对应的GPS 点为上车点;fr由“1”变为“0”时,轨迹点中fr=0 对应的GPS点为下车点.

1.4 OD 矩阵生成

OD(Origin-Destination)矩阵也称为起讫点矩阵,定义为一定时间范围t内起点和终点之间的交通流量.记,其中,表示从栅格i上车到栅格j下车的交通出行量.

1.5 坐标转换

采用高斯投影正算公式将大地坐标转换为高斯平面坐标[16].设大地坐标为(L,B) ,其中,L为经度,B为纬度,高斯平面坐标为(X,Y),则高斯正算公式为

式中:X0为子午线弧长;L0为中央子午线经度;l=L-L0;λ=tanB,η2=e2cos2B,e为椭球第二偏心率;N为子午圈曲率半径;ρ为转换系数,.

2 基于复杂网络的社团识别算法

2.1 动态有向加权复杂网络构建

2.2 社团识别算法

基于信息论的Infomap 算法具有高效稳定的特点,是对大型有向加权复杂网络社团识别效果最好的算法之一.

设X为离散随机变量,其概率分布为:P(X=xk)=qk,k=1,2,…,K,其中,xk为事件,qk为概率,K为事件总数,则随机变量X的熵定义为.假设网络G在划分方式A下划分为m个社团,其产生的随机游走路径的平均描述长度为:,其中,q表示随机游走从一个社团离开进入到另一社团的概率,H(Q)表示在各个社团间随机游走运动概率的熵,ps表示随机游走在社团s内部的概率,H(Ps)表示在社团s内部节点间随机游走运动总概率Ps的熵.

Infomap算法的流程[17]如下:

Step 1初始化,网络的每个节点作为一个独立的社团.

Step 2将社团依次合并,计算形成新社团的平均描述长度减少量.将平均描述长度减少量最大的两个社团合并.

Step 3如果网络社团个数大于1,返回Step 2继续迭代;否则,转到Step 4.

Step 4遍历每种社团划分对应的平均描述长度值,将平均描述长度最小的社团划分选取为网络最优划分.

2.3 社团识别评价指标

模块度是最常用的定量衡量网络社团划分质量和网络社团结构强度的方法.模块度值越接近1,表明社团发现算法划分出的社团结构强度越强,划分质量越好;模块度值在0.3~0.7 时,说明该算法划分出较明显的社团结构,社团划分结果较好,社团内部联系较紧密.有向加权复杂网络模块度定义[17]为

式中:为边的边权重;w(t)为边权重之和,为节点i的入度边权重之和,为节点j的出度边权重之和,为节点i,j所属社团编号;为指示函数,若节点i和节点j在同一社团内,其函数值1,否则为0.

3 实验结果与分析

利用兰州市出租车轨迹数据提取工作日497 444 条、休息日147 958 条载客轨迹.对研究区域进行等边长栅格划分;按照2 h 间隔将1 d 分为12 个时段,通过R 语言分别对每个时段构建有向加权复杂网络;使用Infomap算法对每个复杂网络进行社团识别,将结果在MATLAB 中进行可视化展示.

3.1 栅格大小对社团划分的影响

栅格边长分别取300,500,700,1 000 m 进行建模,划分后的网格数M分别为4 998、1 769、924和465.图1 和图2 为工作日和休息日在不同栅格尺度下城市社团划分后的模块度值和社团数的变化趋势,图中,横轴刻度值1对应时间段01:00-03:00,以此类推.

图1 模块度值Fig.1 Value of modularity

图2 社团数Fig.2 Number of community

由图1和图2可知:

(1)除休息日01:00-03:00 的模块度为0.29,工作日和休息日的城市社团划分的模块度值均大于0.3,说明构建的有向加权复杂网络所识别的社团结构明显,社团划分有效.

(2) 栅格边长为300,500,700,1 000 m 时,工作日的平均模块度分别为0.69、0.65、0.75 和0.83,休息日分别为0.40、0.51、0.64 和0.76.工作日平均社团模块度大于休息日,说明工作日的社团结构强度大于休息日,即工作日社团内部联系较紧密.

(3) 栅格越小,社团结构的模块度值越小,社团质量越差,识别出的社团数越多.统计分析发现,栅格间出行量的变异系数随栅格边长的减小而增大,变异系数越大,数据离散程度越大,社团特征减弱,模块度值变小.

另外,当栅格边长为300 m 时,栅格间车流量为0 的比例高达99%,说明300 m 划分的栅格偏小,不利于分析城市空间交互特征.栅格边长过大时,对城区划分尺度太大,不利于精细化分析空间交互特征.当栅格边长为500 m 时,工作日和休息日的平均模块度都大于0.5,说明社团划分质量好.因此,以500 m划分的社团结构分析城市空间交互特征.

3.2 工作日城市空间交互特征分析

图3 为工作日3 个时段(07:00-09:00, 13:00-15:00和17:00-19:00)社团结构识别的可视化图,由图2 可知,识别的社团数分别为45、60 和52.绝大部分社团仅包含一个或几个栅格区域,这些小社团对分析城市结构影响不大,故图3只标记出社团中包含栅格数排名前5的社团.

由图3 可知,工作日早高峰07:00-09:00,社团间的交互范围较大,社团C5 以城关区为主,包含了七里河区的大部分区域,安宁区和西固区的少量区域,这是由于工作日通勤以强制性出行为主,人们在工作地和居住地之间往返使空间交互距离和范围增加.随时间推移,城市社团间的交互和范围逐渐减小,13:00-15:00 绝大部分出行属于近距离出行.晚高峰17:00-19:00:社团C5 只覆盖城关区,与其他社团交互较少,这是由于城关区属于兰州市中心商业区,下班后人们可能就近休闲娱乐,故呈现出的空间交互范围缩小,动态空间分布特征与早高峰有所差异;社团C3 范围增加,覆盖安宁区和七里河区的大部分区域,这是由于安宁区和七里河区距离较近,城市空间的交互明显.

3.3 休息日城市空间交互特征分析

图4 为休息日3 个时段社团结构识别的可视化图.在07:00-09:00,除西固区外,其他城区居民出行量较小,构建的复杂网络基本是均匀网络,识别为一个社团.西固区是兰州市工业密集区域,包括中石油兰州石化公司等十几家大中型企业,这些企业采用“倒班”机制上班,工作日和周末没有区别,故该区域识别为不同的社团结构.与07:00-09:00 不同,13:00-15:00 为居民出行的高峰期,形成明显的社团结构.休息日人们活动相对自由,绝大部分居民都就近出行,社团空间交互范围相对缩减.17:00-19:00 与13:00-15:00 有类似的社团结构.

图4 休息日识别的城市社团结构可视化Fig.4 Visualization of urban community structure on rest days

比较图3和图4可知,工作日和休息日城市区域动态交互存在差异.工作日识别的社团结构空间范围较大,休息日则识别为小范围社团,其分裂程度较大.这是由于工作日远距离通勤的强制性交通出行使空间交互距离和范围增加,休息日人们更喜欢在居住地周边地区活动,空间交互距离和范围有所缩减.

4 结 论

本文利用兰州市7 d出租车GPS轨迹构建动态有向加权复杂网络,通过社团识别算法对工作日和休息日城市动态空间交互特征进行可视化分析和比较,实现城市动态空间识别,加深了解城市居民出行对城市动态空间的影响.后续将进一步研究不同空间尺度对城市动态空间特征的影响.另外,出租车数据能够在一定层面反映出城市动态空间分布,但仍存在一定局限性,今后将结合多种异构城市大数据,对城市动态空间进行精准识别.

猜你喜欢
工作日栅格社团
缤纷社团
基于邻域栅格筛选的点云边缘点提取方法*
基于A*算法在蜂巢栅格地图中的路径规划研究
对于马克思关于工作日的思考
关于休闲的量的问题的考察
最棒的健美操社团
K-BOT拼插社团
不同剖面形状的栅格壁对栅格翼气动特性的影响
基于CVT排布的非周期栅格密度加权阵设计
对《资本论》中工作日问题的哲学思考