基于出租车GPS轨迹的城市区域时空交互特征分析

2021-01-27 03:42杨文亮冯慧芳
计算机与现代化 2021年1期
关键词:城关区工作日兰州市

杨文亮,冯慧芳

(西北师范大学数学与统计学院,甘肃 兰州 730070)

0 引 言

城市居民出行是指城市居民在一定时间内为完成一定目的,采用某种交通工具,从出发地经一定道路行驶到达目的地的移动过程。城市居民出行行为特征一般包括出行的目的、时间、距离、方式、成本、强度、路线等要素。研究城市居民出行特征对城市交通规划、建设和管理具有重要意义,基于大数据的城市居民出行特征的研究是城市交通领域的研究热点[1-4]。居民的出行行为与城市空间结构分布密切相关,识别城市内部居民的出行模式和特征,有助于人们更好地了解城市的功能结构,为城市建设规划提供参考依据。

随着地理信息系统、全球定位系统以及遥感卫星等技术的飞速发展,获取海量的城市时空数据变得更加容易。这些时空数据具有覆盖范围广、精度好等特性,既可以进行个体微观移动模式的研究,也可以进行城市宏观时空结构的研究[5-6]。出租车GPS(Global Positioning System)数据具有全天候运营和数据实时性的特点,它不仅反映了居民的出行时空规律和通勤行为,又由于其移动受限于城市路网拓扑,因而也能够动态感知城市路网交通状态。因此,利用出租车轨迹数据,能够挖掘城市居民出行特征及城市空间结构的动态交互特征。

目前,基于大数据的居民出行模式的研究主要包括以移动手机数据、签到数据、公交卡刷卡数据、出租车数据等为基础的大数据挖掘研究。Sagl等[7]用意大利的乌迪内市手机通信数据分析不同时段的居民活动强度。徐金垒等[8]、曹劲舟等[9]提出了基于深圳市海量手机位置数据的手机用户停留模式识别模型,并结合该城市的空间分布与分异特征,分析不同停留模式的手机用户空间分异特征和不同区域停留次数的时段分异特征。虽然手机信令数据能够在一定程度上很好地刻画用户的一些出行规律,但是也存在一定缺陷,Zhao等[10]的研究结果表明,手机信令数据低估了居民出行距离和移动熵。

Steiger等[11]应用推特数据,结合地理位置信息,建立了提取人类活动轨迹和语义模型,从空间自相关的角度分析人类社会活动的规律。Hu等[12]基于LBSN签到数据提出了一种基于Hawkes过程的状态空间模型,估计德克萨斯州奥斯汀市区的区域旅行到达时间。李丛敏等[13]基于动态子空间策略迭代提出了一种面向签到日志的用户行为模式交互探索的方法,并以网吧数据为例,可视化分析了签到数据中存在的群体行为模式。

Zhang等[14]基于北京市公交IC卡大数据,采用空间插值法将公交客流离散为连续的区域分布,并分析了北京市居民出行规律;张欣环等[15]结合公交IC卡和GPS数据,利用多源数据融合技术,揭示了特定时间段内公交车线网客流分布规律和乘客出行特征。Yu等[16]提取南京市地铁智能卡的刷卡记录,利用热力图分析了南京市地铁不同车站早晚高峰时段旅客的流入和流出,揭示了居民的通勤特征;张超等[17]通过对上海市郊2个地铁站的居民进行出行调查,发现市郊居民去市中心购物的主要交通方式为轨道交通,并对轨道交通优化给出建议。

张俊涛等[18]以南京市出租车轨迹数据为研究对象,提出了基于高斯定律思想的数据挖掘方法,研究了城市居民出行行为的时空特征以及城市的热点区域。程静等[19]基于北京市出租车GPS数据,结合时间序列距离度量和K-means聚类,研究了乘客出行的时空分布特征。Zhang等[20]利用北京市24小时出租车GPS轨迹数据研究出租车的出行特征,分析了出租车的运营状况,为出租车司机载客和乘客打车提供科学指导。Zhang等[21]利用北京12天的私家车出行数据,系统地研究了出行目的地分布的时间变化及其与城市空间结构的关系。

甘肃省省会兰州市是西北地区重要的交通枢纽,也是古丝绸之路的重镇之一,是典型的两山夹一河的河谷型城市。本文以兰州市出租车GPS轨迹数据为基础,结合数据挖掘和可视化技术,挖掘兰州市城市居民出行的时空交互特征,可视化分析不同时间不同区域的居民出行规律和特征,为城市交通管理和居民出行提供决策服务。

1 研究区域和数据源

1.1 研究区域

本文研究区域兰州市位于中国的西北地区,是西北重要工业基地和综合交通枢纽,占地面积13100 km2,建成面积321.75 km2,全市下辖5区、3县和兰州新区。城关区、七里河区、西固区、安宁区内的常住人口244.82万人,占兰州市总人口接近64.53%,占城市人口80%以上,故本文只研究这4个区域。

1.2 出租车轨迹数据及预处理

本文以兰州市出租车轨迹数据作为实验数据集,采集了2017年3月6日到12日连续7天的3000辆出租车的行驶轨迹数据,采样最大间隔30 s。每天记录的数据存储为一个文本文件,每条记录表示一个轨迹点信息,记录了该采样点的车牌号码、时间、经度、纬度、速度、行驶方向、载客状态(空载为0,重载为1)和总里程数据信息。另外,结合兰州市地理地图和城市路网拓扑,剔除区域边界外和不在路网上的异常值。应用线性插值方法对缺失值进行补充。

根据轨迹中的载客状态可提取乘客的上下车点:载客状态由“空载”变为“重载”时,GPS位置点标注为上车点(记为“O”),由“重载”变为“空载”时的GPS位置点标注为下车点(记为“D”),那么,一个OD对刻画出了一条完整的载客轨迹,也是乘客的一次出行轨迹。上、下车点个数代表了乘客的上、下车量,这样可形成出租车轨迹数据的OD矩阵。

2 研究方法

2.1 有向加权复杂网络构建

设G=(V,E,W),G表示有向加权网络,其中,V={v1,…,vN}为网络节点集合,E={eij(eji),i,j∈[1,N]}表示节点间有向边的集合,如果从节点i到节点j存在交通出行量,则有向边eij存在,否则2个节点之间不存在连边。W={wij(wji),i,j∈[1,N]}为有向边的权重,wij为从节点i到节点j的交通出行量。节点i与节点j之间的交互强度Iij定义为:

(1)

2.2 基于CLARA聚类算法的热点区域识别

聚类分析法已经广泛应用到生物科学、社会科学、经济学等各个领域。常用的聚类分析算法主要分为划分聚类算法、层次聚类算法、密度聚类算法、图聚类算法、网格算法和模型算法等6个大类,每个大类中包含多个具体的聚类算法。PAM(Partitioning Around Medoid)算法属于划分聚类算法,是最早提出的K中心点算法之一,PAM对小的数据集非常有效,对大数据集效率不高。CLARA(Clustering LARge Applications)算法是改进的PAM算法,该算法具有更好的伸缩性,适用于大数据样本集的聚类分析[23]。CLARA核心思想上不考虑整个数据集,而从整个数据集中抽取多个样本集,对每个样本使用PAM算法进行聚类,将多次抽样样本聚类中心进行比较,选出最优的聚类中心作为输出。具体算法步骤如下所示。

基于CLARA的热点区域识别算法。

输入:样本集D(即OD矩阵),抽样次数n,聚类个数k;

输出:k个最佳聚类及每个聚类的中心点;

for(i=1 ton)

1)随机地从整个样本库中抽取N(一般情况N=40+2k)个样本构成小样本集,采用PAM算法找出这个小样本集的k个最优的中心点Qi;

2)对样本集D中的每个对象Qj用Smith-Waterman算法计算与每个中心点Qi的相似得分,找出与Qi最相似中心点,将Qj加入该中心点的簇中;

3)计算所得聚类的平均非相似值:若该值小于当前值,用该值替换当前值,保留在这次选样中得到的k个中心点对象Qi作为到目前为止得到的最好的中心点的集合;

end for

3 兰州市居民出行时空特征分析

3.1 各城区间通勤量及交互强度分析

4个城区之间出行交互关系如图1所示。由图1可知,城关区的上下车量远远高于其他区,说明城关区是兰州市的主城区,其次依次是七里河区、安宁区和西固区,这样的结果也与每个区的常驻人口数量成正比。由图1(a)可知,工作日出行起终点在同一个城区的比例分别为56.52%(安宁区)、70.69%(西固区)、50.08%(七里河区)和83.93%(城关区)。七里河和城关区之间的交互流量比较大,从七里河区出发到城关区的出行比例为32.91%,相反方向的出行量为11.46%。由图1(b)可知,和工作日相比,周末出行量明显减少,起终点在同一个城区的比例分别为58.16%(安宁区)、75.54%(西固区)、52.55%(七里河区)和84.72%(城关区),显然,周末的比例略有提高,说明了周末没有强制出行,同一城区内的交互出行量增大。

(a)工作日

4个城区之间的交互强度如表1所示,表头中“安”、“西”、“七”和“城”分别表示安宁区、西固区、七里河区和城关区。在工作日七里河区和城关区之间的交互强度最大,其他交互强度较大有安宁区和七里河区、安宁区和城关区,交互强度最小的是西固区和城关区。总体来说,七里河区和其他区域间的交互强度较大,西固区的较小,该结果与实际情况也比较符合,因为七里河区是连接西固区、安宁区与城关区的纽带,从西固区、安宁区到城关区的超过90%车辆都经过七里河区;西固区由于自身特点,与其他区域交互较少。在周末区域间的交互强度排名次序没有变化,但是和工作日相比较,安宁区和七里河区、安宁区和城关区的交互强度变大,其他区域间的交互强度减弱。

表1 4个城区间的交互强度

3.2 交通热点区域识别

3.2.1 工作日上、下车热点区域识别

利用CLARA聚类分析方法,对连续5个工作日上、下车量进行热点提取,形成城市交通热点图,如图2所示。按照每个聚类中栅格的平均上、下车量不同,对热度进行区分,用平均上、下车量表示区域的吸引力强度,即聚类栅格平均上、下车量越大,该区域的出租车上、下车点越密集,该区域越具有吸引力。图3为聚类栅格的平均上下车量变化趋势。

(a)上车区域

(a)平均上车量

由图2可知,5种聚类cluster1到cluster5从内向外逐渐扩展,扩展趋势和兰州市河谷型地形特征保持一致,按照“哑铃”形式外扩。聚类cluster1在最内层,网格数最少,但栅格平均交通量比较大,说明该时刻这些区域对居民吸引较大,该区域为交通热点区域。这些区域主要分布在城关区中心地带,这些区域包括了西关什字、张掖路步行街、南关什字兰州火车站等商圈。虽然该聚类中上车区域面积小于下车区域,但是平均上车量还是大于下车量。24小时交通量的变化趋势和居民通勤时间基本保持一致,上下班高峰期交通量较大。

聚类cluster2大部分集中在城关区,只有少量部分在七里河区。城关区的区域包括了东方红广场、铁路局和五里铺等兰州市重要商圈;七里河区的主要分布在万辉广场、西站什字、小西湖等商圈;这些区域都是兰州市典型的外围商务区,也属于交通热点区域。

聚类cluster3分布在聚类cluster2的外围,这些区域属于职住混合区,是包含商圈和居民区的混合区域。城关区主要包括天运小区、飞天家园等居民住宅小区;安宁区的包括安宁大学城、金牛街,其中金牛街为热点区域的中心位置;七里河区域分布的区域包含了兰州理工大学、彭家坪等。

聚类cluster4介于城区中心和边缘区域之间,该区域大部分都是居民小区,如城关区的雁滩板块,七里河区明珠家园、金港城等,安宁区金水湾、费家营、海关等,西固区的雅新小区等。这个聚类上下车量都比较少,该区域的居民出行方式通常选择乘坐公共交通工具或私家车。上下车量时序图有2个不明显的峰值,分别为上午和下午上班时间,因而这类出行为通勤性出行。

聚类cluster5是栅格区域最多且面积最大的聚类,这些是城区边缘地区,且主要分布在安宁区、西固区和七里河区,这部分区域内的居民收入偏低,主要以公交车为主,出租车上车量较少,故表现为时间序列曲线波动不大,没有明显的峰谷特征。

3.2.2 周末上、下车热点区域识别

图4为周末上下车热点区域识别结果,图5为聚类栅格的平均上下车量变化趋势。周末热点区域的分布趋势和工作日的大致相同:5个聚类在结果分布与兰州市地形相匹配,呈现“哑铃”型,从内向外扩展。cluster1在最内层,为城关区中心区域,cluster5在最外层,为城区边缘区域。城市边缘区域空间差异小,该区域几乎被划分为同一聚类,市中心区域差异较大,按出行量被划分为多种聚类,其中cluster1和cluster2为交通热点区域。周末和工作日热点区域的分布也存在一些明显差异。与工作日相比,周末聚类区域更为分散,说明居民在周末出行更加随意且分散,出行目的地更加多样。在工作日聚类级别较低的栅格区域在周末被划分到级别较高的聚类,周末聚类cluster1的分布区域明显增大,上车量为0的区域也明显增大,这说明周末出行比较随意,没有紧急情况,居民一般出行采用公共交通工具或私家车。比较工作日和周末上车量的时间序列图可知,周末平均每天出租车出行量相比工作日变为原来一半,这体现了周末休息日,且居民不赶时间,有更多的交通出行选择。

(a)上车区域

(a)平均上车量

3.3 交通热点区域网络交互强度分析

为了分析城市交通热点区域的空间交互特征,首先计算每个栅格上车量和下车量之和,根据CLARA聚类算法识别出交通热点区域,然后,将识别的交通热点区域合并为节点,出租车在热点区域之间的行驶路径为边,热点区域间的交通流为边权值,建立城市热点区域空间交互网络。最后,分析热点区域网络的交互强度。

图6为工作日和周末热点区域识别结果,和前面上、下车热点区域的分布趋势大致相同,热度最强区域为西站什字、小西湖、西关什字、南关什字、东方红广场、五里铺等,这些均为兰州市核心CBD区域。相比于工作日的聚类结果,周末居民出行更加分散,交通热点分布也比较分散。

(a)工作日

各聚类之间出行交互关系如图7所示,在图7(a)中,工作日cluster4总的车流量最大,除起终点都在该聚类的流量之外,其他聚类到该聚类流量也最大,流出量占总流量接近50%,这50%中又有一半是流向其相邻区域的,这些都说明了居民使用出租车出行更倾向于中短途出行。聚类cluster5分布在城市边缘区域,从该聚类到中心城区cluster1仅有极少量的车流量,到cluster2至cluster4的流入量逐渐增大,该结果一方面说明部分区域内的居民收入偏低,出行的交通工具很少采用出租车,另一方面也说明居民短距离出行会使用出租车,只有紧急情况下长距离可能会使用出租车出行。

和工作日相比较,周末居民出行特性有明显差异。由图7(b)可知,周末居民出行十分零散,热点区域比较分散,cluster1至cluster3覆盖兰州市主要商圈和住宅区域,这3个聚类的车流量都比较大,互相间的交互量也相差不大,说明居民周末出行更加随意,目的性减弱,出行主要以近距离购物和娱乐等行为为主。cluster4和cluster5靠近城区边缘区域,商业较为不发达,娱乐购物场所少,故总的车流量最少。

(a)工作日

聚类间的交互强度如表2和表3所示。工作日交互强度排名前三的为cluster3和cluster4、cluster1和cluster4、cluster1和cluster3。由聚类结果可知,cluster3和cluster4主要为住宅混合区,cluster1为主要CBD区域,由于职住分离,故工作日在这几个热点区域间的交互最强烈。交互强度最小的是cluster2和cluster5,cluster2和cluster5距离较远,且cluster5居民收入偏低,故这2个区域间的交互最弱。周末时各区域间交互强度发生变化,排名前三的是cluster1和cluster2、cluster2和cluster3、cluster1和cluster3。这些出行主要为相邻聚类区域之间的出行,且这些聚类所在的区域包含了兰州市主要的商务、工作、购物和住宅等区域,短途出行居民较多,由于时间自由,长途出行的居民更倾向于选择公交车和私家车,由此导致了交互强度最小的是cluster1和cluster5,这些再次说明居民中短距离出行会使用出租车,周末居民出行以周边近距离为主。

表2 工作日城市空间交互强度

表3 周末城市空间交互强度

4 结束语

本文以兰州市出租车GPS轨迹数据为基础,结合数据挖掘和可视化技术,对工作日和周末休息日的城市居民出行特征和交通热点区域的空间交互作用进行初步探索。主要研究结果包括:1)对兰州市4城区车流量统计分析发现,4城区中城关区交通量最大,西固区最小;七里河区与其他区域交互强度最大,西固区的交互强度最小。2)采用城市栅格方法,统计分析城市栅格空间之间的交通出行量,并采用CLARA聚类算法识别工作日和周末的城市交通热点区域。研究结果表明兰州市工作日和周末交通区域可划分为5种聚类,交通热点区域从城市核心区域由内向外逐渐扩展,扩展趋势和兰州市河谷型地形特征保持一致,按照“哑铃”形式外扩。3)将识别的交通热点区域合并为节点,热点区域间的交通流为边权值,建立有向加权复杂网络模型,分析城市交通热点区域之间的空间交互强度。研究结果表明,在工作日和周末兰州市居民出行行为时空特征和城市空间交互特征都存在明显差异。但不论工作日还是周末,居民选择出租车出行以中短途出行为主。

本文仅研究了工作日和周末城市居民出行特征和城市空间交互特征,后续进一步研究不同时间和空间尺度下城市空间的动态交互特征。另外,虽然出租车数据能够一定层面反映出城市动态空间分布,但还是存在一定局限性,今后将结合多种异构城市大数据,对居民出行和城市空间动态特征进行精细刻画。

猜你喜欢
城关区工作日兰州市
兰州市园林绿配置模式
兰州市城关区西北新村小学师生书画作品展
兰州市城关区西北新村小学优秀书画作品选
阳光少年的飞驰年华——兰州市第四十六中学轮滑社团活动掠影
篮球游戏中幼儿合作能力的培养——以兰州市城关区五泉幼儿园为例
兰州市艺彩少儿美术作品选登
关于休闲的量的问题的考察
《兰州市再生资源回收利用管理办法)》8月起实施
基于DEM的兰州市城关区黄河以北地区荒山造地方案研究
对《资本论》中工作日问题的哲学思考