共享单车用户骑行起讫点时空特征分析*

2022-07-20 01:44徐良杰陈国俊朱然博
交通信息与安全 2022年3期
关键词:借车聚集区工作日

李 福 徐良杰,2▲ 陈国俊 朱然博

(1.武汉理工大学交通与物流学院 武汉 430063;2.湖北文理学院汽车与交通工程学院 湖北襄阳 441053)

0 引 言

共享单车作为慢行交通的代表,有效解决了公共交通难以实现“最后一公里”末端需求的弊端。共享单车在发展过程中“车辆堆积”和“一车难求”现象愈发普遍,车辆供需失衡问题严重[1]。该问题的核心在于共享单车的需求量在时空上的变化与车辆供给的不匹配。共享单车在运营中会产生海量的用户出行订单数据,通过骑行大数据分析用户骑行起讫点的时空特征,有助于挖掘共享单车的分布在空间上的集聚特征及其需求量在时间上的变化特征,从而为共享单车的供需失衡问题提供新的解决思路。

关于共享单车的相关研究,国外学者对于骑行行为对城市交通的影响[2-4]及骑行行为的影响因素[5]方面的探讨较多:Zhang 等[6]和Zhao 等[7]研究了建筑环境对用户出行的影响,Yang 等[8]通过二元Logistic模型分析影响单车使用频率的因素,Handy等[9]研究了土地利用对骑行行为的影响;El-Assi 等[10]、Meng等[11]研究了天气状况对用户出行需求的影响。国内学者针对共享单车的研究较多的聚焦于用户调查[12]、需求预测与调度管理[13-14]方面,孙启鹏等[15]、曹旦旦等[16]、李福等[17]分别构建了BP 神经网络预测模型、长短期记忆神经网络模型、极端梯度推进决策树模型对共享单车的需求进行了预测。

目前,已有较多学者针对共享单车的OD 时空特征及其影响因素展开了研究:邓力凡等[18]基于骑行订单数据分析了用户的骑行需求的时间分布和空间热点,对停车设施的建设提供了相关建议;类似的,杨永崇等[19]等利用ArcGIS 工具得出了用户出行OD分布的热力图,分析其与土地利用和时间维度间的关系;高楹等[20]从接驳的角度分析了地铁站周围的共享单车站点的骑行需求时间变化特征与影响因素,研究的区域更为细化。尽管对于骑行OD 时空特征的研究成果已较为丰富,但大多聚焦于1 个城市内所有用户的骑行量的时间分布和空间热点,忽略了不用区域的骑行时间特征的差异,且研究局限于从OD各自的使用情况去进行分析,未考虑1个区域的车辆流入与流出情况,不利于分析各区域的共享单车的供需变化。

综上所述,目前关于共享单车的用户骑行特征的分析,偏向于在空间上分析大范围内的OD 的分布情况,从时间上统计整体用户的骑行需求的分布,缺乏对不用区域OD 的时间特征的差异进行分析。为此,本文基于共享单车的骑行大数据,通过空间聚类处理,分析用户骑行OD点的集聚特征;并对所得的聚集区的OD 差值的时间序列进行聚类,分析不同区域的用户骑行时间特征的差异,从而挖掘不同区域的共享单车的供需变化特征、便于有针对性的解决共享单车的供需失衡问题。

1 研究数据概况

1.1 研究区域

北京市作为首批共享单车的投放城市和全国共享单车投放量最多的城市,共享单车用户基数多,用户出行数据量庞大,其共享单车用户群体在数量和使用习惯上均较为稳定,研究区域具有典型性和代表性。在多家运营企业中,摩拜单车投放占比最大,日均骑行量最高。因此,选用北京市中心城区的摩拜单车用户使用数据为分析对象。

1.2 数据来源

研究的数据主要来源于2017 年摩拜杯算法挑战赛中提供的共享单车用户订单数据集,数据集内容包括共享单车用户的订单号、共享单车ID、用户ID、单车类型、骑行的起始时间、骑行的起点,以及终点位置(Geohash编码加密),部分数据及数据格式见表1。

表1 用户订单数据集包含的内容及格式Tab.1 Content and format of user order data set

数据样本集涵盖了2017年5月10日—25日的共3 214 096份摩拜单车用户出行订单,包含485 465辆共享单车和349 693 个用户。这些数据基于用户自发的骑行行为,可以较客观地反映共享单车的骑行时间特征和空间特征。

1.3 处理方法

首先利用Python中的pandas和numpy等模块读取和处理数据。数据集中,用户骑行的起始点位置通过Geohash加密,根据Geohash地理编码原理对起终点位置进行解码,将Geohash编码转为经纬度。

其次通过Python 对数据集进行清洗,删除骑行距离、骑行起讫点异常的数据,选取符合需求的、有效的数据子集。运用Mean-shift 均值漂移聚类算法对用户骑行的空间分布进行聚类处理,得出用户骑行起讫点的聚集区,随后对不同聚集区的用户骑行时间特征进行层次聚类,挖掘出几类典型的骑行时间分布。

2 时空聚类算法

2.1 空间聚类

根据共享单车用户骑行起讫点的密度分布,寻找用户骑行起始与终止的聚集区,用以分析用户的骑行的空间特征。选用基于密度划分的聚类算法对对用户的骑行的起讫点进行无监督的学习,将北京市整个区域的数据集分割为不同的区域,使得同1 个区域内的骑行起讫点分布尽可能地集中,同时不在同一区域中的骑行起讫点分布的差异性也尽可能地大。

2.1.1 算法概述

均值漂移(mean-shift)算法[21]是1种基于核密度梯度估计的快速统计迭代算法,在图像分割和目标跟踪等领域应用广泛。

算法的基本原理为沿着数据密度上升的方向寻找聚簇点,步骤如下。

步骤1。设想在1个N个样本点的特征空间,确定滑动窗口半径h,初始随机选取1个中心点x,离中心点距离为h的空间内的所有点,记做集合mh。

步骤2。计算从中心点开始到集合M中每个元素的向量,整个圆形空间内所有向量的平均值即为偏移均值。设mh(x)表示空间上的均值漂移向量,其定义为

式中:x为初始中心点;xi∈M;G(x)为核函数,常用高斯核函数;w(xi)≥0,为点xi的权重值。

步骤3。将中心点沿着偏移均值的方向移动,移动规则为

式中:xt、xt+1分别为移动t次和t+1次状态下的中心点;mh(xt)为移动t次状态下求得的偏移均值。

步骤4。重复步骤2~3,在每1次迭代后中心点向密度更高的区域移动,直到收敛,记下此时的中心点;再次重复上述所有步骤,直到空间内所有点被归类。根据每个类中空间内的点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。

2.1.2 参数标定

均值漂移算法的所需参数为所选的核函数G(x)与滑动窗口半径h。

由于此次研究中的用户骑行起讫点OD 样本为二维空间数据,无需引入高斯核函数,且空间内每个分布点的选取权重相同,则均值漂移向量化简为

通常当某区域内订单数量到达50左右时可视为该区域为用户骑行聚集区。计算数据集中任意骑行起点与其最近的第50个点的距离,距离分布见图1。

图1 骑行起点与其最近的第50个点的距离分布曲线Fig.1 The distance distribution curve between the starting point of riding and its nearest 50th point

图1的分布曲线在距离为0.001 9处存在显著拐点,当距离大于0.001 9后随着距离的增加骑行起点数量基本不在变化。表明绝大多数的骑行起点与其最近的第50个点的距离均小于0.001 9,因此选取为滑动窗口半径为0.001 9,保证聚集区内存在一定量的骑行订单以反映骑行的时间特征,同时避免滑动窗口选取过大导致骑行起讫点的集聚特征不明显。

2.2 时间聚类

基于共享单车的骑行起讫点的空间聚类结果,分析不同区域的用户骑行的时间分布特征。聚集区域内的1 d 中共享单车的借车与还车需求量变化可直接反应该区域的用户的骑行时间特征,因此选用不同区域的用户的借车与还车量的累计差值的时间序列曲线,对其进行聚类分析,探究不同区域的用户骑行特征的差异。

对于共享单车,由于受用户骑行的早晚高峰的影响,其存在明显的极大或极小值,采用欧氏距离、动态时间归整(DTW)等方法时易受部分极值的影响而使得2组时间序列间的距离过大;同样的,由于共享单车的时间序列波动大、不平滑的特征,不适宜用自回归滑动平均模型(ARMA)等衡量相似度。

本研究借用统计学中衡量2组变量之间的相关程度的相关系数来衡量时间序列的相似度,相关系数高则表明随着1组时间序列的变化,另1组时间序列随之变化,2组时间序列的相似度高。对于2组维度为n的时间序列X和Y,spearman 相关系数p为[21]

3 特征分析

3.1 空间特征分析

对北京市部分区域内(Geohash 编码为wx4g4,wx4g1,wx4g3,wx4g6)的用户骑行进行分析。基于上述算法步骤和参数,选取数据集中对应区域数据,运用均值漂移算法对数据集中2周的骑行起讫点数据进行学习,部分区域聚类结果见图2。

图2 骑行起讫点的聚类结果Fig.2 Clustering results of starting and ending points of riding

图2中黑点为共享单车用户的骑行聚集区的中心点,聚集区的分布呈现以下特征。

1)共享单车的骑行聚集区的分布与所在区域的城市路网的布局形式基本相同。图2中共享单车的骑行聚集区分布较为均匀,相邻的点之间的横向、纵向间距基本相同,呈现明显的5 横4 纵的分布带,符合北京市道路网的方格网状的布局形式。

2)共享单车的骑行聚集区集中分布在城市的主干路与次干路上。图2中骑行聚集区集中分布在东大桥路、东三环、金台路、东四环、朝阳北路、建国路等,各路网内的分布相对分散。

3)共享单车的骑行聚集区主要位于公共交通站点、居住区,以及休闲娱乐场所。图2中骑行聚集区主要位于呼家楼、朝阳公园等地铁公交站点,以及中国国际贸易中心等商业中心和社区。

为进一步探究共享单车用户的骑行起讫点分布在不同时间段是否存在差异,选取天气状况为晴天,分别对工作日与非工作日、早晚高峰与平峰的骑行起讫点数据进行学习,聚类结果见图3。

图3(a)中圆点与星形点分别为工作日与非工作日的共享单车用户的骑行聚集区的中心点,由图3(a)可见:在整体上,工作日与非工作日的聚集区的分布大致相同。为了进一步地对比用户的骑行分布在工作日与非工作日是否存在差异,统计每个兴趣点(point of interest,POI)区域的每日用户出行量(借车量与还车量之和),平均值见图4。

图4 不同类型POI区域的平均每日出行量Fig.4 Average daily trips in different types of POI areas

由图4 可见:虽然工作日与非工作日的骑行聚集区的分布大致相同,但公交地铁站点、工作区等区域的出行量在非工作日降低60%~70%。

图3(b)中圆点与星形点分别为高峰与平峰的共享单车用户的骑行聚集区的中心点,由图3(b)可见:在城市主干路、公交站点以及小区等处,高峰与平峰期间的骑行聚集区的分布基本相同;而在国际贸易中心、新世界百货等商业区域,平峰期间的骑行聚集区多于早晚高峰。

图3 聚类结果Fig.3 Clustering results of working days and non-working days,peak and average peak

综合上述分析,共享单车用户骑行的空间分布在整体上受时间段的影响不大,部分区域存在差异;而不同土地利用性质区域的出行量在不同时间段的变化较大。骑行行为受出行需求驱动,因此从出行需求的角度出发,探究骑行起讫点的空间分布在不同时间段产生差异的原因:在1周内,由于通勤需求的影响,工作日的用户骑行起讫点在城市干道上的公交站点的分布更为密集;而非工作日的娱乐需求增加,则在休闲娱乐点的出行更为频繁;居住区域以及商业区域出行为每日的固定需求,因此其骑行起讫点的分布基本不受影响。在1 d内,尽管高峰期间的骑行订单数量更多,但在公交站点及居住区域的骑行起讫点的空间分布在高峰与平峰期间无显著差异;而平峰期间的购物需求更多,则平峰期间发生在商业区域的骑行行为相较高峰期间更多。

3.2 时间特征分析

基于对骑行起讫点的空间聚类结果,运用上述的时间聚类算法,对不同骑行聚集区的某一工作日的借车与还车量的累计差值的时间序列曲线进行聚类处理,得到6种典型的时间序列,见图5。

图5 中纵坐标为1 d 内累计的借车量与还车辆的差值,横坐标为时间。为描述方便,根据不同类型的时间序列所反映的借车量与还车量的相对大小以及借还车的时间段,将上述6 种时间序列曲线反映的骑行时间特征分别记为:借少还多型、借多还少型、先还后借型、先借后还型、借少波动型和借多波动型。不同的类型的骑行时间特征所对应的骑行聚集区域的实际位置见表2。

图5 6类典型的时间序列曲线Fig.5 Six typical time series curves

表2 中,不同的骑行时间特征所对应的聚集区域在土地利用性质上有着明显的相似性。为进一步验证某区域的土地利用性质对骑行时间特征存在影响,通过高德地图接口采集各个骑行聚集区周围的POI 兴趣点的距离作为原始变量,对不同骑行时间特征的POI兴趣点进行因子分析,运用SPSS得到各成分的初始特征值方差的占比,得到骑行时间特征主导因子结果见图6。

表2 骑行时间特征所对应的骑行聚集区域位置Tab.2 The location of riding gathering area corresponding to riding time characteristics

由表2和图6可见:借少还多型的聚集点大多分布在商业区,该类型的骑行时间特征的区域1 d内的用户的借车量小于还车量,其差值呈现平稳负增长的曲线。与此相反,借多还少型的聚集点大多分布在居住区,该类型的骑行时间特征的区域1 d内的用户的借车量大于还车量,其差值呈现平稳正增长的曲线。

先还后借型的聚集点大多分布在公交地铁站点与工作区,该类型的骑行时间特征的区域的早高峰期间的还车量远大于借车量,而晚高峰期间的借车量大于还车量,借还车差值曲线呈现显著的凹型;先借后还型的聚集点大多分布在公交站点与居住区,该类型的骑行时间特征的区域1 d 内的借还车行为与先还后借型相反,借还车差值曲线呈现显著的凸型。

借少波动型与借多波动性的借车量与还车量的差值较小且多次小幅度波动,该类型的骑行时间特征所对应的地点在各类用地性质的区域均有分布,前者多出现在居住区与商业区,后者较多出现在居住区与工作区。

由图6 可见:骑行时间特征的主导因子占比在工作日与非工作日会产生变化。非工作日时,借少还多型的骑行时间特征受商业区的影响变小,受居住区的影响变大;借多还少型的骑行时间特征的分布区域变化较小,受商业区的影响略微变大;先还后借型的骑行时间特征受工作区的影响变小;先借后还型的骑行时间特征受公交地铁站点、居住区的影响变小,受休闲娱乐区域的变大。借少波动型和借多波动型的骑行特征受不同POI区域的影响程度在工作日与非工作日变化较小。

除此之外,同一区域的骑行时间特征在工作日与非工作日亦存在差异。工作日呈现借少还多型骑行时间特征的区域在非工作日会出现波动型与借少还多2种特征,见图7。前者的商业区往往靠近工作区,而后者多靠居住区。

图7 借少还多型区域的非工作日骑行特征Fig.7 Riding characteristics of non-working days in the area of“borrowing less and repaying more”

在工作日呈现借多还少型、先还后借型、先借后还型骑行特征的区域,在非工作日的借还车差值大多会出现不同程度的削减,见图8~9。

图8 借少还多型区域的非工作日骑行特征Fig.8 Riding characteristics of non-working days in the area of“borrowing less and repaying more”

图9 先还后借型、先借后还型区域的非工作日骑行特征Fig.9 Riding characteristics of non-working days in the areas of“return before borrowing”and“borrowing before returning”

由于借少波动型、借多波动型区域的借车量与还车量在整体上较为平衡,该类型区域的借车量与还车量的差值的波动受随机因素的影响较大,在工作日与非工作日的借还车差值的变化无显著规律,见图10。

图10 借少波动型、借多波动型区域的非工作日骑行特征Fig.10 The characteristics of non-working day riding in the area of“borrowing less with volatility”and“borrowing more with volatility”

综上,不同的土地利用性质在不同时间段对于不同的出行目的吸引程度存在差异,由此产生了不同区域的借车量与还车量的波动。商业区对居民出行的吸引较为明显,出行产生量相对较少,且各时段的出行吸引量较为均衡,因此该区域的骑行时间特征多为借少还多型。对于住宅区,当通勤人群较多时,该区域的早高峰的出行产生量较大,而晚高峰的出行吸引量均较大,因此形成了先借后还型的骑行特征;当通勤人群较少时,则出行产生量相对较多且各时段较为均衡,形成借多还少型的骑行特征。在工作区的出行吸引发生在早高峰,而出行产生发生在晚高峰,因此形成先借后还型的骑行特征。公交地铁站点较为特殊,靠近居住区的站点在早高峰将周边的出行汇集至公共交通,而在晚高峰承担“最后一公里的”作用,形成先还后借的骑行特征;靠近工作区的站点的出行产生于吸引的时间段恰好相反,形成先借后还的骑行特征。在居住与商业混合、居住与工作混合的区域,出行产生量与吸引量较为平衡,借还车量的差值较小且波动更加随机。另一方面,非工作日的刚性出行需求相较工作日低,因此非工作日的借还车差值大多会出现不同程度的削减。

4 结束语

1)在空间上,虽然不同时间段的骑行聚集区的出行量存在差异,但骑行聚集区的分布大致相同,与城市路网的布局形式相似。受出行需求的影响,公交地铁站点的骑行分布在工作日更为密集,但不受早晚高峰的影响;居住区与商业区的骑行分布基本不受通勤影响,但商业区的骑行分布在平峰期间更为密集。

2)在时间上,商业区易形成借少还多型的骑行特征,居住区易形成借多还少型的骑行特征,靠近居住区的公交站点与靠近工作区的公交站点,分别形成先还后借与先借后还的骑行特征;多种用地性质混合的区域,借还车的差值较小且易产生波动。

3)在6类骑行时间特征中,借少还多型、借多还少型、先还后借型和先借后还型的骑行时间特征受不同POI区域的影响程度在工作日与非工作日会产生变化。除此之外,同一区域的骑行时间特征在工作日与非工作日亦存在差异。

本文的研究通过聚类方法分析了不同骑行聚集区的共享单车借车量与还车量变化的差异,并通过因子分析了得到了骑行特征与土地性质之间的关联。某区域的共享单车借车量与还车量直接反映该区域的调度需求,研究成果适用于针对不同的骑行聚集区展开共享单车的调度运营,有助于解决共享单车的供需失衡问题。由于研究数据获取的限制,本文未涉及共享单车的实时分布数据,忽略了共享单车的供给和外部环境因素对于用户骑行的影响,可进一步开展研究。

猜你喜欢
借车聚集区工作日
成都市科技服务业发展现状分析
借车
对于马克思关于工作日的思考
关于休闲的量的问题的考察
微信有奖互动专栏
土族聚集区传统常用野生植物及相关传统知识的研究
微信有奖互动专栏
基本杀法能力训练之借车使炮杀法
沈阳铁西区装备制造产业聚集实证分析
广州蕃坊及其外籍人聚集区研究