于二泽, 温亚豪
(1.北京北大千方科技有限公司, 北京 100085; 2.广东省交通规划设计研究院股份有限公司, 广州 510507)
公共自行车是服务公众短距离出行和公共交通接驳换乘的重要方式,但近年来共享单车的蓬勃发展(250个城市,2 300万辆[1]),却给有桩公共自行车系统造成冲击. 在数据赋能交通服务革新升级的现实背景下,双方竞争焦点逐渐转向出行背后的数据价值,就传统公共自行车系统而言,新阶段如何利用现有数据资源以提升服务质量,是维持其市场竞争力的重要途径.
通过数据挖掘来掌握公共自行车使用需求特征,对优化资源配置具有积极作用. 在时空特征方面,研究方法主要是聚类研究、GIS空间统计等分析手段[2-6],O’Brien[2]对比欧洲、亚洲和美国等38个公共自行车系统的数据特征,并根据占用率指标的日期和空间变化,提出一种系统类型划分方法;Zhou等[3]利用层次聚类得到过需及空载站点内单车数量变化规律;Zhang等[4]对比分析中山公共自行车系统规模扩张前后的需求分布,发现系统扩张下用户发生转移,但空间需求冷热点并未明显改变. 影响因素方面,研究发现单车使用除受气象条件、日期特征等不可抗因素影响[7],与道路特征、公交设施、建筑分布等空间因素也存在关联[5-10],El-Assi等[7]构建等级线性模型,分析得出站点周围设有自行车道、校园及公交站点对单车使用具有积极影响;Faghih-Imani等[5,8-9]建立空间回归模型,探讨城市建筑环境对站点内用车需求的驱动机制;Lin等[10]基于二项Logit模型,对比分析北京、台北和东京3地建筑环境对单车使用的影响,发现不同地区间解释变量的影响效应存在差异.
目前我国已是世界上公共自行车系统规模最大的国家(237个城市[11]),但针对公共自行车使用特征的研究仍主要关注于国内外区域性中心城市,国内相关研究仍需扩充本土数据资源加之充实佐证. 因此,选择宁波市公共自行车系统作为研究对象,基于海量IC卡数据,围绕数据挖掘和时空特征分析展开研究,旨在理清站点周转模式,掌握骑行需求时空分布,重点揭示建筑环境对单车使用需求影响机理.
研究区域为宁波市主城区,包括鄞州、北仑、海曙、镇海、江北5区,如图1所示,以上为公共自行车站点主要分布站点区域. 截至2019年底,主城区内租赁点共计1 288个,单车报备数量约为3.6万辆,平均单车周转率为2.74次/d,与国内城市平均水平相当.
图1 研究区域及公共自行车站点分布
研究数据为公共自行车IC卡数据,时限为2016-07-01—2017-06-30,数据由宁波市公共交通管理部门提供,详细结构见表1,包括租/还车时间、地点等重要信息,近年来区域内单车规模维持稳定,城市功能区分布无明显改变,数据挖掘结果具有一定代表性.
表1 公共自行车IC卡数据结构
其他数据:①道路数据来源于开源地理信息数据库OpenStreetMap;②站点桩位配置是通过“宁波市民通”APP人工采集;③城市兴趣点(Point of Information POI)反映站点周边建筑设施分布情况,数据来自高德地图.
数据质量控制是利用数据进行深入分析与挖掘的重要前提,经检验识别出4类异常数据:①缺省值数据,记录中存在空缺项;②重复项数据,行政区交界站点被重复统计,也包括调度人员刷卡记录;③行为异常项,指租赁时长超过3 h或小于2 min,且OD站点相同的记录[3];④结构错位项,指列数据与索引发生不匹配的记录. 对以上异常数据进行差异化处理,处理流程见图2,最终得到3 260余万条合格数据.
图2 数据预处理流程
1.3.1 K-Means聚类
聚类分析是了解不同站点需求模式的可靠手段,为反映不同时段内站点租/还车活动的交互关系,以标准化租还车差量Ni,t为聚类项,如式(1):
(1)
式中,Pi,t和Di,t表示t时刻下站点i的平均小时租车量和归还量,Ni,t为取值区间为[-1,1],数值趋近于-1(或1),为t时刻下站点内的归还(租借)活动占比越高.
聚类方法为K-Means算法,取余弦相似度cos(a,b)作为距离度量函数,函数利用向量空间中2向量夹角的余弦值作为样本属性差异的衡量标准,更适用于时间序列相似性判别[3],见式(2):
(2)
1.3.2 Kriging空间插值
空间插值是利用离散站点相应数据构造连续数据曲面,可更好展示研究范围内站点活跃情况.利用克里金(Kriging)空间插值来分析空间特征,其利用点集属性值和变异函数,对未采样区域的属性值进行线性无偏最优估计,计算原理如式(3),且相比于IDW插值等方法,空间点集聚分布情况对其插值精度影响相对较低,更适用于本文研究.
(3)
式中,S0为预测位置;Z(Si)为第i个位置处的观测值;N为观测值数量;λi代表第i个位置处观测值的未知权重,数值取决于待测点位置与观测值的空间关系拟合模型.
1.3.3 多元回归分析
利用多元线性回归分析城市建筑环境对公共自行车使用的影响机制[6],选取2016-07-01—2017-06-30期间站点平均日需求量(租还车总量)作为因变量,以站点周边各类建筑环境因子为自变量,模型表达式为式(4):
(4)
式中,ln(y)为站点平均日需求量对应的自然对数值;xm为第m类影响因素;βi为回归系数;β0和ε表示截距和残差,且ε服从正态分布N(0,σ2).
宁波公共自行车系统租车量变化呈现“M型”双峰状态(见图3),早高峰为07:00—09:00,晚高峰为17:00—19:00,09:00—17:00可视为平峰. 图3(a)中非工作日对应曲线稍显平缓,是由于通勤者出行活动减少导致;周六早高峰租车量高于周日同时段,可能与部分企业实行单休制度有关,此外休息日内长时弹性出行者更多会选择在该时段用车[12].
不同月份系统内用车活跃情况存在差异. 图3(b)为不同月份对应租车量统计情况,其中2017-06期间租赁量偏低,与当地“梅雨”节气相关;7~8月份日照持续时间长,高峰时段前后的用车量高于其他月份,而午间(12:00—14:00)数据略低于气温相对温和的时期;2016-12—2017-02期间受低温及雨雪雾天气的影响,用车量出现明显下降.
图3 公共自行车租赁量的时间分布
租赁活动中以短时、短距离出行为主. 用户租赁时长和骑行距离统计分布见图4,平均租赁时长为16.09 min,使用变化表现出明显“单边拖尾”特征,出行时间集中在20 min以内;针对OD站点不同的出行活动(92.16%的记录),选用欧式距离表征真实骑行距离,统计得到平均骑行距离为1.85 km,骑行范围多在2 km以内,该区间内出行比例达到72.82%.
图4 使用时长和骑行距离
2016-11起共享单车开始进入宁波市场,为分析其对公共自行车的竞争影响,选取2016-07、2017-06用车数据进行对比. 统计显示,2016-07公共自行车日均租赁量为95 352次/d,投放后数据为78 448次/d,环比下降17.73%. 图5为公共自行车使用变化情况,图5(a)显示大部分站点日需求量变化幅度不大,中心城区存在多处站点需求量出现明显下滑,城区外围部分站点需求量有所上升,如镇海客运中心站、中河路站等;图5(b)显示短时出行用户(使用时长<12 min)流失严重,降幅达到22.83%.
图5 共享单车投放前后公共自行车使用变化
鉴于工作日和非工作日内用户出行属性存在差异,分别进行聚类,采用平均畸变程度和肘部原则确定最优k值为3,最终各得到3类典型站点,聚类结果见图6,结果显示:
1) 图6(a)中Ⅰ、Ⅱ代表“早归晚出”和“早出晚归”类型站点(487个,571个),早高峰其单车数量逐渐增多(减少),而晚高峰转为以租赁(归还)为主,2类站点数量占比达到84.44%;Ⅲ类站点曲线特征与Ⅱ类相似(195个),表现出错峰出行的特点.
2) 图6(b)中Ⅰ类与图6(a)中Ⅰ类相对应,共计306个;Ⅱ类与图6(a)相对应,共计600个;Ⅲ类站点347个,曲线变化与图6(b)中Ⅰ类相似,但在早高峰稍显滞后,平峰时段可用单车数量波动较小.
3) 对照图6(a)和图6(b),差异主要体现在11:00—16:00、19:00—22:00,休息日内Ⅱ和Ⅲ类站点在以上时段租还不均衡性略高,且夜间Ni,t变化与晚高峰状态相一致,此时Ⅱ类站点还车行为占比逐渐上升,相反,Ⅲ类站点因租赁行为增多导致可用车辆数逐渐减少,以上2类租赁点数量占比为75.58%,可看出主城区内周末平峰与夜间时段的调度任务颇高.
图6 站点周转模式聚类结果
根据聚类结果,将各类站点空间分布进行可视化(见图7),可看出:
1)工作日内Ⅰ和Ⅱ类站点空间聚集特征明显,且与职住地分布存在联系. Ⅰ类站点(黄色)主要分布在商业及行政功能区,包括三江片、东部新城和鄞州南部;Ⅱ类点位(蓝色)集中分布在中山东路北侧、海曙翠柏片区和镇海蛟川片区,以上以居住用地为主;Ⅲ类站点(红色)分布相对分散,多是在城区外围,与居住区和公交站点相邻,典型站点:尹江新苑、梅墟公交总站等.
2)非工作日Ⅰ类站点分散在城区外围,多是位于医院与重要机关附近,如北仑中医院、江北行政中心等站点;图7(a)、图7(b)中Ⅱ类租赁点(蓝色)存在重合分布;Ⅲ类站点(红色)分布与图7(a)中Ⅰ类站点相对应,主要分布在大型商超或综合体设施周围.
图7 不同类型站点空间分布
利用ArcGIS软件执行克里金插值,经测试确定参数:属性为站点需求量,半变异模型为线性模型,搜索半径r=500 m. 输出像元按照自然间断法分为9个等级(见图8),可看出:①工作日内公共自行车使用热度总体高于非工作日;②公共自行车活跃热区主要在中心城区,其中中山东路沿线作为三江片至东部新城连接通道,且与地铁1号线相重合,高密度人口分布和接驳客流带动沿线租赁点的周转率;③外围区域的用车需求主要分布在北仑新碶街道和镇海蛟川片区,且呈“泛而不聚”的需求分布状态,由于远离市中心且公交系统有待完善,导致片区内单车使用需求偏低.
图8 公共自行车需求量空间分布特征
对比分析工作日与休息日需求变化,反映用户出行活动的变化规律,图9是以需求量差值为插值属性得到的连续数据曲面图,可看出:
图9 工作日与非工作日站点用车需求差异特征
1)中山东路、鄞州南部以及东部新城区域,工作日内需求热度长期高于非工作日,而平峰内需求差异程度有所降低,以上多是包含商贸、商务、居住的复合功能区,人口密度高且站点分布密集,配置设施与骑行需求间的供需关系相适应.
2) 非工作日高峰时段内城区外围骑行需求量高于工作日,如白鹤社区、慈城日新路等站点,外围区域站点密度相对较低,点对点出行距离较长,而休息日内可利用时间增多,公众选择单车出行的出行意愿更强.
影响因素选择参照已有研究[5-10],将其归结为以下4类指标:①道路分布,指缓冲区内主/次干路与支路里程;②公共交通,指缓冲区内地面公交与地铁站点数量,分析公交接驳换乘对用车需求的影响;③建筑设施,是缓冲区内不同类型POI分布数量,POI类型划分参考既有标准及文献[13-14],分为居住、公共服务、商业服务、工业用地、交通设施和广场绿地6大类;④站点配置,是租赁点桩位数量以及缓冲区内桩位总量,共计13项,选取300 m作为站点缓冲区半径[6,8].
利用SPSS 22.0软件执行回归分析,模型结果:拟合优度R2=0.514,缓冲区内主/次干路里程、地面公交站点数量、站点桩位数量、居住型POI数量等9项指标对因变量具有显著解释意义(见表2).
表2 变量描述统计与模型结果
1) 主/次干路沿线租赁点内租/还车需求更为活跃.道路变量中L_major和L_sub指标系数分别是0.390和0.309,而L_branch系数为-0.110,与因变量呈负相关,这与Faghih-Imani等发现结论存在出入[5,9],可在城市道路规划建设上分析原因,目前主城区支路建设稍显滞后,主/次干路对街区的衔接纵深不足,限制公众对公共自行车的选择需求[15].
2) 站点周边居住社区、公共服务机构以及广场绿地分布越密集,公共自行车租还频次越高.模型中P_res、P_public和P_park系数分别是0.006、0.016和0.021,均对因变量呈正相关,影响机理体现在参与主体数量、政府机关鼓励机制和休闲出行等方面.
3) 地面公交站点产生的接驳换乘客流,能带动周边公共自行车站点用车需求.模型中N_bus影响系数为0.034,与站点需求量呈正相关,说明地面公交站点覆盖的片区,出行者选择公共自行车的比例也会有所提升[6].
4) 桩位配置数量及区域分布密度越高,对站点需求量具有促进作用. 站点自身桩位数量及缓冲区内桩位总量均对单车使用因变量呈正向影响,系数分别是0.008、0.003,站点桩位配置数量越高,能降低空载或满载情况发生概率[8],而提高站点分布密度能方便用户在可接受步行距离内寻找替补站点,顺利租借或归还单车[16].
1) 对海量IC卡数据清洗、修正,提取用户需求及站点周转信息,发现宁波公共自行车用户出行时间变化呈“M型”分布,存在规律明显的早晚高峰;
2) 以标准化租还车差量反映站点租还车需求的不均衡特征,运用K-Means算法对其聚类,结果显示“早出晚归”“早归晚出”的站点周转模式最为典型,主城区站点潮汐使用特性明显,且休息日平峰及夜间系统内调度压力颇高;
3) 利用空间插值实现对站点活跃特征的时空可视化表达,发现三江口、东部新城及其连接通道为长时需求热区,而非工作日高峰时段城区外围用车需求高于工作日同时段;
4) 从影响因素上看,公共自行车使用与站点周边主/次干道里程、居住/公共服务/广场绿地类型POI数量、地面公交站点数量、站点桩位数量以及缓冲区内桩位配置总量呈正相关,缓冲区内支路里程对单车使用具有负向影响.
基于主要结论,对宁波市公共自行车运营管理提出建议:①在运营调度方面,额外关注非工作日平峰和夜间时段,城区外围及中心城区商超周边站点的调度需求;②在日常监测方面,对中山东路、东部新城及鄞州南部内重要站点,重点监测或人工值守;③在交通需求方面,政府需要保证主/次干路内安全、通畅的骑行环境,同步推进支路或绿道规划建设,增强社区对干路的通行衔接;通过出行诱导、价格杠杆等手段,提高公共自行车对公共交通(重点是轨道交通)的接驳比例;④在设施供给方面,运营方需将站点选址、设施配置与土地布局紧密联系,可考虑对居住设施、公共服务机构与广场绿地设施附近租赁点,提升其资源配置优先级.