出租车空车率影响因素研究

2019-12-17 09:05唐隽玉黄一哲
关键词:空车共线性出租车

唐隽玉, 朱 祎, 黄一哲

(上海交通大学 船舶海洋与建筑工程学院,上海 200240)

0 引言

出租车是日常生活中不可或缺的交通工具,为人们提供便捷的门到门运输服务。出租车供需的随机性,导致了出租车空车率水平的不合理问题。空车率过高会增加司机的工作成本,造成时间和燃料的浪费。而空车率过低会延长乘客的等待时间。此外,过多的空车将会加剧交通拥堵,并造成空气污染,如在台湾,空车每年会造成9 000万L汽油的浪费[1]。为缓解上述问题,一些学者对出租车空车时长/空车率进行了一系列相关研究。关金平等[2]分析了出租车空驶的时空特性,并且从人文地理、城市规划角度分析了成因。鞠炜奇等[3]以深圳为例对出租车空车率的时空分布特征及影响因素进行了分析。但上述两项关于出租车影响因素的研究仅停留在定性分析阶段。量化空车率和影响因素之间的关系,可为调节空车率至合理水平提供科学依据。提取空车率影响因素是量化二者关系的第一步,现有研究表明以下因素与出租车的空车率有密切关联:寻/送客时长、距离[4],司机寻客策略[5],上车次数[6]等。然而,目前尚缺少将这些因素综合起来进行研究的文献。

Logit模型作为一种数学工具被广泛应用于城市交通研究中[7],本文基于广义多水平定序Logit模型(GMOL模型),旨在从驾驶员行为分析角度,建立一个全面且定量化的方法来挖掘出租车空车率的影响因素,从而寻求影响因素与空车率之间的量化关系,以合理化调节空车率水平,达到优化出租车运行效率及乘客满意度的目的。

1 数据描述及预处理

1.1 数据描述与清洗

GPS数据由上海强生出租车公司采集,涵盖10 000辆以上的出租车运行信息,平均每10 s记录一次。每条记录包括出租车ID 号(唯一标记)、载客状态(1表示空车,0表示重车)、GPS信息接收时间、当前位置的经、纬度以及瞬时速度。

由于GPS信号遮挡、设备故障等原因,需要进行数据清洗。将经纬度在[120.852°E,121.925°E],[30.693°N,31.511°N]之外、瞬时速度在0,120 km/h之外的数据进行剔除,删除了占原始数据0.007%的异常数据。

1.2 时空划分

对于空间划分,本文的研究区域为除去崇明岛的上海市主干区域,并将研究区域网格化,即将上海主干区域划分为一系列约为500 m×400 m 大小相同的网格,总量为22 814个。

对于时间划分,由于周五相较于其它4个工作日呈现出不同的出租车驾驶模式,同时为了减少计算复杂度,选择2016年3月21日—2016年3月24日(周一至周四)作为计算原始数据。此外,还需对研究时段进行划分。

如图1所示,载客车速度作为筛选研究时段的第一个指标,如果速度过低,说明当前路况拥挤,司机不能自主地采取策略进行运营。而且,为保证足够的样本量,运营车数量作为第二个筛选时间段的指标。最后,还需要排除司机用餐时间的影响,Qin et al[8]对上海市出租车司机的用餐时间进行调研,发现用餐时间灵活地分布在11:00~14:00以及16:00~19:30之间。综上,选取14:00~16:00作为研究时间段。

图1 载客车速度、运营车数量在一天中的变化

2 空车率与影响因素量化模型

2.1 出租车空车率的定义

视出租车的时间空车率为空车率的衡量标准,因为出租车的机会成本是通过空车时间测算而非空车运营距离测算[9]。司机i的空车率VRi的计算如下

式中,t0i,j为司机i的第j 次重车行程的运营时间;t1i,j为司机i的第j 次空车行程的运营时间。

2.2 出租车空车率的分类

为了更为直观以及减低随机性的影响,将空车率分为3种水平:高、中、低。分类标准为:将出租车空车率的标准差进行升序排列,视标准差在前50%的司机为稳定司机,删去标准差值处于后50%的司机空车率数值。之后,将空车率的数值从小到大排列,取0~20%、40%~60%以及80%~100%作为低、中、高3种空车率水平的判定标准。对应的空车率总体分布见图2,3 种空车率水平的分布如图3 所示。观察可得,上海市的出租车空车率大部分分布在中等水平,并且中等空车率水平的标准差最低,最为稳定。

图2 14:00~16:00时间段内出租车空车率的分布

图3 14:00~16:00时间段内3种空车率水平的分布

2.3 出租车空车率水平影响因素的提取

2.3.1 寻客策略

(1)寻客距离。寻客距离Ds是指出租车在上一个乘客的下车事件与紧接着的下一个上车事件之间的空车运行时间,计算如下

式中,ED[(lonj,latj),(lonj+1,latj+1)为出租车空车行程中第j条记录和它下一条记录之间的欧氏距离,可由经纬度信息计算得到[4]。

(2)上车强度。上车强度Ip定义为空车经过沿路一系列网格对应的上车次数的加权平均数,计算如下

式中,pTx,y为在时间T 内网格(x,y)中的上车次数;ETTx,y为在网格(x,y)中的第j条记录和它上一条记录之间经历的时间。

(3)运行/等待。借鉴Li et al[5]的研究,用下列计算来区分司机的运行/等待策略,从而判断司机更倾向于沿路寻客,还是就地等客。定义在上车事件发生前3 min的空车运行距离为Dp,则等待策略对应着指标Dp低于一定的阈值τp,而运行策略则对应着指标Dp高于该阈值τp,公式表示为

从而建立对应的运行/等待指标Iw,这是一个布尔变量,当值为1时表示司机采用就地等客策略(等待);当值为0时,表示司机采用沿路寻客策略(运行),即

2.3.2 送客策略

当司机载有乘客时,有的司机偏向于选择保证较高运行速度但较为迂回的道路,有的司机则偏好选择最短路,这些选择最终会通过改变重车时间的占比来影响对应的出租车空车率。

(1)送客迂回程度。送客迂回程度Cd通过一次重车行程的实际运行距离和起讫点之间的欧式距离的比值衡量,计算如下

式中,ED[(lono,lato),(lond,latd)]为起讫点之间的欧氏距离;Dd为一次重车行程的实际运行距离,由相邻两记录之间的欧氏距离累加得

(2)送客速度。为减少GPS数据采集间隔的非均质性,送客速度vd为加入时间考虑的速度加权平均值,计算如下式中,ETj为一次重车行程中第j 条记录和它上一条记录之间经历的时间。

2.4 广义多水平定序Logit模型

视3种空车率水平为定序的离散因变量yi(1=高,2=中,3=低),在前文中提取出的5个因素作为自变量Xi=(xi1,xi2,…,xi5),构建GMOL模型,那么因变量对应的概率计算如下

则广义线性形式的模型可表示为

式中,β(1)为服从平行线假设的自变量对应的系数,也就是对于任意的空车率水平j,对应的系数均为β(1);β(2)为违反平行线假设的自变量对应的系数,它们的值随着不同的空车率水平而产生变动。上述系数的值可以通过最小二乘法估计得到。

3 模型结果

3.1 多重共线性检验结果

多重共线性是指多元回归模型中2个或2个以上独立变量高度相关的现象。方差膨胀因子(VIF)是一种检验多重共线性的方法。当VIF 等于1时,意味着没有多重共线性存在;当VIF 超过4时,则需要进一步进行讨论;而当VIF 超过10时,则意味着存在严重的多重共线性问题。对可能影响空车率的因素进行多重共线性检验,结果如表1所示。变量对应的VIF 值变动范围为[1,1.84],所有的值均小于4。因此,可认为提取出的5个变量之间不存在明显的多重共线性问题。

表1 变量的多重共线性结果和平行线假设检验结果

3.2 平行线假设检验

平行线假设检验用来分析在不同的空车率水平下,因素对空车率水平造成的影响是否发生改变。由表1可知,只有送客迂回程度(Cd)以及送客速度(vd)在0.05水平不显著,服从平行线假设,也就是说这2个变量的系数将在不同的空车率水平下分别保持恒定。而其它3个变量违反了平行线假设,在不同的空车率水平下,这3个变量产生的影响将发生变化。可能的解释是送客迂回程度、送客速度因素对于不同的空车率水平造成了同等的影响,而其它3 个变量则会对多样化空车率水平产生显著的影响。因为GMOL模型不需要严格遵循平行线假设,故而上述结果亦证明了建立GMOL模型的必要性。

3.3 GMOL模型结果

借助Stata 14.0软件中的gologit2,求得对应的GMOL 结果如表2所示。由于空车率水平有3种,因此,P(yi≤3)=1,表2中仅给出了P(yi≤1)和P(yi≤2)的结果。送客迂回程度、送客速度的系数在不同空车率水平下恒为0.115 8,-0.098 8。其它因素的系数的正负性保持一致,说明这些因素对于空车率水平变化方向的影响恒定。

表2 不同空车率水平下的GMOL模型结果

对于寻客策略,增加寻客距离将会增加高空车率水平出现的概率,对于那些倾向于在距离上一个乘客下车点更远的地方搜寻下一个乘客的司机而言,他们更容易出现高空车率的情况,应尽量缩短寻客距离。增加上车强度,会减少高空车率水平出现的概率,这表明高空车率水平的司机需要在那些热门区域寻找下一位上车乘客。对于运行/等待而言,选择就地等待策略的司机会拥有更高的空车率水平,那么高空车率司机就需要多采取沿路开车寻客的运行策略来降低他们的空车率。

对于送客策略而言,减少送客的迂回程度、提高送客速度则会增加高空车率水平出现的概率。那么对于那些想提高送客效率的空车率水平较低的司机而言,他们需要采取合理的送客路径规划,或者选择最短路径去送客,或者选择虽然路径更为迂回但能够保证良好的送客速度的道路,比如高架快速路。

结合上述计算结果,对于每一个空车率水平的概率的数学表达形式如下

4 结论

从驾驶员行为角度入手,在司机的送客策略、寻客策略两方面挖掘出了可能影响出租车空车率的5个因素,并基于GMOL模型,提出一种探究空车率及其影响因素之间关系的量化方法,得到结论如下。

(1)空车率的分布近似于正态分布。空车率的分布显示大部分的上海市出租车空车率分布在中等水平,意味着上海市的总体空车率水平良好。

(2)不同的运行策略会导致不同的空车率水平。高空车率水平的司机偏好远距离寻找乘客、不在热门区域搜寻乘客、倾向于就地等待乘客、或者路径选择不好,选择了又绕又堵的路径送客。

(3)高、低空车率水平的司机需采取不同的运行策略来平衡出租车运行效率和乘客满意度之间的矛盾。对于想降低空车率水平的司机而言,可采取以下策略:缩短寻客距离、采用运行寻客策略、在需求热门区域寻找乘客。而对于想提高送客效率、增加空车率水平的司机而言,则需要通过路径选择来减少重车时间占比。

猜你喜欢
空车共线性出租车
高速公路货车空驶指标统计与规律分析
铁路枢纽空车调配多目标优化模型及算法
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
乘坐出租车
街角见空车
基于磁吸效应的铁路日班计划中空车调配算法的研究
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
凭什么