基于网约车订单数据的居民出行特征研究
——以北京市为例

2019-01-15 08:58崔宇超关宏志覃正桃
交通运输研究 2018年5期
关键词:快车网约出租车

崔宇超,关宏志,司 杨,覃正桃

(1.北京工业大学建筑工程学院,北京 100124;2.交通工程北京市重点实验室,北京 100124)

0 引言

网约车是指通过网络预约的出租汽车,网约车中包括了传统的出租车和“快车”等。其中,“快车”是指私家车主通过互联网向需要打车的人提供用车服务。快车的出现使得一部分私家车进入了原本以出租车为主体的点到点出行服务市场。在这种条件下,不同类型网约车的乘客出行需求呈现何种规律和特征引起了广泛的关注,而了解两种网约车模式下不同的乘客出行需求特征,对合理制定网约车相关政策具有重要意义。相比于出租车订单来源于线上及线下两种方式,快车订单则全部来源于网络,这些网络订单为分析两种模式的出租汽车提供了依据。

对居民出行时空分布以及出租车运营规律,国内外学者已进行了广泛且深入的研究。韩一童等[1]通过提取出租车全球定位系统(Global Positioning System,GPS)数据中的起讫点(Origin to Destina⁃tion,OD)数据,对居民上下车的时空分布进行了分析,为司机寻客提供了帮助。陈泽东等[2]对地块聚类分析时结合了兴趣点和居民出行时序特征,对城市不同功能区域的识别进行了研究,并且利用出租车上下车点的数据分析了城市不同功能区之间的空间交互特征。刘萌等[3]利用出租车OD数据分析了居民在不同时间、不同区域的活动强度。童晓君等[4]利用出租车GPS数据对居民的出行行为进行了分析。栾丽娜[5]通过对出租车GPS数据的挖掘,对影响出租车运营水平的因素进行了总结,并从出租车运营管理方面、出租车调度方面提出了针对出租车运营的改善策略。齐林[6]利用GPS数据研究了出租车的交通特性,为解决交通规划中的宏观和微观的交通问题提供了数据支持和理论依据。覃正桃等[7]对出租车交通运行特征进行了研究,提出了一种确定出租车上下客点位置和各路段出租车运行状态的方法。杨扬等[8]基于北京市出租车调度系统采集的GPS数据,构建基于路径长度的Logit(Path-Size-Logit,PSL)模型作为出租车多路径概率选择模型,发现出租车驾驶员更倾向于选择旅行时间短、转向次数少、主干路和次干路比例较高的路径。司杨等[9]以计划行为理论为框架探讨了出租车司机主观上的心理状态对目的地选择行为的影响。Zhang等[10]将出租车司机分为高收入、中高收入、中低收入及低收入四类,并利用熵权函数对不同收入司机的上下客多样性进行分析,发现高收入司机在寻客时有拒载行为,并给出了高收入司机在载客时的拒绝率为8.52%。Chen等[11]研究了在下雨的天气条件下出租车的时空分布特性。

对于网约车的研究,袁亮等[12]通过问卷调查与深度访谈研究了城市居民在打车出行时对网约车与出租车的选择意愿,发现出行者的个体特征、出行时间等对网约车的选择意愿影响显著,研究了网约车与出租车服务共存下价格管制策略的制定并对比了无竞争市场、竞争市场无管制与竞争市场管制3种情景下社会福利的变化。张永安等[14]利用政策一致性模型(Policy Modeling Consistency,PMC)的政策评价框架分析比较了北京等多个城市的网约车政策,发现了交通拥堵指数与常住人口密度对政策规制力度有很大影响。而在目前的研究中,根据网约车订单数据对网约车需求特征进行分析的还较少。Guo等[15]利用博弈模型和竞争定价模型,从成本和费用角度分析了网约车和传统出租车的博弈关系,发现在双方合作的条件下,可以有效提高资源利用率,缓解交通压力,从而达到双赢的效果。Wong等[16]提出一种基于网格的Logit选择模型,对出租车驾驶员的寻客行为进行了研究,发现出租车驾驶员的寻客路径并不遵循随机巡游原则,而是与寻客路径上寻客成功的累积概率有关。

由此可见,以往的研究并未聚焦于不同类型网约车乘客的出行需求规律和特征。本文拟通过对出租车网络订单及快车网络订单的数据进行挖掘,分别从两种网约车订单的行程时间、订单费用、上下客区域分布等方面对其需求特征进行统计分析。并且结合北京市“兴趣点”(Point of Interest,POI)数据确定了乘客出行时上下车区域的用地性质,利用两种出行模式下订单的各种特征对其分别进行了聚类分析,其结果将为二者采取更具针对性的、应对不同类型乘客出行需求的服务措施提供帮助。

1 数据来源及数据分析

1.1 订单数据来源及数据预处理

本文所使用的订单数据来自2015年12月3日到2016年1月3日期间北京市出租车网络订单及快车网络订单数据。数据内容包括:订单ID、乘客ID、司机ID、订单初始时间与结束时间、订单所在城市名称、起讫点经纬度坐标以及订单费用。由于GPS数据信号欠佳及用户在操作时的失误等原因,所获取的原始数据可能存在一些误差。因此,在对数据进行分析前需要对其进行预处理,将如下几类异常数据剔除:(1)经纬度越界数据,位于北京市坐标范围115.7°E~117.4°E,39.4°N~41.6°N之外的数据;(2)重复数据;(3)收费价格小于起步价的数据;(4)收费价格不符合出租车或快车收费规则的数据;(5)行程时间大于3h的数据;(6)行程时间小于5min的数据;(7)其他信息不完整的数据。通过对数据进行筛选后得到出租车有效数据共46 599条,快车有效数据共279 098条。

1.2 订单数据基本特征分析

1.2.1 网约车订单行程时间分布

通过对出租车网络订单与快车网络订单中每单行程时间进行统计,得到了网约车行程时间分布图(见图1)。由图1可以看出,行程时间大于50min的订单较少,出租车网络订单的行程时间在10~50min内占比约为80%,其中行程时间在20min内的占22.8%,20~30min的占24.5%,30~40min的占21.2%,40~50min的占13.5%,平均行程时间为35.5min;快车网络订单的行程时间大于30min的较少,行程时间主要集中于10~20min,其中20min内的占66.7%,20~30min的占17.1%,平均行程时间为21.9min。

图1 网约车行程时间分布柱状图

1.2.2 网约车订单收费分布

通过对出租车网络订单与快车网络订单中每单收费进行统计,对出租车与快车分别以10元为间隔分组并得到各组占总订单数量的比例(见图2)。由图2可以发现,快车网络订单单程收费主要集中于10~30元之间,其中70%的订单收费为10~20元,大于40元的订单占总订单量不到10%,订单平均收费为19.48元;出租车网络订单单程收费在10~50元区间占有较大的比例,其中20~30元区间占比最大,约为18%,出租车网络订单平均收费为51.94元。

图2 网约车单程订单收费分布图

1.2.3 网约车上下客空间分布

对出租车网络订单与快车网络订单起讫点进行分析可以得到出租车上、下客区域分布热力图(见图3、图4),快车上、下客区域分布热力图(见图5、图6)。由图3、图4可以发现,出租车上客点集中于国贸CBD区域、望京CBD区域、西单商业区附近区域、中关村区域、西二旗区域及首都机场T3航站楼;出租车下客点集中于国贸CBD区域、望京CBD区域、西单商业区附近区域、中关村区域、北京西站、北京南站及首都机场T2、T3航站楼。由图5、图6可以发现,快车上下客点集中于国贸CBD及附近区域、望京CBD区域、中关村区域、西二旗区域及顺义区部分区域与通州区部分区域。

图3 出租车上客区域分布热力图

图4 出租车下客区域分布热力图

图5 快车上客区域分布热力图

图6 快车下客区域分布热力图

由以上分析可以发现,出租车网络订单中行程时间在10~50min、出行费用在10~50元的订单占据极大比例:而快车网络订单主要集中于行程时间小于30min、出行费用小于30元的订单,时间短、距离近的特征明显;出租车网络订单乘客上下客热点区域分布差异较大,而快车订单分布更为一致。接下来将结合乘客上下车区域用地性质,利用聚类分析的方法对乘客的出行需求特征进行进一步分析。

2 研究方法

2.1 研究区域及功能区的划分

本文的研究区域为北京市,在已划分的2 006个北京市交通小区的基础上利用北京市的POI数据将各个交通小区进行分类。北京市现有的POI数据点共1 383 937个,参考文献[17]利用POI定量识别城市功能区的方法将所有交通小区划分为居住用地、公共管理与公共服务设施用地、商业服务业设施用地、工业用地、道路与交通用地、绿地与广场用地、混合用地,共7种用地类型。共有居住用地73个,公共管理与公共服务设施用地14个,商业服务业设施用地45个,工业用地14个,道路与交通用地212个,绿地与广场用地134个及混合用地1 363个。

2.2 K-均值(K-means)聚类分析

K-means算法是一种基于距离的聚类算法,采用距离作为相似性指标,在算法开始时选取任意k个对象作为初始聚类中心,代表一个簇。在每次迭代中,根据每个剩余对象与各个簇中心的距离将其赋给最近的簇,在一次迭代结束后将重新计算每个聚类的均值,直到每个聚类不再发生变化为止。

在利用K-means法对数据进行聚类分析之前要先确定K值即聚类个数。现引用指标误差平方和(Sum of Squared Errors,SSE)来确定K的取值。SSE表示所有点到相应簇中心的距离均值,K值越大时SSE值越小,在SSE随K值变化的曲线上找到SSE减幅最小时的K值,将此时K值确定为聚类数。

将预处理后的订单数据中起讫点的经纬度坐标通过ArcGIS软件与交通小区相匹配,即可得到乘客出行上下车点周围区域的用地性质。将订单的出行时间、行程时间、上车点及下车点的用地性质作为聚类分析的特征变量,对出租车网络订单数据与快车网络订单数据的K值进行计算发现,当K值取值为4时SSE值减小的速度迅速放慢,所以对二者的聚类数取值都为4。

对快车及出租车网络订单进行聚类分析,结果如表1、表2所示(其中聚类中心坐标值为标准化处理后的值),将这些结果分别命名为快车类型1~4及出租车类型1~4。由表1快车网络订单聚类结果可以发现,快车订单中类型2和类型4占有较大比例,分别为41.15%与33.4%;类型1和类型3占比较小,分别为13.2%和12.25%。由表2出租车网络订单聚类结果可以发现,类型1和类型2占比较大,分别为36.37%和32.15%;类型3和类型4占比较小,分别为16.65%和14.83%。

表1 快车网络订单聚类结果

表2 出租车网络订单聚类结果

3 网约车乘客需求特征分析

3.1 快车网络订单乘客需求特征分析

通过对快车订单数据聚类分析结果进行分析,得到各类型订单的出行时间分布曲线(见图7),行程时间分布曲线(见图8),上下车点用地性质分布(见图9、图10),出行量随时间变化曲线(见图11)。

图7 快车各类型需求出行时间分布曲线

图8 快车各类型需求行程时间分布曲线

图9 快车各类型需求上车点区域性质统计直方图

图10 快车各类型需求下车点区域性质统计直方图

图11 快车各类型需求出行量随时间变化曲线

快车类型1在所有订单数中所占比例为13.20%,这种出行需求发生时间均匀分布在全天8:00—22:00之间,并且受工作日与节假日的影响较小,上车点的性质主要以混合用地性质为主,下车点的性质多分布在居住用地、商业服务设施用地及绿地及广场用地,行程时间多分布在10~25min之间。

快车类型2在所有订单数中所占比例为41.15%,所占比例为4个类型中最大的。这种出行需求发生时间在15:00—23:00之间,其中17:00—21:00为这种需求出行的高峰时间,受工作日与节假日影响较大,上下车点用地性质主要为混合用地,行程时间多分布在10~25min之间。

快车类型3在所有订单中所占比例为12.25%,为4种类型中最少的。这种出行需求在全天8:00—22:00之间均有产生,并且没有较大的波动,且受工作日与节假日影响较小,上车点用地性质分布在居住用地、商业服务设施用地及绿地及广场用地,下车点用地性质集中于混合用地,行程时间分布在10~25min之间。

快车类型4在所有订单中所占比例为33.40%,这种出行需求发生的时间集中于6:00—13:00,并且在7:00—9:00之间达到峰值,在0:00—6:00发生的数量较少,这种出行需求受到工作日及节假日的影响较大,在周末及节假日出行数量会明显减少,上下车点的用地性质集中于混合用地,行程时间多分布在10~25min之间。

通过对快车订单需求类型的分析可以发现,类型2与类型4上下车点都集中于混合用地,且类型4出行高峰时间接近于早高峰时间,类型2出行高峰时间接近于晚高峰时间,两种类型的出行量对于工作日与节假日都较为敏感。其中,类型4在工作日出行量较稳定,在周末及节假日明显下降,可以判断类型4主要以居民的通勤出行为主;类型2出行量在节假日时会明显增多,可以推断类型2中除通勤外还有大量娱乐出行。

类型1与类型3上下车点在混合用地与3种用地(居住用地、商业服务设施用地、绿地及广场用地)之间,出行时间在8:00—22:00之间,工作日与节假日对其出行量影响较小,并且所占比例较小,可以认为这种出行需求主要为居民生活出行及休闲娱乐出行。

3.2 出租车网络订单乘客需求特征分析

通过对出租车网络订单数据聚类分析结果进行分析,得到各类型订单的出行时间分布曲线(见图12)、行程时间分布曲线(见图13)、上下车点用地性质的分布(见图14、图15),出行量随时间变化曲线(见图16)。

出租车类型1在所有订单中所占比例为36.37%,是4种类型中所占比例最多的一种,这种类型的出行需求集中在13:00—22:00之间,在21:00左右达到峰值,上下车点用地性质主要为混合用地,出行量受工作日及节假日影响明显,行程时间多分布在10~50 min之间。

图12 出租车各类型需求出行时间分布曲线

图13 出租车各类型需求行程时间分布曲线

图14 出租车各类型需求上车点区域性质统计直方图

图15 出租车各类型需求下车点区域性质统计直方图

图16 出租车各类型需求出行量随时间变化曲线

出租车类型2在所有订单中所占比例为32.15%,这种类型的出行需求主要分布在7:00—13:00之间,在8:00左右达到峰值,在0:00—4:00出行量迅速减小,出行量受工作日与节假日影响明显,上下车点用地性质主要为混合用地,行程时间多分布在10~50min之间。

出租车类型3在所有订单中所占比例为16.65%,这种类型的出行需求分布在7:00—22:00且随时间变化波动较小,上车点用地性质主要集中于混合用地,下车点用地性质分布在居住用地、商业服务设施用地及绿地及广场用地,行程时间多分布在10~50min之间。

出租车类型4在所有订单中所占比例为14.83%,这种类型的出行需求分布在7:00—22:00,且不随时间变化有较大的波动,上车点分布在居住用地、商业服务设施用地及绿地及广场用地,下车点集中于混合用地,行程时间多分布在10~50min内。

通过对出租车网络订单的需求类型分析可以发现,类型1与类型2的上下车点区域的用地性质均集中于混合用地,类型2的峰值出现时间接近于早高峰时段,类型1峰值出现时间在21:00左右,晚于晚高峰时段,两种类型的出行量对于工作日与节假日都较为敏感。可以判断在类型2中有大量早高峰通勤需求,在类型1中存在一部分通勤需求及平日工作结束后的娱乐需求,所以在13:00迅速增加,并在21:00以后迅速下降。

类型3与类型4上下车点在混合用地与3种用地(居住用地、商业服务设施用地、绿地及广场用地)之间,出行时间在7:00—22:00之间,出行量受工作日及节假日影响较小,可以判断这两种类型需求主要为居民生活及娱乐需求。

3.3 综合分析

以出行时间、行程时间及上下车区域的用地性质作为特征变量对出租车及快车网络订单进行聚类分析发现,二者的乘客出行需求均呈现出一定的特征。

(1)出租车与快车网络订单需求的聚类结果中均出现两类受时间影响较大的出行需求类型,并且呈现出相似的需求特性,分别集中于8:00—12:00与15:00—22:00,乘客上下车区域的用地性质集中于混合用地性质,受工作日及周末的影响较大,在工作日更为活跃,在周末及节假日则出行量明显下降。通过分析其出行特性可以得到,其出行目的应以通勤出行以及工作日下班后的娱乐出行为主。

(2)二者的聚类分析结果中均出现两类受时间影响不明显的出行需求类型,呈现出相似的需求特性。这类出行在8:00—22:00有稳定的订单量,并且受时间影响较小,对于工作日及节假日并不敏感,乘客出行往返于混合用地与居住用地、商业服务设施用地、绿地及广场用地3种用地类型之间。通过分析其出行特性可以得到,这类出行需求应以居民日常生活出行及娱乐出行为主。

(3)快车乘客出行行程时间介于10~50min,主要集中于10~20min,行程时间大于20min的需求量迅速减少。出租车网络订单乘客出行行程时间介于10~75min,主要分布在10~45min。由此可知,选择快车作为出行方式的乘客多以短时出行为主,当行程时间大于20min以上时,乘客选择出租车的概率更大。

4 结语

本文通过对出租车及快车网络订单的数据进行统计分析发现,出租车网络订单行程时间主要介于10~50min、出行费用主要分布于10~50元,上下车热点区域差异较大;而快车订单主要集中于出行时间小于30min、出行费用小于30元的订单,上下车热点区域分布较为一致。由聚类分析的结果可以发现,乘客选择网约车作为出行方式时与出行时间以及上车区域有很强的相关性,在早晚高峰时间采用网约车作为出行方式的乘客多集中于混合用地,而对于其他用地类型的区域中并没有明显的早晚高峰情况,网约车司机可以此作为依据在寻客时更有针对性地选择寻客区域,以提高运营效率及服务质量。研究结果可为相关部门制定网约车的管理措施提供依据。

本文只对快车与网约出租车的乘客特征进行了分析研究,而此外还存在着“顺风车”“专车”等其他形式的网约车,在后续的研究中应结合各种网约车的数据进行分析研究,以更好地了解各种网约车的需求特征以及它们之间的相互联系,供今后网约车合理地为不同类型的乘客提供服务所参考。

猜你喜欢
快车网约出租车
甜甜圈快车
网约车平台责任条款的识别方法——基于解释进路的正当规制
网约车侵权责任在司法实践中的认定
乘坐出租车
网约车问题研究及对策
网约车安全性提高研究
健康快车
健康快车
健康快车
凭什么