邱端昇, 邬群勇, 刘 萌, 孙 梅
(福州大学地理空间信息技术国家地方联合工程研究中心, 空间数据挖掘与信息共享教育部重点实验室, 福建省空间信息工程研究中心, 福建 福州 350116)
出租车轨迹数据是一种覆盖范围广、 采集成本低的位置大数据, 近年来利用出租车轨迹研究分析城市居民行为与出租车行为策略成为热点[1-5]. Yuan等[6]基于出租车GPS轨迹, 将载客、 空载、 停车等因素纳入研究分析, 提出停车位置探测算法用来发现出租车最可能停车位置; 唐炉亮等[7]通过研究出租车上下客的时空分布特性以及不同时段内的动态性与热度, 提出出租车上下客时空分布的线密度探测模型; 孙飞等[8]提出基于GPS轨迹大数据的出租客源模型, 引入空载段来优化出租效率评估模型. 目前多数对出租车的研究将载客与空载割裂, 只关注载客而忽略空载. 本文提出一种新出租车优质客源模型, 将与载客相邻的前后空载纳入研究范围, 引入出租车开销系数与行程速度的关系, 克服已有客源模型开销系数均质化的问题, 并基于新客源模型分析城市优质客源的时空分布规律.
文献[7]将载客段与相邻的下一空载段结合作为研究对象, 通过收入、 时间及效率构建模型, 量化出租车客源.
I=L1×K0-K1×(L1+L2)
(1)
式中:I为一次载客的实际盈利;L1(km)为载客里程;L2(km)为相邻空载里程;K0为当地的出租计价标准;K1为出租开销系数. 计算出总盈利后再引入时间, 定义出租车盈利效率, 即单位时间内的盈利.
(2)
式中:E为出租车盈利效率;I是(1)式中盈利;t1(h)为载客状态耗时;t2(h)空载状态耗时.
在文献[7]的客源模型(下文统称原模型)中出租开销系数K1为固定值, 将出租载客与空载的开销系数均质化, 忽略不同状态与不同速度下出租车运营开销存在差异这一事实. 本文所给客源模型(下文统称新模型)通过将出租开销系数与出租行驶速度联立以克服原模型开销系数均质化的问题.
研究表明[8]出租车出行主要集中在中短途, 距离城市中心越远, 人们乘坐出租车出行的意愿越低. 远离城市中心地区虽然单程远盈利高, 但出租客源少、 空载时间长、 空载开销大, 严重影响出租车盈利效率. 因此新模型将与载客相邻的前后两段空载纳入研究, 基于以上两点提出新模型.
In=S1×(K0-K1)-S2×K2-S3×K3
(3)
式中:In为一次载客实际盈利;S1(km)为载客里程;S2(km)为前空载里程;S3(km)为后空载里程. 因出租车营运状态为载客与空载交替, 为恰好覆盖出租车一日行程又避免重复计算, 一次载客仅选取相邻的前后空载段各一半计算开销;K2、K3分别是前后空载段出租车随速度变化的开销系数.
(4)
式中:En为出租盈利效率;In是(3)式中盈利;t1(h)为载客状态耗时;t2(h) 和t3(h)分别是前后空载状态耗时, 同样为避免重复计算仅取前后空载段耗时的一半.
以福州市2015年5月份487辆出租车GPS轨迹数据作为数据源. GPS轨迹数据采样间隔短, 连续性好, 缺失点少, 具有较高的精度与可信度. 一条完整正确的出租车GPS数据记录, 包括编号(ID), 标识号(TELEPHONE), 时间(RECETIME, GPSTIME), 速度(SPEED), 经纬度(LONGITUDE, LATITUDE)和载客状态(TRANSPORTSTATUS). 其中载客状态与出租车计价器相关, 当出租车载客时计价器启用, 则GPS记录中的TRANSPORTSTATUS 值为 3. 出租车空载时计价器闲置, 则TRANSPORTSTATUS 值为4, 依据此字段区分载客段与空载段. 出租车轨迹数据如图1所示.
图1 出租车轨迹数据实例Fig.1 Example of taxi trajectory data
出租车计价标准K0采用福州出租车公司2015年的计价标准. 新模型对载客开销系数K1、 前后空载开销系数K2、K3做改进, 通过将出租开销系数与出租行驶速度联立以克服原模型开销系数均质化的问题. 文中出租车开销主要指油耗, 国内外针对车辆能耗的测算模型大致可分为四类[9]: 基于发动机负载的油耗模型、 基于速度-加速度的油耗模型、 基于机动车比功率( VSP) 的油耗模型和基于碳平衡法的油耗模型. 以上模型在应用中存在车辆标准不统一和无法模拟实际油耗两个问题, 为此引入一种基于车辆行驶速度模拟油耗的方法, 即VSP Bin分布设计的道路油耗方法, 该方法通过模拟与实测给出一个车辆行驶速度与油耗的关系. 经PEMS(车载尾气检测)检测, 取得较好的效果. 基于此方法换算出租车随行程速度变化的动态开销系数, 结果如表1所示.
表1 出租车的动态开销系数
优质客源的时空分布既与城市居民的出行习惯相关, 也与城市公共交通的营运时间有关, 为探究城市出租车优质客源的时空分布规律将研究时长定为60 min. 研究表明[3-4]对出租车而言优质客源应是单程收入高, 时间短, 盈利效率高. 部分客源虽然单程收入高, 但前后空载时间长, 导致出租车的平均盈利效率不高, 因此从盈利效率上来筛选优质客源更合理. 通过新模型计算出租车营运的实际盈利与盈利效率, 将优质客源定义为每个时段盈利效率的前30%的客源[7]. 经过模型处理与密度计算可得城市优质客源的时空分布, 从时间上看, 可以寻找出租车出行需求在不同时段的变化规律, 探究城市居民的出行习惯; 从空间上看, 可以找到城市中优质客源的分布区域, 挖掘分布规律及其主客观原因.
经过数据处理与模型计算可得出租车总体客源与优质客源在时间上的分布状况. 为更好地进行可视化分析, 将结果导入Origin Pro制作成风向玫瑰图, 出租车总体客源与优质客源在时间上的分布与变化规律如图2所示.
图2 出租车总体客源与优质客源在24 h内的分布Fig.2 Distrubution of whole passenger and high quality passenger within 24 hour
图2采用风向玫瑰图的方法表示客源的时间分布, 图中24条柱表示24个时段的数量. 左侧坐标轴表示玫瑰图中的一格代表2 000个客源, 柱状越长则该时段客源量越大. 对比发现优质客源的分布与总体客源分布并不一致, 客源多的时段优质客源并不一定多, 优质客源在夜间20-24时集中出现.
图3 优质客源在全体客源中的比例Fig.3 Proportion of high quality passenger in the total passenger
根据图2(b)中优质客源数量在时间上的变化趋势将其分为三段: 凌晨1-5时优质客源总量小且逐渐减少; 日间6-19时优质客源总量大且逐渐增加, 夜间20-24时优质客源总量最大且数量激增. 两个谷值出现在凌晨4-5时与日间16-17时. 凌晨4-5时居民活动少, 出租客源少. 而在日间16-17时情况不同, 首先此时是下班高峰期, 道路拥堵导致通行时间长效率低; 其次福州出租司机多在此时交接班, 载客率低; 最后出租司机主观载客意愿低, 此时交通拥堵导致司机挑客、 拒载. 在图2(b)上看出优质客源数量在夜间20时后激增, 并在夜间22-23时达到顶峰. 此时道路通畅出租效率普遍提高; 其次, 非通勤高峰期, 非常规出行居多, 出租车灵活快速的特性成为首选; 最后, 公共交通的停运减少了出行选择, 迫使居民选择出租出行, 也是出租车作为公共交通重要补充的体现.
图3为优质客源占总体客源的比例. 从时间分布上来看, 在通勤高峰期优质客源比例不足15%. 优质比例最低出现在日间7-8时, 而非客源数量最少时. 在夜间22-23时比例最高, 此时段内优质客源占全体客源的46.7%. 这说明在路况、 居民生活习惯及公共交通营运时间的共同作用下, 优质客源在此时段内集中出现, 出租车司机在此时多载客可实现盈利效率最大化.
本次实验从优质客源的时空分布上比较原模型与新模型的异同. 基于同样的数据, 利用原模型与新模型分别计算整体优质客源和各时段的优质客源, 计算结果通过ArcGIS进行密度分析并输出密度分布图, 新老模型的空间分布如图4~5所示. 图4中两个客源模型结果总体差异不大, 热区都集中在火车站、 新兴商圈及城市CBD. 主要区别在火车南站, 此地距离城市中心远, 出租车等待时间长、 等待消耗大, 盈利效率低. 新模型在考虑前后空载后, 火车南站的优质客源密度显著下降.
图4 新老模型在空间分布上的对比Fig.4 Comparison between the original model and the new model
新老模型明显的区别在于市区优质客源数量. 以差异最明显的日间6-7时为例: 图5(a)为原模型结果, 图上距离城市中心远的地区出现一个热区. 因其距离远, 单程收入高, 但需较长时间揽客所以平均盈利效率低, 将此地定为出租车热区有悖常理. 图5(b)是新模型结果, 图上市区盈利效率显著提高优质客源增加, 直接原因就是市区出租需求大, 空载时间短. 司机不需花太长时间去揽客, 平均盈利效率高, 这与日常的认知相符合, 说明本文的新模型更合理.
图5 新老模型在日间6-7时空间分布上的对比Fig.5 Comparison between the original model and the new model at 6am-7am
根据优质客源在每个研究时段内的空间分布特征, 可将其划分为: 紧缩期、扩张期、 高发期. 为探究其空间分布差异与规律, 选取凌晨4-5时(紧缩期), 午间12-13时(扩张期)和夜间22-23时(高发期)对比分析, 新模型下的优质客源空间分布如图6所示. 图6(a)中, 在凌晨4-5时出行的人少, 出租需求少导致优质客源少, 集中在长途汽车站和CBD. 此时城市居民活动极少, 乘出租车出行的人也少, 分布范围小且集中分布. 图6(b)中, 在午间12-13时出行的人较多, 出租需求增加也使优质客源增加, 集中在火车北站, 仅在汽车南站与万宝商圈稍多. 此时城市居民活跃出租需求多, 分布范围广密度低但较均匀. 图6(c)中, 在夜间22-23时出行的人多, 夜间出租需求的激增使优质客源激增. 集中在火车站与城市CBD, 分布范围广密度高. 此时道路通行压力小, 路况的改善使出租效率普遍提高; 公共交通停运, 人们出行选择少; 人们多从活动地返回住所. 多种原因综合使出租车优质客源激增, 出租此时盈利效率显著提升.
图6 新模型下优质客源空间分布的三阶段Fig.6 Three periods of the spatial distribution of high quality passenger by the new model
提出并构建一种出租车优质客源评价模型, 适用于研究带载客状态的出租车轨迹数据. 提出的模型将出租载客段和相邻的前后空载段纳入研究, 并将出租运营开销与行程速度关联, 成功克服原模型开销系数均质化的问题, 实现了模拟出租车随速度变化的动态消耗. 以福州市出租车为例, 通过新模型量化出租车盈利效率, 研究分析不同时段出租车优质客源的时空分布. 结果表明在时间分布上出租车优质客源集中出现在夜间22-24时, 在空间分布上优质客源可划分为紧缩期、 扩张期与高发期三个阶段.
参考文献:
[1] ZHENG Y, LIU Y, YUAN J,etal. Urban computing with taxicabs[C]//UBICOMP 2011: Ubiquitous Computing, International Conference, ACM: Beijing, 2011: 89-98.
[2] 齐观德, 潘遥, 李石坚,等. 基于出租车轨迹数据挖掘的乘客候车时间预测[J]. 软件学报, 2013,24 (Suppl 2): 14-23.
[3] ZHANG D, SUN L, LI B,etal. Understanding taxi service strategies from taxi GPS traces[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1): 123-135.
[4] YUAN J, ZHENG Y, XIE X,etal. Driving with knowledge from the physical world[J]. Acm Sigkdd International Conference on Knowledge Discovery and Data Mining, 2011: 316-324.
[5] 袁长伟, 米雪玉, 吴群琪,等. 交通拥堵环境下的城市出租车候时费优化模型[J]. 交通运输工程学报, 2014(2): 75-81.
[6] 唐炉亮, 郑文斌, 王志强,等. 城市出租车上下客的GPS轨迹时空分布探测方法[J]. 地球信息科学学报, 2015, 17(10): 1179-1186.
[7] 孙飞, 张霞, 唐炉亮,等. 基于GPS轨迹大数据的优质客源时空分布研究[J]. 地球信息科学学报, 2015, 17(3): 329-335.
[8] YUAN J, ZHENG Y, ZHANG L,etal. Where to find my next passenger[C]// UBICOMP 2011: Ubiquitous Computing, International Conference, ACM: Beijing, 2011: 109-118.
[9] 侯亚美, 陈艳艳, 吴克寒,等. 基于BP神经网络的北京市出租车油耗模型研究[J]. 道路交通与安全, 2015(5): 43-49.