代 位
[上海市政工程设计研究总院(集团)有限公司城乡规划院,上海市 200092]
城市综合交通调查是为明确城市交通需求和运行特征而进行的调查,为城市综合交通体系规划编制、交通模型标定与校验等工作提供基础数据,包含居民出行调查等9项内容[1-2]。具备条件的城市可采用信息化数据对调查项目和内容进行适当调整,信息化数据包括视频或检测数据、车辆定位数据、移动通信数据等。
出租车轨迹数据是信息化数据的一种,属于车辆定位数据,具有以下几个特点:一是分布广泛,出租车在城市各处流动;二是采集连续,出租车在运营期间不间断返回定位数据;三是应用面广,其数据挖掘结构既能反映出租车运营特征,也可反映道路交通运行情况。因此,出租车轨迹数据在交通调查中应用价值价高。
当前对出租车轨迹数据的研究主要集中在地图匹配方面,大量文献研究了车辆轨迹点与路段匹配的精确算法[3],包括几何方法[4]、隐马尔可夫模型[5]以及其他方法[6-7],为出租车轨迹数据的处理方法积累了大量的经验。近年一些研究倾向于挖掘出租车轨迹数据所包含的居民出行[8-10]、通勤活动[11]、路网状态[12]等信息。但缺乏对出租车轨迹数据在交通调查中应用的梳理。
本文从综合交通调查的应用角度出发,梳理出租车轨迹数据在交通调查中的应用场景及要求,分析数据处理框架,并涉及适宜交通规划项目的数据处理方法,最后以实际项目为例介绍应用情况。
根据《城市综合交通调查技术标准》(GB/T 51334—2018)[1](下称《标准》)和《城市综合交通体系规划交通调查导则》[2](下称《导则》),可应用到出租车轨迹数据的交通调查主要有:出租车调查(《导则》中为“商用车调查”出租部分)、居民出行调查、道路交通调查、出行生成源调查。各项调查内容见表1。
表1 出租车轨迹数据在交通调查中的应用场景及要求
1.2.1 数据结构及处理框架
出租车轨迹数据至少应包含定位时间、经纬度、载客状态等字段,典型的轨迹数据字段及对应的数据类型如表2所示。其中定位时间、经纬度确定出租车辆的时空位置,载客状态的变化判断出租车辆订单转换,行驶速度或距离确定车辆速度。
表2 出租车轨迹数据在交通调查中的应用场景及要求
出租车轨迹数据在交通调查应用中的处理流程包括数据预处理、数据处理、数据分析三个步骤,分析框架见图1。
图1 出租车轨迹数据处理框架
1.2.2 数据预处理方法
出租车轨迹的原始数据会存在几个问题:
一是未定位的数据:往往产生于一辆出租车启动或关闭定位功能的短时间内,这段时间出租车信号很弱,无法获得准确坐标,定位状态字段[LOCATION]显示FALSE。需删除该部分数据。
二是坐标系问题:不同出租车服务商采用的定位数据坐标系可能不同,需要与交通调查所选用的坐标系统一。
三是有无客状态标记错误数据:在实践过程中,发现有部分出租车辆的载客状态字段[STATUS]的“摇摆”现象。例如t时刻显示“载客”,在t+Δt时刻(Δt为轨迹数据的记录时间步长,本文中为15 s)显示“空驶”,在t+2Δt时刻又显示“载客”。该部分数据需要通过完整的载客行驶链判断修正。
因而数据预处理包括:
一是删除未定位的数据;
二是坐标转换,将全部轨迹点经纬度坐标,转换为交通调查的统一坐标;
三是根据载客状态的变化提取初步订单行驶链,当载客状态在t时刻从“空驶”变为“载客”,在t+NΔt时刻(N为时间步长个数)从“载客”变为“空驶”,则t至t+NΔt时间内的记录构成一条初步订单行驶链Li(i为初步载客出行链编号);
四是完整订单行驶链处理,由于可能存在载客状态字段的“摇摆”现象,需要判断前后初步订单行驶链的时间间隔,记相邻两条初步订单行驶链Li和Li+1的终点和起点时间分别为tsLi,teLi+1,设定订单间距时间阈值θ,若teLi+1-tsLi≤θ,则将Li和Li+1合并,继续与下一条链进行判断,若teLi+1-tsLi>θ,则Li标记为完整订单行驶链,Li+1进行下一步判断。
1.2.3 数据处理方法
根据数据分析需求不同,出租车数据处理分为订单行驶链的起终点处理和中间点处理。
(1)订单行驶链的起终点处理
起终点处理目的是得到各车辆在每次订单的起点位置、起点时间、终点位置和终点时间,主要方法是对预处理后的完整订单行驶链起终点进行统计聚合处理,方法比较简单,本文不展开介绍。
(2)订单行驶链的中间点处理
中间点处理的目的是根据出租车的实时速度判断路段车速。本文采用一种较为简单的“相邻定位点最短路径匹配法”实现地图匹配计算过程。过程介绍如下:
a.路网数字化处理。为和交通调查中其他交通系统匹配,采用统一的路网,一般为CAD路网文件。在ArcGIS软件中导入CAD路网,转换坐标后,采用“要素转线”功能将路网打断,生成较为细致的路网图层。在该图层中,利用字段计算器中“shape.wkt”函数,生成线要素文本[wkt]字段。将[wkt]字段中的数据提取出来,获得路段点(交点或端点)的坐标、路段与路段点的关联关系。此处记路网G:
式中:P为路段点集合P={p1,p2,···,pi,···,pn};E为路段集合E={e1,e2,···,ei,···,em};对于路段集合中任意路段ei,又由点集合中的两元素pj(起点)、pk(终点)对应,即ei=(pj,pk)。
b.相邻轨迹点匹配路段点。按距离最短原则,对于出租车载客行驶链Li中的任意相邻两轨迹点lq和lq+1,匹配路段点集P中最近的两个路段点pq和pq+1。为减少匹配计算量,可划定每个轨迹点的匹配范围:记轨迹点lq坐标分别为xq、yq,设定匹配坐标计算阈值Δx和Δy,则生成路段点集P的子集Ppq满足Ppq={p(ixi,y)i|xq-Δx≤xi≤xq+Δx,yq-Δy≤yi≤yq+Δy},进而在Ppq中进行路段点的匹配。
c.生成匹配路段点的最短路径并赋速度值。对于路网G,寻找路段点pq和pq+1间的最短路径Eq=对最短路径集E中的每一条路段q记录定位点此时的时刻和速度。若车辆在某时段速度很低(例如发生了拥堵情况),导致匹配的路段点相同,即pq=pq+1,则将速度值赋给上一时段。同样,为减少计算量,可划定最短路径计算范围:合并计算路段点pq和pq+1时的点集Ppq和Ppq+1,得到点集PΣq,并得到其关联的路段集EΣq,构成路网子集GΣq={PΣq,EΣq},进而在GΣq中计算最短路径Eq。
d.聚合出结果。所有车辆的轨迹点匹配完成后,计算各时段每条路段的平均运行速度值。由于不同等级路段直接比较运行速度意义不大,还可以计算路段运行指数。本文定于路段运行指数=该段道路上最高运行速度/统计时段内平均运行速度。
以某市连续一周工作日的1 816辆巡游出租车数据进行相关交通调查工作。该市中心城区出租车辆总规模为5 150台,其中巡游车2 750台,网约车2 400余台,出租车万人拥有率为18.7台/万人。样本比例为35%,满足抽样率要求。
经过计算,该市出租车平均日载客19单,行驶里程163.2 km。平均每单载客时间14.3分钟,出行距离为6.7 km(见图2)。平均里程利用率为78%,空驶率较低,出租经营状态良好。从早8时至晚21时,出租车订单比例均在5%以上,波动较小;出租车出行高峰发生在17~18时,比例达7.2%,案例城市出租车订单时变特征见图3。
图2 案例城市出租车出行距离分布
图3 案例城市出租车订单时变特征
从出租车订单的起点和终点分布(图4、图5)来看,出发、到达地空间分布大体趋同,主要分布在高铁北站、机场、火车站等重要交通枢纽区域,以及大学城、解放路商业中心、北京路商务中心等商贸活动片区,反映出租车出行主要服务进出城旅客和商贸活动乘客的特点。出租车订单起终点空间分布也可为运营公司科学调配车辆资源提供决策依据。
图4 案例城市出租车订单起点空间分布
图5 案例城市出租车订单终点空间分布
通过地图匹配和各条道路聚合计算,结合不同道路等级对应的设计速度,得到各时段各条路段平均行驶速度和拥堵指数分布。计算结果表明:
一是速度空间分布,高峰小时路段拥堵指数分布(如图6)表明,通达路桥、沂蒙路桥拥堵严重,北京路桥、解放路桥行驶缓慢,城区过河交通压力较大;横向兰山路、金雀山路、陶然路、凤凰大街,纵向蒙山大道、通达路、沂州路等路段较为拥堵。
图6 工作日晚高峰小时路段拥堵指数分布
二是速度时间分布,从全市出租车车速变化特征(图7)可看出,存在两个明显“低谷”时段,分别为7~8时和17~18时,且晚高峰运行车速更低,路网更拥堵。
图7 案例城市出租车车速时变特征
以高铁北站为出行生成源,可研究其区域内出租车到发时空分布。以到达地分布为例(见图8),可看出,从高铁北站出发的出租车,终点集中分布在大学城区域,此外北京路商务区、解放路商业区分布较多,机场、河东区域、罗庄区域分布较少。
图8 以高铁北站为终点的出租车起点分布
将每笔出租车订单的起终点分别对应到交通小区(或中区、大区)中,按区域聚合,便可得到区域间的出租车出行OD矩阵和期望线分布。图9是该城市交通大区的出租车出行期望线图,可看出,兰山老城区与北城新区间联系最为紧密,出租车出行量最大;与河东区北部、罗庄区联系较紧密;其他区域间出租车出行量不大。该数据结果,可为居民出行调查中的出租车出行分布提供校正依据,亦可为完善交通模型提供支持。
图9 交通大区出租车出行期望线图
本文系统梳理了出租车轨迹数据在交通调查中的应用场景及应用方法,重点介绍了数据处理流程、关键算法,及其在某城市出租车调查、车速调查、出行生成源调查和居民出行调查中的应用结论。本文中的应用方法适用于综合交通规划、相关交通专项规划中的交通调查,为信息化手段进行交通调查提供了有效手段。今后将持续深入挖掘出租车轨迹数据的开发应用。