张欣环, 吴一昊, 吴金洪, 许明明, 毛程远
(1.浙江师范大学 道路与交通工程研究中心,浙江 金华 321004;2.金华市公安局 交通警察支队,浙江 金华 321000;3.宁波市公共交通客运管理局,浙江 宁波 315040)
公交客流分析是公交出行需求辨识、线网评估与优化,以及公交优先发展政策制定和实施的基础.乘客出行、公交线网客流数据的传统调查方法成本较高,受限于调查技术和调查误差,精度难以保证,已有的单源数据(IC卡等)都不同程度地存在一定的局限性.现阶段,公交IC卡、GPS系统的推广使用,使得低成本的自动化采集海量多源数据成为可能,并为公交客流特征的提取奠定了良好的数据基础.
目前,对公交客流特征的研究过于单一和理论化,且大多应用于广义公交领域:蔡文学等[1]提出基于公交线网、GPS数据等多源数据构建公交旅行时间计算模型;吕玉坤[2]挖掘多源海量数据,推导出公交乘客的出行链模型;田源[3]以公交车GPS、IC卡数据为主,构建了以站点、路段和线路为准则层面的公交评价指标体系;余庆等[4]以深圳市为案例,基于公交IC卡、微博签到数据等多源数据,构建了公交客流规模模型;王俊兵等[5-8]以IC卡、AFC等数据为主,关联匹配各项数据后提取公共交通出行链,进而对公交客流进行分析.可以看出,目前还没有一套完整的常规公交多源数据处理方法,难以获取完整的客流信息;缺乏对常规公交数据整体深度挖掘和应用的研究,不适用于实际应用.
本文通过对多源异构数据的匹配与处理,构建客流特征分析的数据基础;在客流特征信息提取过程中,提出了在判别过程中的合理匹配阈值、识别刷卡站点及匹配出行起讫点的方法与流程,建立基于多源数据的常规公交客流识别模型,充分考虑提取方法实际应用的可行性,所得成果有利于提高常规公交服务的可靠性,可实现乘客个体出行过程的再现并完成常规公交客流特征提取分析,对于后期公交运营计划的调整、城市出行结构的优化具有重要的理论意义和应用价值.
通常,常规公交IC卡数据共有多个字段,包含了车辆编号、刷卡时间、刷卡时的经纬度等信息.根据不同的统计分析目的,从原始数据库中抽取部分字段进行后续的融合、推断.公交IC卡刷卡数据记录了每位乘客单次乘车刷卡的详细信息,本次研究提取金华市2018年3月1日全天的出行记录,全天共有6.3万余条记录,数据结构如表1所示.
表1 公交IC卡部分数据
车载GPS终端实时采集公交定位数据,原始数据中每条记录包含了车辆编号、经纬度、行程编号等多个信息.根据分析要求,从数据仓库中选择不同字段数据进行预处理.结合GPS、IC卡、线路站点等数据可以推断上下站点、公交OD等信息.从原始数据中提取的公交车GPS数据,包含6个字段(车辆编号、车牌号、经度、纬度、时刻及所属线路等),可以实时跟踪车辆所处位置.
为进一步进行后续分析,本文将公交GPS数据(共计304万条记录)作进一步处理,获得车辆到离站信息表(约14.5万条记录,数据结构如表2所示),这些记录包括车辆编号、对应线路、上下行、站点编号、站点名称、到离站时间等信息.
表2 公交车辆到离站数据
本次调查总共覆盖了732台公交车辆全天到离站数据,涵盖140条线路(市区70条,城乡70条),线路抽样率80%(市区100%,城乡67%),未覆盖线路客流占全天客流的比例仅为4.3%,基本实现全市公交线路全覆盖.
2.1.1 数据处理流程
数据处理流程如下:
1)基于ArcGIS的公交网络的拓扑表达;
2)结合GPS数据获得每一个IC刷卡点对应的公交线路行车路径(Pattern)、在公交网络上的位置(偏移量);
3)针对每一个公交线路行车路径估算出车辆的进、出站时间,从而得到每个路段(transit link)上的旅行时间和站点停留时间;
4)将所有的路段旅行时间、站点停留时间一一对应到(分配到)公交网络上.
2.1.2 基本时间特征
根据公交车辆运行特点,将公交车在相邻站点间运行的时间进行分解,刷卡间隔分布如图1所示,且具有以下特征:
图1 刷卡间隔分布
1)站内最短刷卡间隔时间的平均值:根据每个站点站内最短刷卡间隔时间tmin(i,i),求得它们的平均值tmean(i,i).数据分析中,“IC卡刷卡数据是否发生在同一站点”为关键点,通常用刷卡间隔作为判断依据.本调查中,抽取部分线路共4 265例刷卡间隔有效数据,得tmean(i,i)为22.5 s.
2)相邻站点间最短刷卡间隔时间的平均值:根据相邻站点间最短刷卡间隔时间tmin(i,i+1),求得它们的平均值tmean(i,i+1).如图1虚线所示,数据基本呈正态分布,得tmean(i,i+1)为163.7 s.
3)判断依据:可在两曲线重叠部分选取一个特定值,作为判断“IC卡刷卡数据是否发生在同一站点”的依据,因此刷卡间隔取72.0 s作为判断阈值较为合适.
2.2.1 上车站点判断
上车站点的判断是完成进一步的乘客出行特征分析的前提和数据准备,是公交IC数据处理的关键环节.本文在对IC卡数据特点进行分析的基础上,应用Oracle软件编程解决了上车站点判断问题.
1)数据准备.本文以其中一日刷卡数据作为基本分析数据段.在数据分析之前,需要从数据仓库内的各类数据表中进一步对数据进行提取和筛选,只需提取需要用到的字段数据.
2)判断流程.
①判断思路.为匹配出公交乘客出行OD,需要推算出刷卡乘客的上车站点及下车站点.其中上车站点的推算较为简单,先对IC卡数据进行时间聚类,将所有刷卡数据归类到各个站点;通过IC卡、GPS数据表中的“刷卡时间”进行匹配,查找时间上最近的刷卡点;再结合公交线网GIS站点坐标,进行空间匹配.最终确定刷卡乘客的上车站点,如图2所示.
图2 数据处理流程
②判断步骤.
步骤1:聚类分析.提取数据、排序后进行聚类处理,以刷卡间隔作为聚类依据,间隔较短的刷卡数据作为一组.
步骤2:最短刷卡间隔.设t(m,n)为任意两组数据刷卡间隔,min[t(m,n)]为最短间隔,当min[t(m,n)]大于“相邻站点间最短刷卡间隔min[t(i,i+1)]”时聚类停止[9].根据金华市常规公交基础设施、刷卡数据等信息,本文取min[t(i,i+1)]为72.0 s.
步骤3:停靠时刻推算.公交车停靠时刻取公交车到达站点时刻与离开站点时刻的中间时刻,可用下式表示:
(1)
式(1)中:tS(n,i)表示公交车n在i站点的停靠时刻;tA(n,i)表示公交车n到达i站点的时刻;tD(n,i)表示公交车n离开i站点的时刻;tDW(n,i)表示公交车n在i站点的停留时间.
步骤4:时空匹配.计算站点停靠时刻后,搜索与该停靠时刻最接近的IC卡,进而获取该卡刷卡点的空间位置SW(i)(由刷卡时的经纬度坐标表示);进一步搜索与该刷卡点SW(i)在空间上最接近的站点ST(i)(站点经纬度数据在线网数据库中获取),当min(|SW(i)-ST(i)|)≤D时(|SW(i)-ST(i)|和D为空间距离,D可根据不同站台设计尺寸确定,本案例取15 m),所取ST(i)对应的公交站点就被认为是刷卡站点,即上车站点.
2.2.2 数据剔除与归并
当公交车在红灯前或遇到交通事件时停止,且同时有乘客刷卡时,其数据表现形式就会与在公交站点发生的刷卡事件相同,在处理数据的过程中,极易将其认为是站点的停留时间.因此,在数据分析前需要将该部分数据剔除.
其判断方法及步骤同确定上车站点时的类似.不同的是最后一步的判断标准,即
D=min(|SW(i)-ST(i)|)>D0.
(2)
式(2)中,D0为一固定值,可取线路上公交站台最大长度(本文取15 m).当D>D0时,即认为该部分数据不是站点停留时间,应当将其作为旅行时间的一部分,并将其从停留时间内剔除,归并到路段旅行时间内.
为匹配出公交乘客出行OD,需要推算出刷卡乘客的上车站点及下车站点.原则上,城市居民一日内公交出行具有规律性,本文采用“基于出行链下车站点推导”方法进行下车站点推算[10].结合上、下车站点的信息,最终获取公交OD数据,如表3所示.根据上下车站点算法,结合VBA编程,实现对于多次刷卡乘客的公交出行OD的分析.本文最终共获得1.74万人次一日内4.09万次的公交出行OD记录,占全日公交出行总次数的23.1%.经扩算后,得到常规公交出行OD.数据显示:江南与江北之间的出行比例大于江北、江南各自东西向的出行,也说明公交方式在长距离出行中具有一定的优势.
表3 公交OD部分数据
截止2018年6月,金华市公交集团共有营运车辆1 061台,全部运营车辆均配备GPS监控设备及IC卡刷卡装置,并可实时存储GPS数据及刷卡数据;营运线路共计175条,2017年市区公交分担率为20.2%,与国内其他城市相比稍显滞后[11].
本文以金华市普通工作日(2018年3月1日)的常规公交多源数据为算例:一张IC卡对应一位乘客,结合IC、GPS、线路站点、调度数据等多源数据,获取乘客公交出行特征、线网客流特征,统计分析常规公交客流特征.
3.2.1 总体出行特征
对分析时段内所有IC卡(含BRT、市区公交、
郊区公交)数据进行统计:
1)乘客组成:50%以上的公交乘客为本市居民,郊区线路中暂住人员、外来人员占比较高.
2)支付方式:IC卡使用率偏低,近6成乘客仍使用投币方式,公交客源不稳定.
3)出行目的:公交乘客出行以上下班、生活购物为主.
3.2.2 出行时间分布
1)日出行时耗:公交日出行时间为39 min,平均乘车时间为26 min.金东区与婺城新区之间的平均出行时间为55~65 min,出行时间较长.
2)客流时间分布:根据当日分时段IC卡的数据统计,早晚高峰系数分别为14.1%和13.2%(7:15—8:15为早高峰,16:45—17:45为晚高峰);平峰时段的客流量为高峰时段的45.0%左右,客流时间分布如图3所示.
图3 客流出行时间分布
3.2.3 出行空间分布
公交乘客出行主要集中在东关、西关、江南、湖海塘等区域,一环内公交出行量占比82.4%.金东区块公交出行量约6 500人次;婺城区等新区公交出行总量偏低,占全市公交出行量的比重较少.东西两翼公交出行总量仅维持在1 800人次左右.
在全市范围内选择72条线路,乘距统计信息显示,公交乘客平均乘次站点个数为12站,平均乘次起终点站间距为7.32 km,居民公交乘车距离较大.城区线路中有超过16.1%的公交线路乘客“平均站距/线路单程”的值高于0.5.这部分线路未来可以采用大站快车的形式提高运行效率.
3.3.1 集散点客流特征
通过IC卡数据选取公交客流较大的11个站点,统计各站点高峰乘降情况(早高峰时段7:15—9:15,晚高峰时段16:45—18:45).从公交客流集散点上下客人数汇总可以看出,金华站公交站点客流量最大,其次为人民广场和金华商城.
集散点客流数据显示:在早高峰时段(7:15—8:15),江北的上车乘客人数多于下车乘客人数,在晚高峰时段(17:00—18:00),江南呈现出上车乘客人数多于下车人数的特征,而江北的枢纽站——金华站和汽车东站,则呈现出上车人数多于下车人数的现象.
3.3.2 线网客流特征
目前,市区公交主流向及其断面流量如图4所示,八一南街、八一北街为南北向主干道,集中了39.2%的全日公交客流;与其他桥梁相比,通济桥断面公交客流量最大(占43.2%的全日公交客流),双龙大桥的交通量和公交车流量排名第二,这2座桥为连接江南江北的主要交通走廊.通济桥公交车占总交通量的比例低于7.0%,却承载了30.0%的公交客流,双龙大桥公交车交通量占总交通量的2.45%,分担了10.18%的载客量.双溪西路、人民路为东西走向次一级的公交走廊,全天双向运量约19 500人次.
图4 断面客流分布图
公交服务水平对吸引乘客出行具有重要作用.结合乘客问询调查统计有以下特点:
1)公交换乘:结合IC卡分析显示,公交出行的换乘系数为1.15,很好地满足了大城市中城市换乘系数不大于1.5的规范要求.
2)服务半径:公交出行时间长短对吸引乘客出行具有重要作用,金华市公交站点分布情况较好,居民步行10 min的距离内就有公交服务(10 min以内占比84%),并且下车后也只需10 min就可到达目的地(10 min以内占比87%).但是,各项数据表明,站点500 m服务半径未达到90%,覆盖率有进一步提高的空间.
3)运行速度:公交线路高峰时段的平均行程速度是20.1 km/h,平峰时段的平均行程速度为23.4 km/h,最低运行车速为13.2 km/h(K27路);K9路、K15路、K20路、K24路、K35路、K53路、Y6路等公交线路,由于运营线路主要集中在中心区,因此,平均车速均低于15 km/h;郊区的线路,如游7路、K1路、318路等,运营速度较高.
4)满载率:选取各跨江断面进行公交高峰满载率调查,共获得34条城区线路的高峰时段满载率数据,如表4所示.高峰时段金华城区公交线路的负荷度平均值为0.51,还未达到饱和,高峰时段满载率为0.6~0.7,较为适中.高峰时段满载率过高会降低乘客的乘坐舒适性,导致乘客向其他出行方式转移,恶化出行结构.
表4 高峰时段满载率
5)乘客满意度:公交意愿调查结果显示,61%的乘客认为金华常规公交的总体情况良好,只有2%的乘客对公交系统表示不满.乘客认为,金华公交系统主要存在以下问题:等车时间太长、线路绕行过多、没有直达车、末班车收车过早、车速较慢等.
将多源信息融合技术应用于城市常规公交领域,实现对乘客的出行特征精准描述,探求城市常规公交系统的规律性,有利于找出常规公交存在的问题并进行改善,以提高乘客的出行体验.
利用公交IC卡、GPS等多源数据获取金华市常规公交客流数据,有利于后期公交运营计划的改善、公交线网的调整、城市出行结构的优化.案例表明:基于多源数据的常规公交客流特征分析方法可行,其分析结果较传统方法成本低,且实时性好,可以有效提高后续常规公交系统的分析评估精度.