邓 伟 袁 轶 蒋善龙
(重庆交通开投集团科技发展有限公司,重庆 400700)
学海泛舟
基于IC卡历史数据的公交客流统计方法
邓 伟 袁 轶 蒋善龙
(重庆交通开投集团科技发展有限公司,重庆 400700)
随着公交IC卡的普遍使用,基于公交IC卡数据的公交客流统计方法逐步成为主流的统计方法。因国内绝大部分城市均采用上车刷卡的方式,所以需根据用户出行规律进行下车站点的推测。为降低运算复杂程度,现有的IC卡分析算法多采用基于后续公交站点吸引权的概率算法,这种算法既不能判断单个乘客的下车站点,对于总体客流又存在数据准确性问题。为此,本文对于能够形成出行闭环的单日多次出行采用传统方法推测其下车地点;对于未形成闭环的单日出行,则分析相关单个乘客历史类似天日的IC卡刷卡数据,统计出其最可能的下车站点,进而得出总体客流。采用本算法对重庆市某段时间的所有IC卡数据进行处理和统计后,经人工计数的数据对比表明:相较于传统的出行闭环算法和站点吸引权算法,本算法对于公交客流的统计更加准确。
交通工程;公交客流统计;出行预测;IC卡数据
随着公交IC卡的普遍使用,因其数据信息量全面、便于计算机统计分析等特点,在很多公交应用场合逐步替代费时的人工方法以及昂贵的专用设备统计方法,成为主流的客流统计方法。而在中国多数城市乘客只在上车时刷卡,导致无法获得完整的公共交通客流数据,从而无法根据这些基础数据进行诸如运营调度、线网规划等相关公交决策。为此,学者们就如何分析IC卡数据以获得下车站点开展了大量研究,主要采用以下两种方法:
第一种是基于IC卡的刷卡率以及一般通勤出行会形成“闭环”的特点(即上班时的下车地点往往在其下班时的上车地点附近,反之亦然),来推算其下车地点。主要研究包括:戴霄等[1,2]提出了基于单条线路的IC卡数据分析方法及基于公交IC卡的公交数据分析方法;师富民[3]以IC卡数据为基础,通过分析居民公交出行特征,建立了两站点模式对下车站点进行推算,构造居民公交出行OD矩阵。
第二种是基于不同下车站点对于客流的吸引权值不同来得出客流的大致走向。主要研究包括:戴霄等[4,5]采用基于站点吸引权的方法对公交下车站点进行判断,Cui[6]基于公交ADC数据实现了OD的推导;章威等[7]以居民IC卡刷卡记录信息和车辆GPS定位数据为基础对公交OD进行推算。
第一种方法的准确率比较高,但由于算法比较耗时,过去在并行计算等大数据分析方式尚未出现时很少采用。第二种方法存在算法准确率较差的缺点(不同天日、不同时段、不同方向、不同用地属性站点的吸引权值应该不同。比如附近土地使用性质为写字楼或办公区域的站点在不同高峰时段上下行的人流不同:早高峰下站人数多,而晚高峰上站人多),但因其计算简单且速度较快,得到较为广泛的应用。
对于公交规划和运营而言,客流数据准确率非常重要:比如根据不同时段各站点的准确客流情况可采用多种策略(区间车、屯车、大小车等)精准投放运力,从而在满足乘客出行需要的情况下,尽可能地节约人力和物力。随着计算机处理能力的提高以及并行计算、大数据分析等先进计算模式的应用,方法1计算量大的问题可得以克服。对此我们将另文阐述。
根据对重庆市所有IC卡刷卡数据的统计,对于正常的通勤天日,重庆市的刷卡率约为80%(高峰期刷卡率约95%),日刷卡人次超过500万次,其中能形成闭环的出行次数约为70%,单次出行约为8%,其它未形成闭环的多次出行约为20%,存在错误以及替人刷卡等情况的刷卡数据约为5%。鉴于方法1不能处理的情况(未形成闭环的出行:单次出行和其它未形成闭环的多次出行)占比较大:约30%,为此本文给出相应的优化算法,对这部分出行数据给出下车站点的推断,经线路实测,本算法大大优于传统的闭环出行算法。
本文算法思想如下:
(1)IC卡数据根据以下天日属性分类:异常天气情况(酷热、酷寒、暴雨等)、星期情况(工作日、周末)、节假日情况(国家法定)、冬夏时制、学生寒暑假、特殊天日(如重大事件、学生开学或放假日等)。取临近天日数据时,需满足日期属性相同。
(2)选择一条线路,对于当日IC卡出行数据能形成闭环的刷卡数据,将根据方法1推算每个乘客的下车站点,进而得出线路当日各时段(如一天分为8个时段)的OD数据。期间需考虑乘客上下班可能不会乘坐同一线路的车,但回程线路需在出发站点的一定范围之内(如下午回程的下车站点应在上午出发站点的2公里范围内)。
(3)得出每个时段的下车站点吸引权:根据(2)中得出的线路OD数据,得出各时段线路每个站点上车乘客在其后续下车各站点的下车概率。
(4)根据历史数据推断下车站点:对于未形成闭环的出行,按如下方式处理:
1)单次出行:查找相邻多天同属性天日的出行数据(如之前的15天),对起点站相同或在一定范围内、出行方向一致且当天形成闭环或有后续换乘的线路(即能推算出下行站点的类似出行历史数据),得出其可能的下车站点:比如对于乘客X而言,15天内有10天的历史数据能推算出下车站点,其中A站点下车有8次,B站点下车2次;那么乘客X的下车概率为:A站点0.8,B站点0.2。
2)多次出行:对于多次出行的数据,需按照换乘判断条件来分辨其是否为连续出行,对于最后一次非换乘出行,类似以上步骤,找出其历史数据中类似出行的下车站点,统计后得出其下车站点及概率。
3)无历史出行数据的处理:对于无类似历史记录的出行情况,按照(3)中提到的改进吸引权算法和IC卡上车时间段确定其下车站点及概率。
(5)在步骤(2)中获得的线路各站点下车人数的基础上,加上步骤(4)中三种未闭环出行情况获得下车人次概率,最后取整获得整个线路在此时段的出行OD。
3.1 预处理
(1)IC卡刷卡数据处理。IC卡中需关注以下重点字段:卡号、公交线路编码、车辆编码、刷卡交易时间。按天日分类并存储刷卡记录,根据IC卡卡号段或线路段等条件切分数据并将其分发到各计算处理节点上。
(2)线路及车辆有效数据提取。根据站点GPS位置、公交线路基础信息等获得如下表格:
车辆停留站点时刻表:日期、车辆编码、上下行标志、站点序号、站点名、进站时间、出站时间、站点纬度、站点经度。
3.2 按线路推算下车站点算法
说明:本算法首先根据上车刷卡时间获得上车站点,然后根据IC卡换乘记录或闭环出行特点,获得下车站点;对于未闭环出行,将根据历史数据或站点吸引权获得其下车站点。
3.2.1 输入数据
(1)根据线路号,获取该线路所有车辆全天的IC卡刷卡记录,并根据这些IC卡号,获得其当日乘坐其他线路的刷卡记录,包括所有换乘记录。
(2)根据IC卡记录,提取关联的所有线路、车辆信息。
(3)从GPS信息中获取所有车辆当日的进出站时刻表。
(4)根据进出站记录中的站点编号,从线路基础信息数据库获取其对应的站点资料,包括名称、上下行方向、经纬度坐标等。
3.2.2 获得所有IC卡出行记录的上下车站点
获得该车的所有IC卡刷卡数据,对每个乘客的刷卡数据按时间排序,然后对每一个乘客的数据执行:
(1)获得公交车上车站点。过去算法对上车站点的获得是通过刷卡时GPS位置与站点经纬度比较或时间聚类方式取得,存在一定误差。现在车载智能终端能够实现实时报站功能,且将进出站信息上报到后台服务器,因此根据乘客所乘车辆、刷卡时间、对应车辆的进出站历史记录,可得到乘客的上车站点。
(2)获得公交车下车地点。判断此乘客该天的刷卡次数:
1)刷卡一次,查找相邻多天同属性天日的出行数据(如之前的15天),对起点站相同或在一定范围内、出行方向一致且当天形成闭环或有后续换乘的线路(即能推算出下行站点的类似出行历史数据),得出其可能的下车站点;在没有相邻历史出行数据时,则采用吸引权算法AttractionWeightStation推测下车人次概率。
2)刷卡多次,按时间先后顺序,对每次刷卡记录(前次),与后续相邻的一次刷卡记录(后次),做如下判断:
对于非最后一次出行,调用GetNearestBusStation,离符合条件的站点,如果存在,则将首次乘车地点作为最后一次出行的下车站点;该乘客为闭环出行;如果无法通过换乘、闭环出行判断下车站点,则通过历史出行数据推断下车站点,如果不存在历史数据,则采用吸引权算法AttractionWeightStation推测下车站点。
函数:GetNearestBusStation(公交线路编码,公交站编码,换乘公交站编码)
注:获得公交线路上从指定站点上车,到其他线路换乘站点的可能下车站点。
根据公交线路编码,查询该线路所有上行及下行站点名及其GPS坐标;获得与指定上车站点在同一方向的后续其他站点;比较这些站点与换乘站点的GPS坐标距离,获得直线距离最短的站点名;如果最短距离小于给定的阈值(如1km),则此站点为下车站点,否则不存在换乘关系。
函数:AccurateAttractionWeight (公交线路编码,站点编码,上下行方向,时段)
注:获得某站点上车,其后续站点的下车概率。
获得同线路、同方向已分析出上、下车站点的出行记录;根据上车站点及上下行方向,统计此上车站点乘客在后续站点的下车人数;每个后续站点下车人数除以上车站点的总人数即为此下车站点的下车概率(也称为吸引权)。
返回:输入站点的各后续站点下站的概率数组。
3.2.3 输出
将全天划分为多个时段,获得各时段中每个乘客、每条线路及整个城市的出行OD。
图1 465线龙湖西苑站上行各时段客流图
图2 465线龙湖西苑站下行各时段客流图
图3 465线各站点客流分布图
图4 465线各站点早高峰客流分布图
图5 465线全天各站点客流分布图
重庆每天的IC卡刷卡数据约有六百至七百万条。我们将每天的IC卡数据按照IC卡号横向分割处理后,分别用大数据平台的计算节点进行并行处理,对多条公交线路的客流进行了人工实测以判断及改进算法的准确率。现以其中一条线路465为例,计算结果如图1-图5。
2016年11月10日,共22161名乘客乘坐465线路车辆,因乘客经465线路换乘或返回时不一定乘坐此线路车辆等原因,所以该线路乘客的OD推算将涉及的相关线路数约为487条(重庆市内共650余条公交线路),共82875条刷卡记录;采用CPU为4核和内存为8G的计算节点用时8分钟,获得该线路相关的所有下车站点;用时2分钟,获得该线路在某日高峰期的所有站点上下行方向的后续站点吸引权值。
对于OD推算算法和效果验证如下:
通过人工实际现场调查,465线路龙湖西苑站点早高峰(7:00-9:00)的上下车人数实测为:上行上车347人、下车104人,下行上车53人、下车208人;通过未优化的IC客流算法推算为:上行上车327人、下车78人,下行上车55人、下车156人;通过基于历史客流的IC卡客流算法推算的人数为:上行下车91人,下行下车176人。可得出两个算法的准确率分别为75%和85%,新算法效果明显。
通过对以上站点时间客流图分析,可得出如下结论:不同站点在不同时间段的站点吸引权不一致且差异较大(如位于CBD的解放碑站早高峰下车人数多,其上下车人数分别为121人、227人;而晚高峰此站上车人数多,上下车人数分别为343人、85人),所以现有基于概率的站点吸引权算法准确率存在问题,而本文基于历史类似天日的OD出行数据形成的动态站点吸引权算法的准确率与以上客流数据相符。
[ 1 ] 戴霄, 陈学武. 单条公交线路的IC卡数据分析处理方法[J].城市交通,2005,3(4):73-76.
[ 2 ] 戴霄, 陈学武, 李文勇. 公交IC卡信息处理的数据挖掘技术研究[J].交通与计算机,2006,24(1):40-42.
[ 3 ] 师富民.基于IC卡数据的公交OD矩阵构造方法研究[D].长春:吉林大学, 2004.
[ 4 ] 戴霄. 基于公交IC信息的公交数据分析方法研究[D].南京:东南大学,2006.
[ 5 ] 徐文远, 邓春瑶,刘宝义. 基于公交IC卡数据的公交客流统计方法[J].中国公路学报, 2013, 26(5):158-163.
[ 6 ] Cui A. Bus Passenger Origin-Destination Matrix Estimation Using Automated Data Collection Systems[M]. Cambridge: Massachusetts Institute of Technology, 2006.
[ 7 ] 章威, 徐建闽. 基于GPS与IC卡的公交OD量采集方法[J]. 交通与计算机,2006,24(2):21-23.
Approach on Public Traffic Passenger Flow Statistics Based on Historical IC Data
(Chongqing City Transportation Development & Investment Group, chongqing 400700)
DengWei Yuan Yi Jiang Shanlong
With popularity of public traffic IC cards, passenger flow statistics tends to be based on analysis of IC card data. Most Chinese cities only let passengers swipe cards while they get on buses, so we need estimate their get-off bus stations according to their trip rules. To cut down computational complexity, most of current IC card analysis algorithms are probabilistic algorithms, which fail to deduce each passenger’s get-off bus station in addition to their relatively low data accuracy. Thus, for passengers with trip-closed loop, we apply traditional passenger trip rule to obtain their get-off bus stations; otherwise, we analyze their historical trip data in similar days so as to predict the most probable get-off bus stations. By above method, we can get the total passenger flow of a city. Verified by monthly IC card data of Chongqing, the algorithm can get more accurate passenger flow compared with independent traditional trip-closed loop one and probabilistic ones.
traffic engineering; public traffic passenger flow statistics; traffic prediction; IC data
U491
A