基于一卡通数据的公交站点识别方法分析与研究

2019-01-10 00:56谢振东冷梦甜吴金成
广东工业大学学报 2019年1期
关键词:公交线路IC卡高峰期

谢振东,冷梦甜,吴金成

(广东岭南通股份有限公司,广东 广州 510000)

随着我国“智慧交通”建设的不断推进和IC卡在城市公共交通领域的大规模应用,目前大部分公交车上均装有刷卡终端,这样既避免了乘客上车找零的麻烦,又为公交运营企业的结算带来便利,同时也为公交调度管理、优化公交线网和交通辅助决策提供了重要的数据依据. 但是当前我国大部分公交车采用的是一票制,即在IC卡刷卡消费信息中只有交易时间、消费金额、IC卡卡号等信息,不包含上车地点信息. 由于缺乏站点上车人数的信息,从而无法提前预知各站点乘客荷载量的真实需求,因此即使在增加公交数量之后上下班高峰期依然会出现上车难的现象[1-3].

近年来,国内外学者基于公交IC卡数据推算上车站点开展了大量研究工作. 在国外,蒙特利尔大学的研究人员Morency等[4]首次将数据挖掘技术应用到公交卡交易数据分析中;Barry等[5]将IC卡数据和GPS数据进行融合,得到公交车行驶日志后利用行驶日志并融合数据推算出上车站点. 然而,国内公交车并非全部装有GPS系统,难以获得准确和全面的数据,即使配备了GPS设备,在车辆实际运行过程中仍然会出现位置漂移,从而无法做到数据之间的精准匹配. 在国内,针对一票制且无GPS数据的公交车上车站点推算问题,郭婕等[6-9]首先对上车站点进行聚类分析,再侧重分析了相邻车站之间的时间间隔,但是在部分数据缺失的情况下难以得到保证结果的准确性. 因此建立一种基于IC卡的海量数据分析方法,用于推测乘客上车地点,这对于促进“智慧交通”建设有重要的意义.

因此本文利用海量的IC卡刷卡数据,在对交易时间上进行聚类分析的基础上,以交易次数较多的卡号为主,结合公交车调度信息、公交站点分布等信息,建立了一种新的推算上车站点的方法,通过建模的结果提出公交站点优化方案.

1 数据的采集与预处理

1.1 数据采集过程

本次研究所用的数据(公交IC卡数据)是通过如图1所示的流程进行采集,具体流程如下. (1) 数据的产生过程:乘客在乘坐公交时IC卡与车载终端进行感应,逻辑卡号、车载终端号、交易金额等信息被记录并保存在车载终端内;(2) 数据的传递过程:公交车进入车场时,通过无线传输等方式送至分管清算中心;(3) 数据的接收过程:数据分管中心通过数据通讯方式传送到总的数据库中[10-11].

图1 数据(公交IC卡数据)采集流程[10]Fig.1 Data(Bus IC card data) acquisition process

本次研究所用的数据(公交IC卡数据)为广州市内某繁忙路段所有公交终端内记载的数据(时间段为2014年10月至2015年01月),经过简单的数据预处理整理得到了符合分析要求的的80多万条数据记录,所得的IC卡交易数据结构包括线路ID、刷卡终端号码、逻辑卡号、刷卡地、交易金额交易时间和卡类型等信息,其中本次研究所用的数据如表1所示.

表1 公交IC卡刷卡数据(部分字段)Tab.1 Bus IC card data

1.2 数据预处理过程

为更好地提高数据分析结果的准确度,本研究需对1.1节中采集到的大量数据进行清洗、变换、融合等预处理操作[12]. 其中因为一些不可控的原因(刷卡动作、终端环境等)会造成公交IC数据发生异常,这些异常数据可能影响到分析结果的准确性,因此必须进行清洗. 本研究分析了如下4类异常数据[13]. (1)错误的数据:由于卡片和终端感应过程中断或错误而产生字段错配的数据;(2) 冗余的数据:由于数据采集过程中重复操作所产生的多余数据;(3) 不完整的数据:由于外部原因所产生的部分关键字段内容不完整、不能确保真实性的数据;(4) 其他异常数据:由于外部原因导致的极少数与整体趋势相差较多的数据(此类数据可进行单独分析).

其次,本次研究为了描述直观、简单,将工作日的6:00~23:00时划分为17个时间段,如表2所示.

表2 时间段与具体时间的对应关系Tab.2 The relation of the time slot andthe specific time

最后,为了绘图时表达得更加简明清晰,本研究将采用A、B、C等大写英文字母代替该线路上的各站点名称.

2 工作日公交客流分布特性分析

经研究可知,城市公交工作日客流具有一定的随机性和规律性,和天气状况、节假日、道路状态、社会活动等各种因素密切相关,客流分布特性将从时间(工作日和非工作日)、卡片类型(普通卡和非普通卡)素等方面进行研究分析. 本次研究通过以1 h为间隔内所采集公交IC卡刷卡数据为基础,经过数据处理后计算出对应时间段的持卡出行人数,描绘出行人数的变化趋势图.

为突出本研究的代表性,本次研究的数据来自于典型的公交线路,是经过广州市区人口较为密集的城区,日均客流量达2 000人次,从中选取了2014年10月到2014年12月中连续10个星期四的数据,其客流分布特征如图2所示.

图2 连续10个星期四各时间段客流量Fig.2 The different weekday(Thursday) passenger flow trend

由图2可知,该线路连续10个周四的客流规律基本保持一致:(1) 7:00~10:00出现早高峰,其中客流峰值在时间段8(即8:00~9:00),该时段的特点是客流大且集中,同时增加或减少的过程比较急剧;(2)16:00~19:00出现晚高峰,其中客流峰值在时间段17(即17:00~18:00),该时段的特点为客流分布比较均匀且变化较为缓和,同时峰值比早高峰期低. 通过分析可以得到结论为:工作日的早上乘客出行时间比较集中,晚上返程时间则相对分散[14].

为了优化城市公共交通布局,研究上下班高峰期各站点的上车人数,可为公交公司和城市管理部门提供一种新的思路,具有十分积极的意义.

3 上车站点客流的推断方法研究

通过对IC卡数据的统计分析,可以得到各站点的上车人数,上车站点人数的推断对于城市交通组织设计和综合交通规划具有重要的意义. 目前大部分城市的公交线路采用的一票制模式,这种刷卡方式的确能有效提高上车刷卡效率,但是又正是因为这样,使得无法通过这些刷卡数据直接获取上车站点信息,从而无法掌握和统计各站点的上车人数. 因此,在这种情况下,本研究为了提取刷卡数据背后所隐藏的出行规律,采用了聚类分析方法来推断站点上车人数.

3.1 聚类分析法

由前面分析可知,从IC卡刷卡数据是不能直接获取上车站点信息,但是可以对IC卡数据中的时间属性进行聚类分析,因为在同一个站点成功上车刷卡的时间会集中在某一个时间点. 其基本思路是将刷卡数据中的交易时间根据时间间隔归类[15],具体的流程如图3所示.

图3 IC卡数据聚类分析法Fig.3 The cluster analysis of IC card data

其中时间距离阈值的选择十分关键,因为阈值过小或者过大都会造成很大的计算误差. 经研究,通常最佳阈值的选择会根据公交的平均行驶速度和站点间距确定,计算公式为

式(1)中:Tb为时间距离的最佳阈值;Di, i+1(i=1,2,···,n)为站点距离;n为公交线路站点数;v为平均运行速度.

在确定时间距离的最佳阈值之后,接下来采用聚类分析法将刷卡数据分类的具体步骤为:(1) 对同一班次公交的IC卡刷卡数据按照交易时间进行排序;(2) 计算相邻两条数据交易时间,判断两类之间的最小时间差是否大于通过上述公式计算得到的最佳阈值Tb;(3) 若结论为“否”,则将距离最小的两类归为一类,重复步骤(2),若结论为“是”,则聚类结束.

通过最短距离的聚类分析后,能够分离出各个站点的刷卡数据,但是由于部分站点可能存在没有乘客上车刷卡的个别现象,因此必须通过采集足够多的数据,将个别的情况加以排除,由此经过多次对比,在误差最小化的前提下合并多天数据.

3.2 上车站点推算方法

经过上述聚类分析法已将刷卡数据分离之后,接着计算始发站和各站点的时间差Ti(i=1,2,··,n)以及公交线路的上下行方向,再根据如图4所示的流程推断上车站点,具体步骤为:(1) 输入3.1中聚类分析所得某类中的一个IC卡号,若该卡号在同一公交线路3个月内的使用次数大于20次,则执行步骤(2),若为否,则出错退出;(2) 若该卡号在工作日上班高峰期有刷卡记录,则执行步骤(3),若为否,则出错退出;(3) 导出该卡号在3个月内同时间点(10 min内,根据各公交线路发车时间间隔来规定)刷卡终端号;(4) 计算该时间点与每一个终端最早刷卡数据中的交易时间进行比较,得出最大的时间差ΔT;(5) ΔT与Ti进行匹配,判断该时间点的上车站点.

图4 上车站点推断流程图Fig.4 The inferring flow chart of boarding station

注意:其中ΔT选择原则是不得超过该公交线路始发站与终点站的时间差.

4 基于站点的客流量分析研究

最佳阈值是根据公交线路的站点分布和平均行驶速度,并结合式(1)计算得到,计算过程为

同时,利用公交站点分布、平均行驶速度和通过聚类分析所得到的分类结果,可以推断上行和下行各站点与始发站之间的时间差结果如表3所示.

表3 各站点与始发站之间的时间差1)Tab.3 The time difference betweenstations and departure station

得到以上数据之后,再利用上一节图4中所提出的方法,即可推断上下班高峰期各站点的上车人数.经聚类对比,得出4组数据对比如图5所示,分别为上班高峰期上下行各站点上车人数、下班高峰期上下行各站点上车人数.

分析4组数据发现,上下班高峰期该公交线路各站点上行站点人数比较多的站点为A、D、F、G、H、I、J、K、L、R和S,上车人数较多的区间为D~L;而下行站点人数较多的站点为F、G、H、I、J、K、L、P、R、S、X、Y和Z,上车人数较多的区间为F~L. 其中H和I两个站点在上下班高峰期上下行的上车人数较多,这是与这两个站点周边存在地铁始发站和客运汽车站有直接的关系.

因此根据上述结果,能够给出2个优化公交线路的方案:(1) 在上下班高峰期开通站点D~L区间车,能够一定程度上缓解乘客乘车难、车内拥堵等问题;(2)在上下班高峰期开通A、D、I、P、S和Z的大站快车,同样能够缓解早晚高峰乘客乘车难的现象.

5 结论

本文首先简单分析了工作日某公交线路的客流量,发现早晚两个高峰期,并针对高峰期的数据进行了分析. 对交易时间进行了最短距离聚类分析,并结合公交车调度信息及站点分布情况推算出上下行线路各站点与始发站的时间差,和聚类分析中交易次数较多卡号为准的交易时间进行匹配推导出上车站点及该站点的上车人数.

本研究还可以综合考虑广州市区内多条公交线路的上下班高峰期各站点上车人数,通过分析可以更加全面地对广州市区内公交线路进行优化;还可以根据公交GPS信息和GIS信息推断乘客的下车地点,结合上下车地点能够更好地对优化公交线路提出建议.

图5 上下班高峰期上下行各站点上车人数Fig.5 The up-line and doun-line number of passengers during morning and evening rush hour

猜你喜欢
公交线路IC卡高峰期
工商业IC卡控制器改造为物联网控制器实践
蛋鸡产蛋高峰期短的原因
在用电梯加装外接式IC卡运行控制系统设计改进
梨树进入生长高峰期 管理技术看这里
基于GIS的公交路线优化设计
基于GIS的公交路线优化设计
防患于未“燃”,温暖过冬So Easy
长春开通公交IC卡充值平
湖北省高速公路IC卡管理系统浅谈
最美公交线路上的“最美司机”