基于多源数据的公交出行特征分析

2020-05-25 08:20霍晓艳赵林涛冷军强白昊鹏
公路交通技术 2020年2期
关键词:刷卡扫码公交

杨 昊,霍晓艳,赵林涛,冷军强,白昊鹏

(1.哈尔滨工业大学 交通科学与工程学院, 哈尔滨 150090; 2.哈尔滨工业大学(威海) 汽车工程学院, 山东 威海 264209; 3.帝国理工学院, 伦敦 SW7 2AZ)

城市公交作为城市公共交通的重要组成部分,对解决城市交通问题,促进城市进一步发展有重要意义[1]。公交运营管理部门需快速准确把握居民出行需求,及时对公交线网进行优化、调整政策发布与运营管理方式,能够有效提高城市公交的服务水平。因此,充分挖掘分析乘客的公交出行特征、深入了解乘客出行的规律十分重要。

在出行链方面,Scheiner等[2]从性别角度研究了复杂出行活动的出行链,利用德国的调查统计数据,通过社会经济属性与出行链的轨迹进行关联分析。Kitamura[3]在研究人们出行规律时发现,人们更倾向于将行为活动以“链”的形式首尾连接起来,这样可以提高出行效率。Yang等[4]基于居民出行活动,建立了可对出行链的出行模式进行识别的模型,利用敏感性分析法解译了因素对模型性能及出行链选择影响的程度。褚浩然等[5]基于交通现象的本质,总结出了出行链的定义和结构。蒋家高[6]在国内外出行链定义的基础上,建立了最大出行链数量的计算方法。李军等[7]基于出行链推导出了公交乘客下车站点,并建立了描述单个乘客在多天出行的完整数据分析框架。

在公交数据挖掘方面,J.Barry等[8]利用纽约市的公交IC卡刷卡信息,推导出出行者上下车站点并得到出行OD矩阵,获取该OD矩阵的前提是出行者的公交出行链是闭合的。Chapleau[9]研究AFC、GPS和GIS等多种数据的融合处理方法,用以分析公交运行状态和居民公交出行需求的变化规律。Munizaga等[10]基于多源数据,结合乘客出行链及换乘规律计算乘客下车站点。史路[11]通过对车辆配置数量、乘客人数等数据进行分析并建立仿真模型,优化车辆配置和发车时间。尹安藤等[12]首先对居民公交出行特征进行分析,再对居民公交出行OD推算方法进行研究,并推算出居民出行OD矩阵。

现有对出行链的研究主要集中在出行模式的选择及影响因素的分析上,较少利用出行链对公交乘客出行特征进行分析。在公交数据挖掘方面,少有将支付宝扫码数据与传统的IC卡刷卡数据进行融合分析,这必然会影响数据的准确性;另外,针对公交静态数据的修复与整合处理,缺乏完整的理论方法。本文采用威海市公交IC卡刷卡数据、支付宝账单数据及公交车智能调度信息数据,建立多源数据关联匹配算法,提取乘客出行链并判断乘客上下车站点,计算出各站点的上下车人数,以此为基础对公交乘客的出行特征进行分析总结。

1 基础数据条件

以威海市公交消费数据(IC卡及支付宝)与车辆GPS数据为研究对象,选取部分线路对基础数据进行处理分析。本文数据来源为2019年2月威海市公交IC卡刷卡数据、支付宝扫码数据及公交智能调度数据。数据包含约864辆公交车、143条公交线路信息(不含重复线路,包括快线、线路支线等),涉及常规公交站点1 230个。以上3种数据来自相互独立的系统,但均需利用Pandas库对其进行转换为可由SQL Server进行关联操作的格式。

2 数据预处理及初步分析

2.1 数据预处理

公交消费数据的预处理包括数据清理、时段分析、字段选择等,支付宝账单数据与IC卡数据预处理方法基本相同。分析时段以日为基本单位,以一周5个工作日作为整体分析对象,选取关键字段包括:消费时间(CONSUMEDATE)、线路编号(LINEID)、卡号(L_CARDNO)、公交编号(BUSID)等。智能调度数据记录了公交车辆全天行车记录的所有GPS数据,预处理步骤包括特征数据选取、字段选取及补增丢失数据。预处理后部分公交消费数据见表1。

表1 预处理后部分消费数据

2.2 消费数据初步分析

以威海市公交7路、3路、K2路的消费数据为例,对2019年2月27日(星期三)消费数据进行统计分析,取7:00—8:00为早高峰时段,17:00—18:00 为晚高峰时段,其中各线路刷卡客流基本特征见表2,客流时段特征见图1。

表2 各线路刷卡客流基本特征

图1 分时段乘客量统计

公交消费数据中记录了乘客的乘车线路、乘车车辆等基本信息,通过分析表2数据及图1中不同时段客流量可以看出:1) 公交站点个数一般随线路长度增加而增加,且平均站间距也会增加;2) 乘客量与线路长度无必然联系,在评价该指标时需要结合线路实际情况来判断;3) 乘客量在早晚高峰时段占比最高,均在10%左右。

3 公交乘客出行链提取

3.1 基于时空匹配的乘客上车站点识别

正常情况下,公交乘客在上车过程中完成刷卡或扫码动作,但由于公交车实际到站时间与GPS记录时间存在系统时差,需要通过不断假设和判断进行修正。以IC卡系统为例,无论IC卡系统时间是早于或迟于GPS系统时间,都会使统计结果出现误差,具体影响见图2。

因此,应以智能调度系统的时间为基准,通过不断假设计算确定刷卡(扫码)系统时间差,当车站识别率最高时,认为该时差即为系统实际时差;再通过消费记录时间以车辆时间进行匹配从而判断出站点,进而统计出站点识别率。假设系统时差为:

图2 系统时差对站点识别率的影响

Δt=Tpos-Tgps

(1)

式中:Δt为系统时间差,s;Tpos为POS机的记录时间,s;Tgps为智能调度系统的记录时间,s。

由式(1)可得修正后的系统记录时间,其公式为:

ΔTpos=Δt+Tpos

(2)

式中:ΔTpos为修正后的POS机记录时间,s。

上车站点判断可利用时间匹配原理[13],本文将SQL数据库将线路编号、车辆编号、消费时间及公交到站时间等字段建立关联视图,关联查询的主要内容为视图中的站点名称。以2019年2月27号(星期三)数据为例进行数据关联,直接匹配率仅26.7%。通过对系统时差进行不断假设修正,当系统时差取30 s时识别率达最高,75 235条数据中有59 429条数据成功匹配,识别率达到78.9%。部分上车站点匹配结果见表3。表3中,X、Y分别表示进站、出站时间。

表3 部分上车站点匹配结果

3.2 基于出行链理论的乘客下车站点识别

公共交通出行链是以公共交通方式为主要出行方式完成2次或多个连续的出行过程,强调出行的连接性。因此,本文采用公交出行链的定义为:按一定时间序列,居民乘车在时间和空间上前后衔接的公共交通线路出行过程。其特点为:居民在1 d的出行过程中,至少乘坐了2次及以上的公共交通,乘客前1次乘车的下车时间一定早于后1次乘车的上车时间。当乘客在1 d的出行过程中有多个目的地,若按原路返回路线不再是抵达最终目的地后的最短路线,乘客将选择其他距离短、行程简单路线回家,即环形闭合式出行链,见图3。

图3 环形闭合式出行链

对大部分公交出行者而言,其上车站点和下车站点总能相互转换。若同一乘客连续2次乘坐方向相反的同一线路,则可认为2次出行站点互为起始点。由已经得到乘客上车站点为基础,根据出行链理论对于乘客下车站点进行判断以得到完整的乘客公交出行链。2次及以下刷卡乘客占乘客总数的84.1%,基本能够代表公交乘客的出行需求,在Pandas库中进行下车站点匹配,47 821条数据中有35 196条数据成功匹配,识别率达73.6%。而对于1次刷卡的乘客,分析其最近一段时间内的乘车记录可发现:乘客在本次乘车线路下游方向的某一站点下车概率与乘客近期在该站点乘车次数成正比。42 326条1次刷卡数据中有5 738条数据得到匹配,部分乘客公交出行链见表4,计算可得当前数据对下车站点识别成功的贡献率为85.98%。

表4 部分乘客公交出行链

4 威海市民公交出行特征分析

4.1 乘客出行时间和乘车次数分布

威海市常规公交线路143条,常规公交站点 1 230个,基本上覆盖全市主要区域、重要主次干道以及社区街道。选取2019年2月24日(周日)及2月25日(周一)威海市公交刷卡及扫码记录,按1 h为1个时段进行全体消费次数统计分析。工作日消费次数共计约206 761次,其中7:00—8:00、17:00—18:00消费次数均超过25 000次,约占全天公交出行次数的23%,且出行目的较为单一,多为居民区到商业办公区;日间平峰时段消费次数均在12 000次/h左右,总体较为平稳。非工作日消费次数共计约183 045次,客流总量明显低于工作日,弹性出行较多且总体幅度平稳,日间消费次数均在 14 000次/h 左右,具体分布见图4。

统计数据显示,25日共有46 719张公交IC卡和64 833名手机支付宝账户被使用,刷卡和扫码总次数分别为86 351次与120 410次,平均消费次数为1.85次/人和1.86次/人。说明2种公交支付方式的公交乘客出行需求近似相等,且偏向于使用手机支付宝扫码的乘客数居多,该日刷卡次数分布见表5。

图4 威海市公交乘客时间客流分布

从表5可以看出,出行次数2次及其以下乘客占比约84%,出行次数4次及以上乘客总数量较低,不到10%,出行次数6次及以上的乘客比例极低,合计不到1%,说明威海市乘客出行过程中换乘需求较少,大部分乘客1次公交出行即可到达目的地。

表5 25日公交刷卡(扫码)次数统计

4.2 公交线路OD分析

公交线路OD能够反映该条线路各站点间的乘客出行需求,能够作为单条公交线路运营优化调整的重要依据。公交线路OD是由消费数据和GPS数据等信息相互匹配推导得出,但由于少量数据的不完整以及部分乘客使用现金,导致一些乘客的消费记录无法匹配。因此公交站点OD矩阵需进行公交原始消费数据和现金乘客2个方面的扩样,2类扩样系数推导见式(3)、式(4):

(3)

(4)

以1路公交车2月27日数据为例,通过实际调查,随车记录并统计各种支付方式所占比例,得到3次发车各站点上车总人数共287人,其中支付宝扫码人数为166人,约占58%;刷卡人数为104人,约占36%;使用现金人数为17人,约占6%。在假设投币乘客出行与刷卡及扫码乘客出行完全一致的状况下可计算得第1类扩样系数为1.367、第2类扩样系数为1.064。对数据进行提取、转换和扩样可获取各公交站点的发生量和吸引量,线路见图5,部分站点客流量见表6,站点上下车人数相关性见图6。

图5 1路公交车线路

表6 1路公交部分站点客流量

图6 站点全日上下车人数相关性

由图6可知,站点全日上车人数与下车人数的相关系数为0.810 1,拟合效果良好,各公交站点的发生量和吸引量呈正相关。证明本文所采用的方法推导出公交站间OD在各个站点的上下车人数基本达到平衡,与乘客出行特征相符。

乘客出行的起讫点用发生点与吸引点表示,在发生点和吸引点产生的客流量为该站点的发生量和吸引量,即构成站间OD矩阵。它既能在时间范围内反映乘客分散与聚集的分布特征,也能在空间范围内反映客流的流向,1路公交部分站间OD见表7。

将高峰时段及全日的公交矩阵分别做出三维图,从宏观角度对不同出行模式和出行时间下的居民出行链进行分析,还原公交乘客的出行行为,分析公交乘客的出行选择,各时段的公交OD矩阵三维图见图7、图8。

表7 1路公交站间OD矩阵(部分)

图7 1路公交高峰OD三维图

图8 1路公交全日OD三维图

对应站间OD矩阵和三维图分析可以得出,1路公交高峰期间区政府—北竹岛、骨科医院—实验中学、威高广场—北竹岛、威高广场—蓝湾怡庭、区政府—蓝湾怡庭站间客流量较大,分别达29、25、32、25、29人次,符合高峰期车乘客出行特征,起讫点基本集中在居民区与商业办公区之间;全日OD阵三维图则表现为柱状体高度分布较为平均,各个站点的客流量较为相似,符合全日内公交出行目的较为多样、起讫点相对分散的情况。

5 结束语

本文将时下热门的支付宝扫码支付账单纳入数据样本范围进行多源数据融合分析,以威海市1路车公交为例,分析其部分消费数据,得出如下结论:

1) 在2种公交支付方式中,偏向于使用支付宝扫码的乘客数量较多,但2种支付方式的公交乘客出行需求近似相等,且乘客出行过程中换乘需求较少,大部分乘客1次公交出行即可到达目的地。

2) 分析公交站间OD矩阵,早晚高峰期间乘客大部分以通勤为目的,消费次数均超过25 000 次/h,约占全天公交出行总次数的23%,且乘客出行目的较为单一,多为居民区与商业办公区之间,其他时段出行目的多样而终点相对分散,与实际情况相符。

3) 为接入支付宝或其他手机扫码方式乘车的城市提供一种准确且有效的公交出行特征分析方法,同时为下一步解决公交站址优化提供数据支撑。

猜你喜欢
刷卡扫码公交
脐橙连上物联网 扫码便知“前世今生”
山之高
一元公交开进太行深处
等公交
中国进入“扫码”时代
扫码看直播
刷卡
刷脸就可以购物
宅急送开始推行终端POS机刷卡结算
第一次刷卡