朱士光,四兵锋,崔鸿蒙,薛景文
(北京交通大学 交通运输学院,北京 100044)
城市轨道交通站间起讫点(origin destination,OD)客流及其时空分布是制定路网规划、运营组织的重要依据,把握客流OD时空特征并对其进行精准预测对于城市轨道交通运营管理具有重要意义。根据客流预测的时间粒度和周期,城市轨道交通OD客流预测可分为长期的静态OD预测和短期的动态OD预测[1]。前者主要是基于社会经济因素,对未来路网中的均衡OD客流进行预测,主要用于路网规划或宏观政策的制定;而后者则关注短时或短期的分时段OD客流的变化规律,常采用基于数据统计的时间序列方法,可得到未来特定时间段的OD客流,主要用于城市轨道交通的客流组织、管控以及行车调度等。
目前,交通OD客流预测的数据基础主要有手机信令数据[1-2]、GPS数据[3]以及智能交通卡数据[4-5]3种类型。由于城市轨道交通系统相对封闭,受外界干扰程度较低,且通过自动售检票系统(AFC)就可以实时获取乘客的进站、出站等时空信息。因此,一些学者基于AFC数据,对城市轨道交通OD客流预测进行了研究。早期的预测方法主要是基于历史数据统计分析的集计模型,包括时间序列分析模型[6-7]、卡尔曼滤波模型[8-9]、k近邻算法模型[10]等。这类方法的优点是计算简单、容易实现,但对于复杂条件下的OD预测稳定性较差。近年来,基于数据学习的预测方法由于具有良好的自适应性和较强的数据拟合能力,被广泛地应用于复杂条件下的交通预测,包括支持向量机模型、神经网络模型、深度学习模型等[11-13]。这类方法虽然预测效果较为理想,但由于模型本身存在较高的计算复杂度,很难应用于对计算效率要求更高的实时在线OD预测。
随着城市轨道交通网络规模的持续扩大,客流时空分布特征变化愈加复杂,强调实时性的在线OD预测已经逐渐成为城市轨道交通领域的研究热点。对城市轨道交通客流进行在线OD预测有助于地铁运营组织快速作出反应,从而提高运营效率,尤其是对于早晚高峰时期的阶段性客流进行在线OD预测,对地铁运营组织进行有效的客流管控和及时的行车调度具有重要意义。目前在线OD预测方法主要有两种[14-16]:一种是基于历史同期数据的集计分析预测方法,这类方法计算简单,但预测精度较差,很难拟合短时OD客流的随机波动特征;另外一种是基于乘客个体的预测方法,这类方法通过对乘客单一个体的OD规律进行分析,有效解决了集计分析方法存在的难以拟合随机波动的弊端。但目前的研究大多是针对路网变化、突发事件等特殊情况下的OD流量预测,不具备普适性。
当乘客刷卡进站时,AFC系统可以实时采集该乘客的进站信息,因此在线OD预测可以转化为已知乘客进站时间和地点的出行目的地预测问题。蒋熙等[17]基于对实时AFC数据的分析,提出了将机器学习与递归贝叶斯相结合的客流OD动态估计方法;许胜博[18]通过提取乘客的出行特征,提出了一种基于乘客出行习惯的出行目的地预测方法。这两种方法由于未对乘客出行习惯做更深层次的分析和提取,导致对平峰时段的乘客出行目的地预测效果较差,且对乘客的随机出行敏感度较低。
目前已有的城市轨道交通在线OD预测方法,在及时性和准确性兼顾方面仍有待提高。本文通过对大量AFC历史数据的挖掘与分析,从乘客个体OD时空特征角度出发,综合其历史刷卡数据和实时进站信息,研究与之适用的出行目的地在线预测方法,为地铁运营组织进行在线决策提供参考。
通常,如果某位乘客频繁在同一时间段乘坐地铁出行,可认为该乘客的出行在该时间段是具有规律的;如果某位乘客频繁在同一站间OD出行,可认为该乘客的出行在空间上是具有规律的。基于乘客出行的时间段以及OD站点等信息,本文提出了乘客OD时空特征的概念,即乘客在同一时间段内、在同一OD间的出行呈现出具有统计特征的规律性。例如,某乘客从车站X到车站Y的历史出行记录总共有4条,其进站时间分别是09:08、08:54、08:49、09:11,则该乘客的OD时空特征可表示为:在08:49—09:11从车站X出发前往车站Y。乘客的某种OD时空特征可表示如下:
(1)
对于某位具体的乘客来说,乘坐地铁出行的目的并非是固定的,因此,在该乘客已经完成的历史出行记录中,可能会存在多种类型的OD时空特征,并构成该乘客的OD时空特征矩阵。乘客n的OD时空特征矩阵可表示如下:
(2)
根据乘客的历史刷卡记录,就可挖掘出乘客单一个体的OD出行时空特征。目前,基于智能交通卡数据的乘客OD时空特征挖掘方法主要是乘客行程聚类[4],聚类方法主要有层次聚类和非层次聚类两种类型。由于聚类前乘客的OD时空特征数量未知,因此需要提前设定集群数量和聚类终止条件的层次聚类方法并不适用。在非层次聚类方法中,密度聚类(density-based spatial clustering of application with noise,DBSCAN)算法由于不需要提前设定集群数量,也不需要设定聚类终止条件,而且对于象征乘客无规律出行的噪声不敏感,高密度的出行记录更容易划分到同一个集群中,因此本文提出了一种基于改进DBSCAN算法的乘客OD时空特征提取方法。
DBSCAN算法设有两个全局参数:邻域半径参数EPS和邻域密度阈值MinPts。为了聚类的方便性,需要对原始AFC数据进行预处理。首先需要将乘客进站时间转换为分钟格式,并将日期信息去除,从而便于对两次出行时间的差值进行判断。例如某次出行进站时间为2019-11-03的8:30,将其转换为分钟格式,即8×60+30=510。此外还需要对OD进行编码,为了保证密度聚类过程中不同的OD之间不会互相干扰,每个OD编码赋值后的间隔应大于邻域半径参数EPS。设乘客n的历史刷卡记录集用Vn表示,则有:
(3)
图1 某乘客OD时空特征Fig.1 OD spatiotemporal characteristics of a passenger
步骤4 转入步骤2,直至所有对象标记为visited,转入步骤5;
。
(4)
步骤2 计算累计概率分布函数Fi
。
(5)
步骤3 生成(0,1)内的随机数μ;
(6)
(7)
(8)
图2 朴素贝叶斯算法流程图Fig.2 Flow chart of the naive Bayesian algorithm
由于乘客选择地铁方式出行受到季节、气候等多种因素的影响,因此乘客在不同月份的地铁出行OD时空特征可能会出现较大差异。根据对大量AFC历史数据的统计分析发现,乘客个体在一个自然月内的OD时空特征是相对稳定的。因此,本文选取了南京市轨道交通AFC系统2018-03-01至2018-03-31持一卡通乘客的1685万条出行记录作为数据学习训练样本集。
在对乘客OD时空特征进行提取时,首先需要对DBSCAN算法的两个全局参数赋值。一般认为,在时间间隔为15 min时,当前客流与历史先验客流之间会存在较强的相关性。因此本文将DBSCAN算法的邻域半径参数EPS设为15,并将OD对编码设为20的倍数。即认为当某乘客的两次出行记录的时间间隔为15 min以内时,两次出行在时间上较为集中。由于本文选取的AFC历史数据为4周,故将DBSCAN算法的邻域密度阈值MinPts的取值设为4,即认为若某乘客在某OD对间平均每周同一时间段出行至少一次,则认为该乘客在此时间段为固定规律出行。表1为提取的部分乘客ID的OD时空特征。
表1 乘客OD时空特征表
本文随机选取了南京市轨道交通两个站点——新街口站和油坊桥站作为样本数据采集点,以早高峰9:00—9:15进站乘客刷卡记录作为待预测样本集,对其OD进行实时预测。根据乘客ID完成待预测刷卡信息与其OD时空特征矩阵的匹配,匹配结果显示待预测出行乘客的构成如下:新街口站在该时间段内总共有356位进站乘客,其中对应唯一OD时空特征的乘客共有67 人,占总体客流的18.8%,另外有7人对应2 个OD时空特征,其余282名乘客则无对应OD时空特征;油坊桥站在该时间段内总共有1075位乘客,其中对应唯一OD时空特征的乘客共有420 人,占总体客流的39%,另外有9 人对应2个OD时空特征,其余646名乘客无对应OD时空特征。
基于上述准备工作,本文对新街口站和油坊桥站两个站点在早高峰9:00—9:15时间段内的所有持一卡通进站乘客进行了出行目的地预测,表2为新街口站的部分进站乘客预测结果。
表2 新街口站预测结果
续表2
图3~5为根据不同OD时空特征的乘客分别采用直接匹配法、蒙特卡罗模拟方法、朴素贝叶斯法(机器学习法)进行的预测分析。如图3所示,乘客A在9:00左右于新街口站(站点编号为5)或在19:30左右于九龙湖站(站点编号为113)出行时只能匹配到唯一OD时空特征。对于这种情况,本文采用直接匹配法将该OD时空特征的目的地站点直接作为该乘客的出行预测目的地。对新街口站对应唯一OD时空特征的67位进站乘客目的地预测结果进行统计,发现有64位乘客的目的地预测都是正确的,准确率达到了96%。油坊桥站对应的420 位乘客中,有405位乘客的目的地预测正确,预测准确率达到了97%。
图3 乘客A的OD时空特征Fig.3 OD spatiotemporal characteristics of passenger A
如图4所示,乘客B在上午7:00左右于油坊桥站(站点编号为46)出行时可以匹配到2个OD时空特征,其中竹山路站编号为7。对于这种情况,本文采用蒙特卡罗模拟的方法对其进行实验,考虑到仿真的随机性,本文进行了多次重复实验。4次仿真预测乘客目的地的个数分别为3、2、4、3,预测的准确率大概在50%左右。虽然该方法的准确率较低,但是考虑到这部分乘客占总体客流的比例较低,因此对总体预测结果的影响可以忽略不计。
图4 乘客B的OD时空特征Fig.4 OD spatiotemporal characteristics of passenger B
如图5示,乘客C在绝大多数时间段内于任何站点出行时,都无法匹配到OD时空特征,图5中柳州东路站编号为93,南京南站编号为114。对于这种情况,本文采用基于朴素贝叶斯的方法对其进行数据学习,对新街口站无对应OD规律的282位进站乘客目的地预测结果进行统计,结果显示有221位乘客的目的地预测都是正确的,准确率达到了79%。油坊桥站对应的646位乘客中,有541位乘客的目的地预测正确,预测准确率同样达到了84%。
图5 乘客C的OD时空特征Fig.5 OD spatiotemporal characteristics of passenger C
3种方法的详细预测结果和预测准确率如表3所示。根据统计结果,新街口站在9:00—9:15所有进站乘客的目的地预测准确率在81%左右,油坊桥站在该时段所有进站乘客的预测准确率可以达到88%。可以看出,使用基于OD时空特征直接匹配的预测方法准确度最高,可以达到96%以上。基于机器学习的朴素贝叶斯方法次之,可以达到80%左右。而基于蒙特卡罗模拟的预测方法准确度最低,但考虑到该部分乘客所占比例较小,因此对总体预测结果并无太大影响。
表3 3种预测方法准确率统计对比
图6分别是新街口站和油坊桥站全天各时段的预测准确率变化趋势图,可以看出,这两个站点的预测准确度在客流早高峰和晚高峰时段要相对高一些。而在平峰运营时段(包括周末和节假日),由于随机乘客占总进站客流的比例相较早晚高峰时段要更高,因此预测准确率也会有所下降,但下降幅度在可接受范围之内。针对平峰运营时段以及周末和节假日预测准确率有所下降的现象,本文通过增加样本数量集进行了重复实验,结果显示通过增加特定时间段的历史刷卡数据样本数量,可有效提高预测准确度,但同时也会降低计算效率。
图6 新街口站和油坊桥站全天预测准确率趋势图Fig.6 The trend chart of all-day prediction accuracy of Xinjiekou and Youfangqiao station
本文通过对大量AFC历史数据的挖掘与分析,从乘客个体角度,提出了一种基于OD时空特征提取的城市轨道交通乘客目的地预测方法,并以南京市轨道交通AFC刷卡数据进行了实例分析,结果显示早高峰时段的乘客OD实时预测准确率可以达到80%以上,且全天预测精度较为稳定,可为地铁运营组织进行有效的客流管控和及时的行车调度提供参考。由于采用的历史AFC数据时间跨度仅为一个月,且未考虑法定节假日、大型聚会等特殊情况,所提出的方法有待更丰富的数据去验证,针对特殊情况下的乘客出行目的地预测方法还需进一步深入研究。