基于深度学习的公交行驶轨迹预测研究综述

2024-05-11 03:32:56杨晨曦庄旭菲陈俊楠

计算机工程与应用 2024年9期

杨晨曦，庄旭菲，陈俊楠，李衡

内蒙古工业大学信息工程学院，呼和浩特 010080

优先发展城市公交系统，提高其服务质量和吸引力，可以减少私人车辆的使用，从而达到缓解交通拥堵、提高城市公共服务水平、节约资源和保护环境的目的。时间可靠性是衡量公交系统服务质量的决定性因素之一，主要体现为对公交行驶轨迹的准确预测，即对公交线路上的重要位置点（站点或道路交叉口）进行准确的公交到达时间（bus arrival time，BAT）预测。由于公交旅行时间（bus travel time，BTT）计算为公交车从某一轨迹点行驶到目标轨迹点的总时间[1]，故可以将公交行驶轨迹预测、BTT预测和BAT预测视为同一问题的不同描述。准确预测BAT的重点在于合理选择影响因素，收集有效的观测数据并进行数据预处理，最终研究合适的预测模型。如图1简述了BAT预测问题的研究方法。

图1 BAT预测问题的研究方法Fig.1 Research method for BAT prediction problem

近年来，众多学者在BAT 预测领域进行了大量研究，利用交通数据设计了一系列算法和模型。同时，也有一些学者对这些方法进行了总结。柏梦婷等人[2]主要对高速公路上的行程时间预测方法进行了总结分析，对城区内的公交行程时间预测方法分析较少。Abdi 等人[3]对不同场景下，包括公交车在内的各种类型车辆的出行时间预测方法进行了总结，但对基于深度学习的BAT 预测方法分析不足。Singh 等人[4]总结了使用机器学习算法和基于深度学习模型的BAT预测方法，但对基于深度学习的组合模型讨论较少，也缺少对图神经网络在BAT预测领域的分析。随着深度学习领域的发展，越来越多的学者应用并改进了相关的模型算法进行BAT预测，并且尝试将不同的模型组合进一步提高预测精度，其中将空间特征提取模型和时间特征提取模型进行进行组合，引起了广泛关注。

本文回顾了近年来BAT预测领域的相关研究文献，讨论了相关研究所涉及的影响因素和数据集，分析了这些研究所使用的模型方法并总结为历史平均模型、参数模型和非参数模型三大类。参数模型包括回归模型和时间序列模型，非参数模型以基于人工智能的模型为主，包括使用机器学习算法和基于深度学习的模型。本文重点阐述了基于深度学习的BAT预测方法，对比了各类方法的优势和局限性。最后，列举了BAT预测模型的评价指标，总结了当前BAT预测领域中所面临的挑战、存在的问题和未来的研究方向。

1 数据集、影响因素与数据预处理方法

高质量的公交运行数据集对于建立BAT 预测模型和获得更为准确的预测结果有着重要意义。BAT 预测模型的构建依赖于公交历史运行数据，将一些可以收集并且对公交运行有着一定影响的因素构建为辅助数据集，与公交历史运行数据相结合输入模型会提高预测精度。使用各种数据预处理方法可以提升数据集的质量，进一步改善模型的性能。

1.1 数据集

（1）基于GPS的公交车运行数据

通过部署GPS定位系统等数据收集设备，可以收集公交车的GPS轨迹数据、车辆自动定位（automatic vehicle location，AVL）数据和乘客自动计数（automatic passenger counting，APC）数据。GPS轨迹数据针对公交在线路上的运行状况，以一定的采样频率记录公交车在行驶过程中的经纬度坐标、时间戳、速度和方向角等实时信息。AVL 和APC 系统则重点收集公交车在站点处的信息，如公交车到站和离站时间、下车乘客人数等。

（2）其他类型数据集

有一些研究使用交通监控摄像头记录的数据[5-6]、射频识别（radio frequency identification，RFID）数据[7]，以及通过乘客手机应用程序收集的数据[8]等其他类型的数据。交通监控摄像数据由部署在公交线路途经站点和交叉口等重要位置点的交通摄像头采集获得，利用目标检测技术识别公交车及其车牌，结合摄像头的经纬度位置信息和数据记录时间戳，可以得到公交车在不同数据采集点间路段的旅行时间，为预测公交到达线路上数据采集点的时间提供数据支撑。RFID数据可以通过公交车上的RFID电子标签和路侧的RFID读卡器，准确获取公交车的运行轨迹。有的研究[8]开发了面向乘客的手机应用程序，收集乘客提供的出行信息，调用手机的GPS并以一定的采样频率获取公交车的实时位置和速度等数据，这可以视为车载定位设备。

1.2 影响公交行驶的因素

输入BAT 预测模型的影响因素可以分为静态因素和动态因素两类，或者根据其在现实中的影响对象分为公交车运行因素、城市道路交通因素和增强因素。表1对BAT预测模型的影响因素进行了详细的梳理。有的研究还提到了司机驾驶特征[9]，将其分为正常、粗鲁和缓慢三种类型[3]。粗鲁的司机往往反应迅速，在同一个区域，一个粗鲁的司机会比一个正常或缓慢的司机更早到达目的地。

表1 公交行驶轨迹预测模型的影响因素Table 1 Influencing factors of bus travel trajectory prediction models

影响因素通常需要进行处理后才能输入模型。对于线路长度、站点和交叉口数量以及温湿度等有具体取值的连续变量，可以直接输入模型或使用Z分数进行标准化。而对于天气状况、工作日与节假日以及一天中的时段等分类变量，通常使用以下几种方法：对于天气状况等存在有序关系的因素，使用标签编码将类别映射到整数；使用One-Hot编码将分类变量转化为二进制向量，但处理如时段等存在多个类别的分类变量时，会导致数据维度增加，浪费存储和计算资源；使用Embedding方法将类别映射到连续向量空间，在降低数据维度的同时将具有相似语义的分类值嵌入到相近位置。

1.3 数据预处理方法

数据清洗方法可纠正原始数据集中存在的缺失、异常和重复等数据不一致现象，并根据预测模型的输入要求，可进一步执行聚类操作对数据集进行划分。

插值法和历史平均法分别基于近期和过去同时期的公交运行状况补充缺失数据，平滑方法可以去除原始数据集中的噪声和存在异常的数据点。主成分分析（principle component analysis，PCA）可以去除高度相关的重叠信息并降低输入特征的维度，以提高数据有效性[10]。谢智颖等人[11]提出了基于时空相关性的公交大数据清洗方法，并通过实验证明了对公交数据进行清洗可以提高模型预测精度。

Zhang 等人[12]依据公交运行时间，采用K-means 算法将所有样本数据划分到分别表示低峰、平峰、小高峰和高峰的四个簇中。Khetarpaul等人[13]应用模糊可能性C-means（fuzzy possibilistic C-means clustering，FPCM）算法将公交行程分为准点、晚点和提前到站三种情况，其中FPCM 算法使每个数据点与每个聚类有特定的隶属度级别，同时可以识别数据集中的异常值与噪声点。He 等人[14]和Alkilane 等人[15]均通过非负矩阵分解（nonnegative matrix factorization，NMF）算法识别公交车在不同路段上的相似出行时间范式，并以此为依据将出行时间范式相同的路段划分到一个簇中。

通过分析不同路段上的相似交通模式，将公交线路中的路段进行聚类，反映了公交出行时间的变化趋势，对于提高预测精度有着积极的影响。

2 基于非深度学习模型的BAT预测方法

公交轨迹由公交车的时间和空间信息构成，公交行驶轨迹预测问题可以视为确定公交线路上的某一具体位置，预测对应的BAT。近年来，学者们在BAT 预测领域提出了一系列的预测模型和算法，这些方法的分类如图2所示。在非参数模型中，由于深度学习技术的不断发展以及基于深度学习的相关模型在时间序列预测研究中展现出来的优越性能，基于深度学习的模型成为如今BAT预测领域中最受学者们欢迎的方法之一，并且从应用单一模型逐步转变为研究能够捕获城市道路空间相关性和公交运行时间相关性的组合模型。

图2 预测模型分类Fig.2 Prediction models classification

2.1 历史平均模型

历史平均模型假设预测时间段的交通状况与过去同时期基本一致[16]，依托于大量历史数据取平均值对公交到达时间进行预测。根据使用的历史数据类型，可分为平均出行时间法和平均速度法。

Chung等人[17]基于历史行程时间和当前的运行条件计算公交车的到达时间。与实时数据相结合可以提高预测精度，Gong 等人[18]将公交车的历史运行数据与实时运行数据进行加权处理并利用实时信息对预测结果进行对比反馈，提高了到站时间的预测精度。

历史平均模型不能反映间歇性外部影响（如交通事故和交通拥堵）引起的交通时间变化，而城市交通网络有着实时交通状况复杂的特点，从而导致该类模型的鲁棒性较差。在近年来的研究中，该类方法通常作为基线模型以将预测结果与其他方法进行比较。

2.2 参数模型

参数模型可以通过结构化表达式和一组参数来表示，通常假设数据服从某种分布。该模型需要定义输入变量和目标变量（输出）之间的关系，并仔细确定参数，参数通常由实验测量或理论计算得到，其维度空间是有限的。参数模型主要分为回归模型和时间序列模型。

2.2.1 回归模型

线性回归模型是最具有代表性的一类参数模型，它基于自变量和因变量之间的线性关系，其中交通状况和外部因素被合并为自变量[19]。

Qi 等人[20]将站间距离、站间出行时间、站间交叉口数、交叉口交通量和交通信号配时方案这五个因素作为输入变量，提出了基于回归分析的公交站间出行时间预测模型。Zhang等人[21]应用了基于交通流理论的非线性回归模型，提出了一种在上游信号交叉口和周边交通流共同影响下的公交到站时间预测模型。然而，回归模型对公交出行时间的预测结果因自变量组合的不同而有所差异，尤其是在交通状况复杂且通常伴随严重拥堵的城市道路中，模型的输入变量具有高度的不确定性并遵循复杂的关系，这会导致模型的预测精度较低。

2.2.2 时间序列模型

时间序列模型包括卡尔曼滤波（Kalman filtering，KF）模型、自回归综合移动平均（autoregressive integrated moving average，ARIMA）模型和粒子滤波模型（particle filter，PF）。

Reinhoudt等人[22]首次将KF算法引入公交到站预测研究中。Vanajakshi等人[23]将线路等长划分，使用KF模型预测公交出行时间。Wang 等人[24]在KF 算法中加入遗忘因子，降低了交通信息对预测模型的影响，并提高了多步预测的精度。由于KF 模型通常使用线性滤波器，因此很难捕捉和预测城市公交系统中复杂的非线性动态特征，为了克服这一点，可以推广到扩展卡尔曼滤波模型[25]，但当多个路段同时产生结果时，计算成本则会迅速增加[26]。

ARIMA 模型是一种基于时间序列的统计模型，早期研究使用单变量ARIMA模型预测行程时间[27]。季节ARIMA 模型加入了季节性因素，根据季节差异进行了修改[28]。Xiang等人[29]结合遗传算法（genetic algorithm，GA）构造GA-ARIMA 模型预测公交到站时间，其结果优于传统的时间序列模型。然而ARIMA模型是基于线性时间序列关系的假设构建的，无法捕获非线性关系，同时还要求输入序列数据是稳定的。

粒子滤波更适用于处理非线性和非高斯系统。任远等人[30]基于粒子滤波预测公交到站时间并与KF算法进行对比，结果表明PF算法有着更高的预测精度、更好的适用性与稳定性。Dhivyabharathi 等人[31]将路段进行等长度划分后应用粒子滤波算法，并使用KNN 算法获取输入，以预测高度可变交通情况下的公交车出行时间。然而粒子滤波算法在高维状态空间中的计算复杂性较高，随着迭代次数的增加，有可能出现粒子退化现象。

2.3 非参数模型

非参数模型不假设特定的数据分布，其结构或相应的数学函数不是预先确立的。非参数模型是由收集的数据而不是预先确定的分布决定的，因此与其他方法相比，非参数模型需要更多的数据。非参数模型包括支持向量机、人工神经网络等浅层机器学习模型和基于深度学习的模型。

支持向量机（support vector machine，SVM）可以较好地解释影响因素和公交行程时间之间的非线性关系，是公交行程时间研究领域常用的模型之一。Yu 等人[32]以大连市的一条公交线路为例进行实验，证明了超参选择合适情况下，SVM 模型可以较为准确地预测公交到站时间。构造改进的SVM 模型或与其他模型组合，可以获得更好的预测结果。Yu 等人[33]将遗忘因子加入SVM模型来预测公交出行时间，提高了SVM的预测准确度。柏丛和彭仲仁[34]建立了基于SVM-KF 的动态模型预测公交行程时间，其中SVM 使用历史数据进行静态预测，KF 依据最新的数据对静态预测结果进行调整。Hashi等人[35]在SVM-KF模型的基础上使用遗传算法优化SVM 参数，进一步提高了模型的准确度。由于SVM 过于依赖核方法，在大规模问题中扩展性差。当面对高维、大规模数据时，会导致模型的计算量增大和预测结果的精度降低。随着公交历史数据和其他交通信息的海量积累，基于SVM 的模型已不适用于公交出行时间预测。

人工神经网络（artificial neural network，ANN）可以捕捉交通问题中存在的非线性和随机情况。BP神经网络（back propagation neural network，BPNN）是一种特定类型的ANN，在训练过程中使用反向传播算法来更新权重。Chen等人[36]利用APC数据研究了基于ANN的公交到站时间预测模型，并考虑了天气因素的影响。Hua等人[37]基于前一站点的多线路公交到站时间数据，使用ANN 预测公交车到达目标站点的时间。Zhang 等人[12]将公交运行数据按照时段划分为多个聚类，对每个聚类建立一个BPNN模型进行预测。Kee等人[38]将公交到站时间预测问题转换为一个多标签分类问题，并考虑了日期和高峰时段等影响因素，实验结果表明，ANN优于决策树、随机森林和朴素贝叶斯等算法。虽然ANN能够使用简单的体系结构对复杂和非线性行为进行建模。然而，对于日益复杂的城市交通场景，这些模型可能不足以提供高精度的预测结果。随着深度学习的高速发展，ANN在BAT领域的应用显著减少，在大多数情况下作为基线模型。

2.4 基于非深度学习模型的BAT预测方法总结

历史平均模型、参数模型和浅层机器学习模型等一系列基于非深度学习模型的BAT预测方法对比分析，如表2所示。总体来说，SVM和人工神经网络这类基于浅层机器学习的模型在BAT预测中，在处理复杂的非线性关系、预测任务涉及大规模数据集和特征抽取时，一般要优于历史平均模型、回归模型和时间序列模型。

表2 基于非深度学习模型的BAT预测方法总结Table 2 Summary of BAT prediction methods based on non-deep learning models

3 基于深度学习的BAT预测模型

深度学习是机器学习的重要分支，是近年来的研究热点，将深度学习应用在BAT预测领域，提出并使用了基于卷积神经网络（convolutional neural network，CNN）的方法、基于循环神经网络（recurrent neural network，RNN）及其变体的方法和基于组合模型提取时空特征的方法。

3.1 基于卷积神经网络的方法

CNN已经在计算机视觉领域取得了重大突破和进展。在BAT 预测领域，已有一些学者探索了基于CNN的方法。

Panovski 等人[39]创建了交通密度矩阵（由若干模拟交通信息组成，每个模拟交通信息是由时间和站点数量构成的二维矩阵），将模拟交通信息视为灰度图，在时间和站点维度上执行卷积操作，基于CNN 构建了用于预测线路上所有站点到达时间的运营商数据模型。但是该模型的输入并没有考虑外部因素，也忽略了模拟交通信息中存在的全局时序模式。

Nithishwer 等人[40]将公交线路分段处理，将路段过去三小时的历史行程时间数据以张量形式输入所构建的CNN 模型中，来获取这些路段在未来一小时内行程时间的预测结果。同时，从数据集中提取了时段、日期和空间模式具有高度相关的路段等额外信息输入模型，以进一步提高模型的预测精度。由于忽略了线路上如交叉口等重要位置的影响以及每日的高峰时间段，导致模型预测交通峰值时间内对包含主干道路交叉口的路段行程时间有着较高的误差。

Paliwal 和Biyani[41]应用Mask-CNN 模型对公交车的站间行程时间进行预测。模型的输入是由公交站间行程时间构成的二维矩阵，行和列分别表示公交车的运行次数和线路站点数。他们所使用的Mask-CNN 架构是一个七层的全卷积网络，可在整个层中保持其输入的空间分辨率，并在每个位置输出条件分布，通过使用掩码卷积保证预测的因果关系（即当前路段的行程时间依赖于前序路段的行程时间）。最终，该模型的输出以离散值的形式模拟了任意两个站点之间的出行时间。Mask-CNN的结构相对来说更为复杂，并且只考虑了公交车的历史运行数据，忽略了一系列外部影响因素对公交行程时间的影响。

由于传统CNN在捕捉时序信息和处理变长序列方面存在局限性，时间卷积网络（temporal convolutional network，TCN）是CNN在处理时间序列数据上的一种改进模型，通过引入因果卷积和膨胀卷积，可以捕捉长期依赖关系并保持序列的因果性质。徐丸絮[42]结合TCN和时间注意力机制（temporal pattern attention mechanism，TPA），对公交车的行程时间进行预测。TCN通过对历史数据进行因果卷积计算后，传递给TPA的时间模式捕捉层，通过卷积操作提取时间模式信息，最终，通过注意力系数计算层获得权重系数并求得最终输出。但是因果卷积只能捕捉历史时刻的时间相关性，忽略了公交运行过程中存在的反向规律性。

在BAT 预测领域，基于CNN 的模型已经取得了一定的成果，但由于时间序列数据的特殊性质和CNN 的结构特点，其在处理时间数据方面还存在一些挑战。学者们探索了许多解决方案，包括设计针对时间序列数据的TCN，利用CNN 有着提取空间特征的特点和循环神经网络等模型融合，充分利用它们在空间和时间特征捕捉方面的优势，从而提升模型的性能。

3.2 基于循环神经网络的方法

RNN 与其他类型的神经网络相比，提供了一种处理时间序列数据和学习长期依赖关系的有效方法，是一种专门设计用于处理具有时序关联数据的模型。BAT预测问题作为时间序列预测问题的一类，RNN 及其变体也得到了广泛的应用。Raut 和Goyal[43]使用RNN 预测公交车的到站时间，将目标线路上的天气情况作为外部影响因素考虑在内。他们依据当地的实际气候将一年分为夏季、雨季和冬季，通过数据挖掘获取每类季节的天气变化量，并利用历史数据作为训练数据来对不同天气条件下的公交到站时间进行预测。Pang 等人[44]利用多个途经站点所构成时间步长之间的长期依赖关系，通过RNN预测公交到站时间，并使用One-Hot编码将公交历史运行数据和城市道路基础信息等异构数据融合到同一的向量空间以输入模型进行预测。虽然传统RNN 结构对于短期记忆具有较好的捕捉能力，但在处理长序列时，较早时间步的信息可能会逐渐被遗忘，这可能导致模型难以捕捉长时间跨度内的模式，从而影响模型的预测能力。

长短期记忆神经网络（long short-term memory，LSTM）是一种特殊形式的RNN，能够捕捉时间序列问题的非线性行为并学习长期依赖信息，是为了解决传统RNN 在训练过程中的梯度消失和梯度爆炸而开发的，因此越来越多的学者应用LSTM预测BAT。

3.3 基于长短期记忆神经网络的方法

LSTM是一种具有门控机制的循环神经网络，输入门控制输入信息的更新，遗忘门决定细胞状态中哪些信息要被遗忘，输出门控制输出细胞状态的选择。通过这种机制，LSTM能够有效地处理长期依赖和记忆问题。

叶之放[45]将影响公交车运行的动、静态因素与历史GPS数据融合，建立了基于多源公交数据的LSTM模型对公交到站时间进行预测，其预测结果优于KNN、SVR和BP 神经网络。Agafonov 和Yumaganov[46]使用LSTM模型预测单条线路中公交车到达每个剩余站点的时间，并将公交车的实时数据和统计信息等一系列能描述交通流的异构信息作为模型的预测影响因素，实验结果表明了LSTM模型有着更高的预测精度，且计算时间也能满足实时状态下的公交到站时间预测。学者们结合外部影响因素和公交历史数据，应用LSTM 模型在解决BAT预测问题中取得了较好的结果，但应用各种改进方法还能进一步提高模型的性能和预测结果准确度。表3对一些基于LSTM 模型的改进公交出行时间预测方法进行了分析和总结[26，47-55]。

表3 基于改进LSTM的BAT预测方法Table 3 BAT prediction methods based on improved LSTM

对表3 中的预测方法进行对比分析，将基于LSTM模型的BAT预测方法的改进方向分为以下几类。

（1）将线路视为路段的集合，按照路段的类型划分为若干子集，为每类路段构建模型并行预测最终将各个结果聚合。Han等人[47]将单条线路的行程简单划分为站间行驶时间和站点停留时间，并没有考虑不同路段的交通模式。而He等人[14]则拓展到出现同站换乘行为多线路公交出行，并且依照不同的交通模式对不同路段进行分类，为每一类路段构建一个LSTM 模型，最终相加计算总行程时间。总体来说，利用不同公交运行路段上的相似交通模式虽然可以提高模型的预测精度，但仅使用LSTM 模型无法捕捉不同路段之间可能存在的空间关系，同时将路段按照交通模式进行分类组合会改变公交线路中的路段顺序，破坏公交线路的空间连通性，忽略了空间上相邻路段的交通模式在时间上存在的依赖关系。

（2）将其他类型的模型算法，如变分模态分解（variational mode decomposition，VMD）算法、粒子滤波和卡尔曼滤波算法、优化算法等与LSTM 相结合，可以进一步提升模型的性能和预测结果的准确度。Zhou 等人[48]构造了VMD-LSTM模型，Bharathi等人[56]则进一步考虑了预测中的不确定性，将基于分位数回归的损失函数与LSTM 模型结合，使用速度和交通流时间序列数据，预测车辆出行时间的预测区间。不同于文献[49]将多个LSTM 的预测结果作为粒子滤波算法的输入，Liu等人[57]使用卡尔曼滤波算法消除原始数据集中的噪声后输入LSTM。Jiang 等人[58]和张兵等人[50]分别使用遗传算法和改进的海鸥算法对模型的超参数进行寻优，有效降低了出现局部最优和过拟合现象的概率。

结合VMD算法虽然可以捕获公交速度序列中的时间模式和空间模式，速度序列是由每个路段的平均公交速度组合的，只能粗略反映不同路段间的交通波动，且VMD-LSTM 模型的计算复杂度相对较高。将KF 算法与LSTM结合仅在数据集处理方面进行了改进，并没有提升模型捕获时间相关性的能力。LSTM 串联粒子滤波算法虽然避免陷入局部最优解，但没有对LSTM本身进行改进，同时构建多个LSTM 模型会增加计算成本。同理，优化算法也仅仅对参数进行寻优，没有改进模型的结构。

（3）对LSTM 模型的结构进行改进，改进的模型包括增加注意力机制的LSTM、结构简化的门控循环单元（gate recurrent unit，GRU）、能捕捉序列中反向依赖的双向LSTM（bidirectional LSTM，BiLSTM），以及结合了CNN 提取空间特征能力，可以提取输入数据时空相关性的卷积LSTM（ConvLSTM）。

Chawuthai 等人[59]将自注意力层置于LSTM 之前计算输入数据的权重，而姚江涛等人[51]则分别使用普通注意力机制和自注意力机制计算不同特征对公交行程时间的影响程度以及不同时刻BiLSTM 输出隐状态的权重。将LSTM 模型作为编码器和解码器的基础结构并引入双阶段注意力机制，构造了基于双阶段注意力机制的循环神经网络（dual-stage attention-based recurrent neural network，DA-RNN）。Leong等人[60]和Zhou等人[52]使用DA-RNN模型预测公交车到站时间，贺光焰[53]构造了融合宏观因素的DA-RNN 模型（macro factors integrated DA-RNN，MDARNN）对涉及换乘的多线路公交出行时间进行预测。基于注意力机制的改进使得模型关注与预测结果高度相关的特征，进一步提高模型捕获长期依赖的能力，但忽略了公交运行的空间特征。

Xie等人[61]考虑了影响公交运行的静态与动态因素，分别基于LSTM、GRU、BiLSTM 和ConvLSTM 等模型预测公交到站时间，对比实验结果表明ConvLSTM模型的预测精度最高。Wu等人[54]通过实验证明了ConvLSTM结合自注意力机制可以进一步提高预测精度。赖永炫等人[55]使用ConvLSTM 分别捕捉站点停留和站间行驶时间的时空相关性，预测出停留时间和行驶时间参数，结合天气等外部特征输入LSTM 中预测公交车在线路上的运行总时间。然而ConvLSTM 模型只能关注公交线路中邻接站点或路段的局部空间特征，无法提取整条线路中不同地理位置间的全局空间特征，而这些全局特征信息对预测结果有着重要影响。

3.4 提取时空特征的组合模型

在BAT预测问题中，基于循环神经网络和其改进的模型方法已经取得了不错的成果，但这些方法通常只关注公交历史行程的时间维度，而忽略了空间维度上的特征。虽然ConvLSTM 模型通过引入卷积操作拥有了提取空间特征的能力，但通常只能提取线路空间中的局部特征，同时也无法考虑具有共同路段的其他线路的影响。随着相关研究从预测单条线路的公交到站时间拓展到预测出现换乘行为的多线路公交出行时间，空间模式也由单条线路扩展到多条线路构成的公交网络，提取不同线路和站点间的空间相关性对于准确预测公交行程时间非常重要。针对上述问题，学者们将能够提取空间特征的模型和能够提取时间特征的模型结合，利用城市公交网络中存在的时空相关性，对公交车的行程时间进行预测。表4 列举了一些使用可提取时空特征组合模型的BAT预测方法[15，62-67]。

表4 基于可提取时空特征组合模型的BAT预测方法Table 4 BAT prediction methods based on extractable spatio-temporal feature combination model

对表4 中所列举的基于可提取时空特征组合模型的BAT预测方法进行分析对比，可以发现在这些组合模型中，时间特征通常由循环神经网络或其变体模型进行提取，而空间特征通常由基于CNN 的模型或基于图神经网络（graph neural network，GNN）的模型进行提取。对于单条路线来说，整个道路中的重要地理位置（如站点、交叉口和路段等）间的空间关系较为简单，通常应用CNN进行空间特征的提取。而考虑到由多条线路组成的公交网络，不同线路与站点间的空间关系复杂，通常使用GNN相关模型进行空间特征提取。

Wang等人[68]首先提出了一个用于预测车辆出行时间的深度学习框架（deep learning framework for travel time estimation，DeepTTE），该框架通过使用1D-CNN构造地理卷积捕获车辆GPS轨迹序列之间的空间特征，使用LSTM模型提取时间相关性来预测行程时间，并将外部影响因素使用Embedding 方法转换为低维向量后输入模型。Zhang 等人[69]和Lee 等人[64]只收集站点处的公交运行信息构造公交轨迹序列，基于DeepTTE 模型预测公交车的行程时间。其中Zhang等[69]人分别预测站间出行时间和站点停留时间，而Lee 等人[64]在构造公交历史轨迹序列时将二者结合，减少了模型计算量和训练时间，模型结构如图3 所示。付丽萍[65]结合线路上公交车和其他社会车辆的轨迹数据，使用由两个卷积层、两个池化层和一个上采样层构成的CNN 提取空间特征，并使用GRU 提取时间特征，有效减少了计算量和训练成本。

图3 用于预测公交出行时间的深度学习框架Fig.3 Deep learning framework for bus travel time estimation

对于由GPS点组成的轨迹序列，可依据坐标将轨迹序列直接映射到二维网格中，使用2D-CNN提取空间特征。若网格设置过大会导致多个坐标点映射重合，在执行卷积操作时有可能会忽略重要的空间特征。而网格设置过小会导致整个空间信息稀疏，难以提取所需的空间特征。只收集公交在站点处的轨迹数据构造轨迹序列，将每个站点映射到一个网格，使用1D-CNN 构造地理卷积提取公交站点序列的空间特征，可以有效避免上述两种情况。然而这种方法忽略了站点之间的路径特征，同时仅适用于提取单条公交线路中的空间特征。由于网格顺序反映了线路站点顺序，若扩展到公交网络考虑其他线路公交车在重叠路径上的影响时，难以对站点进行建模。由于公交网络的拓扑结构相对清晰，由站点、线路和路段等元素构成且它们之间的连接关系明确，可用图结构对城市公交网络进行建模。GNN 是一种用于处理图结构数据的深度学习模型，由于城市公交网络可以用图结构表示，故GNN 也可以用来捕获空间特征[70]。GNN 相关模型已经在道路交通流预测领域中取得了进展，在BAT预测问题的研究中，越来越多的学者开始将目光投向GNN相关的网络模型。

Ma 等人[66]针对单条线路，利用公交GPS 轨迹数据提取站点和交叉口并通过一种节点提取算法将站点之间的路段提取为公交网络图的节点，通过构造多重加权邻接矩阵来表示不同节点之间距离、路径长度的相似性和交通状况。而Liu等人[67]则额外考虑了与目标线路有着重叠路段的其他线路，将站点作为图的节点，并通过设置距离阈值判断两个节点之间是否构成边。图卷积网络（graph convolutional network，GCN）是GNN 的一种改进形式，它引入了传统CNN中的卷积操作，可以更好地捕捉节点间的局部特征和全局结构。马禹婷[71]提出了GCN-LSTM 模型预测公交站间行程时间，通过GCN 获取道路网络的空间结构特征，将带有空间特征的向量输入LSTM 模型提取时间特征并做出预测。与GCN 和LSTM 模型进行实验对比，GCN-LSTM 模型的预测结果更为精确。

3.5 基于深度学习模型的比较与总结

目前，使用基于深度学习的模型已成为BAT预测领域的主流方法。CNN模型利用卷积操作可以有效地捕获公交历史轨迹序列中的局部模式和短期相关性，但其固定长度输入限制和对长期依赖性的建模能力相对较弱，限制了CNN 在长期BAT 预测中的应用。虽然通过引入因果卷积等构造TCN 模型缓解了上述问题，但在BAT 预测和其他类型的时间序列预测研究中，RNN 与LSTM 等专门设计用于处理时间序列问题的循环神经网络是更好的选择。LSTM 模型相较于CNN 模型更擅长捕捉和处理长序列中的长期依赖关系，被越来越多的学者应用于BAT预测中。为了进一步提升预测精度，学者们将LSTM模型与其他模型算法相结合，并尝试对模型的结构进行改进，如添加注意力机制、调整模型结构和进行多组件融合等。

随着BAT预测领域相关研究的不断深入，影响公交运行更深层次的特征被不断探索，其中空间特征逐渐受到学者们的重视。通过将站点位置、站间距离和线路结构等空间特征纳入公交历史数据中，可将公交历史轨迹序列从较为简单的时间序列数据视为更复杂的时空序列数据。考虑到公交历史轨迹所展现的时空特性以及CNN具有捕获空间特征的能力，将CNN与RNN网络相结合，对处理公交时空序列来说，相较于使用仅提取时间特征的模型有着更好的效果。面对更为复杂的公交时空数据，将提取空间特征的模型与提取时间特征的模型相结合，并尝试对组合模型的网络结构进行改进和优化，在尽可能提高模型预测精度的同时降低计算成本，已成为当前BAT预测领域的主要研究方向。随着GNN的发展和它们在交通流预测等领域的应用，为BAT预测任务中的空间特征提取提供了新的研究思路，使得从预测单条公交线路拓展到预测具有部分重叠路段和站点的多线路公交网络成为可能。

本文分析总结了基于深度学习的BAT 预测模型的优势、局限性和改进方向，如表5所示。

表5 基于深度学习的BAT预测模型总结Table 5 Summary of BAT prediction models based on deep learning

4 BAT预测模型的评价指标

为了对比不同类型BAT预测模型的预测精度，需要引入一些标准的性能衡量指标对模型进行评估，因为模型的预测结果会受到各种因素的影响，例如模型本身、数据集和外部影响因素等。BAT 预测相关的研究中经常使用以下三种性能指标对模型的预测准确度进行评估：平均绝对误差（mean absolute error，MAE）、平均绝对百分比误差（mean absolute percentage error，MAPE）和均方根误差（root mean square error，RMSE）。在表6中对上述三种评价指标进行了总结，并给出了它们的计算公式，在计算公式中，yt是真实值，y′t是模型得出的预测值。

表6 BAT预测模型的评价指标Table 6 Evaluation indicators of BAT prediction models

5 结束语

公交行驶轨迹预测研究面临的挑战和未来的研究方向总结如下：

（1）构造多源多模态数据集，确保数据质量和可用性。受GPS定位系统稳定性和采样频率的影响，公交历史轨迹数据可能会出现缺失或偏移。可将GPS 定位系统与RFID、超宽带（ultra wide band，UWB）等定位传感器相结合构造多源定位数据集，同时考虑结合交通摄像头数据进行多模态数据融合，以确保公交历史轨迹数据在时间和空间维度保持连续和完整。

（2）探索公交运行的规律性和地域性因素。多数研究分析了公交的每日运行规律和每周运行规律，但忽略了线路覆盖的区域性。可依据周边建筑的社会功能对站点和路段进行区域划分，研究公交在不同区域的运行规律。同时，可结合公交的日运行和周运行规律赋予区域相应的权重，精细公交运行的时空相关性分析。

（3）将公交行驶轨迹预测与城市交通管理结合。公交信号优先控制系统通常基于交通理论计算公交车到达交叉口的时间，并对交通信号配时进行调整。可使用基于深度学习的模型预测公交到达和通过交叉口的时间，为公交信号优先控制提供更精确的决策依据，但这对预测模型的精度和实时性要求更高。

（4）深入研究公交运行的时空模式，挖掘公交网络的空间特征。随着学者们开始考虑相邻公交线路对目标线路运行的影响，道路空间也从单条线路转换为多条线路构成的网络。可将公交网络建模为图结构从而考虑不同线路、子路径和站点间的相互影响。应用GNN相关模型提取公交网络的空间特征并不断优化模型结构以获取更高精度的预测结果，将会是未来的研究重点。

（5）BAT 预测模型融合，可以提高模型的整体泛化能力。由于公交运行环境的复杂性和数据的多样性，单一的预测模型可能无法涵盖所有情况下的准确预测。因此，可以尝试使用不同的预测模型分别进行BAT 预测，并将它们的预测结果进行融合。BAT预测模型融合可以采用简单的平均、加权平均、投票等方法，也可以采用复杂的组合技术，如集成学习（随机森林、梯度提升等）、堆叠模型等。通过模型融合，可以综合多个模型的优势，提高公交行驶轨迹预测的准确性和鲁棒性。

本文对公交行驶轨迹预测问题进行了分析，归纳了影响公交运行的相关因素，分析了不同预测方法的优势、局限性和改进方向，并重点分析了基于深度学习的预测方法，比较了基于LSTM模型和组合模型的各种预测方法的机制、优势、局限性和适用场景。最后，总结了当前面临的挑战和未来的研究方向，以期为研究公交行驶轨迹预测问题提供参考。