梁弘
[阿波罗智联(北京)科技有限公司,北京100012]
目前,我国城市公共交通工具主要有地铁、公共汽车、出租车等,其中覆盖范围最大和使用最广的无疑是公共汽车,具有机动性较强、票价较低、容易操作和投资较少等特点,覆盖不同层次、线路的乘客,是非常重要的便民交通工具。在城市交通体系日益发达和家用小汽车覆盖率不断提升的共同影响下,城市道路的汽车容载量也在不断提升,给公交车的运行时间和效率带来了极大的影响。公交车到站时间不稳定,不少乘客无法准确获取公交车的信息,等待时间不确定,出现了“伸脖子”等公交的情况,导致公交车的优势无法体现,严重影响居民的出行体验和效率。近年来,随着大数据技术的成熟,信息技术推动公共交通进入前所未有的领域,并带动公共交通智能化建设成为智慧城市的重要组成部分。《“十四五”现代综合交通运输体系发展规划》提出:到2025年,综合交通运输基本实现一体化融合发展,智能化、绿色化取得实质性突破,综合能力、服务品质、运行效率和整体效益显著提升,交通运输发展向世界一流水平迈进。为此,打造全新的公交管理体系,准确掌握公交车的通行时间,并为乘客做好信息报告,成为现阶段城市公共交通优化的重要方向。研究结合公交车的通行时间、速度特点,从时间空间分布特性上,提出了基于多源数据融合的公交车通行预测模型,以期望能够更好地提升公共交通的服务效率。
B
={b,b,…,b} ,不同的GPS 轨迹点b主要包括了纬度(b.lat)、经度(b.lng)、时间戳(b.ts)以及摩托车的运行轨迹信息M
={m,m,…,m} ,汽车的运行轨迹信息C
={c,c,…,c} 。每一条轨迹均包括了相应的属性信息,具体包括时间特征、车辆信息以及空间特征。车辆的信息主要为公交车、汽车以及摩托车,在相应轨迹上均有着相应的车辆标签。时间特征主要分为车辆日期、轨迹运行时间,空间特征是车辆轨迹的总距离。该研究最主要的目标是借助汽车轨迹、公交车轨迹信息以及摩托车轨迹信息,预测未来时间段公交车的通行时间。具体公式(1)为:
运用MSTBTTE 模型进行预测模型构建,具体架构如下:
基于轨迹数据所表现出的空间依赖性,实现数据分析处理。在时空特性分解期间,主要运用非线性函数联合卷积神经网络(CNN)完成数据的挖掘处理,提取空间特征信息。若仅是依靠定位系统(GPS)坐标映射信息,很难充分掌握数据的原始空间信息。为此,结合公交车的特性,配合较细的粒度,实现对车辆轨迹序列的空间依赖性的转变,从而获取最为全面的空间特征信息。
考虑到不同时间段内,各种交通轨迹数据之间表现出的时间依赖性特征。在对各子路段空间特征信息提取之后,需要从获取的空间图中再次进行时间信息的提取。运用循环神经网络(GRU)来实现空间信息的提取,一方面能够满足随着训练时间的延长,数量集持续增加而带来的计算复杂度问题;另一方面能够非常准确地完成空间特征信息的提取,更好地发挥长序列特征信息的优势,完成时空动态变化的捕捉。
ν
,计算公式为:式(2)~式(4)中:
A
={W
eather、D
ataID
、W
eekID
、D
rierID
、T
ype、D
is} ;W
eather 表示天气状况;D
ataID
、W
eekID
表示采样日期;D
rierID
表示车牌号信息;T
ype 表示一条车辆轨迹中每个GPS 点与前一个GPS 点之间的时间间隔;D
is 表示一条车辆轨迹中每个GPS 点与第一个GPS 点之间的间隔距离。a用于表示属性向量;β
用于表示可学习的权重;exp 表示外部因素机制的输出;i ∈A
表示嵌入分类变量。该模块主要用于对公交车的通行时间进行预测,同时将子路径的通行时间预测作为主模型的辅助,以便提升通行时间的预测准确性。
在子路径预测中,主要采取2 个全链接层,将所有时空特征序列的映射为相应的标量数据rloc,用于对子路段的通行时间的预测。为了更好地实现对整个路段通行时间的预测,模型融合了注意力机制,即结合不同路段的重要程度确定权重。同时,配合深度残差学习,通过学习相应的附加“残余”,完成对前一单元输出的微调。这种跨单元的快捷连接方式能够提升深度神经网络的最大表示能力,从而实现对网络退化的规避。残差单元的计算公式(5)为:
式(5)中:r表示上层残差单元的输出;W
表示可学习参数;ReLU
表示激活函数。在训练的过程中,为确保模型能够满足最佳的训练效果,对整体路径的通行时间和子路径时间进行预测,同时定义为2 个目标损失函数。第一个为子路径平均值,具体公式(6)为:
第二个为整体路段平均值,具体公式(7)为:
在训练的过程中,损失函数loss 定义为L
与L
的加权和,通过训练模型使得损失最小化。β 则表示一个系数来平衡L
与L
的权重。式(6)~式(8):在多任务学习机制部分,分别预测子路径和整体路径的通行时间。在子路径时间预测中,使用两个全连接网络层将时空特征序列{r1,r2,r3,...,r|T|+k+1}映射为时间序列{h1,h2,h3,...,h|T|+k+1},h表示子路径q→q→...q预测的通行时间。
以2017年1月—2021年12月的真实数据为数据集进行模拟试验。数据集中涉及的GPS 轨迹主要是基于时间顺序完成的点序列排列,每个点均有明确的海拔和经纬度等相关资料(见表1)。根据表1来看,数据集涉及距离达到了140300km,共有17621 条轨迹,时长共计12950h。基于模型完成对数据的标记和挑选,确定汽车、摩托车、公交车的出行数据,同时结合时间戳形成轨迹。取数据中的80%进行模型验证,另外20%则作为评估和测试集。
表1 数据集信息介绍
在实验期间,主要基于Linux 系统、Pytorch1.2 库版本、Python 编程语言来构建运行系统,通过均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)3 种指标完成模型预测性能的评估。RMSE 表示预测数据与真实数据之间偏差的平方与预测次数比值时间的平方根,用于判定2 项数据的偏差结果;MAE 表示预测数据与真实数据之间的偏差平均值,用于对2 项数据误差情况的判定;MAPE 表示预测数据与真实数据和真实值比值的平均值,用于对误差大小进行衡量。训练以Adam 优化算法基于5 倍交叉验证方式下来实现模型训练。并运用GBDT、HA两种模型进行对比。实验结果见表2。
根据表2来看,与GBDT、HA 两种模型相比较,所构建的MSTBTTE 模型具有更好的优越性,其能够基于真实数据,实现预测准确度的显著提升,精准度分别为RMSE=10.2%、MAE=8.8%、MAPE=10.1%。
表2 实验结果比较
研究提出了混合多种数据集的多源数据融合的公交车通行时间预测模型,综合考虑汽车、公交车与摩托车行动轨迹的关联性,打造全新的公交车时空特征预测模型,以2017年1月—2021年12月的真实数据为数据集进行模拟实验,证实该模型预测准确度的显著提升,其精准度分别为RMSE=10.2%、MAE=8.8%、MAPE=10.1%。