路网交通流在时空分析背景下的预测研究

2020-09-04 03:16:22李彤伟王庆荣
计算机工程与应用 2020年17期
关键词:交通流量交通流路网

李彤伟,王庆荣

兰州交通大学 电子与信息工程学院,兰州 730070

1 引言

随着人们出行需求的提升,国内汽车保有量也与日俱增,交通拥堵、交通污染、交通噪声等一系列问题日益严重,智能交通系统(ITS)是全世界公认的缓解各类交通问题、提高道路通行效率的有效途径。实时、准确的交通流预测更是交通诱导、出行路线规划等的前提和基础,也是智能交通系统研究的核心问题,所以作为ITS和交通诱导控制系统关键技术难点之一的短时交通流预测成为时下研究的热点。

引入混沌理论、应用智能算法、组合各类模型是过去研究短时交通流预测的主要方法。近年来国内外研究人员给予了深度学习方法高度关注,深度学习中的深度信念网络(DBN)[1]、长短时记忆(LSTM)网络[2]和堆叠自编码(SAE)模型[3]借助其能够处理大规模的多维数据,具有模型灵活度高、学习能力强、泛化能力强、预测力强等特点[4-6],并获得比其他传统方法更好的结果[7]。国内外学者有较多相关研究成果,Huang等[1]以DBN为底部的堆栈架构,充分利用深层架构中的权重共享提出了一种基于顶层权重的分组方法取得了较好的预测效果,但是文中对交通流数据时间信息的挖掘并不充分;Lyu等[8]第一次使用自动编码器作为构建块来表示用于预测的交通流特征深层架构模型,但该方法未考虑交通数据量处理对预测结果的影响;罗文慧等[9]应用卷积神经网络提取交通流特征,将特征分量输入到SVR 回归模型中进行预测,虽在准确率上有了较大提升,但是未充分考虑交通路网的复杂性;罗向龙等[10]考虑了路网结构,使用K最近邻(KNN)分类算法筛选出与目标站点相关误差最小时对应的K个检测站点数据,输入LSTM模型进行预测取得了较好的预测效果;王祥雪等[11]构建基于LSTM-RNN 的城市快速路预测模型,模型训练时对时空关联特性进行识别和强化,兼顾了精度和时效性;Shao 等[12]采用LSTM 模型进行交通流预测,克服了循环神经网络存在的问题,但模型由于隐含层数量有限,没有充分发挥LSTM 模型的优势,预测效果不佳;Ma 等[13]提出了一种融合预测模型,将其应用于大型路网交通拥堵预测,虽考虑了时空相关性,当该方法对过长的时间序列处理无能为力;张威威等[14]通过控制变量的方法确定最佳的输入长度和隐藏层节点数,研究了四种 LSTM 的实现方式并与 ARIMA 模型、BPNN 等模型进行对比,结果表明考虑空间特征的LSTM 的性能最好。但是只对单一断面时间特性分析忽略了相邻路段交通流的变化,这也导致缺乏对路网的整体性的考虑。

综上所述,如何从宏观角度出发,综合考虑路网各方面影响因素,充分提取交通流数据的时空特征并运用一种高效的深度学习方法实现预测并未有较好的研究成果,故本文使用对交通流参数特性较为适配的LSTM深度网络结构并选取路网区域,收集其中各路段交通流检测器数据,将经预处理后的数据矩阵输入到模型中进行预测,设置对比实验进行分析并得出结论。

2 深度学习

2006 年,加拿大多伦多大学教授Hinton 在Science上就深度学习发表了一篇文章[15]之后,深度学习被广泛应用到各个学科领域。其实质是通过构建具有很多隐层的机器学习模型,利用海量的训练数据来学习更有用的特征,最终提升分类或预测的准确性。

2.1 循环神经网络

循环神经网络中的隐含层节点之间具有连接,能够把之前的处理信息加以记忆,从而使得隐含层的输入包含两部分——既有输入层的输出,也有前一时刻隐含层的输出,层次结构如图1所示。RNN这种循环的网络结构具备保持信息的能力,能够帮助RNN 更精确地掌握特征间的复杂关系。

图1 RNN结构

但是RNN 具备的记忆能力周期较短,当相关信息和预测信息位置之间的间距变得相当大时,会让循环神经网络训练变得困难,使网络丧失连接先前信息到当前输出上的能力,所以当面对长序列的信息,随着学习量的增多或者学习周期的增长将会导致梯度消失(如图2)或者梯度爆炸的现象[16]。

图2 RNN网路梯度消失原理图

为了解决该问题,Hochreiter在1997年提出了LSTM神经网络[17],在RNN 网络基础上对网络隐藏层做了一些改进,使得LSTM可以学习长期依赖信息以此对梯度消失问题进行有效规避。

2.2 长短时记忆模型

该模型隐含层包含记忆模块(Memory Block),能够在较长时间内存储并传递信息,其内部结构如图3所示。每个记忆模块由输入记忆元(Memory Cell)及三个复合单元——输入门(Input Gate)、输出门(Output Gate)、遗忘门(Forget Gate)构成。“门”结构包含Sigmoid 神经网络层和点乘运算,Sigmoid 层的输出在0 到1 之间,其中0 表示不允许任何信息通过,1 表示允许所有的信息通过,以此来把控门的开关。输入门(Input Gate)表示输入层信息如何传递到隐含层的记忆模块;遗忘门(Forget Gate)表示如何对当前时刻该记忆模块的历史信息进行保留;输出门(Output Gate)表示该记忆模块信息如何传递出去。

LSTM结构中单个记忆块在t时刻的计算过程如下:

图3 LSTM网络结构

3 路网交通流数据压缩

3.1 交通流时空相关性分析

3.1.1 相关系数

设有两个变量x、y,定义两个变量之间的相关系数为R,则有:

xi、yi分别为观察值,对两变量n的观察值,其中i=1,ˉ是对变量n观察计算所获得的均值。其中|r|(|r|≤1)展示了变量之间关系与密切程度变化。|r|越大则其中变量间密切程度越强,反之则越弱。

3.1.2 空间互相关性分析

根据文献[18]介绍,道路网络上的任何位置都具有空间可达性,交通流量的互相关性大小是空间距离的函数,随着交通载荷的增加,处于同一路网中的两道路断面间的空间互相关性会随之增大。路网内道路结构复杂,道路交通流的特性在路口交叉处表现得尤为明显,如图4 所示的一段两个相邻十字路口的路段。其中q1(k)、q2(k)、q3(k)分别为Q1、Q2、Q3方向的车流在时间段[(k-1)T,kT]内的流量,由图示的空间位置可看出,流量q(k)是包含了q1(k)、q2(k)、q3(k)的总车流量,从空间上考虑检测点处的交通流量就与路口A 相关的Q1、Q2、Q3等方向的车流量有关。

图4 空间相关示意图

3.1.3 时间相关性分析

由文献[19]可知,从公众出行的周期特性来看,交通流具有一定的时间相关性。交通流时间序列具有分形特征,即交通流序列的未来变化趋势与历史变化趋势正相关,并且在同一时期表现出强烈的规律性,在不同的时间周期又具有差异性。想要通过分析目标路段交通流参数的时间特性来预测下一个时段[kT,(k+1)T]的交通流量q(k+1),不但需要考虑与q(k+1)相关的前n个时段内的流量q(k+1-n),…,q(k),还要考虑经A路口汇入预测路段的前n个观测时段的流量q1(k)、q2(k)、q3(k),…,q1(k+1-n),q2(k+1-n),q3(k+1-n) ,它们都与目标路段的交通流具有很强相关性,如图5所示。

图5 时间相关示意图

3.2 交通流数据的矩阵转换

选取任意一块路网区域,将区域内的各条路段视为一个网络图G,则有G=(Q,E)。其中Q表示路网中的节点数,E为整个网络中所有路段的集合。假设该路网中有p个路段,N为历史交通流量数据的时滞,则有E={Si,i=1,2,…,p} ,对于任意一个路段Si都包含一个连续的时间序列,记为矩阵qi,则qi={z(si,t-N+1),z(si,t-N+2),…,z(si,t)} ,qi表示路段Si在时间段 (t-N+1,t)的交通流量,z(si,tj)(i=1,2,…,p;tj=1=t-N+1,t-N+2,…,t)表示路段Si在时间间隔(tj-t0,tj)内的交通流量。整个路网的交通流量数据组成一个时空二维矩阵,记为FP×M,则有:

计算该路网中任意两个路段的相关系数R(i,g),由式(7)可得出:

3.3 路网数据压缩矩阵的构造流程

压缩矩阵的构造流程如图6。

图6 压缩矩阵构造流程图

4 LSTM短时交通流预测模型

4.1 模型的构建

选用模型的结构如图7 所示。该模型按照顺序依次叠加每层,并且层与层之间网络为全连接。从图中可以看出,该模型包括输入、输出层和中间层共五层结构,前两层隐层为LSTM层,选定特征之后将经过预处理后的训练集交通流特征压缩矩阵直接由输入层送入LSTM层进行循环计算,并分别设置每个LSTM层输入张量维度和输出张量维度,激活函数设置为tanh,在模型的隐含层分别添加dropout 约束,使得每个LSTM 网络模块的输入连接上的信息将会以一定概率在前向激活和反向传播权值更新的过程中暂时失活。模型优化函数采用adam 算法,规定batch 的大小。随后,所有提取到的特征一起送入到Flatten层展平为一维的向量,向量作为后两层全连接层的输入,使用全连接的Dense层作为输出层,该层的激活函数设置为relu,全连接层输出维度为1,最终模型的输出为预测的目标Y(t),也就是下一时刻的交通流量数据。

图7 LSTM模型结构图

本文在深度学习框架Keras基础上构建LSTM网络模型,将经过处理的交通流数据利用python中numpy科学计算库转换为矩阵,本文使用Keras 建立线性叠加模型,并初始化网络模型。具体训练预测流程图(其中iterator、Epoach分别表示本轮迭代的次数和模型迭代的总轮数)如图8所示。

4.2 模型的适用条件

上述模型在处理时间序列数据上有较好的效果,但是对于输入数据的质量有较高的要求,如果数据干扰项较多将直接影响训练效果,所以数据输入模型前要进行数据预处理。并且选取训练数据时数据量不宜太庞大,否则训练周期非常长,影响模型方法的利用效率,本文的模型及方法可适用于大部分道路短时交通流预测。

5 实例分析

5.1 实验环境

本例实验环境在Windows 10 64 位系统Intel-i7 CPU、32 GB 内存的高配置计算机上进行,开发环境使用python3.5 语言的Pycharm-professional 集成开发工具,使用Keras所提供的LSTM等神经网络模型。

5.2 数据来源

为了评估本文方法的有效性,本文采用明尼苏达德卢斯大学(University of Minnesota Duluth,http://www.d.umn.edu/tdrl/index.htm)公布交通数据进行实证分析。该数据是从位于Twin Cities Metro 高速公路周围的4 500多个环路探测器以30 s的间隔在道路网络中的多个路段实时收集的交通流量、占用率和速度数据。该大学的服务器每天将收集的数据打包成单个zip文件并保存到存档中。实际路网结构图如图9 所示,以35E、35W、94E、169N、694N、494E 六条公路组成的区域为研究对象,拓扑图如图10所示,选取其中的60个检测路段并编号,以2016年5月1日至2016年5月24日(00:00—23:55)的交通流量作为训练数据,以 2016 年 5 月 25 日至2016年5月31日(00:00—23:55)中的任意一天交通流量作为测试数据对预测模型进行检验。处理所收集的原始数据以形成具有5 min的采样间隔的数据作为模型的输入和输出,以验证预测方法的有效性。

图8 LSTM预测流程图

图9 路网结构图

图10 选中路网区域道路拓扑图

将图10 中的六条道路依次从左到右,每条道路划分为十个路段,每个路段进行编号,具体划分结果如表1所示。

表1 路段编号

表2 相关系数矩阵

5.3 交通流数据相关性计算

对实际道路网中的60 个路段进行时空相关性分析,并根据2016年5月5日的交通流量数据计算相关系数,利用公式(9)进行计算,计算后可得出相关系数矩阵R的值如表2所示。

为了对路段进行分组,将道路网络中的所有路段进行编号,使用由表2计算出的相关系数矩阵R,根据图6中介绍的压缩矩阵方法,设定不同的阈值α,根据相关系数对路段进行分组,则设α=0.92时,计算分组结果如表3所示。

表3 路段分组表

取α=0.88,0.90,0.94,0.96,0.98,0.99,对应上述阈值α经过计算可以将路段分别分为2、4、10、11、15、27组。在分组完成之后,选择适当的值,确定特定的组数并在每个组中任意选择代表性的路段以构建道路网络压缩矩阵。

5.4 性能评价指标选取

为了评价预测结果的性能,本文分别以均方误差(MSE)、平均绝对百分比误差(MAPE)及准确率(ACC)作为评价指标,具体定义如下:

式中,yi表示的是某一时刻的实际交通流量值,ŷi表示对应时刻的预测值,N为预测样本个数。

5.5 实验结果及分析

5.5.1 构造压缩矩阵

由5.3节的内容介绍可知α的大小决定了压缩矩阵中路段数的选择,这会影响整个路网预测的准确性。因此,对于每一个阈值这里提出相应的压缩比(定义为UR),文中为了得到合适的压缩比,分别设定了不同的α,通过多次实验,得出了不同α与UR之间的关系,在设定不同的α的条件下,通过分析系统运行时间T来得出最佳的α值。压缩比数学计算表达式定义为:

式中,p代表路段总数,r代表分组组数。

由表4可以看出:相关系数阈值α的大小决定着压缩比UR的大小,如果调整α增大,则UR减小,系统运行时间也会随之变化。为了保证预测精度在一定范围内,经过严密分析,发现当相关系数阈值取0.92(即UR=15%)时,系统有最短的运行时间。因此,文中选择编号为15、43、19、47、58的路段交通流数据构成路网压缩矩阵,然后对每个路段分别进行预测,以这五个路段的交通流预测值来刻画出路网的交通情况。

5.5.2 数据特征分析

以编号15路段某一检测站点为例,主要考量流量、占有率和速度三个因素,在数据库中获得原始数据进行分析,发现交通流数据具备以下几点特征:

(1)相似性

人们出行规律很大程度上影响交通状况,比如大部分上班族保持“朝八晚五”的工作作息时间,这导致出入工作区的交通流量保持一定规律,也使得每日的交通流具备相似性特征。

(2)周期性

经过分析可知进出工作区和生活区的道路上的交通量具有周期性特征,且工作日相比于节假日具有明显的交通流峰值。

表4 不同α 对运行时间的影响

(3)时空相关性

由表2中计算结果可知,路网中不同路段车辆检测站点间的交通流量具有很强的时空关联性。

5.5.3 结果预测

每个路段的训练数据为2016年5月1日至2016年5月24 日(00:00—23:55),交通流数据采样时间间距5 min,时间延迟为3,因此每天的样本数为285,24 天的训练样本集的总量为6 840 个样本,5 月25 至31 日测试样本集的总数为1 995个样本。

通过上述分析可知,文中已经选取出了五个路段来代表路网进行预测,选择编号为15(组内已选路段)和编号为45(组内未选路段)的路段作为分组后的特例进行预测效果展示,验证LSTM模型的预测效率。预测结果如图11、12。

图11 路段15交通流量预测图

图12 路段45交通流量预测图

图11、图12中将交通流测试集数据以每5 min为一个时间点,划分100 个时间序列点作为横坐标,交通流量作为纵坐标来显示预测结果。从两图预测结果中可以看出,预测结果曲线中实际流量值出现明显上下变化趋势时,预测值随后才开始做出相应变化,有一定的滞后性,这是由于LSTM模型本身性质引起的。不过预测值与实际流量曲线斜率变化趋势保持高度一致,预测结果较为接近,说明模型具备好的预测能力。

5.5.4 dropout参数设置对预测结果的影响

为了测试dropout参数设置对于实验预测误差的影响,对不使用 dropout 和 dropout 取值为0.1、0.3、0.5 时分别构建预测模型进行测试,历史交通流量数据时滞N在1~7变化,实验的结果误差如表5所示。

表5 dropout参数设置对预测结果的影响

从表5中可知采用dropout预测模型比不采用dropout预测模型在不同输入时间段长度下计算得到的MSE和MAPE值都小,这是由于在训练阶段利用输入数据进行权值调整时,隐藏层节点在每次迭代时都是以一定概率随机出现,这种权值的更新方式不再依赖于有复杂关系隐含节点的共同作用,增强了LSTM网络模型在缺少个体连接信息条件下的学习能力,避免了某些数据特征仅仅在特定情况下才有效果的情况,这样很大程度上提高了模型的泛化能力,整体上看dropout值为0.3的预测模型有更好的表现。

5.5.5 预测结果对比分析

对文中提出的模型改变不同的预测时间长度进行实验分析,为了评估提出方法的有效性,采用了另外四个模型进行对比实验。五种模型分别是支持向量回归(SVR)模型、人工神经网络(ANN)模型、自回归积分滑动平均(ARIMA)模型、卷积神经网络(CNN)模型和本文提出的运用时空分析并经过路网数据压缩矩阵输入的LSTM模型。首先,使用5 min交通流量的预测结果,使用三个预测误差评估指标来比较模型的性能:均方误差(MSE)、平均绝对百分比误差(MAPE)、准确度(ACC)用于评估模型,计算结果如表6所示。

表6 5 min交通流量预测比较

进一步讨论所提模型和其他模型在不同时间段的预测性能,分别用不同模型预测未来10 min、15 min 和20 min的交通流量,并比较它们的预测性能。计算结果如表7所示。

表7 不同时长交通流预测比较

由表7可知在相同的网络结构下,当预测时间间隔从10 min增加到20 min时,CNN算法的MAPE从10.87%增加到12.51%,在其他模型中也可以观察预测性能降低的情况。虽然所有算法的准确率会随着预测时间的延长而降低,但误差的增长率在模型之间有明显的差异。例如,当预测间隔从5 min延长到20 min时,路网LSTM模型的MAPE增加了1.88%;与此同时ARIMA、SVR、ANN和CNN分别增加了9.55%、6.06%、5.6%和2.04%。从以上数据可以发现,本文提出的路网LSTM 模型误差最小,随着预测时间的扩展,误差增长速度也最慢。根据上述讨论,本文提出的方法及模型具有良好的预测精度,并且在不同的时间间隔预测问题上表现较为稳定。

6 结语

本文使用实验室公开的交通数据,选取路网区域路段进行了时空相关性分析,通过分析并构造压缩矩阵输入LSTM 模型之中,使用Dropout 正则化方法提高模型的泛化能力,并与其他四种模型进行了预测结果对比测试,发现本文所提出的模型预测的准确率达到了92.47%,比ARIMA、SVR、ANN、CNN 模型的预测准确率分别提高了19.38%、11.85%、11.22%和4.94%,表明本文所提出的方法及模型具有良好的预测性能。虽然本文采用的方法取得了较好的预测效果,但天气、交通事故、交通控制等因素对短期交通流量也有重要影响。在未来的研究中,应进一步考虑这些外部因素以更准确地预测短时交通流量。

猜你喜欢
交通流量交通流路网
基于XGBOOST算法的拥堵路段短时交通流量预测
基于GA-BP神经网络的衡大高速公路日交通流量预测
打着“飞的”去上班 城市空中交通路网还有多远
环球飞行(2018年7期)2018-06-27 07:25:54
省际路网联动机制的锦囊妙计
中国公路(2017年11期)2017-07-31 17:56:30
首都路网 不堪其重——2016年重大节假日高速公路免通期的北京路网运行状况
中国公路(2017年7期)2017-07-24 13:56:29
路网标志该如何指路?
中国公路(2017年10期)2017-07-21 14:02:37
交通流随机行为的研究进展
路内停车对交通流延误影响的定量分析
具有负压力的Aw-Rascle交通流的Riemann问题
基于复合卡和ETC的交通流量采集研究