基于时空图注意力神经网络的交通道路拥塞和异常预测

2022-02-24 12:52赵萍李欣朱少武

科学技术与工程 2022年3期

赵萍，李欣，朱少武

(中国人民公安大学信息网络安全学院，北京 100038)

人们高度关注在日常出行中的人身安全与出行选择问题。由于交通路况的复杂多变性，预测交通流量、拥堵，合理预判路况、规避突发事故等智能交通领域的问题成为研究的热门方向。智能交通系统[1](intelligent traffic system, ITS)提出的道路科学管控模式为提升道路运输效率提供了解决方案，并使高峰时段的拥堵情况得到一定改善。但是，现实生活中，交通由于受到突发的事故、早晚出行车流高峰等因素的影响，传感器站收集的路况数据信息呈非线性，历史路况以及当前车辆所处的地理位置和当前路况共同对道路预测问题发生作用。因此，对交通流量，车速和道路占用率等数据的空间时间相关性分析，并挖掘隐含的规律和模式特征成为交通预测领域研究发展的突破口。

在智能交通领域中对道路流量、拥塞、事故等路况预测相关问题的研究持续了几十年。针对道路预测中的时间依赖特性，早期的文献中利用统计学数学模型预测时间序列，基于当前的数据通过分析时间序列对未来交通流量做出预测，具有代表性的如Pitakrat等[2]提出的自回归综合移动模型(auto-regressive integrated moving average model, ARIMA)。该模型结构简单，但是仅能捕捉稳定的、线性关系数据中的规律。交通数据因容易受到外界突发事故或天气等因素影响，呈现非稳定性和复杂性，该模型对此处理效果欠佳。为了解决非线性交通数据的难点，曹洁等[3]提出基于小波和多维重构的BP(back propagation)神经网络，针对原始数据剔除噪声，改进原始BP神经网络收敛速度慢，容易陷入局部极小值的缺陷并进一步提升了对非线性交通数据的拟合能力。朱永强等[4]采用遗传算法优化参数的最小二乘支持向量机处理复杂的交通数据，实现对道路交通流量的预测，该算法针对模型稳定性问题进行改进优化预测精度。Zhang等[5]利用K近邻算法预测交通情况，将当前路况与已知相似路况对比实现预测。但机器学习模型效果依赖于大量特征工程，导致机器学习算法选择的局限性，模型缺乏普适性。随着深度学习的发展， Laptev 等[6]利用循环神经网络(recurrent neural network, RNN)提取交通数据中的动态时间特性，以充分考虑历史路况对当前路况的影响。为了避免RNN中的梯度爆炸等问题，Ma等[7]、Abbas等[8]利用深度长短时记忆神经网络(long short-term memory, LSTM)捕获非线性的交通动态数据中的时间特征。

前述模型着墨于通过道路的时间特性预测交通问题，对道路拓扑结构中空间特征的挖掘尚浅。针对道路网络的空间特性，有研究利用贝叶斯模型对道路网空间特性进行建模[9]。进一步，Zhang等[10]利用卷积神经网络(convolutional neural networks, CNN)能够提取数据空间局部特征的优势，在大规模和高维度的数据集中对节点的空间特性进行建模。但卷积神经网络适用于提取标准网格化数据的特征[11]。近来，图拓扑结构被广泛应用于模拟现实世界中的实体和它们之间的关系，以更好地获取数据中的空间相关性[12]。部分研究把交通路网抽象成多个实体及其之间相互关系，以图拓扑结构中的点表示实体，边描述实体的相互关系，形成交通网络中的道路图；再将智能交通领域的道路拥塞和流量预测的研究热点利用图论的知识加以解决[13]。在此基础上，结合图论的方法能够更有效地提取交通路网的空间特征，Aggarwal 等[14]利用随机游走方法将图的空间结构和内容结合进行节点分类;Güne等[15]利用遗传算法对随时间动态变化的图的节点进行分类，提升了分类的效果;Li等[16]提出了一种路径固定长度向量嵌入表示方法优化该问题，对随时间变化的路网图中的路径进行分类，即将研究节点分类问题拓展为路径分类问题;Kipf等[17]基于通用的图卷积神经网络的模型框架，从谱域角度研究道路网络交通预测问题；Cui等[12]利用图卷积神经网络对交通路网图进行学习和预测，通过拉普拉斯矩阵在图结构化的数据上实现卷积操作；Zhang等[18]在图卷积神经网络模型基础上还结合Encoder-Decoder模型学习图中边及其上下游节点间的关系。此外，注意力机制在自然语言处理、计算机视觉等领域的成功表现使其在交通领域应用兴起。Velikovi等[19]利用融合注意力机制的神经网络对时间序列进行预测取得了显著效果。

上述模型对于同时有效的提取交通图拓扑数据中的空间、时间特性以及时空相关性仍有提升空间。将道路抽象成随时间变化的图，对图中路径依属性分类以预测道路拥堵和事故等突发状况的研究非常有限[20-21]。并且当前研究不够全面依据节点受到时间、特殊地理位置等客观因素不同，考虑到图中的邻节点对关键节点所带来的不同影响。因此，合理建模动态变化的交通道路图，以及对随时间变化的道路图中的节点特征进行表示学习，对节点连接形成的路径分类，并在此基础上，有效挖掘交通数据的空间和时间模式，仍然是高效准确预测道路的拥塞和事故导致的路况异常研究的难点。

现设计一种基于深度学习的道路拥堵和突发情况预测方法——时空图注意力神经网络模型(graph attention network-gated recurrent neural network, GRU-GAT)。通过该模型，充分考虑交通道路网络中的时间和空间依赖性，以更准确的实现道路拥塞和异常的预测。图注意力神经网络能够关注到交通数据空间特征同时学习到客观因素导致的节点隐含特征的区别，通过综合考量交通路网图中节点的属性特征，以及道路图局部和全局拓扑结构特征，依据节点的邻域特性为节点分配不同的权重；斟酌实体间影响程度的差异性，进一步优化对图中的节点的属性表示，对道路情况进行分类。门控循环单元具有高效捕捉数据时间特征的能力以及避免循环神经网络梯度爆炸问题的优势，针对道路预测中一系列时序信息中的内在和外在时间依赖性问题，GRU能在捕获时间特征的同时提升算法的效率。将上述二者结合建模交通数据，在文献[16]对时变图中路径进行分类的研究基础上，有效提取空间和时间特征及其相关性的同时，从空域角度预测道路拥堵和断交等异常情况。通过在CALTransPeMS实时采集的高速公路交通数据上进行实验，检验模型在真实交通拥塞与异常预测业务场景中的效果。

1 研究方法

1.1 准备工作

首先将对研究的问题进行定义和解释，并给出所应用的变量对应的符号表示。

1.1.1 道路网络拓扑图

使按照车流行使走向将道路网络建模为有向图G=(V,P)。其中，节点集合V表示传感器站点(布设在道路上的探测器)，路径集合P表示路段。数个v节点勾连构成多条路段。例如，p={v1,v2,…,vm},表示p路径由m个节点勾连而成，v∈V。A为描述路径状态的邻接矩阵，At(i,j)∈(0,1)表示在t时刻从vi到vj连接路段的状态。A=1表示该路段车辆正常通行，A=0表示该路段存在拥堵或异常情况。对应每一个时间段0,1,…,t，有A={A0,A1,…,At},形成一个时间序列，由于每个时段道路的连接状态不同，即由于道路因突发事故或拥堵形成对应的邻接矩阵A不同，图的拓扑结果随时间动态变化，进而形成了一系列随时间变化的图G={G0,G1,…,Gt}。

图1展示了道路随时间动态变化的拓扑结构，节点之间不同时刻由于节点收集数据的不同具有不同的连接状态，呈现不同的拓扑结构，称为随时间变化的交通路网拓扑图。

图1 道路路况随时间变化拓扑图

1.1.2 节点特征

在复杂动态的交通道路网络基础上进行未来道路拥堵或事故预测时涉及以下几个关键点。

(1)节点空间相关性。路网图被看作是由道路和道路上设定的传感器站连接形成的图，这些传感器站表示为图中的节点，道路被表示为图中的边。每个传感器记录固定时间段内通过该点位的车辆的平均时速和道路的平均占用率，认为在同一条道路中的相邻或一定范围内的节点上所采集到的信息是具有相关性的，在一个时间段内同一路径上一定距离范围内节点采集到的信息会展现出一定的相似性和关联性。

(2)道路图拓扑结构动态性。因各种突发情况在车辆行驶中的产生致使道路拓扑结构是随着时间动态变化的。利用每一个时间段收集的节点信息将道路状态以图的形式表示，则每个时间段所记录到的交通道路图会因道路拥堵或事故等突发情况而呈现不同的拓扑结构。例如，在t时刻A道路因发生事故而拥堵，那么与这条道路相连的其他道路会在t+1时刻分散来自A路的车辆。图中与这些道路对应的边就会呈现路况变动。

(3)时间特性。每一个传感器站所采集节点的特征都具备某种内在和外在时间关联。其次，由这些数据构成的时间序列呈现出非线性、复杂性。从时间序列预测问题出发，t-m时段观测的数据可以为t时段的道路情况预测提供有意义的信息，这是动态时序数据中内在的时间特性。此外外部客观时间因素对交通道路预测也会带来影响，如一天内早晚出行高峰时段、双休日和工作日时段以及节假日时期人们的出行习惯都会对道路拥堵和事故预测带来影响。

上述三个特性是完善道路预测研究的难点。为了攻克上述挑战，首先，要对动态的道路拓扑图建模，以提取路网图拓扑结构中节点空间特性；接下来，挖掘交通数据的时间特性并把握长期的变化规律；最后，对动态拓扑图的空间特征和时间特征之间的关系做出探讨。

图2展现了道路中节点之间的相互影响，节点b在t时刻受到来自a节点的车流影响，同时还受到其他邻节点的影响；此外b节点还受到t-1时刻来自a节点的车流的影响。该图呈现出节点及其邻节点间同时被时间和空间所影响。

图2 节点间的时空相关性

1.2 时空图注意力神经网络模型

设计了一个时空图注意力神经网络模型(GRU-GAT)，该模型能够对交通数据的空间特性和时间特性并行提取，挖掘节点的隐含特征，对道路拓扑图中的路径进行分类，据此预测出道路的拥堵或事故等造成道路断交的情况。该模型的框架图如图3所示，首先利用图注意力神经网络获取动态的图拓扑结构以及图的节点隐含特征的表示。然后应用门控循环单元(GRU)提取道路网络中的内部和外部的主客观因素隐含的时间依赖性。最后用路径嵌入(self-attentive path embedding, SAPE)将任意长度路径嵌入在固定向量中，对路况进行预测。

图3 模型结构图

接下来将对GRU-GAT模型的细节进一步阐述。

GRU-GAT模型的第一部分应用从空域的角度考虑图结构的方法，利用图注意力神经网络来建模每个时段道路交通网络中的道路(边)以及设置在道路上的传感器站(节点)构成的几何空间结构来对交通路网图进行表示学习，表征路网结构的几何关系。GAT的优势在于其能够很好地表示动态的图空间结构。该优点与交通路网图每个时刻随车况动态变化的特点相契合。传感器站每小时搜集的数据描述了每个时段的交通路况信息。该信息映射到图中就会通过图中边和节点有无连接来表示。当道路数据超过设定的阈值时，该条道路由于拥堵严重或突发因素道路暂时不能通行，图中对应的路径就不连通，特征向量会改变，故当前时段会得到与历史时段具有不同空间结构的路网拓扑图。这也构成了本文研究难点之一，即路网图的空间结构在每个时段都动态变化着。其次，图注意力神经网络能够适用有向图的空间特征的提取。道路图依据车辆走向而形成有向图。第三，图注意力神经网络能够关注到中心节点的邻节点对其带来的不同影响，这种不同的影响在模型训练中通过为邻节点分配不同的权重来表示，该特点能够更切实地反映真实道路中，特殊的地理位置、事故等因素对道路情况预测问题带来的影响。

将N个传感器站收集到的信息定义为特征，其大小为4 438×2 160，作为输入。每个节点的特征向量为hi(i∈N)，有h={h1,h2,…,hn}，特征向量的维度为2；然后对节点的特征向量h进行特征变换得到新的特征向量h′i(i∈N)，接下来就是利用self-attention机制(图4)来计算两个节点之间的重要程度，即注意力权重，节点i及其邻节点j的权重用aij表示。计算节点i与节点j注意力值的公式为

图4 图注意力机制结构

eij=a(Whi,Whj)

(1)

可以利用该机制对图中节点对的注意力值eij进行计算。W是需要训练的权重矩阵，可以对特征进行转化，通过把节点经过了线性变换的特征向量进行拼接后，再与一个向量a计算内积；其中，a表示可训练的参数向量，两个向量内积求得的数值由两个节点的特征信息所决定。运用文献[19]中的masked attention将图的结构融入该机制，从而只计算i节点的一阶邻居节点集合中的节点对i节点的影响权重aij。接下来，利用softmax函数对节点i的一阶邻居节点集合进行归一化，归一化后得到注意力权重αij这一聚合系数，以对比各节点之间的系数差异。这也就构成了图注意力神经网络中的核心graph attention layer，一个单层前馈神经网络，激活函数为leakyRelu，图5所示为计算原理。公式为

图5 注意力系数

(2)

接下来，需把获得的邻节点的权重和节点自身特征融合抽象成新的特征。将式(2)中经归一化处理后的注意力系数与对应的特征再做线性结合，获得每个节点最后的特征表示作为输出，即

(3)

式(3)中:σ为激活函数。

注意力机制的最后一个操作即multi-head操作机理如图6所示。基于此操作可以提取到图中的更多信息，稳定self-attention的学习过程，优化注意力模型，公式为

图6 多头注意力机制

(4)

模型的第二部分是应用了GRU来解决研究的第二个难点，即路网图的时间依赖性。GRU在长短时记忆神经网络基础上进一步改进门控结构，在解决RNN中梯度爆炸和梯度消失的问题的同时，GRU较之LSTM的优势在于其模型的结构更为简单，涉及的参数更少，应用在模型中也同样能取得很好的效果，还能提升模型训练的效率。GRU中有两个控制单元门，即为Reset gate 和 Update gate。计算方法公式为

rt=σ(Wr[ht-1,xt])

(5)

zt=σ(Wz[ht-1,xt])

(6)

(7)

(8)

式(8)中：ht即为最终输出的隐含层信息。在这一部分，将经过attention layer的新的特征向量按照传感器站收集的时间顺序输入GRU中，以此得到连续的每个时段的交通路网图中内在的时间依赖性。将输出的最后的一个结果，作为模型最终对路经进行分类判断并预测道路状态的依据。

2 实验

2.1 实验环境

本实验依托于Pytorch作为深度学习底层框架。硬件环境为：NVIDA-GTX1660Ti GPU，操作系统为windows 1 064位，CPU为Intel(R)Core(TM)i7-9750H CPU @ 2.60 GHz，内存16 GB。

2.2 实验数据集

本次实验采用了加州运输机构(CalTrans)性能测量系统(PeMS)收集的高速交通数据集，该数据集是设置在美国加利福尼亚州4 438个传感器站从2018年6月1日—8月30日连续三个月的交通数据，具体数据内容为聚合在每小时粒度上的车辆平均速度和道路平均占用率。每小时观测点将记录一个结果，3个月的时间步长为2 160。在路网拓扑中，两个站点的节点分别表示为vi和vj，依据两个节点的数据信息，描述路段pij状态，当两点间路段通勤正常则被表示为Aij=1，否则Aij=0，据此构造邻接矩阵A。道路图的空间关系依据这些节点检测到的数据表明的路况异常与否，具有不同的拓扑结构。随机获取200条路段中的两个节点作为路段的起点和终点，形成200条路段样本。故一共有2 160×200条随机路径作为样本，其中选取70%作为训练数据集，10%作为验证数据集，20%为测试数据集。利用前24 h的数据预测第25小时道路的状态。

2.3 评估指标和对比方法

以DCRNN、LRGCN、LRGCN-SAPE(static)、LRGCN-SAPE(evolving)4种方法作为Baseline。以准确率、召回率和F1值作为最优评价指标，具体计算公式为

(9)

(10)

(11)

式中:TP表示被模型预测为正的正样本；FP表示被模型预测为正的负样本；FN表示被模型预测为负的正样本。

2.4 实验结果及分析

实验结果如表1所示，GRU-GAT模型在三种评价指标中均取得了最优结果。

表1 实验结果对比

DCRNN、LRGCN、LRGCN-SAPE(static)都是在静态的交通数据图中获取数据时间和空间特征的深度学习方法，与之相比GRU-GAT方法能够在准确率、召回率和F1值的结果均优于上述三个模型，表明该方法能够更好地提取数据集中的时间和空间特征。DCRNN针对道路车流量建模为有向图的扩散过程，在交通拓扑图中利用双向随机漫步捕获空间特征，但是在对路网图中的边赋予权重时仅简单地以传感器站点之间的距离来进行表征，缺乏对道路实际业务场景下各类复杂因素的考量。与之相比，GRU-GAT方法能够经考虑了道路各种突发因素下合理分配权重，所捕获的空间特征更加周圆丰富。LRGCN与LRGCN-SAPE(static)在建模道路图中能够进一步关注一阶邻节点带来的影响，但是在分配权重时为所有一阶邻节点分配的权重相同，与之相比GRU-GAT在权重分配问题上运用注意力机制为邻节点合理分配不同权重，在解决交通异常预测问题中更符合业务场景实际。GRU-GAT方法使用GRU替换LSTM，与LRGCN-SAPE(static)相比，降低了一定的参数量，有助于模型训练速度的提升。

LRGCN-SAPE(evolving)是应用在一系列随时间变化的交通拓扑图中提取数据空间和时间特征的方法，与之相比GRU-GAT模型在上述三个指标上也表现良好，表明在对动态的交通数据建模成路网图后，对待动态的交通场景GRU-GAT模型依然可以有效地提取动态道路图的时空特性并进行道路交通情况的预测，得到了更优的预测结果，并保证了预测结果的准确性。

接下来通过绘制损失结果如图7所示，呈现对多种基准方法的训练效果和模型学习率的对比结果。

图7 不同方法验证损失函数值对比

图7中展示了不同模型的学习曲线的变化趋势，DCRNN的学习曲线存在一定的波动，表明该模型与其他方法相比更加难以收敛。GRU-GAT和LRGCN-SAPE(evolving)方法比别的方法都较快的收敛，但GRU-GAT较LRGCN-SAPE(evolving)方法的收敛速度更快，表明GRU方法能够在达到与LSTM方法相同效果的基础上进一步提升效率。此外GRU-GAT较别的方法的验证损失函数最小，无明显的波动，该结果表明该模型的训练效率优于其他模型，并且能够及时收敛不易过拟合。

3 结论

设计了一种时空图注意力机制神经网络模型GRU-GAT,结合图注意力神经网络和门控循环单元实现对交通数据图中时间和空间特征的并行提取，对交通道路流量与异常进行预测，得到以下结论。

(1)在PeMS交通数据集上的预测实验，模型效果好于对比方法，证明该模型在挖掘利用交通拓扑数据的时空关联特性的优势。

(2)图注意力神经网络可以提取不特定结构的交通路网图中的空间特征，当具备满足构建模型拓扑结构的信息时，例如车辆的平均时速与车道平均占用率，则该模型也能够处理其他的交通数据集，具有较优的泛化能力。

(3)模型应用的门控循环单元能够降低模型的参数复杂度，并保持较优的训练结果。

(4)未来优化该模型研究时，将进一步考虑到交通预测问题中的其他客观因素如天气等；另外该模型由于以图论方法为基础进行设计，涉及并使用的参数量仍较多，旨在保有当前模型性能的前提下，缩减模型的参数量。从而进一步提升模型的预测准确率，以及训练速度和训练效率。