基于时序相关性的城镇交通流预测方法研究*

2023-05-12 02:26李智慧朱玉全
计算机与数字工程 2023年1期
关键词:子网交通流路网

李智慧 朱玉全

(江苏大学计算机科学与通信工程学院 镇江 212013)

1 引言

中国进入21 世纪以来,城镇化率越来越高,过去的路网系统已不能满足出行需要,对此,一方面可以重新合理规划城市交通路网设计,另一方面则可以引入智能交通系统。智能交通系统系统就是对传感器返回的数据进行特征提取,再将结果应用到现实世界中去。比较普遍的想法是利用交通流在时间维度上的关联性,周期性,扩大考察范围提高预测精度。但是城镇交通流数据除了在时间维度上具有周期性,历史数据显著影响未来数据的特征外,在空间维度上也有较大的相关性。

Stathopoulos[2]等考虑了简单的空间联系,利用上游的数据预测下游的交通流数据。杨胜[9]等分析认为汇入的上游路段和流出的下游路段同时影响未来交通流,利用这两部分数据建模结合决策树并建立规则库得到了很好的预测准确度。不同与上述两种方法,李一龙[10]等基于动态规划思想提出了交通流预测与分配的方法,考虑路段容量对交通分配的影响,建立了路网流量预测和分配模型。Ye[11]等研究发现如果在传统的中介中心性中通过线性加权聚合引入路段间的来往亲密度,路网建模将会更加完整。Zheng[12]等提出一种深度融合的学习方法与现实世界中的特征因素结合,包括路网结构和天气情况。卷积神经网络可以学习二维交通流数据的特征,二维指的是时间和空间两个维度,再利用长短期记忆网络保留对历史数据的记忆。周明[13]等在能完全掌握路网拓扑结构的前提下,以是否邻接作为标准得到路段的关联矩阵,用这种矩阵表征路网空间关系。

现有的交通流预测模型或简单地考虑上下游交通流数据无法进一步提高预测准确率,或考虑整个路网导致时间资源浪费,得不偿失,或利用路网物理拓扑结构提取空间特征,不考虑交通流数据在不同时间段的差异。于是提出一种考虑路网连通性和时间序列交叉相关性的方法挖掘路网空间特征。

2 时间序列交叉相关性

城镇路网可以看作一个相对封闭的结构,其内部的交通流不会凭空消失,在小范围内是相互流动的。

根据路网交通流的流动性可知,相连路段间的交通流特征变化具有时间维度上的一致性。城镇路网空间特征包括由拓扑结构决定的恒定特征和由社会活动决定的动态特征,而在短时交通流预测中动态空间特征更有考察意义。所谓动态空间特征是指路网空间特征及路段间的空间关联性是随时间变化而变化的。

相关系数通常用来表征两序列间的交叉相关性。路网交通具有连通性,通过判定两路段平均交通速度变化间的相关性可以得到路段间是否连通的定性关系。皮尔森相关系数和最大信息数(Max⁃imal Information Coefficient,MIC)是两种最流行的线性相关系数和非线性相关系数。以下是三对邻接路段在同一时间段内输出的交通流特征序列间的两种系数。

图1 中两路段是上下游关系,计算出的线性和非线性相关关系也基本一致。图2 中的两段路不再是理想的上下游关系,虽然在逻辑上仍然认为两段路有紧密的相关关系,但是皮尔森系数已经开始大幅减小。图3 中的两段路间的皮尔森系数已经下降到无法认为两路段输出序列间有相关性的程度,但是非线性相关系数超过了0.5,更好地表征了两路段在空间上的关联性。通过在容易得到拓扑结构的路网上做实验,表明非线性相关系数更合适用来表征路段间的相关性。

图1 理想上下游(皮尔森系数:0.99;最大信息数:1)

图2 典型上下游(皮尔森系数:0.76;最大信息数:1)

图3 特殊上下游(皮尔森系数:0.41;最大信息数:0.57)

3 基于时序相关性的路网空间特征挖掘

3.1 动态路网划分算法

3.1.1 动态路网空间模型

动态路网空间模型是以时间为自变量的动态时域模型,可以运用动态空间分析法对路网的时变行为进行描述。对动态路网空间模型基本概念的阐述如下。

1)状态变量和状态向量

假设时域为T,则在此时域内的状态变量为Trai,表示路段i 在时域T 内的交通流特征值。于是,时域T 内的状态向量为Tra={Tra1,Tra2,…Tran}。

2)输入变量和输入向量

动态路网空间模型的输入变量是指外界作用于其的各种可观测和不可观测因素的总和。输入向量由输入变量组成。

3)观测变量和观测向量

路网空间模型在系统作用下得出的一组对应变量称为观测变量,由观测变量组成观测向量。

4)状态空间

状态空间包含了系统全部可能存在的状态,路网状态空间由所有时域下的状态向量组成。

5)状态方程与观测方程

用于描述动态路网空间模型的状态方程与观测方程为

式中:Xt为t 时段n 维的路网状态向量,不能直接观测得到;Ut-1为t 时段r 维的路网输入向量;wt为t 时段系统噪声;yt为n 维观测向量;vt为t 时段系统噪声;Ft为n×n 维状态转移系数矩阵;Tt为n×r 维输入系统矩阵;Gt为n×i 维噪声转移系数矩阵;Ht为j×n维输出系数矩阵。

3.1.2 算法说明

提出一种脱离路网拓扑结构而依据路段输出的交通流特征序列的空间特征挖掘方法,采用密度聚类(DBSCAN)传递思想。这一思想与路网结构中的交通流具有相似性。被划分为一类的路段组成一个子网。子网S 是满足以下性质的非空样本子集:

连接性:若xi∈S,xj∈S,则xi和xj密度相连。

最大性:若xi∈S,xj由xi密度可达,则xj∈S。

不难证明,若x 为核心路段,则由其密度可达的所有路段组成的集合为X={x′N|x′由x密度可达}满足连接性与最大性。具体描述如算法1 所示。

算法1 空间特征挖掘算法

输入:N个用交通流序列表征的路段,r:相关度阈值,MinRs:子网最少路段数。输出:子网划分结果。1)将所有路段标记为未访问;2)执行3) 随机选择一个未被访问路段R;4) 将R标记为已被访问;5) 若R在r标准下的邻域内的路段数不小于MinRs 6) 创建一个子网S,将R划分入S;7) 将R 在r 标准下的邻域内的路段集合记为G;8) 对G内的每一个路段R'操作9) 若R'未被访问

10) 将R'标记为已被访问;11) 若R'在r 标准下的邻域内的路段数不小于MinRs 12) 将该邻域内的路段加入集合G 13) 若R'还未被划分到某个子网,将其划分入S 14) 输出子网S;15) 否则将R标记为噪音路段;16)直到所有路段均已被访问。

3.1.3 相关实验

为了更直观地说明路网划分算法,使用来源于http://www.openits.cn/openData2/746.jhtml 的安徽省宣城市水阳江范围内2016 年12 月15 日全天交通数据集作为输入,得到路网划分的可视化结果。

每一段路上的交通流随时间变化序列按照前一天晚上22:00到当天凌晨6:00(记为时间段T1)、当天凌晨7:00到中午12:00(记为时间段T2)、当天中午13:00 到下午18:00(记为时间段T3)、当天下午19:00到当天凌晨21:00(记为时间段T4)分为四个序列分别代表各个时间段的交通特征。这四个时间段的路网在3.1.2 小节算法的划分下会得到不同的子网结构。

图5~图8利用线条样式区分不同的子网划分,可以看出水阳江附近的路段在不同时段被分为四个子网。

图4 T1下的划分结果(相关度阈值:0.9)

图5 T2下的划分结果(相关度阈值:0.85)

图6 T3下的划分结果(相关度阈值:0.8)

图7 T4下的划分结果(相关度阈值:0.9)

图8 基于路段随机组合和前馈神经网络的预测方法

4 基于改进剪枝算法的交通流预测模型

4.1 基于改进剪枝算法的前馈神经网络

前馈神经网络(BPNN)具有两个主要特征:加权平均和激活函数。神经网络的加权特性要求模型输入特征之间的相关性不应太强。如果直接应用路网空间特征提取后的训练数据集,神经网络的输入就是基于变量间的相关性,这使得输入变量间无法保证独立同分布。于是为了避免由于输入变量间相关性强导致神经网络训练效率低的问题,提出了BPNN的改进模型。

模型采用随机梯度下降的方式更新神经网络的参数,假设损失函数定位为L(y,y),其中y 为真实值。使用梯度下降更新神经元参数实际就是对神经元权重w 和偏置b 求偏导数。根据链式法则有:

其中,W(k)和b(k)表示第k 层隐藏层神经元的权重和偏置,Z(k)表示神经元的输入。将第k 层神经元对最终误差的影响记为Δ(k)。于是有:

其中N(k)=fk(Z(k))表示第k 层神经元输出,Z(k+1)=W(k+1)×N(k)+b(k+1),于是有:

而前馈神经网络的更新参数规则为

模型使用的改进剪枝算法就是基于Δ 的相关性,若两神经元对于误差的影响效果具有强相关性,则认为它们可以合并。相关性算法要求先算出隐层节点的δ值,然后计算每个节点δ值间的相关度以及各δ值的方差。第i个节点和第j个节点的相关度公式为

其中,N 是δ值的组数,δi标识第i 个节点的平均δ值。

第i个节点δ值的方差为

R 较大或S2较小的节点可以被合并或删除,这一操作可通过调整激活函数实现。

4.2 算法说明

基于动态子网划分的交通流预测方法可以分为原始数据缺失补全、交通流时间序列数据关联关系挖掘、神经网络得出预测结果三个部分。

算法2 交通流预测算法的流程(以前一天晚22:00到当天6:00时间段和工作日为例,记为条件P):

输入:各路段在一段日期内时间间隔为I采集得到的平均交通流速度。

输出:预测误差。

1)原始交通流特征数据补全缺失:

2)发现缺失点(R,D,T);

3) 若是(R,D,T-1)和(R,D,T+1)处数据完整,则取两者平均补全;

4) 否则,依据天气和是否休息日得到按照其余路段与路段D相似度由大到小排列的序列S={Ri,Rj,…,Rk}

5) 依次查找S 中路段在T,T-1,T+1 处数据是否完整;

6)得到每一路段工作日P条件下从早到晚排列交通流时间序列Trai;

7){Trai,Traj,…Trak}集合输入算法1 得到输出:子集S;

8)以子集Si={ri,rj,…rk}为例:

9)对Si中的每一个路段r操作

10)对满足条件P的每一个交通流数据d操作

11) 依次拼接Si中路段在d前一时间间隔的交通流数据为序列seq,再将d接到最后组成完整序列;

12)上述步骤i 到步骤k 过程后得到一个时间序列集data_set;

13)搭建一个输入层神经元数目为len(Si),输出层神经元数目为1的基于改进剪枝算法的前馈神经网络;

14)data_set 按照7∶3 比例划分为train_set 和test_set,依次输入神经网络模型后得到预测模型和预测误差。

5 实例分析

5.1 误差评价指标

5.1.1 平均绝对相对误差(Mean Average Relative Error,MAPE)

式中,qk表示交通流量实测值,qk表示交通流量预测值。

5.1.2 均方根误差(Root Mean Square Error,RMSE)

5.2 预测结果分析

http://www.openits.cn/openData2/732.jhtml 中的数据集包括中国广州市的214 个路段从2016 年8月1 日到9 月30 日以10min 为间隔的数据。利用3中的算法处理数据集后,会得到预测结果。

可以看出,图9 中的预测线条只是大致拟合了实际交通流数据变化趋势,与真实数据仍有较大偏差,图10 和图11 中的预测线条更好地拟合了实际变化趋势,并且也还原了细小的变化,可以看出误差已经显著下降。

图9 基于路网空间特征挖掘和前馈神经网络的预测方法

图10 基于路网空间特征挖掘和剪枝算法改进后的前馈神经网络预测

表1 给出了三种方法得到的预测结果与实际测量值之间的MAPE 和RMSE 两种误差以及训练时间,可以看出基于动态子网划分算法的交通流预测算法与普通方法相比使得两种误差分别下降了0.8%和25%。并且从时间复杂度的角度考虑,剪枝算法不仅保证了预测精度并且大大节省了模型训练时间,将预测时效性提高了45%。

表1 误差比较

6 结语

异常点处的交通流预测一直是交通流预测中的一个难点,只考虑路网上的交通流数据很难解决这个问题,结合道路事故信息或者卡口拍摄到的路面信息能得到更好的预测效果,但就目前来说这种解决方案会降低预测时效性,还需要探索更有可用性的方法。

猜你喜欢
子网交通流路网
一种简单子网划分方法及教学案例*
子网划分问题研究及应用
打着“飞的”去上班 城市空中交通路网还有多远
省际路网联动机制的锦囊妙计
首都路网 不堪其重——2016年重大节假日高速公路免通期的北京路网运行状况
路网标志该如何指路?
子网划分的简易方法
交通流随机行为的研究进展
路内停车对交通流延误影响的定量分析
具有负压力的Aw-Rascle交通流的Riemann问题