基于生成式对抗网络的路网交通流数据补全方法

2018-12-28 06:37闫佳庆张玲玉李正熙
交通运输系统工程与信息 2018年6期
关键词:关联矩阵路网路段

王 力,李 敏,闫佳庆,张玲玉,潘 科,李正熙

(北方工业大学,城市道路交通智能控制技术北京市重点实验室,北京100144)

0 引言

道路交通信息的完整性是城市智能交通管控系统运行的必要条件,一直以来对于路网缺失数据的补全方法研究是国内外学者的研究热点和难点[1].Jian-dong Zhao[2]等针对快速路交通流信息缺失和数据分布稀疏的问题,利用线性插补虚拟监测点和时域分段方法来估计检测点间的平均旅行时间,并用一种优化的K近邻算法来进行旅行时间预测;Laña I.等[3]建立了状态预测模型与数据利用策略的统计关系,并利用机器学习方法来进行数据补全;郭敏等[4]以交叉口检测器的交通流数据为研究对象,提出基于灰色残差GM(1,N)模型的数据修复算法;Hua-chun Tan等[5]提出基于张量分解赋值法的交通信息补全方法,但上述方法对历史数据的依赖性过强.Dai-heng Ni等[6]提出了采用马尔科夫链—蒙特卡罗模型,但数据补全精度与路段状态模型的精确性呈正相关关系.Qu L.等[7]提出了综合路网交通流相关性的概率主成分分析方法,该方法对于城市道路多样性交通场景数据的补全效果欠佳.Li L.等[8]利用交通路网时空关联特性进行数据补全,但其前提为建立路网交通数据统计模型.

近年来,随着深度学习算法的发展,基于机器学习算法的图像数据补全研究有了长足进步.Dong Chao等[9]发展了一种面向端到端的图像补全方法,可对单帧低信息图像进行精细修复.Kappleler等[10]基于运动补偿的方式,将多时刻图像作为网络扩展输入实现二维信息的精细化补全.2014年,生成式对抗性网络(Generative Adversarial Network,GAN)的提出和应用,为图像化处理复杂场景的数据缺失问题提供了可能[11].

不难看出,现有城市道路交通数据补全研究主要以路段数据为对象,从统计方法、历史数据和路网时空相关性等方面展开,但对交通路网和多样性场景的信息补全能力不足,本文首先构建交通路网二维信息图,基于空间—时间信息关联特性采用生成式对抗网络算法对路网交通流量数据进行补全研究,以满足复杂路网和综合交通场景下数据补全要求.

1 交通路网二维信息图构建

1.1 标准路网图像化

首先,从图像分析的角度将城市路网抽象为邻接的图块,即矩阵式的二维图,以图像化形式描述路网结构特性,以潍坊部分路网为例,如图1所示.

图1 路段编号与二维信息图对应关系(无向网络)Fig.1 The corresponding relation between the link number and the two-dimensional information graph(Undirected network)

对于双向路段,如图2所示,按照路段的空间位置关系,转换为如图2的规整形式.进一步,采用不同图块颜色表征路段5 min的采集流量,如图3所示,其中,白色色块为空间上不存在的路段,灰色色块为数据缺失路段,图3(a)中,“6-80”代表编号为6的路段流量为80 veh/5 min,其他同.

1.2 异型路口图像化

由于实际路网中存在着多样化的异形交叉口,因此,将异形路口按照表1规则进行处理,以转换成标准路口.

2 路网关联矩阵构建

对于任意的路网拓扑,可以用关联矩阵来描述其拓扑结构和路段间的连接关系,并综合路网的流量特性、路段邻接关系,以及路段车流转向比例来构建路网关联矩阵.当路段i与路段j相关联时aij=p,p为转向线性相关率,0<p≤1,转向线性相关率表征某时间段车流的转向关联比例,由采集数据拟合得到;否则,aij=0.如图2所示,以潍坊市东风街—潍州路交叉口东方向5天(2018-03-12~16)的地磁流量数据为例.如图4所示,分别表征路段流量、采样间隔(采样周期为5 min)与转向比例的关系,图中上半部分代表直行转向比,下半部分代表左转转向比.

图2 路段编号与二维图对应关系示意图(有向网络)Fig.2 The corresponding relation between the link number and the two-dimensional information graph(Directed network)

图3 路网二维信息图像化Fig.3 Road network 2D information visualization

图4 路段流量、采样周期与转向比关系分布图Fig.4 Distribution map of traffic flow,sampling period and steering ratio

由图4可知,第70个采样间隔前(凌晨时段)的交通流呈现强随机特性,因此采用第70~288个采样间隔的交通流数据均值来拟合路网关联矩阵元素.进一步采用插值法来拟合流量、采样间隔与转向比的关系曲线,得到如图5所示的曲面图,最终得到路网特定时段对应流量条件下的关联关系矩阵,如表2所示.

表1 异型路口(路段)图像化处理Table 1 Image processing of abnormal intersections(links)

图5 路段关联关系取值图Fig.5 Correlation diagram of segments

3 交通信息重构

3.1 空间—时间信息补偿

交通信息在空间和时间上具有相关性和连续性,采用空间—时间信息补偿的方法对某一划分时段的低可信度的交通信息进行信息补偿.具体方法为:

(1)以当前时段第1时刻的交通信息图为基准,利用空间—时间估计参数对下一时刻的交通信息进行平滑补偿.

表2 路段关联关系矩阵Table 2 Links correlation matrix

(2)空间—时间交通信息补偿可用机器学习的方法进行训练,即对空间—时间交通信息网络估计参数的最优化训练,将空间—时间交通信息变换表示为

(3)空间—时间信息补偿网络的损失函数使用正则化方法表示,其最优化的参数估计方法为

式中:θ∗为空间—时间信息参数的最优化估计;λ为正则化参数;L为拉普拉斯算子.

将式(2)右边对θ∗微分,并设其为0,采用最大梯度下降法进行迭代分析,最终可获得最优空间—时间信息参数θ∗.

3.2 生成式对抗网络算法

采用GAN算法作为路网数据补全的算法工具.GAN的核心思想来源于博弈论的纳什均衡[11],算法的优化过程是两套神经网络(辨别器和生成器)的最大最小的游戏过程,即让辨别器尽力分辨生成器伪造的样本,生成器尽力制作一个伪造样本使辨别器无法分辨的博弈过程,为了取得游戏胜利,这两个游戏参与者需要不断优化,各自提高自己的生成能力和判别能力.GAN已被证明是一个极有效的生成模型,能够面向多种任务,如图像生成,图像细节再现,三维物体生成,视频预测等领域.GAN的直接应用就是建模生成与真实数据分布一致的数据样本,例如生成图像、视频等.

本文中信息缺失的交通信息序列经过空间—时间信息补偿之后,作为该网络的输入特征,经生成器生成交通信息,然后由道路相关矩阵判别器对生成的交通信息进行判别,最后输出补全后的交通信息.交通信息的补全网络主要有加权卷积层和生成式对抗网络构成,其示意图如图6所示.

图6 GAN算法逻辑结构Fig.6 Logic structure of GAN

在给定生成器G的情况下,来优化判别器D,训练判别器也是最小化交叉熵的过程,其损失函数的数学表达式为

式中:Pr表示真实的数据类;Pg为生成的数据类.

将生成式对抗网络应用到交通信息补全问题,其表达式为

式中:IRe表示信息补全的图像;IMi表示信息缺失的图像;θG为生成器参数;θD为判别器参数.

重建网络的损失函数由均方误差表示,则生成器网络损失函数为

其中,

3.3 算法流程

基于生成式对抗网络的路网交通流数据补全算法流程如下.

算法输入:路段流量、车道转向比.

算法输出:路段缺失流量,补全流量的偏差百分比.

Step 1路网信息图像化.

根据路网拓扑和路段流量信息构造路网二维信息图It+k和路网关联矩阵P.

Step 2构造关联矩阵.

构造路网关联矩阵Tθ(It+k),利用1周的历史数据,基于转向比例曲面图计算关联矩阵的相关系数.

Step 3空间—时间信息补偿.

经过空间—时间变换Tθ(It+k)后的时段交通信息图;采用空间—时间信息补偿方法,进行参数优化估计,,即可获得最优空间—时间信息参数θ∗,最终生成补偿后的路网二维信息图

Step 4构造GAN算法结构.

Step 5数据补全.

以缺失信息的路网二维信息图为输入,利用Step3构造的生成器和辨别器,更新损失函数,最终求得最优解即为信息补全的结果输出.

Step 6结束.

算法终止.

4 实验分析

4.1 试验路网

本文采集潍坊市区部分路网的实际地磁数据作为数据源,路网数据采集范围包括交叉口20个,如图7所示,采集时间为2017年8月15日~10月15日,采样周期为5 min,采集交通流参数为交通量,如表3所示.为了验证本文方法,假设地磁检测器并不能覆盖所有的路段,即设定某几条路段的地磁数据丢失,通过本文方法修复的数据与采集的真实数据进行比较分析.

图7 路网卫星图Fig.7 Road network satellite map

表3 路网地磁原始数据示例Table 3 The original data of geomagnetic detector

以路段为单位通过变换将路网切割成如图8所示的二维图,图中每个方块代表1个路段,以图块颜色表征路段流量.将流量数据导入相应的数据网格中,通过Matlab生成二维信息图,如图8所示,将采集的历史数据作为训练样本应用于本文的补全方法.

4.2 试验分析

为了验证修复方法的有效性,本文采用交通流量的偏差百分比来对修复效果进行评价,即

式中:Vr为修复后的交通流量;Vo为交通信息未丢失之前的交通流量;N为交通信息丢失区域的交通图像的色块个数;R即为归一化的修复评价系数.

图8 分时段路网流量信息图(训练样本)Fig.8 Time-division road network flow information graph(Training sample)

本文针对单点交通数据缺失、小范围数据缺失和大范围交通数据缺失3种情况,选用基于相空间重构的卡尔曼滤波方法作为传统修复模型,与本文方法做对比.首先对历史流量数据进行了归一化处理,然后采用Matlab函数调用卡尔曼滤波工具包.数据修复结果如下.

4.2.1 单点交通数据缺失

如图9所示,对于单点交通数据的缺失,使用本文方法略差于传统方法.这是由于本文方法是根据交通路网间的相关概率获得的,而传统方法是基于交通流量模型的历史特性推演关联关系,使用概率的结果会影响GAN网络生成器的性能.但本文方法的修复偏差百分比为94.56%,比传统模型方法略逊一筹.

4.2.2 数据缺失低于10%的补全效果

如图10所示,对于小范围交通数据的缺失(本实验数据缺失量低于10%),两种方法的修复偏差百分比分别为:91.67%和68.12%,使用本文方法所获得的修复交通数据会优于传统方法.这是由于传统方法需要明确的交通流量关联关系才可获得准确的修复信息,而本文方法可以通过生成器的概率分析结合训练样本,获得满足该路网交通信息的修复图像.

图9 单点数据缺失补全效果图Fig.9 Single point missing data completion drawings

4.2.3 数据缺失量高于10%且低于30%的补全效果

如图11所示,实验数据丢失点位高于10%且低于30%,对于数据大范围缺失的情况,传统方法出现了明显的错误数据,而本文所提方法的修复偏差百分比为72.48%.结果表明,在数据缺失量低于30%的情况下,GAN算法可以在一定程度上修复大范围缺失的交通信息,但缺失面积过大会影响算法的补全精度.

图10 缺失量低于10%缺失补全效果图Fig.10 Less than 10%missing data completion drawings

4.2.4 与传统方法的对比

通过多次实验拟合出不同缺失比例数据修复的对比曲线,如图12所示,结果表明:GAN算法的修复评价系数整体要比卡尔曼滤波的性能更好;大范围缺失的条件下,GAN算法的精度也只能保持在85%,相同条件下卡尔曼滤波方法得到明显的错误修复值.综合比较,GAN算法优于传统算法.

图11 高于10%且低于30%数据缺失补全效果图Fig.11 Above 10%and below 30%missing data completion drawings

图12 数据修复结果对比图Fig.12 Comparison diagram of data repair results

5 结论

本文以路段实际流量数据为基础,首先提出交通路网信息二维图理念,以具有颜色特征的色块表征路段的交通信息,并利用颜色的变化表征数据的缺失情况;其次,计算考虑时空信息补偿的城市路网关联矩阵,并以此建立路段间概率邻接关系;再利用GAN算法对路网中的缺失数据进行补偿或重构.最后,利用潍坊市交警支队提供的路段地磁数据对本文方法进行了验证并与经典卡尔曼滤波方法进行了对比.结果显示,在不同数据量缺失的情况下,本文方法补全精度较高.本文方法为下一步利用补全数据进行交叉口信号控制策略设计奠定了基础.

猜你喜欢
关联矩阵路网路段
n阶圈图关联矩阵的特征值
冬奥车道都有哪些相关路段如何正确通行
单圈图关联矩阵的特征值
基于XGBOOST算法的拥堵路段短时交通流量预测
高速公路重要路段事件检测技术探讨
变胞汽车焊接机器人拓扑分析与动态焊接参数建模
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
打着“飞的”去上班 城市空中交通路网还有多远
基于Petri网的L企业产品设计变更执行流程优化研究