基于图自编码-生成对抗网络的路网数据修复

2021-12-31 03:52徐东伟彭航商学天魏臣臣杨艳芳
交通运输系统工程与信息 2021年6期
关键词:检测器路网编码器

徐东伟,彭航,商学天,魏臣臣,杨艳芳

(1.浙江工业大学,网络空间安全研究院,杭州 310023;2.交通运输部科学研究院,北京 100029)

0 引言

近年来,人工智能、通信技术、无人驾驶的进步促进了智能交通系统(Intelligent Transportation Systems,ITS)的发展,采集到的交通数据量越来越庞大和多样[1]。但在实际应用中,这些设备会由于突发天气、设备电路故障、网络通信中断等问题产生数据异常或缺失。

目前,已经提出许多方法来估计数据缺失值,路网数据修复的方法大致可以分为3 类:基于预测、基于插值和基于统计学习的路网数据修复方法[2]。基于预测的路网数据修复方法是根据历史数据构建预测模型,将预测值作为修复的路网数据,典型方法包括支持向量回归、贝叶斯网络等。这些方法均依据既有数据预测缺失数据,构建出来的预测模型没有考虑到数据集的全局特征,在缺失率大的情况下修复精度不高。基于插值的路网数据修复方法是根据相邻非缺失点的平均或加权平均交通数据值来填充缺失数据,典型方法包括历史平均方法、局部最小二乘法等。这些插值方法在路网数据变化不规律时修复效果较差。基于统计学习的路网数据修复方法是假设或学习一个路网数据分布,对路网数据缺失值进行插补[3],常用的方法包括概率主成分分析,马尔可夫链蒙特卡罗方法等。然而这些方法都提前假定数据符合一个概率分布,如果数据不符合某特定分布时,会导致插补结果[4]的不准确。

完整的路网数据是实现智能交通系统的基础[5],因此本文从路网数据的时空特性出发,提出一种基于图自编码器-生成对抗网络的路网数据修复方法,可实现高缺失率和随机缺失情况下的路网数据修复。

1 基于DVGAE-GAN的路网数据修复模型

图1为本文方法的总体框架,主要包括两部分:(1)利用降噪图变分自编码器(Denoising Graph Variational Auto-Encoder,DVGAE)提取路网缺失数据的时空特征;(2)根据时空特征,采用生成对抗网络(Generative Adversarial Network,GAN)实现路网缺失数据修复。其中,在GAN 的损失函数中引入重建损失(Lcons),以加快模型收敛速度,保障路网数据修复的时效性。总体框架图的关键符号定义如表1所示。

图1 DVGAE-GAN总体框架图Fig.1 Overall framework of DVGAE-GAN

表1 关键符号定义Table 1 Summary of key symbols

1.1 路网数据获取

构建路网图G=(V,A),其中,V={v1,v2,v3,…,vN},N为路网中检测器数量。A={air}Ni,r=1表示路网中检测器节点之间的连边关系:若检测器vi与vr在路网中物理相邻,则认为两个检测器存在连边,即air=1;反之,air=0。

X(t)为完整路网数据,表示在第t时刻检测器测得的T维历史路网数据。X∈ℝN×T,其中,T为选取的数据时间维度。

式中:xi(t-jΔt)为检测器vi在(t-jΔt)时刻的路网数据,j=0,1,…,T-1;Δt为路网数据采样间隔。

实际采集的路网数据为

1.2 基于DVGAE的路网时空特征提取

变分图自编码器(Variational Graph Auto-Encoder,VGAE)[6]可从原始数据分布中随机采样得到数据的潜在表示特征,增加了潜在表示特征的泛化能力。在VGAE 模型基础上加入降噪自编码器(Denoising Auto-Encoder,DAE)架构,即得到降噪图变分自编码器,其框架如图2所示。基于DVAGE学习到的路网潜在表示能有效重构原始路网数据(有效映射完备路网数据的时空特征),即可由部分观测数据推演完整路网数据分布。

图2 降噪图变分自编码器框架图Fig.2 Frame diagram of Denoising Variational Graph Auto-Encoder

1.2.1 基于编码器的路网数据潜在特征生成

编码器部分由图卷积神经网络(Graph Convolutional Network,GCN)构成,可以根据不同路网节点与节点之间的连边关系来实现空间特征聚合,如图3所示。编码部分表示为

图3 空间特征聚合示意图Fig.3 Schematic diagram of spatial feature aggregation

在基于GCN学习整个路网数据潜在表示的过程中,可利用重参数化[7]方法防止梯度消失。路网时空特征Z(t)的采样计算公式为

式中:ε~Ν(0,I) ;diag(·) 为对角协方差矩阵;q[Zi(t)|μι(t),diag(σ2i(t))]为检测器vi通过GCN 形成的采样分布;Zi(t)为检测器vi从分布中提取的潜在特征,将其对路网不同检测器上的潜在特征拼接,得到完整路网时空特征Z(t)∈ℝN×E;E为时间嵌入维度。

1.2.2 基于解码器的路网数据重构

VGAE 的解码器不仅可以重构原始路网邻接矩阵,还可以降噪重构完整路网数据。因此降噪图变分自编码器(DVGAE)的损失函数分别由对应重构邻接矩阵和重构路网数据的损失函数组成,目的是保证路网结构的完整性同时能最大程度重构出完整路网数据,使得经过了空间聚合和时间嵌入后提取的时空特征,包含完整的路网信息。损失函数计算公式为

1.3 基于生成对抗网络(GAN)的路网数据修复

基于时空特征、利用GAN 的强大数据生成能力,可生成路网数据以实现数据修复[8]。生成器目的是让生成路网数据的分布尽可能符合真实数据样本分布;判别器目的是将生成路网数据与真实路网数据区分开,将生成路网数据判别为假,这里生成路网数据与已观测真实数据部分进行重组;两个网络交替对抗训练,直至判别器难以判定生成路网数据是否为假。基于GAN修复路网数据的框架如图4所示,其中,G_Loss为生成器损失函数,D_Loss为判别器损失函数。

图4 生成对抗网络框架图Fig.4 Generative Adversarial Network frame diagram

鉴于交通流数据的时间相关性,本文将LSTM作为生成器的内部结构。当基于Wasserstein 距离衡量的生成路网数据和真实路网数据之间的差异达到最小时,生成器输出修复后的路网数据X′(t)∈ℝN×T为

基于GAN 生成的是整个路网数据,而最终目标是实现对局部缺失的路网数据的有效修复,因此将生成器生成的路网数据X′(t)与原始路网数据X(t)重组,以实现缺失路网数据的重点修复。重组矩阵定义为

为了防止训练时出现模型崩塌问题,采用GAN的变种WGAN[9],即Wasserstein距离代替真实分布与生成分布的JS散度。这样可以避免两个分布之间没有重叠时造成无法度量距离的后果。生成器损失函数G_Loss 和判别器损失函数D_Loss分别定义为

式中:Lcons为重建损失;D为判别器的输出状态;β为重建损失系数;p为缺失位置的数目。

2 实验

2.1 数据描述和缺失情况分析

实验数据集包含2015年全年西雅图4个高速公路段(SR-52、I-5、I-405、I-90)323 个检测器采集的速度数据集和加利福利亚州交通运输部的绩效评估系统采集的pems-04 区域307 个检测器(2018.01-2018.02)两个月的速度数据集。采样间隔均为5 min,即每5 min 计算所有车流量的平均速度。

图5为西雅图数据集2015年1月1日的检测器速度分布热力图,颜色程度对应不同的交通速度。图5第195 个检测器路段在13:00 左右有小范围车辆速度较低,可能是由于出现交通事故造成了交通拥堵。

图5 2015年1月1日西雅图速度数据热图Fig.5 Heatmap of Seattle speed data on January 1,2015

实际情况中,会由于天气原因或者系统、电源故障造成数据缺失。最常见的缺失类型有完全随机缺失和集群缺失,本文讨论的路网缺失类型是完全随机缺失(Missing Completely at Random,MCAR)和聚集的时间缺失(Missing Completely at Random Temporal,MCART)。图6是图5中数据在两种缺失类型、不同缺失率下的热图。

图6 2015年1月1日西雅图速度数据集缺失数据热图Fig.6 Seattle's heatmap of missing speed data on Jan 1,2015

2.2 参数设置和评估

数据集选取的时间维度为T=12,训练集与测试集划分比例a=0.8。降噪图变分自编码器中编码器的两层图卷积网络层隐藏单元个数分别为32、8;解码器全连接层隐藏单元个数分别为32、12;提取出来的时空特征维度E=8 ;损失函数中α=0.0001。

GAN 中生成器采用一层64 隐藏单元个数的LSTM和全连接层;判别器采用4层全连接层,隐藏单元个数分别为32、64、32、1。重建损失系数β=500。

本文采用平均绝对误差(MAE),均方根误差(RMSE),平均绝对百分比误差(MAPE)指标对模型进行评估,计算公式分别为

式中:K为缺失数据的个数,x′k,xk分别为第k个真实和修复后的交通数据。

2.3 对比实验和分析

对比模型包含反向传播网络(Backpropagation Network,BP)、降噪堆叠自编码器(Denoising Stacked Auto-Encoder,DSAE)、贝叶斯高斯张量分解(Bayesian Gaussian Candecomp/Parafac,BGCP)、贝叶斯时间矩阵分解(Bayesian Temporal Matrix Factorization,BTMF)。此外,还选用修改后的DVGAE-GAN*,与本文方法区别在于其生成器由全连接层构成。

对比模型参数设置为:BP 和DSAE 模型两层隐藏层的单元个数分别为128、64,批处理大小分别为64;BGCP将数据矩阵分解重构为三阶张量表示为路段乘小时数乘时间间隔,CP秩为10;BTMF将路段乘时间序列的数据矩阵分解为空间因子矩阵和时间因子矩阵,矩阵低秩为30;DVGAE-GAN*的生成器部分全连接层隐藏层单元个数为32、16、12。

西雅图数据集在不同缺失模式、不同缺失比例下的实验结果如表2和表3所示,pems04数据集在不同缺失模式、不同缺失比例下实验结果如表4和表5所示。

由表2和表3可以看出,DVGAE-GAN 模型在两种缺失类型下都优于其他基准模型。在MCAR情况下,本文模型在低缺失率下表现最优,在高缺失率下MAE 逐渐接近基准模型中表现最佳的BTMF;在MCART 情况下,本文模型的MAE 保持在3.0 以内,优于其他基准模型的表现。随着缺失率的增加模型误差会呈上升趋势,因为可观测数据的减少会导致生成的数据质量降低。DVGAE-GAN*方法在MCAR 情况下修复效果仅次于本文方法和BTMF;但是它在MCART情况下效果欠佳,在低缺失率下判别器的梯度快速进入平缓区,由全连接层组成的生成器生成的路网数据误差和波动都比较大,表明LSTM可以更好地捕获路网时间特征。

表2 MCAR、不同缺失率下修复结果对比(西雅图数据集)Table 2 Comparison of imputation errors of Seattle dataset under MCAR and different missing rates

表3 MCART、不同缺失率下修复结果对比(西雅图数据集)Table 3 Comparison of imputation errors of Seattle dataset under MCART and different missing rates

由表4和表5可知,BTMF 在MCAR 情况下部分效果略好于本文模型,但是在MCART 情况下BTMF 表现较差,主要因为MCART 条件下获取到的信息较少。本文模型基于路网拓扑图构建提取时空特征生成缺失数据,相比其余基准模型更能适应于不同的缺失类型、缺失率情况,具有较好的鲁棒性。

表4 MCAR、不同缺失率下修复结果对比(pems-04数据集)Table 4 Comparison of imputation errors of pems-04 dataset under MCAR and different missing rates

表5 MCART、不同缺失率下修复结果对比(pems-04数据集)Table 5 Comparison of imputation errors of pems-04 dataset under MCART and different missing rates

图7采用MAE 反映不同模型误差。通过对不同数据集的实验对比结果可以看出,DVGAE-GAN模型的修复效果优于基准方法,同时也证明了LSTM作为路网数据生成器的优越性。

图7 两种缺失类型的不同模型误差对比(西雅图数据集)Fig.7 Comparison of error of different models under two data missing types(Seattle dataset)

3 结论

本文提出一种基于图自编码-生成对抗网络(DVGAE-GAN)的路网缺失数据修复方法。首先利用降噪图变分自编码器提取路网缺失数据的时空特征,在一定程度上更能捕获原始路网数据的深层特征信息;其次将时空特征放入生成对抗网络实现路网数据重构,生成器采用LSTM以实现路网数据的时间维度特征,加入路网结构的重建损失可以实现对于缺失数据的着重插补。对两个典型路网数据集进行实验,结果表明,本文方法的修复精度优于目前主流的基准方法,且适用于实际中不同缺失率和缺失类型的数据采集情况。后期希望考虑引入动态的路网节点图和分层构图来充分考虑数据的时空变化,以此提升路网数据修复精度。

猜你喜欢
检测器路网编码器
基于二次否定剪切选择的入侵检测方法*
基于FPGA的同步机轴角编码器
打着“飞的”去上班 城市空中交通路网还有多远
基于双增量码道的绝对式编码器设计
省际路网联动机制的锦囊妙计
首都路网 不堪其重——2016年重大节假日高速公路免通期的北京路网运行状况
路网标志该如何指路?
车道微波车辆检测器的应用
一种柱状金属物质量检测器的研究
一种雾霾检测器的研究与设计