徐云XU Yun
(航天科工广信智能技术有限公司,杭州 310000)
基于浙江省高速公路温州段上的传感器(卡口与雷达)数据进行梳理,形成了一套数据相互补充,相互验证的交通流短时预测算法。
整个高速路网交通状态预测架构如图1 所示。
图1 高速路网交通状态预测架构示意图
首先将原始数据进行预处理,得到路网的交通状态值,例如流量、速度等,之后把这些数据写入数据库中。从数据库中取出预测算法需要的数据进行预测,然后把预测结果写入数据库中。最后把数据库中的预测值取出来展现在前端页面上即可。
高速公路上拥有卡口和雷达两种类型的数据,通过对数据预处理,可以得到流量、速度等交通状态参数。
2.2.1 高速公路卡口数据处理
卡口过车数据来源于高速公路摄像头的拍摄,能够确定车辆在哪一时刻经过了该卡口摄像头,由此就可以得到在一段时间内,经过该卡口摄像头的车辆数目,并且可以计算相邻卡口对间的车辆行程速度。
首先从原始数据表中提取出需要的字段,如表1 所示。在提取过程中,需要去除掉未识别车牌的数据以及数据字段为空的数据。
表1 数据表中需要的字段
如果用数据库来实现上述步骤可参考以下两个sql脚本(以6 月的数据为例):
往新的数据库表中写入数据
获取所需的数据字段后,对于流量的计算,只需要统计5 分钟内有多少辆车经过特定的卡口;对于平均速度的获取,要做的处理稍显复杂,首先要进行车牌匹配,得到每一辆车的出行轨迹,之后得到车辆在两个卡口对间的行程时间,从而再通过卡口对间的距离得到卡口对间的平均速度。在处理数据时,发现有些卡口点位数据量明显过少,存在缺失的情况,这可能是因为点位刚安装或者已经被移除。通过筛选可得到50 个历史流量数据较全的卡口点位以及33 个历史速度数据较全的卡口。
2.2.2 高速公路雷达数据处理
对于雷达数据的处理,由于原始数据中已经有每分钟通过某个雷达点位的流量数据以及平均速度数据,因此可以通过聚合每分钟的数据得到5 分钟内通过某个雷达点位的车流量以及5 分钟内的平均速度。
同卡口类似,在处理雷达数据的过程中,发现有些雷达点位数据量明显过少,存在缺失的情况。因此筛选得到了41 个历史流量数据与历史速度数据较全的雷达点位。
2.2.3 高速公路混合卡口与雷达数据处理
处理高速公路混合卡口与雷达数据时,首先需要得到卡口和雷达分别测得的流量与速度信息,之后即可进行混合操作。
对于混合流量,取卡口点位与雷达点位的交集。对于重合的点位(既有卡口又有雷达),则取卡口测得的流量与雷达测得的流量的平均值。对于混合速度,首先基于卡口对关系切割路段,然后再融合单个时间窗内相应路段雷达瞬时速度数据。由于卡口测得的速度是路段速度,因此如果雷达点位落在某一个卡口对内,那么就把这些雷达点位与该卡口对测得的速度取平均值。
2.2.4 高速公路数据补全
预处理过程中,保留了存在部分缺失的卡口(或雷达)点位。对于这些缺失数据,采用历史平均法(HA)进行补全。例如,如果缺失8 月10 日8:00-8:05 的雷达流量数据,就用8 月1 日至8 月9 日的8:00-8:05 的平均流量进行补全。具体而言,可使用sklearn 包中的SimpleImputer 函数实现该补全操作。例如,对于“G1513 温丽往丽水方向0008KM+400M”卡口的速度数据,补全前和补全后的效果,见图2 所示。
图2 数据补全
2.3.1 短时交通状态演化特性
道路交通是一个复杂系统,短时交通流受到多种复杂因素的影响,会呈现出不稳定、无规律、复杂多变的特性。与此同时,由于个人出行习惯和城市规划布局的相对固定性,交通流也具备一定的周期性规律,最典型的规律性是由通勤引起的早晚高峰和周末娱乐场的交通流汇聚等。简而言之,交通流具有以下几方面主要特征:
①不确定性。短时交通流会受到各种不确定因素的影响,如天气情况、驾驶员特征、交通管控等。同时也会有一些突发状况,例如交通事故,导致交通流运行状态突变。对此,研究所建立的交通流预测模型要能够考虑交通流的不确定性,准确体现交通流演化态势,即预测模型必须具有较高的准确性,这是衡量模型优劣程度的显著指标,同时也是模型进一步用于交通状态识别、交通管控和路径诱导的基本保证。如果预测结果无法达到较高的准确度,便不能为交通管理者和出行者提供精准的信息,他们就无法据此进行合理的交通管控措施、规划适合的出行路线,相应的预测模型在现实中是缺乏应用价值的。
②周期性。由于人们的工作生活存在一定的规律性,城市各种配套设施的地理位置在较长时段内确定不变,因此交通流的高峰期通常都是固定的,即交通流会呈现出一定的周期性。例如在工作日早晚高峰,同一路段交通流特性通常是相似的。交通流的周期性为预测模型的校准提供了参考依据。在构建模型时,可以引入一定的交通流历史信息,从而提高模型的预测精度。图3 展示了温州高速路网G1513 温丽往丽水方向0009KM+800M 点位处28 天的交通流状态演化过程,充分显示了其周期性。
图3 交通流演化示意图
③相关性。短时交通流具有很强的相关性,可以细分为时间相关性与空间相关性。时间相关性是指对于一个给定路段的交通流,其状态不仅由当前时段的交通情况决定,同时也会受到该路段之前一定时间段内的历史交通流影响,这是因为交通拥堵通常存在一个较长的消散期,因此通过此前的交通流状态可以有效判断当前交通流应当处于什么状态。由于交通流具有时间上的自相关性,因而可以将交通流数据看作时间序列,采用时间序列的处理方法对其处理。同时,道路网络是一个复杂的联通系统,每一条道路的交通流都会受到其他路段的影响,最显著的就是当某一路段发生拥堵时,由于交通波的影响,其上游道路也会逐渐发生拥堵,速度下降,而其下游路段的速度则会增加。因而,交通流也具有空间上的相关性,空间相关性是交通流与其他时间序列数据的最大区别。
④非线性。除了受到自身交通状态的影响,交通流还会受到多种外界客观因素的影响,例如天气状况、交通事故、临时交通管制等。这些因素对交通流的作用方式、影响范围、影响程度均有很大的差异,因而其影响效果并不是简单的线性叠加,使得交通流具有非线性特性。这便要求在构建预测模型时,必须考虑交通流的非线性特征,设计能够提取非线性数据特征的模型。
2.3.2 基于深度学习的交通状态预测
深度学习是在传统神经网络的基础上发展而来的一种新兴的深层机器学习方法,与神经网络相类似,深度学习模型也由众多隐含层堆叠构成,其本质为通过大量数据学习获得数据中蕴含的深层次特征和联系。深度学习这一概念的普及与火热始于2006 年,随着Hinton 等的研究问世,神经网络迎来了新的发展机遇,同时也将深度学习的研究推向高潮。深度学习模型主要分为两大类:从RNN 发展而来的时间序列和语义处理模型,和以CNN 为基础的图像处理模型。
CNN 主要应用于图像处理领域。通常情况下,卷积神经网络主要由两部分构成:①卷积层,通过卷积核对上一层的输入值实现局部连接,从而对这个局部特征进行提取,再通过卷积核的游走实现对上一层输入的整体特征映射,由于对于不同部位的卷积共享同一个卷积核参数,所以整个网络的参数数量极大地降低;②池化层,其目的是进行局部平均和数据下采样,能够在一定程度上避免网络过拟合,同时提升网络的运行效率。CNN 作为深度学习的一个重要分支,已经获得了深入发展和广泛应用。考虑到交通流的时空相关性,仅使用时间序列模型(如RNN、LSTM 等)很难有效地刻画交通流的空间相关性。本研究考虑采用CNN 方法,将交通流时空矩阵视为图像,对其进行特征提取,进而进行交通流预测。
为充分考虑时间和空间相关性,更好地预测路网级别交通流,我们构建了一个三维深度张量,通过将不同路段堆叠在张量深度上,并结合CNN 神经网络框架,提出了路网交通流时空深度张量预测模型框架(ST-DTNN),从而消除了不同点位时间序列随机排列引起的潜在负面影响。
(3)低压加热器和轴封加热器:与低加汽侧相连的各管道法兰、阀门及水位计测量筒;轴封加热器汽侧阀门;轴封加热器疏水至凝汽器水封筒管路;
2.3.3 基于温州高速路网的交通状态预测结果
模型误差评估采用平均绝对误差(Mean Absolute Error, MAE) 和平均绝对百分比误差(Mean Absolute Percentage Error ,MAPE)。其具体定义为:
其中N 代表路段数量,T 代表所预测的时间间隔。yit和表示速度和流量的真实值和预测值。
本实验采用温州高速路网2021 年5 月1 日至2021年6 月30 日卡口、雷达数据进行模型验证,切分前80%数据为模型训练集,后20%数据作为模型验证集。路网交通状态线下预测结果如表2 所示。因卡口与雷达点位不同,各点位交通状态真实值基数不同,故预测绝对误差相差较大,而相对误差相似。离线预测结果显示,模型在平均速度和交通流的预测中能较好地体现变化趋势,在低谷和高峰时段都能顺应其震荡趋势,具有较强的非线性拟合能力,能够较为精确地反映温州高速路网交通态势演化规律。
表2 温州高速路网交通状态离线预测结果
据数据分析温州高速路网交通状态在线预测结果,采用路网2021 年7 月26 日至2021 年8 月2 日实时采集数据进行验证。结果显示,基于卡口数据的在线流量、速度预测误差较离线预测误差分别提升了10.1%、6.04%;基于雷达数据的在线流量、速度预测误差较离线预测误差分别提升了12.41%、6.9%。
在未来研究中现有模型还需进行以下改进与拓展:
①针对数据集时序分布漂移问题,研究自适应滚动平滑的优化机制,可以基于回归窗口中的历史数据动态评估算法性能,通过构建模型预测控制框架进行自适应滚动平滑,并用于交通状态估计和预测。②针对验证集中检测器随机缺失问题,研究基于动态网络拓扑结构的深度学习模型,使得神经网络结构随所需输入输出维度动态改变,实现空间维度的模型自适应滚动优化,应用于现有模型改进。③针对非周期、非平稳态时间序列演化模式识别问题,以集成学习方法,构建基于梯度提升回归树(Gradient Boosting Regression Tree ,GBRT) 和套索算法(Least Absolute Shrinkage and Selection Operator ,Lasso)的双层不确定性集成模型,重点考虑模型结构不确定性和模型参数不确定性,用于提高异常事件下的交通流预测精度。
通过卡口与雷达数据的融合,构建了高精度、高效率的深度学习框架对短时交通流量的预测,离线预测精度达到90%以上,在线预测精度达到85%以上,很好地服务了交通管理的实战。