改进神经回归算法的数据质量优化与预测

2021-09-09 05:56黄晓红董斯琛
科学技术与工程 2021年22期
关键词:占有率车流量交通流

邵 鑫, 黄晓红, 董斯琛

(1.华北理工大学人工智能学院, 唐山 063210; 2.华北理工大学人工智能学院, 唐山 063210; 3.海军工程大学信息安全学院, 武汉 430032)

随着中国智慧城市的发展,对交通流数据的质量有了更高的要求,这也是为智能运输系统(ITS)能够做出正确决策提供更好的保障。因为毫米波交通雷达具备全天候、高分辨率、可测速、可测距等长处,被广泛应用于智能交通范畴。鉴于检测的数据量大和采集周期不规律等因素,交通监控中心经常沉积着海量的交通流数据。为了能够有效、快速、实时地进行交通管制和规划,这就需要获得高质量的道路交通状况的数据[1]。但当毫米波交通雷达处于非正常工作状态以及传输设备出现故障、环境变化等情况时,采集到的数据会有许多问题,影响后续的数据挖掘处理。针对异常数据如何进行识别和更正,从而对数据挖掘处理提供高质量数据,具有一定的研究意义[2-4]。因此,在数据处理方面,国内外的研究人员有着相应的研究成果。在进行数据管理时,系统阐述了几种数据质量问题并提出相应的优化方法[5]。在处理异常数据时,对其冲洗规则和步骤进行相应的验证[6]。在处理异常交通流数据时,对问题的产生、识别和修复方法进行相应的研究[7]。在处理多种类别的交通流预测模型时,利用历史平均模型进行效果对比,并进行相应的分类[8-9]。上述文献只是对单方面有问题的数据进行质量问题的分析研究,对数据进行大批量的冲洗处理,有很大的误差性。通过毫米波交通雷达获得的数据也存在很多类型的质量问题,如何有效地进行异常数据的识别、修复和减小数据的误差性,有着很大的挑战。

在上述的研究的基础上,现针对城市道路中交通流数据质量优化及交通流变化规律的问题,将原始交通流数据分成三份,然后以三个步骤对其进行处理:第一步,采用组合检验和阈值检验规则,对异常数据进行识别,有问题的数据进行更正及缺失数据进行修补;第二步,采用交通流状态基本图理论以及线性插值等方法,建立时间与交通流参数之间以及各参数之间关系的模型;第三步,采用粒子群多层前馈(PSO-BP)神经网络模型和历史均值法,建立交通流量预测模型,通过训练完成缺失数据的填补,最终得到完整的高质量数据,从而减小数据清洗带来的较大误差性,进而验证其方法的有效性。

1 TI交通雷达的工作原理

毫米波交通雷达,作为新型的信息检测器,其工作频率为30~300 GHz、波长为1 mm~1 cm。其工作原理是雷达发射出的射频信号到空间并识别出由目标反射回来的回波信号,进而识别出目标的存在,通过比较回波信号和发射信号,以便测定目标的距离、速度、角度和目标状况等相关信息。因此,毫米波交通雷达采用多传感器融合技术,利用高清摄像头的功能,可以实现对车辆的测距、测速、流量统计等,并对车辆进行逆行报警、超速抓拍和拥挤检测[10]。

在交通流检测中,雷达的工作方式是将该天线波束与车道呈垂直形式进行工作,以便减小多普勒效应对检测的影响。雷达的电磁波束对道路通道进行全覆盖,其水平方向的波束宽度略大于车辆长度,以便车辆经过检测区域,其回波信号发生相应的变化。对于雷达回波信号的处理,为了精确估计检测区内车辆的运动参数,利用卡尔曼滤波器对车辆的运动状态进行预测,从而将该时刻的量进行滤波估计[11]。通过多目标跟踪系统,利用道路上设定的流量计算区间和车道的检测线,对车辆进行有效的跟踪,计算每条目标车辆航迹的长度,并对各个车道进行车流量统计,从而得到交通流参数,即流量,速度,时间占有率[12]。

(1)交通流量:车辆计数q是在一个相对较短的时间内完成的,所以,q的最小值为0,最大值为交通道路的通行能力C与特定时间段和更正系数fc的乘积。故交通流量的范围为

(1)

式(1)中:C为道路通行能力,veh/h;T为数据采样周期,min;fc为更正系数,一般为1.3~1.5。

(2)平均速度:在较短的时间区间内,由于随机误差的存在,需要对速度v进行更正;同时,在实际的情况中,道路会有速度限制,若存在超速的情况,速度v需要进行调整,故平均速度合理范围为

0≤v≤fvv1

(2)

式(2)中:v1为道路的限制速度;fv为更正系数,一般取 1.3~1.5。

(3)占有率:即时间占有率O,目标在检测器占有的时间与检测器整体工作时间的比值,故定义时间占有率的正常范围为

0≤O≤100%

(3)

2 异常数据识别与修复

在智能交通系统运行中,常常出现人为和通信故障等情况,导致收集的交通流数据出现异常。主要表现为参数类型混乱、未满足设定的阈值以及格式错误等情形。如果不进行更正与识别,直接应用到各类交通场景中,则会发生智慧交通运行异常以及总调度室产生误判等情况。因此,将原始交通流数据分成3份,记为:data_1、data_2、data_3。

首先对所有数据进行数据清洗,一般步骤:数据特征分析、确定冲洗规则、检验冲洗方法、执行冲洗构件和数据更新5个阶段[4]。然后进行异常数据识别,对原始收集的交通流数据,采用交通流理论和阈值理论[12],拟定对应规则,从而识别收集的交通流数值是否异常。

(1)阈值理论。①流量q:将道路通行能力设计为1 500 veh/h,则5 min内流量大于187辆;②平均速度v:将道路的限制车速为60 km/h,则5 min内平均速大于120 km/h;③占有率O:设定道路中 5 min 内占有率大于90%。

(2) 交通流理论:①平均速度v为0,流量q不为0;②流量q为0,占有率O和平均速度v同时不为0;③速度v不为0,占有率O为0,流量q大于设定值。

因此,建立异常数据的识别与修复模型,首先,进行交通流参数组合性检验,然后,进行交通流参数阈值检验,通过前两步的检验,识别出异常数据,再进行数据清洗并采用线性插值方法进行缺失数据修补。最后,根据原始数据信息,选取数据data_1,即采集时间为2019年1月1—31日,采集频率为 5 min 的数据,并对其进行异常数据的识别与修复检验,该模型满足系统中的通行速度可能会超出道路的速度限制。

2.1 交通流参数组合性检验

按照交通流理论将交通流参数的各限制范围组合一起,对收集的交通流数据进行筛选与检验,进而识别出异常数据,其检验结果,如表1所示。

表1 交通流参数组合性检验结果

从表1可知:当车流量为0,但时间占有率和平均速度存在非0值占总体数据的0.54%;当时间占有率为0,但平均速度和车流量存在非0值占总体数据的0.28%,对其他条件检验并未发现异样。

2.2 交通流参数阈值检验

将数据data_1中的流量、速度和时间占有率进行阈值检验,其中该交通流数据的采集周期为5 min,共8 636条。其阈值检测的结果,如表2所示。

表2 交通流参数阈值检验结果

从表2可知:在流量检测中,未通过检验样本数量为0;在速度检验中,大于120 km/h的样本数量为791个,占总样本的9.16%,比例居高;在时间占用率检验中,未通过检验样本数量为1个,占总样本的0.01%。综上所述,本研究对超过阈值范围的数据定义为异常数据,并对其进行更正。

3 时间序列上交通流参数及其之间关系模型建立

3.1 时间序列上交通流参数模型

首先,对数据data_2实现数据清洗之后,分别在时间序列上,对该数据中的平均速度,流量,时间占有率3个参数进行拟合建模,求解各自的演化过程。采用“分天”的方式进行拟合,通过对每天的数据拟合出的图像进行整理发现:①速度存在先升后降(早高峰),再升,再降(晚高峰),再升的趋向;②流量存在升(早高峰),降(午间),升(晚高峰),再降的趋向;③时间占有率存在升(早高峰),降(午间),升(晚高峰),再降的趋向。

采用多项式拟合建模并选取其中较好的一天进行拟合可视化,所采用的拟合多项式函数:f(x)=p1x6+p2x5+p3x4+p4x3+p5x2+p6x+p7,其中,设定参数p1=5.784×10-11;p2=-5.125×10-8;p3=1.737×10-5;p4=-0.002 803;p5=0.211 6;p6=-5.504;p7=57.8。

在时间维度上,采取均方差与确定系数对各交通流参数进行拟合评价。

均方差:

(4)

确定系数:

(5)

(1)在速度进行拟合时,选取6次、8次以及12次多项式的拟合结果进行对比,得出6次和8次的拟合结果较好,最后基于模型的可视化,选择6次多项式作为速度的拟合模型,如图1(a)所示。

(2)在流量进行拟合时,选取6次、8次以及12次多项式进行比较,通过对拟合均方差差、确定系数(拟合优度)的对比,选定6次多项式作为流量的拟合模型,如图1(b)所示。

(3)在占有率进行拟合时,选取8次、10次以及12次多项式的拟合结果进行对比,得出10次和12次的拟合结果较好,最后基于模型的可视化,选定10次多项式作为占有率的拟合模型,如图1(c)所示。

图1 时间序列下的各交通流参数的拟合图

综上所述,在时间序列下,将速度、交通流量和时间占有率进行拟合,所得出拟合评价标准的结果,如表3所示。

表3 拟合评价标准结果

3.2 交通流参数之间关系模型

根据交通流状态理论,将常见的交通流状态分为自由流和拥挤流[13]。利用线性的速度-密度关系[12],演算出得到流量-速度的关系模型,如图2所示。由图2可以看出,当车流量从开始归零不断增加到未饱和的情况,流量和速度均处于较高的水平。当车流量达到C值时,路面状况处于饱和状态,车流速度为临界速度vm,此时路面的利用率最高。当车流速度处于vf时,道路的车流量为0,该车流速度称为自由流速度。

图2 流量-速度关系理论图

首先,利用数据data_2中的速度和时间占有率两个参数,进行联合拟合,如图3所示。

图3 速度-占有率关系图

由图3可以看出,当速度减小时,时间占有率增大,与时间占有率的定义相契合。然后,将数据data_2中的流量和时间占有率两个参数,进行联合拟合,如图4所示。

图4 流量-占有率关系图

由图4可以看出,当自由流状况时,流量与时间占有率之间存在着线性关系;当拥挤流状况时,流量变化较大,时间占有率较高。然后,将数据data_2中的流量和速度两个参数,进行联合拟合,如图5所示。

图5 流量-速度关系图

由图5可以看出,满足交通流的基本图理论,且与图4的流量-速度的关系模型相符合。

综上所述,当自由流状况时,交通流相对较少,道路上的车辆车辆可较快速度行驶。根据流量和占有率关系图可以看出,当自由流状况时,占有率和车流量之间表现出线性关系;当拥挤流状况时,车辆行驶缓慢,车流量降低,时间占有率提升。

4 PSO-BP网络预测模型的建立

由于在训练过程中,BP网络的能量函数无法收敛,训练样本与网络参数信息不匹配,样本找不到合适的“着力点”,常常出现过拟合化发生[14],然而PSO算法与BP网络相结合使用,可以大大提高网络学习效率,使网络快速收敛。因此,采用PSO-BP网络算法对数据data_3进行预测并识别与修复,从而得到高质量数据。该模型实现步骤:①利用交通流理论对部分为空值(NA)的数据进行填补,并采用历史均值法修复缺失的流量和时间占有率数据;②训练预测速度的神经网络模型,并补全其速度值;③训练预测流量的神经网络模型,并采用历史均值法进行更正和修复流量数据;④训练预测占有率的神经网络模型,并采用历史均值法进行更正和修复占有率数据;⑤完成速度、流量和占有率的预测及对缺失数据的补全。

基于上述经验,观察数据data_3可知:“NA型”数据存在两类。第一类数据中速度、流量和占有率全为NA,而且缺失数据连续,以及缺失一天以上的数据;第二类数据是离散的缺失数据,速度、流量和占有率并不同时为0,而且一般都有取0的参数。因此,首先对第二类离散的缺失数据进行分析,根据速度、流量和占有率其中存在一个为0,其他两个也应该为0的交通流理论,对存在0值的数据中的NA值用0值替代,这样简化了处理过程,也符合交通流理论的要求。

对预测的数据data_3进行可视化,绘制了时间分别与速度、流量和占有率3个交通流参数的变化图,如图6所示,可以看出早晚高峰时车流量变大、平均速度变慢和占有率升高,符合上述时间与交通流参数之间的变化规律。

图6 时间-交通流参数关系图

一类“NA型”数据的特点是连续缺失且3个交通流参数都为NA,首先采用相邻6天相同时段的有实测数据的平均值对数据进行修复,然后分别训练预测速度、流量和占有率的神经网络模型,从而更正使用历史均值修复的数据,最终完成预测,即对缺失数据的补全与修复。

同时,该天速度-占有率、流量-占有率、流量-速度的变化关系图,如图7~图9所示。

图7 速度-占有率关系图

图8 流量-占有率关系图

图9 流量-速度关系图

由图7可以看出,满足交通流的基本图理论,当速度下降时,时间占有率上升。由图8可以看出,满足交通流的基本图理论,当到达自由流和拥挤流的临界区之前,占有率和流量之间存在着一定的线性关系;处于拥挤流状态时,车速下降导致车流量降低,进而时间占有率提升。由图9可以看出,满足交通流的基本图理论,当路面受到自身通行能力的影响时,车流量处于C值之后,由于车流量逐渐增加,路面车辆处于排队拥挤状况,从而产生严重互扰情况发生。因此,拥挤车流不会以vm匀速缓解,而是将以小于vm的平均速度通过路面,故能检测到的车流量最大值为C。如图9所示,若除去离群点,速度-流量关系的变化趋势基本与上面的理论模型吻合。因此,利用PSO-BP神经网络在时间序列下的速度、流量和占有率建模,观察其变化规律,从而更正使用历史均值法修复的数据并完成预测及对缺失数据的补全。

最后,采用层次分析法,对优化前后的交通流数据进行质量和完整性的定性分析和定量计算,其评价分析结果,如表4所示。

从表4可知:通过指标权重与优化前后的权重相乘之和,所得比重分别为0.358 7和0.954 2,可以看出优化后的数据比优化前的数据在质量和完整性上得到明显改善。综上所述,通过对交通流数据质量优化有着较好的可行性,从而加快大数据城市化进程和道路交通检测与预警,实现数据利用价值最大化。

表4 评价分析结果

5 结论

(1)提出了一种改进PSO-BP神经网络算法,对公路及城市道路中交通流数据清洗及交通流变化规律问题进行研究与分析,为数据处理方法优化及算法的改进奠定了基础。

(2)采用“三步法”对数据进行分析,首先,通过组合检验和阈值检验,对异常数据进行识别、更正与修补;然后,通过交通流状态理论以及线性插值等方法,进行时间序列上交通流参数之间以及各参数之间关系的模型建立;最后,通过改进的PSO-BP神经网络算法,建立交通流量预测模型,通过训练完成缺失数据的填补,最终得到完整的高质量数据。

猜你喜欢
占有率车流量交通流
基于LSTM的沪渝高速公路短时交通流预测研究
京德高速交通流时空特性数字孪生系统
数据参考
基于ANFIS混合模型的短时交通流预测①
微软领跑PC操作系统市场 Win10占有率突破25%
滁州市中小学田径场地现状调查与分析
参考答案
9月服装销售疲软
基于宏观模型的协作式巡航控制交通流方法