基于灰色关联分析和SOM-RBF神经网络的高速公路交通量预测方法研究

2020-10-15 08:14毛锦伟宋伟炜周昱辰
广东交通职业技术学院学报 2020年3期
关键词:交通量灰色聚类

毛锦伟,宋伟炜,周昱辰

(1.三峡大学,湖北宜昌443002;2.湖南科技大学,湖南湘潭411100;3.荣成市永康海洋工程咨询有限公司,山东威海264200)

截止2019年底,我国高速公路建设总里程已达到14万公里,而随着我国经济社会的发展,汽车保有量已达到3.3亿量,这对高速公路的运输能力提出挑战。影响高速公路交通流量的因素多种多样,具有非线性特征[1-3],这使得高速公路交通量难以预测。因此针对如何对高速公路交通量做出准确预测,成为解决公路通行能力和运输效率的重中之重。

随着信息技术发展,数据融合技术日益成熟。机器学习成为交通流量预测的主要技术之一。如利用混合灰色理论和支持向量机方法预测交通流量[4];利用灰色线性回归组合分析方法预测高速公路交通量[5],以及改进粒子群算法[6]、遗传算法[7]等一系列组合预测模型。而高速公路交通量的影响因素复杂多样,具有非线性特征,这使得单一神经网络模型预测精度往往达不到要求。

本文在组合模型的基础上,考虑到对高速公路交通量影响因素的复杂性,利用灰色关联分析法对影响因素进行排序,剔除关联性较弱的特征,选择合适的输入向量,基于聚类算法改进的RBF神经网络模型对交通量进行预测。引入SOM神经网络[8-9],利用SOM神经网络对整体样本进行自动聚类,对聚类完成的样本分别构建RBF神经网络预测模型。通过Matlab平台建立SOM-RBF混合算法,先通过聚类分析得到相似聚类样本,再依照分类结果建立RBF预测模型,实现对高速公路交通量的精准预测。

1 交通量影响因素分析

1.1 影响因素的选取

高速公路交通量具有高度非线性特征,影响交通量的因素有很多,比如说生产总值、城镇人口、农村人口、汽车保有量等,因此对高速公路交通量预测应选取合适的特征指标。本文首先选择了文献[10]所提供的云南磨高速公路普洱市段的交通量统计数据,如表1所示。

表1 交通量主要指标统计数据

在进行灰色关联度分析时,先确定参考序列和比较序列。本文将高速路年平均日交通量作为参考序列设为x0(p),x0(p)={x0(1),x0(2),…,x0(n)},选取n(n=12)个数据;剩余8组特征因素作为比较序列,从普洱市

总人口(万人)到汽车拥有量(104 veh),分别设为xi(t),i(i=1,2…,8),每个比较序列对应n个数据:xi(t)={xi(1),xi(2),…,xi(n)},其中n(n=12)。

1.2 交通量灰色关联分析

灰色关联分析理论由我国学者邓聚龙教授于20世纪70年代末提出,即通过对已有数据信息进行提取,获得整体数据的规律[11]。具体灰色关联度步骤如下:

Step1:对给定的样本进行归一化处理,其自变量区域为[0,1],其公式为:

公式(1)中,xmin为样本数据的最小值;xmax为样本数据的最大值;

Step2:求解灰色关联系数公式:

Step3:计算灰色加权关联度

式(3)中:ri为第i个评价对象对理想对象的灰色加权关联度。

本文利用Matlab计算,得到各个相关因素(xi)与高速路年平均日交通量(x0)之间的灰色关联相关性。

如表2所示,影响高速公路年平均日交通量最大的影响因素为汽车拥有量,关联度为0.785 4;普洱市总人口关联度最小,关联度为0.553 2,是8种影响因素里最小的一种,说明普洱市总人口对高速公路交通量影响较小,而其余的6种特征因素都在0.7以上,属于较大影响因素。

表2 各影响因素与高速公路交通量的灰色关联分析结果

2 基于SOM-RBF神经网络预测模型

2.1 SOM-RBF混合算法的预测原理

高速公路交通量预测是一个高度非线性问题,大多数预测方法是通过对观察某些特征因子来挖掘背后的信息。然而,这些特征因子信息背后是一种非常复杂的非线性关联,为降低高度非线性带来的数据过拟合问题,本文利用SOM聚类分析。将有相似规律的样本聚集在一起,从而分别构建RBF神经网络预测模型,解决了样本数据分布不均匀以及样本集中到各自相邻的领域问题,从而大大提高预测精度。如图1所示,组合人工神经网络预测的实现步骤如下:

(1)对给定的样本进行归一化处理,其自变量区域为[0,1],其公式为:

公式(1)中,xmin为样本数据的最小值;xmax为样本数据的最大值;

(2)对于归一化后的数据进行SOM聚类分析,调用Matlab中的SOM神经网络工具箱的函数命令:net=newsom(minmax(p),[x])

(3)在SOM神经网络分出的每一种样本类内各自构建一个RBF神经网络,并分别用各种样本类内的训练样本来训练该类的RBF神经网络。

(4)对预测完后的值反归一化处理,得到高速公路交通量具体值,通过与实际交通量误差分析,判断该组合神经网络的预测效果。

2.2 样本数据选取

图1 SOM-RBF组合神经网络预测流程

本文利用文献[10]给出的2004~2015年普洱市统记的社会指标和年平均日交通量数据,经过灰色关联分析后,剔除关联度较低的普洱市总人口,选取关联度大于等于0.7的x2,x3,x4,x5,x6,x7,x8变量作为样本数据。

可以看出,影响交通量的因素有很多种,这说明对高速公路交通量的预测是一个高度非线性问题,其中,本文为防止测试样本聚类于同一类,采取随机抽取测试样本的方法,从12组样本随机选取4、8、12作为预测样本,分别对应2007年、2011年、2015年,其余9组数据作为训练样本。由于样本数据中量纲有所不同,为了方便计算,先对样本数据进行归一化预处理。

2.3 交通量预测步骤

①本文调用Matlab[12]神经网络工具箱中的函数命令对样本进行分类:

net=newsom(minmax(P),[a×b]);net.train-Param.epochs=C;

其中,[a×b]为分类数的向量,C为训练次数。

如图2所示为3类结果自组织网络参数图:

对输入样本矩阵进行转置处理,图中SOM参数设置为一个7行输入样本,12列的矩阵,即输入数为7,输出3为设置的聚类数目,同时竞争层由聚类数决定。

图2 3类结果自组织网络参数图

由训练结果可知,当训练次数大于200次的时候,训练结果和100次相同,所以,训练次数的增加就没有太大意义。所以选择训练200次。分别取a=4,5,6,如表3~5所示。

表3 SOM聚类分成三类结果

表4 SOM聚类分成四类结果

表5 SOM聚类分成五类结果

如表2~4所示,目前本文将样本分为3种组合,这是由于样本组数较少,如果分类较多的话,可能会导致每组数据为一类的情况,因此根据实际情况,将12组数据分成3类比较合理。其中预测样本编号4为Ⅰ类,8为Ⅱ类,12为Ⅲ类。

②分别针对已经分好的每一类样本采用RBF神经网络进行建模。根据影响交通量的特征因素、网络结构特点等,调整合适的RBF神经网络结构参数,调用Matlab神经网络工具箱如下:

net=newrbe(P,T,SPREAD)

其中P代表训练样本的输入,T代表输出样本,即目标样本,SPREAD为径向基函数的分布密度,取不同的spread值。

③对建立完成的RBF神经网络进行训练。训练完成之后,输入测试样本,反归一化后得到实际数值,判断误差大小。

2.4 仿真结果分析

根据上述预测步骤,通过Matlab结合表1数据建立交通量预测模型进行仿真试验,样本编号4、8、12作为测试样本,输入到SOM-RBF神经网络预测模型,可以得到5个测试样本交通量真实值和预测值的对比,如图3所示。

图3 交通量预测值与真实值对比

由图3可知,该预测模型能够很好的跟踪相关7个影响因素的变化规律,基本吻合预测发展的趋势,预测效果较好,对交通量预测的拟合精度较高,有着不错的预测表现。

该预测模型对选取的7种影响因素有很好的非线性预测效果,能够挖掘数据背后的关联性,从而提升拟合精度,在选取影响因素改变不大的情况下,该模型对长期稳定性的预测效果不会出现很大的偏离。

图4 3种模型与真实值对比

如图4所示,为对比SOM-RBF神经网络在预测效果的优势,本文分别建立了单一的BP神经网络和RBF神经网络,图中可以看出,相较于另外两种预测模型,基于SOM聚类后的RBF神经网络更能很好的贴近真实值,整体符合高速公路交通量的总体趋势。

图5 3种模型仿真误差对比

图5 所示3种网络仿真结果的绝对误差比较,基于SOM改进的RBF神经网络预测值更好,其基本误差维持在1(103 veh)范围以内,相较于单一的BP神经网络和RBF神经网络,SOM-RBF组合算法更有效的将绝对误差降低,提升预测模型的拟合精度。

本文选取相对误差、均方根误差(RMSE)作为检验模型预测效果的指标,如表6所示,可以看出,BP网络的预测结果,其相对误差最大为9.31%,最小也为4.13%;RBF相对误差最大高达11.60%,最小也为6.41%,而混合SOM-RBF网络组合模型的预测结果,相对误差都在6%以下,最小值误差为2.79%,同比RBF网络下降71%。

表6 3种预测模型预测效果对比分析

SOM-RBF神经网络平均相对误差从原来单一的BP和RBF神经网络的6.65、9.22,分别下降了42%和58%。其均方根误差从原来206.65和194.52分别下降59%、70%,下降幅度明显,这说明该模型预测精度更高,其离散程度相对于BP和RBF模型更小,稳定性也优于其他两种模型。

为验证混合算法的适用性,采用文献[13]中某路段1996~2012年的年交通量和社会指标数据来构建模型,选取人口数量、人均GDP、国民生产总值、汽车保有量、社会消费品额、城镇居民可支配收入、地方财政、地方人口密度8项影响因素,聚类后将2006、2011、2012作为预测样本,得到3种预测模型预测效果如表7所示:

表7 某路段3种预测模型预测效果对比

表7可以看出,利用同样的建模方式对该路段进行交通量预测,SOM-RBF混合算法的平均相对误差为4.9%,与本文普洱市交通量预测结果相差不大,同时选取的8种影响因素与普洱交通量样本选取不同,但不会影响混合算法的预测误差,这说明SOM-RBF组合算法有较高的普遍适用性。

3 结论

通过本文对普洱市近12年高速公路年平均日交通量数据相关数据的样本进行分析,可以看出交通量是一种非线性数据,单一的神经网络在面对非线性问题上虽然有一定的处理优势,但往往需要大量样本进行网络训练,对于预测精度问题上仍是研究的重点和难点。在面对高速公路平均日交通量数据下,利用灰色关联分析关联度较大的影响特征因素,利用某些影响因素之间的关联性,结合SOM和RBF各自的特点,先聚类,再分别建模预测,从而提升预测模型的精度。试验结果表明:较单一的BP神经网络和RBF神经网络模型相比,该SOM-RBF混合算法有更高的拟合精度和泛化能力,预测的相对误差较小,更加有效的应用到交通量的预测中。

猜你喜欢
交通量灰色聚类
基于ETC门架数据的高速公路交通量转换探究
浅灰色的小猪
基于K-means聚类的车-地无线通信场强研究
基于动态差法的交通量监测技术应用
高速公路补偿交通量模型研究
灰色时代
她、它的灰色时髦观
基于高斯混合聚类的阵列干涉SAR三维成像
基于四阶段法的公路交通量预测研究
感觉