基于灰色关联分析和SOM-RBF神经网络的高速公路交通量预测方法研究

2020-10-15 08:14毛锦伟宋伟炜周昱辰

广东交通职业技术学院学报 2020年3期

毛锦伟，宋伟炜，周昱辰

（1.三峡大学，湖北宜昌443002；2.湖南科技大学，湖南湘潭411100；3.荣成市永康海洋工程咨询有限公司，山东威海264200）

截止2019年底，我国高速公路建设总里程已达到14万公里，而随着我国经济社会的发展，汽车保有量已达到3.3亿量，这对高速公路的运输能力提出挑战。影响高速公路交通流量的因素多种多样，具有非线性特征[1-3]，这使得高速公路交通量难以预测。因此针对如何对高速公路交通量做出准确预测，成为解决公路通行能力和运输效率的重中之重。

随着信息技术发展，数据融合技术日益成熟。机器学习成为交通流量预测的主要技术之一。如利用混合灰色理论和支持向量机方法预测交通流量[4]；利用灰色线性回归组合分析方法预测高速公路交通量[5]，以及改进粒子群算法[6]、遗传算法[7]等一系列组合预测模型。而高速公路交通量的影响因素复杂多样，具有非线性特征，这使得单一神经网络模型预测精度往往达不到要求。

本文在组合模型的基础上，考虑到对高速公路交通量影响因素的复杂性，利用灰色关联分析法对影响因素进行排序，剔除关联性较弱的特征，选择合适的输入向量，基于聚类算法改进的RBF神经网络模型对交通量进行预测。引入SOM神经网络[8-9]，利用SOM神经网络对整体样本进行自动聚类，对聚类完成的样本分别构建RBF神经网络预测模型。通过Matlab平台建立SOM-RBF混合算法，先通过聚类分析得到相似聚类样本，再依照分类结果建立RBF预测模型，实现对高速公路交通量的精准预测。

1 交通量影响因素分析

1.1 影响因素的选取

高速公路交通量具有高度非线性特征，影响交通量的因素有很多，比如说生产总值、城镇人口、农村人口、汽车保有量等，因此对高速公路交通量预测应选取合适的特征指标。本文首先选择了文献[10]所提供的云南磨高速公路普洱市段的交通量统计数据，如表1所示。

表1 交通量主要指标统计数据

在进行灰色关联度分析时，先确定参考序列和比较序列。本文将高速路年平均日交通量作为参考序列设为x0(p)，x0(p)={x0(1),x0(2),…,x0(n)}，选取n（n=12）个数据；剩余8组特征因素作为比较序列，从普洱市

总人口（万人）到汽车拥有量（104 veh），分别设为xi(t)，i(i=1,2…,8)，每个比较序列对应n个数据：xi(t)={xi(1),xi(2),…,xi(n)}，其中n（n=12）。

1.2 交通量灰色关联分析

灰色关联分析理论由我国学者邓聚龙教授于20世纪70年代末提出，即通过对已有数据信息进行提取，获得整体数据的规律[11]。具体灰色关联度步骤如下：

Step1：对给定的样本进行归一化处理，其自变量区域为[0，1]，其公式为：

公式（1）中，xmin为样本数据的最小值；xmax为样本数据的最大值；

Step2：求解灰色关联系数公式：

Step3：计算灰色加权关联度

式(3)中：ri为第i个评价对象对理想对象的灰色加权关联度。

本文利用Matlab计算，得到各个相关因素（xi）与高速路年平均日交通量（x0）之间的灰色关联相关性。

如表2所示，影响高速公路年平均日交通量最大的影响因素为汽车拥有量，关联度为0.785 4；普洱市总人口关联度最小，关联度为0.553 2，是8种影响因素里最小的一种，说明普洱市总人口对高速公路交通量影响较小，而其余的6种特征因素都在0.7以上，属于较大影响因素。

表2 各影响因素与高速公路交通量的灰色关联分析结果

2 基于SOM-RBF神经网络预测模型

2.1 SOM-RBF混合算法的预测原理

高速公路交通量预测是一个高度非线性问题，大多数预测方法是通过对观察某些特征因子来挖掘背后的信息。然而，这些特征因子信息背后是一种非常复杂的非线性关联，为降低高度非线性带来的数据过拟合问题，本文利用SOM聚类分析。将有相似规律的样本聚集在一起，从而分别构建RBF神经网络预测模型，解决了样本数据分布不均匀以及样本集中到各自相邻的领域问题，从而大大提高预测精度。如图1所示，组合人工神经网络预测的实现步骤如下：

（1）对给定的样本进行归一化处理，其自变量区域为[0，1]，其公式为：

公式（1）中，xmin为样本数据的最小值；xmax为样本数据的最大值；

（2）对于归一化后的数据进行SOM聚类分析，调用Matlab中的SOM神经网络工具箱的函数命令：net=newsom(minmax(p)，[x]）

（3）在SOM神经网络分出的每一种样本类内各自构建一个RBF神经网络，并分别用各种样本类内的训练样本来训练该类的RBF神经网络。

（4）对预测完后的值反归一化处理，得到高速公路交通量具体值，通过与实际交通量误差分析，判断该组合神经网络的预测效果。

2.2 样本数据选取

图1 SOM-RBF组合神经网络预测流程

本文利用文献[10]给出的2004～2015年普洱市统记的社会指标和年平均日交通量数据，经过灰色关联分析后，剔除关联度较低的普洱市总人口，选取关联度大于等于0.7的x2，x3，x4，x5，x6，x7，x8变量作为样本数据。

可以看出，影响交通量的因素有很多种，这说明对高速公路交通量的预测是一个高度非线性问题，其中，本文为防止测试样本聚类于同一类，采取随机抽取测试样本的方法，从12组样本随机选取4、8、12作为预测样本，分别对应2007年、2011年、2015年，其余9组数据作为训练样本。由于样本数据中量纲有所不同，为了方便计算，先对样本数据进行归一化预处理。

2.3 交通量预测步骤

①本文调用Matlab[12]神经网络工具箱中的函数命令对样本进行分类：

net=newsom(minmax(P)，[a×b])；net.train-Param.epochs=C；

其中，[a×b]为分类数的向量，C为训练次数。

如图2所示为3类结果自组织网络参数图：

对输入样本矩阵进行转置处理，图中SOM参数设置为一个7行输入样本，12列的矩阵，即输入数为7，输出3为设置的聚类数目，同时竞争层由聚类数决定。

图2 3类结果自组织网络参数图

由训练结果可知，当训练次数大于200次的时候，训练结果和100次相同，所以，训练次数的增加就没有太大意义。所以选择训练200次。分别取a=4，5，6，如表3～5所示。

表3 SOM聚类分成三类结果

表4 SOM聚类分成四类结果

表5 SOM聚类分成五类结果

如表2～4所示，目前本文将样本分为3种组合，这是由于样本组数较少，如果分类较多的话，可能会导致每组数据为一类的情况，因此根据实际情况，将12组数据分成3类比较合理。其中预测样本编号4为Ⅰ类，8为Ⅱ类，12为Ⅲ类。

②分别针对已经分好的每一类样本采用RBF神经网络进行建模。根据影响交通量的特征因素、网络结构特点等，调整合适的RBF神经网络结构参数，调用Matlab神经网络工具箱如下：

net=newrbe(P，T，SPREAD)

其中P代表训练样本的输入，T代表输出样本，即目标样本，SPREAD为径向基函数的分布密度，取不同的spread值。

③对建立完成的RBF神经网络进行训练。训练完成之后，输入测试样本，反归一化后得到实际数值，判断误差大小。

2.4 仿真结果分析

根据上述预测步骤，通过Matlab结合表1数据建立交通量预测模型进行仿真试验，样本编号4、8、12作为测试样本，输入到SOM-RBF神经网络预测模型，可以得到5个测试样本交通量真实值和预测值的对比，如图3所示。

图3 交通量预测值与真实值对比

由图3可知，该预测模型能够很好的跟踪相关7个影响因素的变化规律，基本吻合预测发展的趋势，预测效果较好，对交通量预测的拟合精度较高，有着不错的预测表现。

该预测模型对选取的7种影响因素有很好的非线性预测效果，能够挖掘数据背后的关联性，从而提升拟合精度，在选取影响因素改变不大的情况下，该模型对长期稳定性的预测效果不会出现很大的偏离。

图4 3种模型与真实值对比

如图4所示，为对比SOM-RBF神经网络在预测效果的优势，本文分别建立了单一的BP神经网络和RBF神经网络，图中可以看出，相较于另外两种预测模型，基于SOM聚类后的RBF神经网络更能很好的贴近真实值，整体符合高速公路交通量的总体趋势。

图5 3种模型仿真误差对比

图5 所示3种网络仿真结果的绝对误差比较，基于SOM改进的RBF神经网络预测值更好，其基本误差维持在1（103 veh）范围以内，相较于单一的BP神经网络和RBF神经网络，SOM-RBF组合算法更有效的将绝对误差降低，提升预测模型的拟合精度。

本文选取相对误差、均方根误差（RMSE）作为检验模型预测效果的指标，如表6所示，可以看出，BP网络的预测结果，其相对误差最大为9.31%，最小也为4.13%；RBF相对误差最大高达11.60%，最小也为6.41%，而混合SOM-RBF网络组合模型的预测结果，相对误差都在6%以下，最小值误差为2.79%，同比RBF网络下降71%。

表6 3种预测模型预测效果对比分析

SOM-RBF神经网络平均相对误差从原来单一的BP和RBF神经网络的6.65、9.22，分别下降了42%和58%。其均方根误差从原来206.65和194.52分别下降59%、70%，下降幅度明显，这说明该模型预测精度更高，其离散程度相对于BP和RBF模型更小，稳定性也优于其他两种模型。

为验证混合算法的适用性，采用文献[13]中某路段1996～2012年的年交通量和社会指标数据来构建模型，选取人口数量、人均GDP、国民生产总值、汽车保有量、社会消费品额、城镇居民可支配收入、地方财政、地方人口密度8项影响因素，聚类后将2006、2011、2012作为预测样本，得到3种预测模型预测效果如表7所示：

表7 某路段3种预测模型预测效果对比

表7可以看出，利用同样的建模方式对该路段进行交通量预测，SOM-RBF混合算法的平均相对误差为4.9%，与本文普洱市交通量预测结果相差不大，同时选取的8种影响因素与普洱交通量样本选取不同，但不会影响混合算法的预测误差，这说明SOM-RBF组合算法有较高的普遍适用性。

3 结论

通过本文对普洱市近12年高速公路年平均日交通量数据相关数据的样本进行分析，可以看出交通量是一种非线性数据，单一的神经网络在面对非线性问题上虽然有一定的处理优势，但往往需要大量样本进行网络训练，对于预测精度问题上仍是研究的重点和难点。在面对高速公路平均日交通量数据下，利用灰色关联分析关联度较大的影响特征因素，利用某些影响因素之间的关联性，结合SOM和RBF各自的特点，先聚类，再分别建模预测，从而提升预测模型的精度。试验结果表明：较单一的BP神经网络和RBF神经网络模型相比，该SOM-RBF混合算法有更高的拟合精度和泛化能力，预测的相对误差较小，更加有效的应用到交通量的预测中。