毛锦伟,宋伟炜,周昱辰
(1.三峡大学,湖北宜昌443002;2.湖南科技大学,湖南湘潭411100;3.荣成市永康海洋工程咨询有限公司,山东威海264200)
截止2019年底,我国高速公路建设总里程已达到14万公里,而随着我国经济社会的发展,汽车保有量已达到3.3亿量,这对高速公路的运输能力提出挑战。影响高速公路交通流量的因素多种多样,具有非线性特征[1-3],这使得高速公路交通量难以预测。因此针对如何对高速公路交通量做出准确预测,成为解决公路通行能力和运输效率的重中之重。
随着信息技术发展,数据融合技术日益成熟。机器学习成为交通流量预测的主要技术之一。如利用混合灰色理论和支持向量机方法预测交通流量[4];利用灰色线性回归组合分析方法预测高速公路交通量[5],以及改进粒子群算法[6]、遗传算法[7]等一系列组合预测模型。而高速公路交通量的影响因素复杂多样,具有非线性特征,这使得单一神经网络模型预测精度往往达不到要求。
本文在组合模型的基础上,考虑到对高速公路交通量影响因素的复杂性,利用灰色关联分析法对影响因素进行排序,剔除关联性较弱的特征,选择合适的输入向量,基于聚类算法改进的RBF神经网络模型对交通量进行预测。引入SOM神经网络[8-9],利用SOM神经网络对整体样本进行自动聚类,对聚类完成的样本分别构建RBF神经网络预测模型。通过Matlab平台建立SOM-RBF混合算法,先通过聚类分析得到相似聚类样本,再依照分类结果建立RBF预测模型,实现对高速公路交通量的精准预测。
高速公路交通量具有高度非线性特征,影响交通量的因素有很多,比如说生产总值、城镇人口、农村人口、汽车保有量等,因此对高速公路交通量预测应选取合适的特征指标。本文首先选择了文献[10]所提供的云南磨高速公路普洱市段的交通量统计数据,如表1所示。
表1 交通量主要指标统计数据
在进行灰色关联度分析时,先确定参考序列和比较序列。本文将高速路年平均日交通量作为参考序列设为x0(p),x0(p)={x0(1),x0(2),…,x0(n)},选取n(n=12)个数据;剩余8组特征因素作为比较序列,从普洱市
总人口(万人)到汽车拥有量(104 veh),分别设为xi(t),i(i=1,2…,8),每个比较序列对应n个数据:xi(t)={xi(1),xi(2),…,xi(n)},其中n(n=12)。
灰色关联分析理论由我国学者邓聚龙教授于20世纪70年代末提出,即通过对已有数据信息进行提取,获得整体数据的规律[11]。具体灰色关联度步骤如下:
Step1:对给定的样本进行归一化处理,其自变量区域为[0,1],其公式为:
公式(1)中,xmin为样本数据的最小值;xmax为样本数据的最大值;
Step2:求解灰色关联系数公式:
Step3:计算灰色加权关联度
式(3)中:ri为第i个评价对象对理想对象的灰色加权关联度。
本文利用Matlab计算,得到各个相关因素(xi)与高速路年平均日交通量(x0)之间的灰色关联相关性。
如表2所示,影响高速公路年平均日交通量最大的影响因素为汽车拥有量,关联度为0.785 4;普洱市总人口关联度最小,关联度为0.553 2,是8种影响因素里最小的一种,说明普洱市总人口对高速公路交通量影响较小,而其余的6种特征因素都在0.7以上,属于较大影响因素。
表2 各影响因素与高速公路交通量的灰色关联分析结果
高速公路交通量预测是一个高度非线性问题,大多数预测方法是通过对观察某些特征因子来挖掘背后的信息。然而,这些特征因子信息背后是一种非常复杂的非线性关联,为降低高度非线性带来的数据过拟合问题,本文利用SOM聚类分析。将有相似规律的样本聚集在一起,从而分别构建RBF神经网络预测模型,解决了样本数据分布不均匀以及样本集中到各自相邻的领域问题,从而大大提高预测精度。如图1所示,组合人工神经网络预测的实现步骤如下:
(1)对给定的样本进行归一化处理,其自变量区域为[0,1],其公式为:
公式(1)中,xmin为样本数据的最小值;xmax为样本数据的最大值;
(2)对于归一化后的数据进行SOM聚类分析,调用Matlab中的SOM神经网络工具箱的函数命令:net=newsom(minmax(p),[x])
(3)在SOM神经网络分出的每一种样本类内各自构建一个RBF神经网络,并分别用各种样本类内的训练样本来训练该类的RBF神经网络。
(4)对预测完后的值反归一化处理,得到高速公路交通量具体值,通过与实际交通量误差分析,判断该组合神经网络的预测效果。
图1 SOM-RBF组合神经网络预测流程
本文利用文献[10]给出的2004~2015年普洱市统记的社会指标和年平均日交通量数据,经过灰色关联分析后,剔除关联度较低的普洱市总人口,选取关联度大于等于0.7的x2,x3,x4,x5,x6,x7,x8变量作为样本数据。
可以看出,影响交通量的因素有很多种,这说明对高速公路交通量的预测是一个高度非线性问题,其中,本文为防止测试样本聚类于同一类,采取随机抽取测试样本的方法,从12组样本随机选取4、8、12作为预测样本,分别对应2007年、2011年、2015年,其余9组数据作为训练样本。由于样本数据中量纲有所不同,为了方便计算,先对样本数据进行归一化预处理。
①本文调用Matlab[12]神经网络工具箱中的函数命令对样本进行分类:
net=newsom(minmax(P),[a×b]);net.train-Param.epochs=C;
其中,[a×b]为分类数的向量,C为训练次数。
如图2所示为3类结果自组织网络参数图:
对输入样本矩阵进行转置处理,图中SOM参数设置为一个7行输入样本,12列的矩阵,即输入数为7,输出3为设置的聚类数目,同时竞争层由聚类数决定。
图2 3类结果自组织网络参数图
由训练结果可知,当训练次数大于200次的时候,训练结果和100次相同,所以,训练次数的增加就没有太大意义。所以选择训练200次。分别取a=4,5,6,如表3~5所示。
表3 SOM聚类分成三类结果
表4 SOM聚类分成四类结果
表5 SOM聚类分成五类结果
如表2~4所示,目前本文将样本分为3种组合,这是由于样本组数较少,如果分类较多的话,可能会导致每组数据为一类的情况,因此根据实际情况,将12组数据分成3类比较合理。其中预测样本编号4为Ⅰ类,8为Ⅱ类,12为Ⅲ类。
②分别针对已经分好的每一类样本采用RBF神经网络进行建模。根据影响交通量的特征因素、网络结构特点等,调整合适的RBF神经网络结构参数,调用Matlab神经网络工具箱如下:
net=newrbe(P,T,SPREAD)
其中P代表训练样本的输入,T代表输出样本,即目标样本,SPREAD为径向基函数的分布密度,取不同的spread值。
③对建立完成的RBF神经网络进行训练。训练完成之后,输入测试样本,反归一化后得到实际数值,判断误差大小。
根据上述预测步骤,通过Matlab结合表1数据建立交通量预测模型进行仿真试验,样本编号4、8、12作为测试样本,输入到SOM-RBF神经网络预测模型,可以得到5个测试样本交通量真实值和预测值的对比,如图3所示。
图3 交通量预测值与真实值对比
由图3可知,该预测模型能够很好的跟踪相关7个影响因素的变化规律,基本吻合预测发展的趋势,预测效果较好,对交通量预测的拟合精度较高,有着不错的预测表现。
该预测模型对选取的7种影响因素有很好的非线性预测效果,能够挖掘数据背后的关联性,从而提升拟合精度,在选取影响因素改变不大的情况下,该模型对长期稳定性的预测效果不会出现很大的偏离。
图4 3种模型与真实值对比
如图4所示,为对比SOM-RBF神经网络在预测效果的优势,本文分别建立了单一的BP神经网络和RBF神经网络,图中可以看出,相较于另外两种预测模型,基于SOM聚类后的RBF神经网络更能很好的贴近真实值,整体符合高速公路交通量的总体趋势。
图5 3种模型仿真误差对比
图5 所示3种网络仿真结果的绝对误差比较,基于SOM改进的RBF神经网络预测值更好,其基本误差维持在1(103 veh)范围以内,相较于单一的BP神经网络和RBF神经网络,SOM-RBF组合算法更有效的将绝对误差降低,提升预测模型的拟合精度。
本文选取相对误差、均方根误差(RMSE)作为检验模型预测效果的指标,如表6所示,可以看出,BP网络的预测结果,其相对误差最大为9.31%,最小也为4.13%;RBF相对误差最大高达11.60%,最小也为6.41%,而混合SOM-RBF网络组合模型的预测结果,相对误差都在6%以下,最小值误差为2.79%,同比RBF网络下降71%。
表6 3种预测模型预测效果对比分析
SOM-RBF神经网络平均相对误差从原来单一的BP和RBF神经网络的6.65、9.22,分别下降了42%和58%。其均方根误差从原来206.65和194.52分别下降59%、70%,下降幅度明显,这说明该模型预测精度更高,其离散程度相对于BP和RBF模型更小,稳定性也优于其他两种模型。
为验证混合算法的适用性,采用文献[13]中某路段1996~2012年的年交通量和社会指标数据来构建模型,选取人口数量、人均GDP、国民生产总值、汽车保有量、社会消费品额、城镇居民可支配收入、地方财政、地方人口密度8项影响因素,聚类后将2006、2011、2012作为预测样本,得到3种预测模型预测效果如表7所示:
表7 某路段3种预测模型预测效果对比
表7可以看出,利用同样的建模方式对该路段进行交通量预测,SOM-RBF混合算法的平均相对误差为4.9%,与本文普洱市交通量预测结果相差不大,同时选取的8种影响因素与普洱交通量样本选取不同,但不会影响混合算法的预测误差,这说明SOM-RBF组合算法有较高的普遍适用性。
通过本文对普洱市近12年高速公路年平均日交通量数据相关数据的样本进行分析,可以看出交通量是一种非线性数据,单一的神经网络在面对非线性问题上虽然有一定的处理优势,但往往需要大量样本进行网络训练,对于预测精度问题上仍是研究的重点和难点。在面对高速公路平均日交通量数据下,利用灰色关联分析关联度较大的影响特征因素,利用某些影响因素之间的关联性,结合SOM和RBF各自的特点,先聚类,再分别建模预测,从而提升预测模型的精度。试验结果表明:较单一的BP神经网络和RBF神经网络模型相比,该SOM-RBF混合算法有更高的拟合精度和泛化能力,预测的相对误差较小,更加有效的应用到交通量的预测中。