邓奇春
(湖南省交通科学研究院有限公司,湖南 长沙 410015)
随着城市道路的快速建设与发展、车辆的换代与普及,交通量在近年内急剧变化。而交通量作为衡量路网性能状态的重要指标和道路划分等级的关键依据,不仅体现了区域内的经济水平和城乡发展趋势,还为道路规划设计、红绿灯调配、交通控制与政策调整等提供了丰富的信息参照。
目前,基于时间序列的交通量预测研究主要包含马尔科夫模型[1]、遗传算法[2]、神经网络[3]、小波分解与重构、灰色系统理论[4]、ARIMA模型[5]、支持向量回归[6]等方法。在上述各类方法中,自回归综合移动平均(ARIMA)模型在线性拟合方面表现突出,能充分利用序列历史值而对未来值做出判断,而神经网络则具有强大的非线性拟合能力。但是,单一的预测模型无法准确捕捉到复杂的交通量时间序列的全部信息,具有片面、可靠度低等不足。基于此,很多学者展开了关于融合预测模型的研究。在预测交通量方面,采用组合模型能够更好地提取时间序列中的有效信息。但现有的交通量预测方法主要适用于短期预测,季节性波动研究较少,并且选用的静态神经网络没有记忆功能,仅依赖当前的输入,对时间序列的预测能力远低于动态神经网络。
综合考虑多种因素,以我国南方地区某道路的月度交通量时间序列为研究对象,建立季节性自回归滑动平均模型(SARIMA)和非线性自回归动态神经网络(NAR),结合SARIMA和NAR模型构建优化权值分配融合预测模型:通过对历史序列值拟合误差进行分析,为两个模型分配科学可靠的权值,从而组合预测交通量。最后,将单一的SARIMA、NAR和优化权值分配融合预测模型的均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)多个指标进行综合对比分析。
由于SARIMA模型线性拟合特性优越,且能够较好地处理具有季节性的时间序列;而NAR动态神经网络则拥有强大的记忆功能和非线性解释能力。两者相辅相成,适合构建组合预测模型。
SARIMA模型即季节性ARIMA模型,是在ARIMA模型的基础上增加季节性参数项而形成的模型,通过该模型可以对具有季节性特点的数据进行建模预测[7]。其中,ARIMA模型是单积自回归移动平均过程,其含义为:假设一个随机过程含有d个单位根,其经过d次差分后可以变换为一个平稳的自回归移动平均过程,则该随机过程称为单积(整)自回归移动平均过程。ARIMA模型是SARIMA模型剥离季节性因素的特殊情况。换言之,在自回归AR模型、移动平均MA模型和自回归移动平均ARMA模型中,时间序列皆为平稳序列,然而在很多情况下,时间序列可能是d阶的单位根过程,则需要先对数据进行差分处理,将其转换为平稳的时间序列后再进行建模。
NAR模型是非线性自回归模型,是一种专门针对时间序列进行分析处理的动态神经网络模型。常见的BP、RBF神经网络等都属于静态神经网络,与其相对比,动态神经网络可以将当前时期输出,重新指向元神经网络层的输入端,为下一个时期的输出提供依据和参考[8-9],参数不断刷新,这种动态的过程使时间序列的预测更加可靠。同时,NAR模型与NARX模型的不同点在于,其只有输出没有输入,仅需要对某指标的时间序列进行分析,对数据信息的要求较低、制约因素较少,通过一组数据就可以完成整个预测。从而使预测过程更加简单、便捷,并且在参照数据不足的情况下仍然可以进行科学的预测。
结合上述SARIMA模型和NAR动态神经网络的优势,构建融合模型用于月度交通量的预测。具体流程如图1所示。
图1 融合模型预测流程图
该融合模型的主要原理是采用分配权重的方式进行融合,将给予拟合表现较好的预测模型更高的权重,拟合效果较差的模型则分配小权重。模型首先将月度交通量时间序列进行归一化处理,然后分别通过SARIMA模型和NAR模型对归一化后的序列进行拟合预测,计算两种不同模型拟合值与实测值对比的均方误差(MSE),再根据均方误差值为融合模型分配优化权值,最终运用权值分配公式计算得到融合模型的交通量预测结果。
融合模型y(t)的数学表达式如下:
式(1)中:ωi为模型i的权重系数为t时刻模型i的预测值。
在融合模型中,权值的选择至关重要[10-11]。本文选用了根据历史月度交通量序列拟合的均方误差(MSE)来衡量模型的拟合情况,从而确定权值。MSE的计算公式见式(2):
式(2)中:yt为实际月度交通量时间序列;n为样本数量。
将模型i的历史拟合MSE表示为si,则模型i的权重系数为ωi:
为验证所构建融合模型的有效性和可靠度,本文以我国南方地区某道路的月度交通量时间序列为实例,将2014年1月至2018年12月的交通量数据作为历史值拟合样本,2019年1月至2019年12月的数据作为预测对比样本。
2014年1 月—2018年12月的交通量时间序列如图2所示。
图2 2014年1月—2018年12月中国南方地区某道路交通量的时间序列
由图2可知,其具有明显的趋势性和季节性,适合运用SARIMA模型进行预测。由于交通量序列为月度数据,取周期数m=12。同时,考虑其为非平稳型时间序列,需要进行差分处理,以获取平稳序列进行下一步建模。分别将原序列、一次非季节性差分序列、一次非季节性差分和一次季节性差分序列进行单位根(ADF)检验,所得检验结果见表1。
由表1可知,当序列进行一次非季节性差分和一次季节性差分,即当d=1,D=1时,该时间序列数据ADF检验的t统计量为-4.874,p值为0.000,1%、5%、10%临界值分别为-3.633、-2.949、-2.613。其中,p=0.000<0.01,有高于99%的把握拒绝原假设,此时序列平稳。由此,构建SARIMA(p,l,q)(P,l,Q)12模型。
表1 单位根检验统计表
序列经过平稳化处理后,根据经验法P和Q的取值在一般情况下小于或等于2,因此选取多个SARIMA模型分别计算贝叶斯信息度量(BIC),BIC值越小说明模型的拟合效果越好。其中,SARIMA(0,1,2)(0,1,2)12模型的BIC值最小,拟合精度最高,所以选用该模型为最优模型。
在分析评价月度交通量时间序列之前,为消除数据间数量级的差异,需要对其进行归一化处理,以期通过特征缩放使各数据样本处于同一数量级状态下,从而可以综合对比分析,进而令月度交通量的预测过程更加科学可靠。本文选用适用于神经网络的Max-Min归一化方法,也被称为离差标准化[12]。其主要过程是对原始序列的线性变换,将序列数据调整到[0,1]之间,该归一化转换的公式如下:
式(4)中:x*为归一化后的序列值;x为原始序列;xmax、xmin分别为原始序列的最大值和最小值。
此外,考虑本文用于拟合预测的月度交通量时间序列数据较少,因此训练样本、验证样本和预测样本的占比取值分别为70%、15%、15%。同时,采用Levenberg-Marquardt训练算法构建NAR动态神经网络。通过调整隐藏层神经元数量和延时阶数,比较模型在多次训练后的均方误差(MSE)及其稳定性,确定最优模型。其中,隐藏层神经元个数可以运用经验公式(5)。
式(5)中:n1为隐藏层神经元个数;n为输入样本数,m为输出样本数;a为常数(通常取a=1~10)。
根据经验公式可知,月度交通量时间序列的隐藏层神经元数分别为10~19个。经过不断测试后发现月度交通量时间序列的最佳隐藏层神经元数量为15,延时阶数为3。
为便于对构建模型的预测效果进行对比,引入了均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)多个指标,指标的计算公式如下:
式(6)~(8)中:t为时刻;为t时刻的模型预测值;yt为t时刻的交通量实际监测值;n为样本数量。
根据上述公式,计算出的误差指标统计结果见表2。SARIMA模型预测均方根误差、平均绝对误差、平均绝对百分比误差指标分别为7.94%、4.35、5.31,NAR模型的预测误差指标分别为11.37%、6.56、8.44,而本文所提出的优化权值分配融合预测模型的误差指标则分别为5.89%、3.32、4.62,分别最高将误差缩小了48.20%、49.39%、15.26%。分析表明,优化权值分配融合预测模型远远优于SARIMA、NAR单一模型,而SARIMA模型的预测和拟合效果相对比NAR模型更优。
表2 月度交通量预测误差统计
本文以我国南方地区某道路的月度交通量时间序列为研究对象,建立了MSE权重分配融合模型,通过比较分析得出:基于MSE的优化权值分配融合预测模型,预测与拟合MAPE值分别降至5.89%、5.77%,各项指标优于单独的SARIMA和NAR非融合模型。月度交通量时间序列具有明显的季节性趋势和特性。通过优化权值分配融合预测模型对月度交通量进行预测,对数据信息的要求较低、制约因素较少,通过一组数据就可以完成整个预测。并且预测结果具有较高的有效性和可靠度,预测过程也更加便捷、高效。优化权值分配融合预测模型能够利用不同的预测特征,将两种组合模型分别进行预测,未来可以进一步改进权重组合方法,更好地结合两种融合模型的优势,实现线性与非线性成分的高效融合预测。