基于X11-WT-LSTM的物流货运量多尺度组合预测研究

2022-06-13 10:44叶晓龙刘金培胡倩凝陈华友
关键词:货运量神经网络季节

叶晓龙,罗 瑞,刘金培,胡倩凝,陈华友

(1.安徽大学 商学院,安徽 合肥 230601;2.安徽大学 数学科学学院,安徽 合肥 230601)

对物流货运量进行有效预测是规划物流产业布局、安排物流体系建设、制定交通运输政策的基础和前提,因此如何提高物流货运量的预测精度引起人们的广泛关注。近年来,我国物流行业规模不断扩大,国家统计局数据显示,2021年全国货运量达到5 297 000万t。由于物流货运量受到经济、人口、资源等诸多因素影响,呈现非线性变动趋势。尽管国内外学者对物流货运量预测进行了大量研究,但在实际应用中仍存在诸多问题,如精度较低、使用范围有限等。因此,笔者提出多尺度组合预测模型以提高货运量预测精度。

传统的物流货运量预测主要从货运量数据整体层面进行建模,主要模型包括ARIMA模型[1]、最优组合模型[2]、支持向量机[3]、Holt-Winters模型[4]、BP神经网络模型[5]、多元线性回归模型[6]等。相较于从数据的整体层面建模而言,分解集成方法具有更高的预测精度。周程等[7]将原始货运量数据分解为线性和非线性子序列,分别采用线性回归模型和PSO-BP模型进行预测,最后通过相加集成的方式得到货运量的预测值;RUIZ-AGUILAR等[8]采用自组织映射(SOM)聚类方法将集装箱货运量序列分解为相似的小簇,采用SARIMA模型对每个簇进行预测,并通过SVR模型对各项预测结果进行集成。这些方法均取得了良好的预测效果,但已有分解集成模型大多对各个子序列使用相同的预测方法,尚未考虑到不同频度的序列具有不同的特征、适用不同的模型。传统的时间序列模型多用于对线性、平稳数据的预测,而机器学习在对非平稳、非线性的高频数据处理方面更具优势[9]。MOSCOSO等[10]分别使用ANN和SVR对港口货运量进行短期预测,DARENDELI等[11]使用决策树和决策森林对港口集装箱货运量进行预测,均取得了良好的预测效果。然而,浅层次的机器学习在预测复杂高维的数据时,往往存在过拟合、维数灾难等问题。相较之下,深度学习在预测高频数据方面具有更强的泛化能力[12],其中,LSTM可以有效学习具有非线性特征的高频时间序列,且在铁路货运量数据的预测中非常有效[13]。在数据选择方面,国内研究大多对年度货运量进行预测,而月度货运量预测相对较少。月度货运量具有明显的季节特性。针对有季节特性的时间序列,先进行季节调整,再建立分解集成组合模型具有更好的预测精度[14]。

因此,笔者提出一种基于X11季节调整和小波分解的多尺度组合预测方法。首先,对原始数据进行季节调整。其次,基于小波分解,将数据分解重构为更具规律性的(非线性和非平稳性的、由高到低的)高频序列、低频序列和趋势项。根据3种序列的特点和模型的适用性,分别选取长短期记忆神经网络(LSTM)、BP神经网络和Holt指数平滑法对其进行单项预测。再次,采用最小二乘线性回归对各单项预测值进行集成,同时乘以季节因子,得到最终预测结果。最后,选取2005年1月至2019年12月全国月度货运量作为样本集进行实证对比分析,利用RMSE、MRE、MAE3项预测误差评价指标对预测结果进行评价。结果表明,笔者提出的模型具有较高的预测精度,为货运量预测提供了一种新的思路。研究的创新点在于:①将季节调整、深度学习和分解集成方法相结合,提出一种新的物流货运量预测模型,以提升预测的精度;②不同于已有模型对不同频度序列使用相同的研究方法,笔者对高频、低频和趋势序列采用不同的模型进行组合预测;③不同于现有的年度货运量研究,笔者提出月度货运量预测模型,可以防止依据年度数据判断的月度货运量与实际数据产生较大差异,从而更有利于进行短期生产决策和产业布局规划。

1 模型框架

笔者提出基于X11-WT-LSTM的物流货运量多尺度组合预测模型,思路框架如图1所示,具体步骤如下:

图1 思路框架图

(1)对原始数据y进行X11季节调整,将剔除季节因素的时间序列进行小波分解,得到趋势项a5,以及按频率从高到低排列的波动序列d1,d2,…,d5。基于Fine-to-coarse方法,将分解后的各序列进行重构,从而得到高频序列s1、低频序列s2和趋势项s3。

(4)为评价预测效果,利用RMSE、MRE、MAE3种预测误差指标对笔者所提模型和常见预测方法的结果进行比较,分析本模型的效果。

2 基于X11季节调整与WT-LSTM的多尺度组合预测方法

2.1 X11季节调整

X11季节调整的基本原理为:基于多次迭代的移动平均方法将时间序列Yt分解为趋势-循环因素(TCt)、季节因素(St)和不规则因素(It) 3种成分。最常见的组成模型有加法模型和乘法模型,加法模型适用于每年同季节周期数据比较稳定的序列,乘法模型适用于每年同季节周期数据有明显变化的序列[15]。由于物流产业调整、经济发展进入新常态等原因,月度物流货运量往往表现出不同的季节周期分量,因此笔者选取乘法模型,其一般形式为Yt=TCt·St·It。X11季节调整的核心算法主要分为3个阶段:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

其中,H为Henderson移动平均的参数。

2.2 小波分解(WT)

(13)

式中:t为时间;ω为频率;a为尺度因子,可以控制小波函数的伸缩;τ为平移因子,可以控制小波函数的平移。这两个因子随着小波基函数的选择而确定[16]。

小波分解的主要步骤为:①选择适当的小波函数与分解层数,对时间序列进行分解;②序列分解后,为每层的高频系数选取恰当的阈值;③根据第n层的低频系数和1至n层的高频系数对不同频率的小波进行重构。

2.3 长短期记忆神经网络(LSTM)

长短期记忆神经网络是一种特殊的循环神经网络(RNN)。传统的神经网络只在层与层之间建立权连接,而RNN在隐含层建立了一个反馈机制,从而在神经元之间也建立了权连接。RNN考虑了数据的时序关联性,即一个神经元的状态除了取决于当前的输入,还与历史输出有关。然而,由于RNN存在梯度消失和爆发的问题,从而无法建立长期依赖关系。因此,LSTM引入一种“门”结构来控制信息的进出,以克服梯度消失和爆炸的问题,从而学习长期依赖性[17],具体包括遗忘门ft、输入门gt和输出门ot。LSTM的具体步骤如下:

(1)利用遗忘门ft[18]进行信息的剔除。遗忘门可以接受上一单元模块传来的输出值Ct-1,并对Ct-1中信息进行选择性的保留或遗忘。

ft=σ(bf+Wfxt+Ufht-1)

(14)

(2)通过输入门gt对细胞中的信息状态Ct-1进行更新,更新之后的细胞状态Ct如式(16)所示。

gt=σ(bg+Wgxt+Ught-1)

(15)

Ct=ft·Ct-1+gt·tanh(bc+Wcxt+Ucht-1)

(16)

(3)通过输出门ot进行信息输出,输出的信息如式(18)所示。

ot=σ(bo+Woxt+Uoht-1)

(17)

ht=ot·tanh(Ct)

(18)

其中,σ和tanh分别为sigmoid激活函数和tanh激活函数,σ可以控制信息通过的程度,取值在0到1之间,0表示完全舍弃,1表示完全保留;bf、bg、bc、bo为偏置;Wf、Wg、Wc、Wo为输入权重;Uf、Ug、Uc、Uo为循环权重;xt为当前的输入;ht-1与ht分别为t-1时刻与t时刻的隐含层输出值。LSTM结构如图2所示。

图2 LSTM结构图

2.4 Holt指数平滑法

Holt指数平滑法适用于对有长期趋势的时间序列进行预测,其基本思想为:历史数据对预测值有影响,且近期数据影响大,远期数据影响小。其基本原理可表示为[19]:

(19)

式中:St为t时刻的稳定成分;Xt为t时刻的真实值;bt为t时刻的趋势成分;α,β为平滑参数,取值为[0,1];Ft+n为n期的预测值;n为预测期数。

2.5 最小二乘线性回归

最小二乘法以残差平方和最小为原理[20],广泛应用于曲线拟合、误差估计、系统辨识等数据处理领域。在多元线性回归模型的求解中,通过最小二乘法使残差平方和最小,从而求得各个变量的参数,以此达到最优拟合效果。

2.6 预测结果的评价

为评价基于小波分解的时间序列组合模型的预测效果,笔者采用均方根误差(RMSE)、平均相对误差(MRE)和平均绝对误差(MAE)3种误差评价指标[21],如式(20)所示。这些指标的值越小,表明所采用的模型的预测效果越好。

(20)

3 物流货运量预测实证分析

3.1 数据来源与数据预处理

从国家统计局网站选取2005年1月至2019年12月全国的月度货运量时间序列作为样本集进行分析。其中,将2005年3月至2016年10月的数据作为训练集,将2016年11月至2019年12月的数据作为测试集。

物流货运量的原始时间序列如图3所示,可以看出全国月度货运量总体呈上升趋势且具有明显的季节性,但从2014年2月开始增速放缓,且季节变化幅度增大。这是由于2014年我国经济发展已进入新常态,发展增速变慢。交通运输行业作为一项基础性、先导性行业,其结构也随之发生变化。因此笔者对2014年前后的数据分开进行季节调整。

3.2 季节调整

为排除经济环境的干扰,增加预测的准确性,在进行季节调整时将样本集划分为两个部分,即2005年1月到2013年12月和2014年1月到2019年12月,分别对这两部分原始数据进行X11季节调整。季节调整后序列见图3,季节成分序列如图4所示。从图4可以看出,2014年2月之后,货运量季节变动幅度明显增大。

图3 原始序列和季节调整后序列

图4 季节成分序列

3.3 时间序列小波分解

对季节调整后的时间序列进行小波分解。Daubechies(db)小波函数在时序数据的分析中具有良好的性能[22],经过反复实验,选取常见的db2为基函数,将时间序列分为5层,如图5所示。其中s是剔除季节变动的时间序列,s=a5+d5+d4+d3+d2+d1;a5是趋势项序列;d1,d2,…,d5是季节调整序列分解出的按频率从高到低排列的波动序列。采用Fine-to-coarse方法,将小波分解得到的各子序列重构为高频序列s1、低频序列s2和趋势项s33部分,如图6所示,s1=d1+d2+d3+d4,s2=d5,s3=d5。其中,高频序列综合反映了诸多影响因素对货运量造成的扰动;低频序列反映出货运量变动的周期性特征;趋势项递增,表明我国货运量总体呈现增长状态,且增速经历了由快到慢的过程,这也是由我国经济发展进入新常态所导致。在小波分解和序列组合的基础上,可以分别对高频序列、低频序列和趋势项进行单项预测。

图5 小波分解图

图6 序列组合图

3.4 多尺度组合预测

高频序列的随机波动性较大,复杂度较高,LSTM具有较强的泛化能力,可以有效学习深层高频数据特征。低频序列的波动幅度较小,波动规律较为明显,BP神经网络具有较强的非线性映射能力,通过误差反向传播算法能够充分提取规律性的尺度特征。趋势项表示货运量时间序列的整体变化趋势,平稳性强,Holt指数平滑法适用于对含有趋势变动和周期变动的时间序列进行预测。

图7 预测结果

3.5 预测模型评价

为验证笔者所提组合预测模型的有效性,基于均方根误差、平均相对误差和平均绝对误差3种误差评价指标,将笔者所提方法(X11-WT-LSTM)与ARIMA模型、Holt指数平滑法、BP神经网络、LSTM 4种单项预测模型以及未经季节调整的组合预测模型(CF-LSLR)进行对比分析,结果如表1所示。

表1 货运量误差评价指标分析表

(1)各单项预测方法的对比。将ARIMA、Holt指数平滑法、BP神经网络和LSTM 4种单项预测方法进行比较,可以发现LSTM对月度货运量的预测精度远远高于Holt、ARIMA 和BP神经网络的预测精度,由此可见LSTM对于非线性时间序列的处理能力不仅优于传统统计模型,还优于BP神经网络。

(2)未经季节调整的组合预测模型与单项预测方法的对比。由表1可知,经过分解集成的组合预测模型效果优于单项的预测模型,这说明不同频度的时间序列适用于不同的预测方法,分解集成组合预测模型可以综合各单项模型的优势,从而提高预测精度。

(3)笔者所提模型与未经季节调整的组合预测方法的对比。经过季节调整的组合模型具有更高的预测精度,可见季节调整能够去除季节因素对时间序列预测的干扰,以降低数据的复杂度。

综上所述,通过对不同预测模型的对比分析可知:①相比于传统预测方法,LSTM对于非平稳时间序列具有更好的预测效果。②相比于单项预测方法,分解集成组合预测模型具有更高的预测精度。③月度货运量时间序列具有明显的季节特性,经过季节调整后的组合预测模型比未经调整的组合模型具有更好的预测效果。

4 结论

(1)笔者提出了物流货运量月度数据的分解集成组合预测方法。首先,通过X11季节调整剔除季节因素对预测效果的影响;其次,对数据进行小波分解,将分解后的序列重构为高频序列、低频序列和趋势项,进而分别采用LSTM、BP神经网络和Holt指数平滑法进行单项预测;最后,基于最小二乘线性回归对预测值进行集成,同时考虑季节因子,得到最终预测结果。

(2)对比分析结果表明,笔者所提组合预测模型具有较高的预测精度,且预测效果优于ARIMA、Holt指数平滑法、LSTM等单项预测方法,以及未经季节调整的组合预测模型。

(3)尽管笔者提出的模型取得了较高的预测精度,但仍然存在一些不足,如未考虑各种指标对物流货运量的影响。因此,未来研究将考虑货运量的影响因素,并改进季节调整方法,以进一步提升预测效果。

猜你喜欢
货运量神经网络季节
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
我喜欢的季节7
季节蠕变
季节的变换
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
2017年上半年拉脱维亚港口货运量同比增长7%
花的季节