徐玉萍,邓俊翔,蒋泽华
基于组合预测模型的铁路货运量预测研究
徐玉萍,邓俊翔,蒋泽华
(华东交通大学 交通运输与物流学院,江西 南昌 330013)
为了进一步提高铁路货运量的预测精度,提出基于乘积季节模型与引入注意力机制(Attention Mechanism)的长短期记忆(Long Short-Term Memory)模型的组合预测模型。首先建立乘积季节模型、LSTM模型与引入注意力机制的LSTM模型,然后利用误差修正法分别将2种LSTM模型与乘积季节模型组合起来进行预测,最后将预测结果分别与单一模型进行对比。采用2005年至2018年全国铁路月度货运量进行预测分析,结果表明2种组合预测模型的预测精度均高于单一预测模型的预测精度,其中基于乘积季节模型与引入注意力机制的LSTM模型的组合预测模型精度最高,具有研究和实用价值。
铁路货运量,乘积季节模型,LSTM模型,组合预测模型,注意力机制
铁路货运量的预测对铁路运输行业的发展有着至关重要的作用,既可以明确未来铁路货运量的发展趋势又能对未来的发展有一个大致的判断。合理的铁路货运量预测不仅能够及时发现我国铁路货运行业发展过程中的问题,为我国铁路货运相关部门提供建设性建议,也能够为我国未来铁路建设提供一个合理的方向。常用的预测方法有时间序列分析与机器学习两种。时间序列分析方法又分为简单时序平均数法、加权序时平均数法、简单移动平均法、加权移动平均法、指数平滑法、季节趋势预测法与市场寿命周期预测法等,主要用于金融、交通运输以及疾病防控等领域。张立欣等[1]通过对阿拉尔市近20年的风速进行分析,利用差分自回归移动平均模型(以下简记ARIMA)乘积季节模型进行预测,预测效果较好。决策树、支持向量机、神经网络、随机森林与朴素贝叶斯等为常用的机器学习方法,这些方法广泛应用于自动机器翻译、计算机视觉(即时拍照翻译等)、语音识别与预测分析等方面。GAO等[2]提出一种非线性回归方法,即随机森林回归(RFR),通过对2001年至2013年的铁路货运量数据分析,发现预测精度高,泛化能力强,鲁棒性好,参数可调性强。当然,也不仅限于以上提到的方法,如通过小波灰色GM(1,N)模型进行货运量预测[3];改进粒子群算法优化长短期记忆(Long Short-Term Memory)模型进行货运量预测[4];利用粒子群对灰色Verhulst模型进行优化以提高预测精度[5]。随着各领域对于预测精度要求的不断提高,原有单一模型已经不能满足现有的预测需求,不少学者已对组合预测模型进行了研究,梁宁等[6]提出构建多项式核函数与径向基核函数线性组合的SVM-mixed预测模型并通过果蝇优化算法确定最优参数以提高铁路货运量的预测精度。杨静等[7]对比自回归移动平均模型(ARMA模型)与小波ARMA组合模型对北京某地铁站进站量进行预测,发现组合预测模型效果更好。ZHOU等[8]提出基于粒子群优化BP神经网络的组合预测方法以解决BP神经网络存在的局部最优、精度低、收敛性差等问题,实验表明模型具有较好的收敛性能和稳定性。对铁路货运量预测已有大量研究,单就组合预测模型而言,主要还是通过一种模型算法对另一个模型的参数选取方式进行改进以解决单一算法中的局部最优问题,而对铁路货运量数据特征的研究较少。通过对铁路货运量的分析,可以发现铁路货运量的数据同时具备线性与非线性的特征,选择适合的模型对预测精度的高低起到至关重要的作用,故提出基于擅长拟合线性特征数据的乘积季节模型与擅长拟合非线性数据的LSTM模型的组合预测模型,为了进一步提高预测精度,引入了注意力机制,使得整个组合模型更适合铁路货运量的预测。
基于传统时间序列分析得出的差分自回归移动平均模型早在20世纪70年代便已公开发表。此模型根据原始时间序列是否平稳以及回归中所含部分的不同,包括自回归模型(AR)、移动平均模型(MA)、ARMA模型以及ARIMA模型。
设序列X={1,2,…,x}为一个时间序列,由于ARMA模型要求序列平稳,所以需要对序列进行平稳化处理。ARIMA模型的表达式为:
若序列X具有季节性的变动规律,则称为季节性模型,季节性模型的一般表达式为:
乘积季节模型是(,,)与(,,)的结合。设et~(,,),则有:
建立乘积季节模型,首先通过对数据的分析得出是否存在季节性,存在则确定其周期,设为s;之后根据已知数据利用ADF检验获得具体值和;为了消除时间序列数据的季节性应该运用季节差分法,使新的序列趋于平稳,其差分步长应与季节周期保持一致;通过计算相应的AIC值来确定,,,的阶数并利用极大似然法求得模型参数的估计值。
LSTM模型最早于1997年由Sepp Hochreiter和Jurgen Schmidhuber 提出。LSTM则为循环神经网络的一种变体,主要是为了解决RNN存在的长期依赖问题,适用于处理和预测时间序列。LSTM模型的改进主要在于由一组独特的记忆细胞组成,这些记忆细胞将RNN中的隐藏层神经元取代,其关键是记忆细胞的状态。每个 LSTM 单元由3个控制信息存储和流入的门(gate)和核心信元cell组成,3个门分别是输入门(Input gate)、输出门(Output gate)、遗忘门( Forgetgate),具体结构如图1所示。每个单元块内的3类门均使用sigmoid激活单元函数来决定它们是否启动,使模型状态的改变以及信息的添加可以通过单元块选择性地流动。LSTM模型结构的控制模式,有利于对时间序列上的信息进行选择性地记忆,满足时间序列中长期和短期关联性分析的需求。在时刻,LSTM神经网络定义如下:
式中:W,W,W和W为x的权重;b,b,b和b偏置条件;为sigmoid激活函数;tan为双曲正切函数。
激活函数sigmoid与tan函数的表达式分别表示为:
(7)
LSTM运用于预测的流程:
1) 选择Keras作为实验平台,运用python进行编写基于Tensorflow为接口实现模型的运行。
2) 将获取的铁路货运量进行划分,标准化处理这些数据,而后分为训练集与测试集。
3) 将训练集作为输入值获得序列x与h−1,进入遗忘门f,查看x与h−1信息确定C−1中信息的保留,全过程由sigmoid函数进行处理。
5) 通过输入门i的sigmoid函数得到初始输出,再经输出门o的tan函数得到预测值h。
6) 模型建立后需要通过参数的比选得出最优参数以获得最优模型,带入测试集进行预测。
从对人类视觉的研究中得出,注意力机制(Attention Mechanism)通过将足够的注意力分配给关键信息来突出显示重要的本地信息。注意机制在诸如语音识别,机器翻译和文本识别等序列化数据中非常出色。基于注意力机制的神经网络在深度学习研究中引起了学者们的极大的兴趣。XUE等[9]通过构建基于注意力的时空分层卷积长短期记忆(ST-HConvLSTM)网络,对时空域中的动作结构进行建模,经过数据集评估得出模型性能最佳。党宏社[10]等[10]将存储注意力和解码自注意力组合形成混合注意力,以解决文本重复、曝光偏差等问题。
注意力机制主要通过提取新闻中的信息来辅助预测价格波动,从而将其应用于股票预测中。例如,乔若羽[11]通过引入注意力机制给各时间维度的信息赋予不同权重以优化RNN、LSTM和GRU等模型以提高性能。注意机制可以具有软性或硬性注意。注意力机制专注于输入信息中的一个元素,基于最大采样或随机采样选择信息,这需要大量的训练才能获得良好的结果。软注意力机制为所有输入信息分配权重,使输入信息的使用效率更高,并及时获得结果[12]。将软注意力机制引入到LSTM模型当中,为所有输入特征逐个加权,以达到提高预测精度的目的。注意力机制可以表述为:
其中:a为最终权重;e为第1次加权计算的结果;w为注意力机制的权重;为注意力机制的偏差。
注意力机制主要分为2个步骤:1) 计算注意力分布;2) 根据注意力分布计算输入信息的加权平均值。注意力机制结构如图2所示。
图2 注意力机制结构
乘积季节模型对于非线性拟合能力差,预测精度不够,故引入误差修正的方法将乘积季节模型与基于注意力机制的LSTM模型(以下简称LSTM (AM))进行组合,以提高原有预测模型的预测精度。将货运量数据先由乘积季节模型进行预测,所得预测值与实际值计算得出残差,在此记为预残差,将预残差输入基于注意力机制的LSTM模型进行训练以获得训练后的残差,在此记为终残差,利用终残差对预测值进行误差修正,最后输出最终预测结果,如图3所示。
图3 误差修正结构
实验数据均取自国家统计局官网,如图4所示,选取2005年1月至2018年10月的铁路货运量月度数据共166组,以2005年1月至2017年10月的货运量数据作为训练数据,以2017年11月至2018年10月的货运量数据作为测试数据。所有模型均使用Python进行编写,LSTM模型与LSTM (AM)模型采用Keras框架。
选取平均绝对误差(Mean Absolute Error,MAE)、平均相对误差(Mean Relative Error,MRE)均方根误差(Root Mean Square Error, RMSE)作为实验主要评价指标。
实验将乘积季节模型、LSTM模型、LSTM(AM)模型、门控循环单元(GRU)模型、乘积季节模型与LSTM的组合模型以及乘积季节模型与LSTM(AM)的组合模型的预测值进行了对比。如图5所示,各模型的预测值与实际值的对比。各模型的逐点相对误差如图6所示。
图4 2005年1月至2018年10月铁路货运量
图5 模型预测值与实际值的对比
从图5可以看出,乘积季节模型预测数据与实际数据变化趋势大致相同,即模型对于线性特征数据预测较好,LSTM模型预测数据与实际数据对比可以看出变化趋势相差较大,但总体误差较于前者要小。在引入注意力机制以后,LSTM模型的预测精度再次提高。由图6也能看出组合模型降低了整体的相对误差,预测效果较好。由表1可以看出,GRU与LSTM的性能在很多方面相差不大,但结果表明LSTM更适合铁路货运量特征的预测,几种预测模型相互比较,组合预测模型的评价指标最好,即预测精度最高。
图6 逐点相对误差
表1 评价指标对比
1) 对比乘积季节模型、LSTM模型、GRU模型、引入注意力机制的LSTM模型与基于修正误差的组合模型,发现组合预测模型可提高预测精度。由此可以看出,所提出的组合预测模型适用于数据量较多且具有复杂线性特征数据。
2) 组合预测模型效果最好,但从评价指标可以看出,引入注意力机制的LSTM模型与2个组合预测模型的预测效果差距不大,主要原因是网络已经收敛,损失不会再有明显下降,说明该模型仍有处理更大数据量的能力,下一步研究可以加入更多的数据用于模型的训练,再进一步提高预测能力。
3) 后续也可以再引入其他模型进行组合,同样加大数据规模对模型进行更好的修改,进一步提高模型的预测精度,由于模型考虑到数据的线性与非线性特征,也可为其他领域复杂时间序列的预测提供一些参考。
[1] 张立欣, 丛申, 范振岐. 基于ARIMA乘积季节模型对阿拉尔市风速变化的分析[J]. 数学的实践与认识, 2017, 47(23): 157−163. ZHANG Lixin, CONG Shen, FAN Zhenqi. Analysis of wind speed variation in alar based on multiple seasonal ARIMA model[J]. Journal of Mathematics in Practice and Theory, 2017, 47(23): 157−163.
[2] GAO Junning, LU Xiaochun. Forecast of China railway freight volume by random forest regression model[C]// 2015 International Conference on Logistics, Informatics and Service Sciences (LISS). Barcelona: IEEE, 2015: 1−6.
[3] 崔乃丹, 向万里, 孟学雷, 等. 基于小波灰色GM(1,1)模型的货运量预测研究[J]. 铁道科学与工程学报, 2017, 14(11): 2480−2486. CUI Naidan, XIANG Wanli, MENG Xuelei, et al. Railway freight volume forecasting based on grey GM(1,1) model and wavelet de-noising[J]. Journal of Railway Science and Engineering, 2017, 14(11): 2480− 2486.
[4] 李万, 冯芬玲, 蒋琦玮. 改进粒子群算法优化LSTM神经网络的铁路客运量预测[J]. 铁道科学与工程学报, 2018, 15(12): 3274−3280. LI Wan, FENG Fenling, JIANG Qiwei. Prediction for railway passenger volume based on modified PSO optimized LSTM neural network[J]. Journal of Railway Science and Engineering, 2018, 15(12): 3274−3280.
[5] 贺政纲, 黄娟. 基于FPSO灰色Verhulst模型的铁路货运量预测[J]. 铁道学报, 2018, 40(8): 1−8. HE Zhenggang, HUANG Juan. Prediction of railway freight volumes based on FPSO grey Verhulst model[J]. Journal of the China Railway Society, 2018, 40(8): 1−8.
[6] 梁宁, 耿立艳, 张占福, 等. 基于GRA与SVM-mixed的货运量预测方法[J]. 交通运输系统工程与信息, 2016, 16(6): 94−99. LIANG Ning, GENG Liyan, ZHANG Zhanfu, et al. A prediction method of railway freight volumes using GRA and SVM-mixed[J]. Journal of Transportation Systems Engineering and Information Technology, 2016, 16(6): 94−99.
[7] 杨静, 朱经纬, 刘博, 等. 基于组合模型的城市轨道交通短时客流预测[J]. 交通运输系统工程与信息, 2019, 19(3): 119−125. YANG Jing, ZHU Jingwei, LIU Bo, et al. Short-term passenger flow prediction for urban railway transit based on combined model[J]. Journal of Transportation Systems Engineering and Information Technology, 2019, 19(3): 119−125.
[8] ZHOU Cheng, TAO Juncheng. Adaptive combination forecasting model for China’s logisitc freight volume based on an improved PSO-BP neural network[J]. Economic Modelling, 2015, 31(4): 646−666.
[9] XUE Fei, JI Hongbing, ZHANG Wenbo, et al. Attention- based spatial-temporal hierarchical ConvLSTM network for action recognition in videos[J]. IET Computer Vision, 2019, 13(8): 708−718.
[10] 党宏社, 陶亚凡, 张选德. 基于混合注意力与强化学习的文本摘要生成[J]. 计算机工程与应用, 2020, 56(1): 185−190. DANG Hongshe, TAO Yafan, ZHANG Xuande. Abstractive summarization model based on mixture attention and reinforcement learning[J]. Computer Engineering and Applications, 2020, 56(1): 185−190.
[11] 乔若羽. 基于神经网络的股票预测模型[J]. 运筹与管理, 2019, 28(10): 132−140. QIAO Ruoyu. Stock prediction model based on neural network[J]. Operations Research and Management Science, 2019, 28(10): 132−140.
[12] Dat T T, Alexandros I, Juho K, et al. Temporal attention-augmented bilinear network for financial time-series data analysis[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(5): 1407− 1418.
Railway freight volume forecasting based on a combined model
XU Yuping, DENG Junxiang, JIANG Zehua
(School of Transportation and Logistics, East China Jiaotong University, Nanchang 330013, China)
In order to further improve the prediction accuracy of railway freight volume, this paper proposed a combined prediction model based on multiplicative seasonal ARIMA model and the LSTM (Long Short-Term Memory) model that introduced the attention mechanism. Firstly, a product seasonal model, an LSTM model and an LSTM model with attention mechanism were established. Then, two types of LSTM models were combined with the product seasonal model for prediction using the error correction method. Finally, the prediction results were compared with single model. Based on the analysis of the monthly railway freight volume from 2005 to 2018, the results show that the prediction accuracy of the two combined prediction models is higher than that of the single prediction model. Among them, the combined prediction model based on multiplicative seasonal ARIMA model and the LSTM model with attention mechanism has the highest accuracy, and the experiment has research and practical value.
railway freight volume; multiplicative seasonal ARIMA model; LSTM neural network model; combined forecasting model; attention mechanism
U294.1+3
A
1672 − 7029(2021)01 − 0243 − 07
10.19713/j.cnki.43−1423/u.T20200281
2020−04−07
国家自然科学基金资助项目(51708218);江西省社科规划项目(18YJ16);南昌市社科重点规划项目(JJ210802)
徐玉萍(1973−),女,江西丰城人,教授,从事交通运输规划与管理、运输经济研究;E−mail:1423907384@qq.com
(编辑 蒋学东)