摘 要:物流需求预测是物流管理中的关键环节,但是在现实生活中,物流需求可能受到诸如天气、经济状况、特殊事件等多方面因素的影响,这使得问题呈现出多维度、长序列的特征。随着深度学习和神经网络的发展,越来越多的研究开始尝试使用神经网络模型进行物流需求预测,但是单一的神经网络模型在处理多维度、长时间序列的预测任务时常常表现欠佳。由此文章提出了一种基于CNN-LSTM-AM的神经网络模型,用于多维长序列物流需求预测。通过消融实验与其他模型的对比,结果表明,其平均绝对误差(MAE)、均方根误差(RMSE)、决定系数(R2)均值分别为1.56、1.63和0.981,均优于其他6种神经网络模型,为物流企业提供了一个有效的参考来更好地规划资源和降低成本。
关键词:多维物流需求预测;长时间序列;LSTM(长短时记忆)网络;CNN(卷积神经网络);注意力机制
中图分类号:F259 文献标志码:A DOI:10.13714/j.cnki.1002-3100.2024.18.010
Abstract: Logistics demand forecasting is a critical component of logistics management, but in real life, logistics demand can be influenced by a variety of factors such as weather, economic conditions, and special events, presenting characteristics of multi-dimensionality and long sequences. With the development of deep learning and neural networks, more and more studies have begun to use neural network models for logistics demand forecasting. However, single neural network model often underperforms in handling multi-dimensional, long-time series forecasting tasks. Therefore, this study proposes a CNN-LSTM-AM based neural network model for multi-dimensional long sequence logistics demand forecasting. Compared with other models through ablation experiments, the results show that its Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Coefficient of Determination (R2) values are 1.56, 1.63 and 0.981, respectively, all superior to six other neural network models. This provides an effective reference for logistics enterprises to better plan resources and reduce costs.
Key words: multi-dimensional logistics demand forecasting; long time series; LSTM (Long Short-Term Memory) network; CNN (Convolutional Neural Network); Attention mechanism
0 引 言
在过去的几十年中,关于时间序列分析和预测方法的研究大致可以分为数理统计模型和神经网络模型。数理统计模型以统计学为基础,形式简单易于建立和解释各变量之间关系,有利反映需求变化的趋势性、周期性等规律。代表方法有:回归分析模型[1]、指数平滑模型[2]、ARIMA 模型、灰色预测(grey model,GM)、状态空间模型(SSMs)等。程元栋等[3] 以我国 1990—2021 年月度货运周转量为物流需求数据来源,采用ARIMA模型7m5yZa/QwTwGKSImxEMJcW0CMSIhmnXISQMMGirMN98=建立具有线性关系的时间序列。王宝英等[4]利用传统灰色预测模型和灰色残差马尔科夫模型设计拟合分组试验,结果表明,灰色残差马尔科夫模型的预测结果相比于传统灰色预测模型更加精准。Svetunkov等[5]提出了一种新的状态空间模型,有效解决了间歇性需求的库存决策问题,为库存管理和需求预测提供了新的视角和工具。但是,这类模型在捕获协变量和目标序列之间的关系方面存在不足,限制了对复杂时间序列的预测能力。其次,线性关系的假设过于简化,难以模拟复杂关系,不能有效处理多变量互相制约的情况。
神经网络模型具有强大的拟合能力,具有端到端的学习特征,代表方法有:逻辑回归模型[6]、聚类算法[7]、支持向量机(SVM)、K近邻、BP神经网络、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等。Yu等[8]采用了一种结合蚁群算法和支持向量机的方法进行预测,并用优化后的支持向量机模型预测青岛的物流需求。肖赟等[9]提出了一种基于改进的K近邻算法的预测方法,成功地重建了与当前需求状态相似的历史时间序列。Huang等[10]
的研究使用了BP神经网络方法,针对广东地区进行了物流需求预测。Li等[11]采用LSTM长短时记忆网络,考虑了电子商务的增长等对全球物流行业的影响。Peköz[12]的研究就使用了CNN-LSTM神经网络来预测区域物流需求,结果表明,CNN-LSTM神经网络在预测准确性上超过了其他神经网络模型。在时间序列预测中,长短时记忆网络(LSTM)卷积神经网络(CNN)的模型注意力(Attention)的模型已经得到了广泛使用[13]。然而,尽管这些模型相较于数理统计模型在预测精度上有所提升,但单一使用神经网络模型容易在预测阶段产生曝露偏差,导致模型在预测过程中累积错误。另外,长时间序列中复杂的时间模式使得单一模型难以挖掘出可靠的时间依赖关系。在多维长序列任务中,需要处理的时间序列数据通常具有较长的时间跨度和复杂的模式,这对模型的处理能力提出了更高的要求。
1 问题描述
准确的需求预测可以帮助企业更好地规划资源,提高运营效率。但是,在现实生活中物流需求受到多种因素的影响,如季节性、天气、经济状况、节假日、特殊事件等影响,这使得需求预测变得非常复杂。传统的预测方法,如移动平均法、指数平滑法或数理统计模型等,多是以年份为尺度的宏观层面,输入数据特征多为单一向量的输入,多维需求预测要求输入数据特征为矩阵。输入格式的不匹配导致传统预测模型方法尚不能有效处理在微观层面呈现多特征多维度的需求预测问题。
此外,针对多维的数据特征,相关研究多采用机器学习模型,特别是深度学习模型,如卷积神经网络(CNN)、双向长短时记忆(LSTM)和注意力机制(AM)等,这类模型可以处理大量的数据,识别复杂的非线性模式,从而提高预测的准确性。但是单一的神经网络模型在处理多维长序列问题时,往往不能捕捉到多维长序列数据复杂的模式和关系,且不能很好地处理这些复杂性,可能表现欠佳,造成对模型的欠拟合问题,导致预测结果的准确性不高。
基于上述背景,本研究提出一种使用多种神经网络模型的模型,即CNN-LSTM-AM,来探讨如何利用CNN-LSTM-AM神经网络进行多维物流需求预测。本研究希望通过这种方法,更准确地预测物流需求,从而帮助企业更好地管理资源,提高运营效率,降低成本。
2 CNN-LSTM-AM模型构建
2.1 基本架构
本文提出了一种新型的用于物流需求预测的网络模型,称为CNN-LSTM-AM神经网络模型,并改进了CNN-LSTM-AM模型使之更适合处理物流需求预测问题。在本研究所处理的任务中“SO”的含义为物流订单量,是预测的目标标签。此外采集了对物流订单影响较大的九大因素作为输入特征,其中输入数据九大特征含义分别为“SO_c”代表物流订单量修正值,“INV”代表库存水平,“INV_c”代表库存水平修正值,“ITO”代表库存周转率,“Return rate”代表退货率,“NC2OCOratio”代表新客户与老客户订单比,“IOC”代表友商订单水平,“IOC_c”代表友商订单水平修正值,“Special events”代表促销节假日等特殊事件。
根据CNN、LSTM和AM的特点以及输入数据的特点,建立了基于CNN-LSTM-AM的预测模型。模型结构图如图1所示。该模型的主要结构包括CNN、LSTM和AM,涵盖了输入层、CNN层(一维卷积层、池化层)、LSTM层、AM层、全连接层以及输出层。
2.2 模型构建 (11)
3 实验部分
本实验采集了武汉市某具有越库模式的物流企业2020年1月—2023年4月的物流订单作为预测的原始样本集,由于原始数据中离散性的数据较多,以及数据特征分布稀疏,本文选择每间隔6h对数据集进行统计,将6h以来产生的物流需求进行加总为一条数据,统计后12h的短时物流数据为4 800条。每条数据包含十个特征,部分样本数据显示在表1中。本实验将前3 000个数据作为训练集,后1 800个数据作为测试集。图2为输入数据样式。本研究所有方法都是在基于TensorFlow的开源学习库Keras中使用Python实现的。本研究所有实验都在Intel®i5-10400F 4.00GHz CPU,6G NVIDIA RTX 3070Ti GPU 32GB RAM的PC服务器上进行的。
3.1 模型训练过程
用于该实验的CNN-LSTM-AM模型的部分超参数设置见表2。在本实验中,Epoch为100,损失函数为MAE,优化器选择Adam,批量大小为64,时间步长为10,学习率为0.001。图3 为CNN-LSTM-AM模型训练过程中的收敛情况。
判断是否满足预测处理的结束条件:成功结束的条件是完成预定数量的循环,权重低于某个阈值,预测的错误率低于某个阈值。如果满足至少一个结束条件,则完成培训。否则,培训将继续。
误差反向传播:计算的误差在相反方向上传播,更新每层的权重和偏置,然后过程返回到CNN层计算以继续网络训练。
3.2 预测流程
4 结 果
4.1 预测结果展示
完成预测的CNN-LSTM-AM模型的预测值与真实值的拟合情况见图6。为了使趋势对比更加直观明显,同时为了缩略表格节约空间,此处的对比图没有对数据进行反归一化,Y轴选择的是归一化之后的数据,数据特征与趋势与原样本完全相同。从图片的表现可以直观地看出CNN-LSTM-AM模型的拟合情况优秀。
4.2 模型性能对比
为了更加客观地评估CNN-LSTM-AM的预测效果,本研究在相同的操作环境下使用相同的训练集和测试集数据将此方法与MLP、CNN、RNN、LSTM、CNN-LSTM和LSTM-AM这6种神经网络模型进行比较。针对模型性能的评估,本研究使用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)作为评估模型的指标。表示模型输出的预测值,表示测试集中的实际标签,是测试集中的样本数。MAE计算公式如下。其中是预测值,是真实值。MAE越小,则预测越准确。
根据每种方法的预测值和真实值的对比,可以计算出每种方法的评价误差指标,7种模型的比较结果见表3。从表3中可知,CNN的MAE和RMSE最大,R2最小。另一方面,CNN-LSTM-AM的MAE和RMSE最小,R2最大,最接近1。7种方法的预测性能从高到低依次为CNN-LSTM-AM、CNN-LSTM、LSTM-AM、LSTM、RNN、MLP、CNN。单一的神经网络模型中LSTM的表现最好,其MAE为4.58,RMSE为4.25,R2为0.750。CNN-LSTM与LSTM相比,比LSTM模型的MAE和RMSE更小,R2更大;其MAE减少了76%;其RMSE下降了64%;其R2上升了85%,这表明LSTM加入CNN层之后CNN-LSTM相比LSTM在预测精度上有一定的提高。由此可见,在处理具有较长的时间跨度和复杂模式的多维长序列预测任务中,复合的神经网络模型的性能普遍优于单一的神经网络模型。
复合模型在此任务中相较于单一模型更有优势,为了更加直观地将CNN-LSTM-AM与CNN-LSTM、LSTM-AM对比,本研究采用层次消融的消融实验方法,有选择地移除神经网络中的卷积层(CNN)和注意力机制层(AM),探究它们对模型性能和功能的影响,如图13所示在LSTM中加入CNN和AM对提升模型性能至关重要。从表3中可知,CNN-LSTM-AM与CNN-LSTM相比,即CNN-LSTM引入AM(注意力机制层)时,其预测精度有明显提高。MAE降低44%,RMSE降低59%,R2提升90%。
综上所述,在7种方法中,CNN-LSTM-AM的性能最好。其MAE为1.56,RMSE为1.63,R2为0.981,本文提出的CNN-LSTM-AM方法能够最好地预测未来冷链物流企业的物流需求,为企业管理者物流运营商做出正确的投资决策提供参考。
4.3 CNN-LSTM-AM模型预测
将训练好的CNN-LSTM-AM神经网络模型进行保存,并输入该物流企业的历史物流需求数据,利用CNN-LSTM-AM神经网络模型对该物流企业下个月的物流需求进行预测,其五月物流需求走势如图14 所示。
图14 五月物流需求走势图
5 结 论
根据多维物流需求数据的特性,本文提出了一个CNN-LSTM-AM神经网络模型来预测冷链物流企业未来的订单量。该方法使用十个特征作为输入,它充分利用了物流需求数据的时间序列特性。在该模型中CNN用于提取输入数据的特征,LSTM用于学习和预测提取的特征数据,最后AM用来捕获时间序列数据在不同时间的特征状态对预测结果的影响,CNN-LSTM-AM的架构提高预测准确性和性能。
与已有研究相比,本文研究对象不同。目前大部分文献针对物流需求的研究主要集中于宏观区域内的物流需求,缺乏对于微观物流企业物流需求特别是订单量的预测,本文的研究对象是以6h为单位进行统计的企业物流需求,长度为4 800的序列。数据特征不同,目前研究以年为单位的序列数据量不足预测精度不高,此外,本文研究数据呈现一定非平稳性、随机性等特征,单一的神经网络模型难以捕捉到数据潜在特征。 模型架构不同,区别于以往的模型和算法,通过分析数据的时间序列和相关性,在CNN-LSTM模型中引入分层结构和注意力机制(AM),有效地解决了在预测阶段产生的曝露偏差问题,使得模型能够高效地处理长时间序列;解决模型预测结果误差大的问题,提升了模型的预测精确度,使模型更适合多维度多特征的复杂模式。
实验结果表明,与MLP、CNN、RNN、LSTM、CNN-LSTM和LSTM-AM相比,CNN-LSTM-AM具有最高的预测准确性和最佳的性能。CNN-LSTM-AM的MAE和RMSE是所有方法中最小的,R2最接近1。 CNN-LSTM-AM适用于物流需求预测,并可以为企业管理者提供相关参考,以更好帮助企业实现降本增效。CNN-LSTM-AM的提出也为学者们对物流需求更深入的研究提供了借鉴。未来的研究工作将主要调整模型中的参数,使结果更加准确,此外还将研究该模型是否可以应用于时间序列预测的更多应用领域,如黄金价格预测、股票价格的预测、油价预测、天气预测、地震预测等。
参考文献:
[1] 李隽波,孙丽娜.基于多元线性回归分析的冷链物流需求预测[J].安徽农业科学,2011,39(11):6519-6520,6523.
[2] 于博,孙安国,陈丽萍,等.基于指数平滑法的云南省物流需求预测[J].物流工程与管理,2018,40(12):39-40,38.
[3] 程元栋,喻可欣,李先洋.基于加权马尔科夫-ARIMA修正模型的区域物流需求预测[J].山东交通学院学报,2023,31(3):22-28.
[4] 王宝英,张嘉琪.基于灰色残差马尔科夫模型的山西省农产品冷链物流需求预测[J].数学的实践与认识,2023,53(4):92-99.
[5] SVETUNKOV I,BOYLAN J E.iETS:State space model for intermittent demand forecasting[J/OL].International Journal ofProduction Economics,2023,265:109013.[2023-10-13].https://doi.org/10.1016/j.ijpe.2023.109013.
[6] KHASANZODA N,ZICMANE I,BERYOZKINA S,et al.Regression model for predicting the speed of wind flows forenergy needs based on fuzzy logic[J].Renewable Energy,2022,191:723-731.
[7] LYU Dongmei.Multi-region logistics distribution demand forecasting method based on big data analysis[C]//MOHAMMED A,NEIL Yen,ZHENG Xu.Big Data Analystics for Cyber-Physical Systems in Smart City.BDCPS 2019,28-29 December,2019,Shengyang,China,2019:1313-1321.
[8] YU Nan,XU Wei,YU Kaili.Research on regional logistics demand forecast based on improved support vector machine:A casestudy of Qingdao City under the New Free Trade Zone Strategy[J].IEEE Access,2020,8:9551-9564.
[9] 肖赟,刘洋,裴爱晖,等.城市配送需求预测方法研究[J].公路交通科技,2023,40(3):254-262.
[10] HUANG Lijuan,XIE Guojie,ZHAO Wende,et al.Regional logistics demand forecasting:A BP neural network approach[J].Complex & Intelligent Systems,2023,9(3):2297-2312.
[11] LI Ya,WEI Zhanguo.Regional logistics demand prediction:A long short-term memory network method[J/OL].Sustainability,2022,14(20):13478.[2023-10-15].https://doi.org/10.3390/su142013478.
[12] PEKÖZ A.Deep learning approaches for demand forecasting in A third-party logistics platform[D].Bursa:BursaUludag University(Turkey),2021.
[13] TONG Junlong,XIE Liping,YANG Wankou,et al.Enhancing time series forecasting:A hierarchical transformer withprobabilistic decomposition representation[J/OL].Information Sciences,2023,647:119410.[2023-10-17].https://doi.org/10.1016/j.ins.2023.119410.
[14] SHI Mingjiang,YANG Bohan,CHEN Rui,et al.Logging curve prediction method based on CNN-LSTM-attention[J]. EarthScience Informatics,2022,10(15):2119-2131.
[15] REN Chuangxiang,CHAI Chunxu,YIN Changchang,et al.Short-term traffic flow prediction:A method of combined deeplearnings[J].Journal of Advanced Transportation,2021(722):1-15.
[16] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceeding of theIEEE,1998,86(11):2278-2324.
[17] HOCHREITER S,SCHMIDHUBER J.Long Short-Term Memory[J].Neural Computation,1997,9(8):1735-1780.
[18] TREISMAN A M,GELADE G.A feature-integration theory of attention[J].Cognitive Psychology,1980,12(1):97-146.
[19] 冉茂亮,陈彦如,杨新彪.基于EEMD-LMD-LSTM-LEC深度学习模型的短时物流需求预测[J].控制与决策,2022,37(10):2513-2523.
[20] 岳伟,袁媛.基于Shapley组合模型的冷链物流需求预测研究[J].赤峰学院学报(自然科学版),2023,39(8):27-33.