基于EWT和NeuralProphet-MLP的蜂窝网络流量长期预测方法

2024-06-03 21:26:43蒋东浩赵洪华王真
现代信息科技 2024年6期
关键词:网络流量蜂窝分量

蒋东浩 赵洪华 王真

收稿日期:2023-08-28

DOI:10.19850/j.cnki.2096-4706.2024.06.012

摘  要:蜂窝网络流量长期预测对网络扩展和优化具有重要意义,针对长期预测中数据可用性低以及非线性等弊端所带来的诸多挑战,提出一种基于分解的分频预测模型。分别采用NeuralProphet模型和多层感知机对分解出的低频分量和中高频分量进行预测,最后对各分量预测结果进行逆经验小波变换得到最终结果。在真实的蜂窝网络流量数据集上进行验证,结果表明所提方法相较于传统预测模型在准确度上有较大提升,具有较好的应用价值。

关键词:蜂窝网络流量预测;经验小波变换;NeuralProphet模型;多层感知机

中图分类号:TN929.53;TP18 文献标识码:A 文章编号:2096-4706(2024)06-0052-06

Long-term Prediction Method for Cellular Network Traffic Based on EWT and NeuralProphet-MLP

JIANG Donghao, ZHAO Honghua, WANG Zhen

(College of Command and Control Engineering, Army Engineering University of PLA, Nanjing  210007, China)

Abstract: Long term prediction of cellular network traffic is of great significance for network expansion and optimization. To address the many challenges brought by low data availability and nonlinearity in long-term prediction, a decomposition-based frequency division prediction model is proposed. The NeuroalProphet model and multilayer perceptron are used to predict the decomposed low-frequency components and mid-to-high frequency components, and the final results are obtained by applying inverse empirical wavelet transform to the predicted results of each component. Verification is carried on a real cellular network traffic dataset, the results show that the proposed method has a significant improvement in accuracy compared to traditional prediction models and has good application value.

Keywords: cellular network traffic prediction; empirical wavelet transform; NeuralProphet model; multilayer perceptron

0  引  言

提供稳定可靠的高质量通信服务是运营商的重要服务目标。为了实现这一目标,运营商需提前对各区域未来流量需求进行预测,及时对网络进行管理,避免出现容量瓶颈,保障用户获得无处不在的高速网络服务。现有研究中,针对蜂窝网络的流量预测通常被定义为时间序列预测问题,根据预測周期的不同可具体分为短期预测(秒、分钟、小时)和长期预测(天、周、月)。通过不同预测周期的流量预测,运营商可以执行不同等级的网络管理措施。对于短期预测而言,其预测结果可以反映网络的临时波动,进而指导运营商对基站进行一些临时性调整(如基站功率设置、资源调度)。显而易见地,临时性调整只能应对小规模、突发性的网络波动,无法根本性地解决流量未来增长所导致的网络容量不足问题。相比较而言,长期预测能够得出未来较长一段时间的流量增长,进而可以预留更长的时间以进行更加多元的解决方案。

早期的工作中,差分整合移动平均自回归模型(Autoregressive Integrated Moving Averagemodel, ARIMA)[1]、三次指数平滑模型(Holt-Winters model, HW)[2]等统计模型被广泛应用在蜂窝网络流量预测问题中。近年来,对复杂模式具有良好学习能力以及自适应性强的深度学习模型被广泛应用于时序预测问题中。在蜂窝网络流量预测问题上,被广泛使用的神经网络主要有长短期记忆网络(long short-term memory, LSTM)[3]、门控循环单元(gated recurrent unit, GRU)[4]、卷积神经网络(Convolutional Neural Network, CNN)[5]。文献[6]利用基站间空间合作关系,构建基于LSTM和词嵌入的流量预测模型,提高了流量预测的准确率。文献[7]将注意力机制引入到CNN中,用于捕获流量的长期依赖性,在提高精准度的同时缩减了训练时间。

除直接预测外,分解后预测也是蜂窝网络流量预测的重要模式。对网络流量先进行分解则可以将原始数据分解为若干个较为平稳的序列,进而增强序列的可预测性。例如,文献[8]提出了一种基于张量补全(Tensor Completion, TC)的蜂窝网络个体流量预测方法,TC可以对原始流量数据进行缺失值填充的同时,将数据分解为两个分量,然后对两个分量分别进行预测。相似的,文献[9]使用离散小波变换(Discrete Wavelet Transform, DWT)将单用户流量数据进行分解,并对产生的高频分量和低频分量分别进行预测。文献[10]通过傅里叶分析提取流量数据的主导周期成分,利用LSTM对剩余的随机分量进行预测,并使用高斯过程回归对残差分量进行学习以提高预测精度。

但是,上述研究集中在对蜂窝网络流量进行短期预测,在长期预测问题上尚有研究空间。与短期预测不同,长期预测依赖于短且有噪声的时间序列,预测难度相对较大[11],因此需要提出新的预测方法。

在此背景下,本文提出了一种基于EWT和NeuralProphet-MLP的蜂窝网络流量长期预测方法。该方法首先采用经验小波变换(Empirical Wavelet Transform, EWT)对原始流量数据进行分解,生成若干个模式相似的多分辨率分析(Multiresolution Analysis, MRA)分量;对于分解出的低频分量,使用一种多组件预测模型NeuralProphet进行预测,该模型具有良好的可解释性和预测性能,能够对包含趋势性的低频分量实现准确预测;中高频分量使用简单的前馈神经网络多层感知机(Multilayer Perceptron, MLP)进行预测,可以在保证预测性能的前提下减少训练和预测时间,对中高频分量的非线性模式进行良好的表征;最后,将预测所得分量经过逆经验小波变换得到最终预测结果。本文的贡献在于:针对蜂窝网络流量的长期预测问题进行了研究,所提预测方法能够为蜂窝网络的规划和优化问题提供重要参考;设计了一种基于分解的蜂窝网络流量分频预测方法,在解决流量长期预测中数据非平稳性问题的基础上,考虑了不同频率分量的特性并进行分频预测,进一步提升了预测精度。

1  问题描述

蜂窝网络流量预测可形式化为时间序列预测模型,每个固定时间间隔的流量值表示为一个序列值。具体来说,每个区域的待预测流量值可由过去一段时间内的历史流量值预测得出,如式(1)所示:

(1)

其中,k为该模型的预测步长,n为所使用历史流量值的总天数。

本文针对蜂窝网络流量进行长期预测,所设定的预测步长为30天。该问题的挑战在于时间粒度的增大导致可使用历史数据的减少,进而加大了流量的预测难度。对原始数据进行转换后,流量序列的长度相较于原始数据缩减24倍。数据量的减少增加了噪声出现的概率,加大了噪声对序列数据的影响。另一方面,随着预测步长的增加,历史数据的可用性也将进一步下降。这是由于在实际运营中,过长的时间间隔将导致异常事件的发生风险,以及网络升级等发生的可能性。

2  预测模型设计

本小结对设计的预测模型进行描述。经过对转换后流量数据的特性进行分析,发现其具有非线性、非平稳性以及具有一定周期性和节假日特征。针对以上特点,设计了基于分解后分频预测的模型架构。由于低频分量和中高频分量分别对应序列的趋势成分和细节信息,因此采用不同模型进行预测。其中,低频分量使用对趋势成分具有良好拟合能力的NeuralProphet模型,中高频分量使用对非线性特征表征能力较强的MLP模型。

2.1  基于EWT的原始数据分解

经验小波变换(EWT)[12]是一种基于时域的信号分解方法,为非平稳信号的处理提供了新的思路。该方法结合了经验模态分解(Empirical Mode Decomposition, EMD)的自适应理念以及经典小波变换(Wavelet Transform, WT)的紧框架理论,并具有优于EMD方法的理论基础。EWT方法的基本原理是依据信号的频谱特征对其傅里叶谱进行划分,然后构建小波滤波器组,进而提取出信号的AM-FM分量。

给定蜂窝网络流量训练集数据{RT | t = 1,2,…,n},其中t为序列所包含天数,R(t)为每日流量值,EWT的具体过程如下:

1)对序列RT进行傅里叶变换,得到支撑区间在[0,π]范围内的傅里叶频谱R(ωt)。

2)将频谱R(ωt)分解为M个频带,划分边界为ωm (m = 1,2,…,M + 1),每个频带为Λm = [ωm-1,ωm] (m = 1,2,…,M)。

3)在分割后的频带Λm上利用Littlewood-Paley和Meyer小波的构造方法定义带通滤波器组,确定经验尺度函数  和经验小波函数 。

4)对信号RT进行重构,其表达式如式(2)所示:

(2)

式中, 为经验小波逼近系数, 为经验小波细节系数,*为卷积运算。

经过以上步骤,原流量序列RT被分解得到若干AF-FM分量Rk(t),频率由低到高分别为:

(3)

(4)

2.2  基于NeuralProphet模型的低频分量预测

对于分解产生的低频分量,通常对应原始序列的趋势性信息以及季节性信息,因此使用对趋势性信息以及季节性信息具有良好建模能力的NeuralProphet模型进行预测。NeuralProphet [13]是一个可扩展、可解释的时间序列预测模型,在Prophet [14]模型的基础上引入了AR-Net用于建模时间序列的自相关特性。NeuralProphet模型支持不同模块的组合,用于对不同预测场景的适应性配置。所有模块在生成相同步输出的前提下,各模块有单独的输入以及建模过程。NeuralProphet模型将时间序列分解为趋势项、季节性项、节假日项、自回归项、未来回归项以及滞后回归项。本文所使用的模型由式(5)定义为:

(5)

其中,T(t)和S(t)分别为输入数据的趋势项和季节项,H(t)为节假日或异常事件的效应函数,A(t)为时间t的自回归效应。

趋势项T(t)反映序列的总体变化,通过识别突变点将序列划分为多个分段,进而拟合出序列的变化趋势。季节项S(t)使用傅里叶项对序列的季节性进行建模,节假日项H(t)用于拟合节假日以及异常事件对流量的影响。A(t)为自回归项,是将变量的未来值与过去值进行回归的过程。对于低频分量RLow(T),使用上述模型進行预测的结果可表示为:

(6)

2.3  基于MLP模型的中高频分量预测

在分解产生的高频分量中,包含了流量序列的边缘以及突变,反映其局部特征。高频分量非线性特征强,且模式较为复杂,因此采用MLP对其进行预测。同时,针对网络流量的长期预测所采用的数据量相对较少,复杂神经网络容易产生过拟合问题且对流量特征的捕捉能力较差。因此,采用MLP这一简单人工神经网络更加适合本文工作场景,且预测效率相对较高。多层感知器(MLP)是一种前馈人工神经网络(Artificial Neural Network, ANN)模型,在时间序列预测问题上广泛使用。MLP的训练采用反向传播算法不断优化网络权重,进而最小化预测误差。它由多个网络层组成,包括输入层、隐含层和输出层。其中,输入层接收样本数据为模型的输入,隐藏层对输入数据进行处理,其输出作为下一层的输入,最终输出层根据所需任务对结果进行输出。对于隐含层的神经元,执行如下运算:

(7)

其中,σ为激活函数,W(i)(i = 1,2)为全连接层权重矩阵,b(i)(i = 1,2)为偏置向量,x为输入层的输入向量,h(i)为隐含层的输出。

本文设计一个双隐含层的MLP模型用于对中高频分量的预测,第一个隐含层神经元数量为64,第二个隐含层神经元数量为128。针对中高频分量的非线性特性,选择激活函数σ为ReLU函数,捕捉分量中的非线性模式以及特征。经过上述MLP模型的预测,中高频分量RMid-High(T)被预测为:

RMid-High(T + K) = σ2(W (2)σ1(W (1)·x + b(1)) + b(2)) (8)

2.4  预测框架

基于EWT和NeuralProphet-MLP的蜂窝网络长期流量预测模型结构如图1所示。首先将原始流量数据划分为训练集和测试集,将训练集数据进行EWT分解,生成k个MRA分量;计算每个分量的过零率,设置阈值对分量进行分类;对于分解出的低频分量,使用NeuralProphet模型进行预测;对于分解出的中高频分量,使用MLP模型进行预测;将预测模块输出的预测值组合成重构模块所需的数据格式,使用逆经验小波变换重构成最终预测流量值。

图1  预测模型架构

3  实验分析

为分析EWT-NeuralProphet-MLP的预测性能,在三个区域的真实蜂窝网络流量值上进行了实验验证。在对比实验之前,分析了EWT对原始流量数据的分解效果。将EWT-NeuralProphet-MLP模型与目前广泛应用的LSTM、SARIMA进行对比,并验证使用MLP和NeuralProphet不同组合模型的有效性。

3.1  数据集

本文采用的数据集来自AIIA杯人工智能巡回赛中国移动“家·网”赛站智能网络决赛中的网络流量预测赛题。该数据集以小时为粒度,记录了自2017年1月1日0时至2018年11月15日23时的流量数据。其中共包含A、B、C三个区域,每个区域的流量数据为一个序列[15]。经过对该数据集的分析,未发现缺失值,且序列中异常值数量不显著。为使得数据匹配对未来30天的流量进行预测需求,需将原始数据转换为以天为粒度的流量序列。经过数据转换,数据集由3个长度为683的流量序列组成。该数据集经过以下方式得出:

1)将序列{RT | t = 1,2,…,n}转换为i个子序列 ,其中i为原序列所包含的天数。

2)选取每个子序列  中流量值最大的一个小时的流量Ri(t)。

3)将Ri(t)按序填充至新的序列 ,时间戳信息保留至日级别。

经过转换,原序列的每小时流量被转换为每天的自忙时流量,更加符合网络扩容工作的场景需要。

3.2  实验设置

将本文所设计的蜂窝网络流量长期分频预测模型在上述数据集上进行实验评估。将2017年1月1日至2018年9月16日的流量用作训练集,2018年09月17日至2018年10月16日共计30天的流量数据作为测试集。首先,对训练集数据作标准化处理后进行EWT分解,分解后的分量通过测算过零率确定低频与中高频的边界,边界值设为0.015。然后,使用NeuralProphet模型对低频分量进行预测,模型所激活模块如前所述。对于中高频分量,使用MLP模型对其进行预测,每次迭代使用30天历史流量值,输出未来7天预测流量值。经过滑动窗口5次迭代预测,选取前30天网络流量作为最终预测结果。

实验评估主要从两个方面展开:一是与广泛采用的时间序列预测模型LSTM和SARIMA模型进行对比,评估本文所提方法的预测性能;二是将本文方法中所使用模型进行不同组合,验证分解后预测以及分频预测的有效性。

为对预测模型的性能进行评估,采用平均绝对百分比误差(MAPE)和均方根误差(RMSE)作为评价指标。这两项指标越小,所表示的预测结果精准度越高。其定义如下:

(9)

(10)

式中,N为预测值个数,i为预测值编号,yi為真实值, 为预测值。

实验基于硬件环境Intel Core i5-13500 CPU@3.50 GHz,12核,16 GB内存;主要软件环境Python 3.6.13,PyTorch 1.10.2,NeuralProphet 0.4.1。

3.3  EWT分解结果分析

将原流量数据进行预处理后,使用EWT对其进行分解。该分解方法基于小波分析进行构造,其分解结果对分解层数敏感。因此,设置合理的分解层数,对于分解效果以及后续的预测效果具有重要影响。分解层数越大,分解后的形成的子频带数量越大,频率分辨率越高,随之时间分辨率降低。经过实验,将时间序列分解为4个模态分量,并使用locmaxmin方法(即使用傅里叶频谱中两个极大值之间的极小值所对应的频率)确定边界频率时获得最佳效果。分解后的模态分量代表了原始序列不同的特征尺度,更加有利于理解原始序列的局部特征以及全局特征。原始流量数据如图2所示,图3是对A区域流量数据进行EWT分解后的结果。

圖2  A区域原始流量数据

图3  A区域原始流量的EWT分解结果

由图3可知,原始流量被分解为4个MRA分量,显示了流量序列的不同尺度上的频率分量。其中,MRA1频率最小,且总体平缓,体现了该区域流量的趋势变化。MRA2和MRA3频率有所增大,并有一定的周期性特征。MRA4频率显著增加,且随机性较强,预测难度相比较大。综上,EWT分解取得了预期效果,较好地分解出了流量数据的趋势性、周期性以及局部突发性。

3.4  对比分析

3.4.1  预测结果对比

SARIMA模型和LSTM模型是时间序列预测研究中经典的预测模型,故本文采用这两种模型作为对比模型。对于SARIMA模型,采用自适应的方式确定参数,输出步长为30。采用的LSTM模型包含3个LSTM层,使用Adam和均方误差作为损失函数,观测窗口长度为30,输出步长为7。采用滚动预测的方式对网络流量迭代预测5次,选取前30个预测值作为预测结果。

三种模型的预测性能对比如图4和图5所示。相较于LSTM和SARIMA模型,本文所提出方法的MAPE值和RMSE值相比均有不同程度的下降。此外,由图6中的拟合曲线可知,LSTM模型和SARIMA模型的预测结果对真实流量的波动性拟合效果较差。因此,本文所提出模型的预测性能优于对比模型。

3.4.2  不同组合模型预测结果对比

为了验证分频预测方法的有效性,将各模型进行不同的组合预测网络流量,并比较MAPE和RMSE评估本文方法的预测性能。对比结果如表1所示,EWT-NeuralProphet-MLP模型在对各区域进行预测时均获得最佳效果。其中,各区域预测结果的MAPE和RMSE值最大的模型均为NeuralProphet。结合图7中预测结果的拟合曲线,NeuralProphet模型对流量的走势模拟效果最佳,但结果误差相对较大。同时,预测结果表明,对流量序列的分解增强了各模型的预测性能,基于分解的预测模型均优于原单一模型。EWT-NeuralProphet-MLP模型和EWT-NeuralProphet的对比表明分频预测的思想有助于蜂窝网络流量的长期预测,在误差水平和拟合能力上均有明显提升。

图4  不同预测方法的MAPE值对比图

图5  不同预测方法的RMSE值对比图

图6  EWT-NeuralProphet-MLP模型与LSTM、SARIMA预测

结果对比

图7  不同组合模型预测结果对比

从不同区域的角度观察,各模型在A区域的预测性能表现相对较差,在C区域的预测性能表现最佳。原始数据的模式存在一定关联,A区域网络流量值相对较大且平稳性较差,C区域网络流量值相对小且平稳性较好,导致各区域的数据可预测性存在一定差别。

4  结  论

本文针对蜂窝网络流量长期预测面临的不确定性和复杂模式等挑战,提出一种网络流量时间序列分频预测方法。该方法利用EWT分解模型将原始网络流量序列分解为若干MRA分量后,分别使用NeuralProphet和MLP模型对低频分量和中高频分量进行预测。在此基础上,加入动态参数调整模块,进一步提升了预测精确度。通过多组对比实验表明,本文所提出的方法具有优于其他模型的预测性能,且各组件均对预测模型的性能有提升效果。

下一步的研究中,将探索使用多源数据融合对蜂窝网络流量进行预测,以提升预测精确度。

参考文献:

[1] SHU Y T,YU M F,LIU J K, et al. Wireless traffic modeling and prediction using seasonal ARIMA models [J].IEEE International Conference on Communications,2003,E88-B(10):3992-3999.

[2] TIKUNOV D,NISHIMURA T. Traffic prediction for mobile network using Holt-Winter's exponential smoothing [C]//2007 15th International Conference on Software,Telecommunications and Computer Networks.Split:IEEE,2007:1-5.

[3] AZARI A,PAPAPETROU P,DENIC S,et al. Cellular Traffic Prediction and Classification: A Comparative Evaluation of LSTM and ARIMA [C]//International Conference on Discovery Science.[S.I.]:Springer, Cham,2019,11828:124-129.

[4] MAHDY B,ABBAS H,HASSANEIN H S,et al. A Clustering-Driven Approach to Predict the Traffic Load of Mobile Networks for the Analysis of Base Stations Deployment [J/OL].Journal of Sensor and Actuator Networks,2020,9(4):53[2023-07-20].https://doi.org/10.3390/jsan9040053.

[5] GAO Y,ZHANG M,CHEN J J,et al. Accurate Load Prediction Algorithms Assisted with Machine Learning for Network Traffic [C]//2021 International Wireless Communications and Mobile Computing (IWCMC).Harbin City:IEEE,2021:1683-1688.

[6] 彭铎,周建国,羿舒文,等.基于空间合作关系的基站流量预测模型 [J].计算机应用,2019,39(1):154-159.

[7] SHEN W X,ZHANG H X,GUO S S,et al. Time-Wise Attention Aided Convolutional Neural Network for Data-Driven Cellular Traffic Prediction [J].IEEE Wireless Communications Letters,2021,10(8):1747-5171.

[8] LIU C,WU T,LI Z,et al. Individual Traffic Prediction in Cellular Networks Based on Tensor Completion [J/OL].International Journal of Communication Systems,2021,34(16):e4952[2023-07-20].https://doi.org/10.1002/dac.4952.

[9] LI Y,MA Z A,PAN Z W,et al. Prophet Model and Gaussian Process Regression Based User Traffic Prediction in Wireless Networks [J].Science China (Information Sciences),2020,63(4):207-214.

[10] WANG W,ZHOU C H,HE H L,et al. Cellular Traffic Load Prediction with LSTM and Gaussian Process Regression [C]//ICC 2020-2020 IEEE International Conference on Communications (ICC).Dublin:IEEE,2020:1-6.

[11] GIJóN C,TORIL M,LUNA-RAMíREZ S,et al. Long-Term Data Traffic Forecasting for Network Dimensioning in LTE with Short Time Series [J/OL].Electronics,2021,10(10):1151[2023-07-26].https://doi.org/10.3390/electronics10101151.

[12] GILLES J. Empirical Wavelet Transform [J].IEEE Transactions on Signal Processing,2013,61(16):3999-4010.

[13] TRIEBE O,HEWAMALAGE H,PILYUGINA P,et al. NeuralProphet: Explainable Forecasting at Scale [J/OL].arXiv:2111.15397 [cs.LG].[2023-07-20].https://doi.org/10.48550/arXiv.2111.15397.

[14] TAYLOR S J,LETHAM B. Forecasting at Scale [J].The American Statistician,2018,72(1):37-45.

[15] GUO D,XIA X W,ZHU L,et al. Dynamic Modification Neural Network Model for Short-term Traffic Prediction [J].Procedia Computer Science,2021,187:134-139.

作者簡介:蒋东浩(1999—),男,汉族,山东济宁人,硕士研究生,研究方向:网络智能规划;通讯作者:赵洪华(1979—),男,汉族,河北吴桥人,副教授,博士,研究方向:网络管理、网络智能规划。

猜你喜欢
网络流量蜂窝分量
基于多元高斯分布的网络流量异常识别方法
帽子的分量
基于神经网络的P2P流量识别方法
蜂窝住宅
现代装饰(2021年1期)2021-03-29 07:08:38
蓄热式炉用蜂窝体有了先进适用的标准
四川冶金(2019年5期)2019-12-23 09:04:50
一物千斤
智族GQ(2019年9期)2019-10-28 08:16:21
论《哈姆雷特》中良心的分量
“蜂窝”住进轮胎里
AVB网络流量整形帧模型端到端延迟计算
分量