摘" 要: 基站流量预测对于蜂窝网络的规划、资源分配和用户体验优化至关重要。为提高基站流量预测精度,文中设计一种结合多头自注意机制(MHSA)的LSTM⁃TCN基站流量预测算法。其中:MHSA能够从多个角度强化基站流量数据的内在关联,增强了模型对流量数据重要特征的表达能力;LSTM⁃TCN模型中长短期记忆(LSTM)网络捕捉流量数据中的长短时依赖性;时间卷积网络(TCN)进一步捕捉流量数据中的全局特征,使得模型能够提取基站流量数据在不同时间尺度上的变化模式和时间依赖关系,提高基站流量预测模型的拟合能力和预测精度。实验结果表明,该流量预测算法与其他算法相比,在运营商基站流量数据的预测中有效降低了均方根误差和平均绝对误差,提高了决定系数,验证了该流量预测算法的有效性,从而为基站休眠节能提供决策支持。
关键词: 5G流量; 基站; 流量预测; 混合神经网络; 多头自注意; LSTM⁃TCN
中图分类号: TN929.5⁃34" " " " " " " " " " " " " 文献标识码: A" " " " " " " " " " " "文章编号: 1004⁃373X(2024)23⁃0125⁃06
LSTM⁃TCN base station traffic prediction algorithm based on
multi⁃head self⁃attention mechanism
LI Weiye1, JIA Hairong1, SHEN Chenning2, WU Yongqiang2
(1. College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Jinzhong 030600, China;
2. Shanxi Communication Tongda Microwave Technology Co., Ltd., Taiyuan 030000, China)
Abstract: Base station traffic prediction is crucial for the planning, resource allocation and user experience optimization of cellular networks. An LSTM⁃TCN base station traffic prediction algorithm that incorporates a multi⁃head self⁃attention (MHSA) mechanism is designed in order to improve the accuracy of base station traffic prediction. The MHSA can strengthen the intrinsic correlation of base station traffic data in multiple perspectives, which enhances the model′s ability to express important features of traffic data. The long short⁃term memory (LSTM) network in LSTM⁃TCN model captures the long and short⁃term dependencies in the traffic data, while the temporal convolutional network (TCN) captures the global features of the traffic data, which allows the model to extract the change pattern and time dependence of base station traffic data on different time scales, so as to improve the model′s fitting ability and prediction accuracy. Experimental results show that the proposed traffic prediction algorithm reduces both the root mean square error (RMSE) and the mean absolute error (MAE) effectively in the prediction of operator base station traffic data and improves the coefficient of determination ([R2]) in comparison with the other algorithms, which verifies the validity of the traffic prediction algorithm. Therefore, the proposed algorithm can provide decision support for the dormant and energy saving of the base station.
Keywords: 5G traffic; base station; traffic prediction; hybrid neural network; multi⁃head self⁃attention; LSTM⁃TCN
0" 引" 言
随着移动互联网用户数的增多,根据工信部统计[1⁃2]数据显示,截至2023年底,我国累计建成移动通信基站1 162万个,其中5G移动通信基站占比29.1%,接入流量占比47%。为保证蜂窝网络区域业务稳定,网络设计时应满足区域最大负载[3],但蜂窝网络中移动用户的行为规律导致基站的负载率随时间发生变化[4⁃5],产生明显的“潮汐效应”,即白天和傍晚时段基站负载率较高,凌晨时段基站负载率较低。当网络处于低负载时仍保持全部基站活跃,会给蜂窝网络带来不必要的能源消耗,且5G基站平均耗电量[6]为60 kW·h,功耗约为4G基站[7]的4倍,能耗更为显著。根据基站流量负载合理地调整基站的状态,是降低能耗的重要措施。
因此,精准地预测基站流量成为移动网络有效分配网络资源与实现节能减排的关键[8⁃9]。基于深度神经网络的基站流量预测模型能够从数据中自动学习流量特征,具有较好的预测精度和鲁棒性,得到了许多研究者的关注。文献[10]提出一种结合信息压缩感知的LSTM(Long Short⁃Term Memory)网络基站流量预测算法。该算法选取相似基站并对该基站流量数据采样后建立稀疏矩阵,将相似的流量序列与目标流量序列同时输入LSTM训练,但该算法仅依靠LSTM模型,忽略了流量数据长期特征,对于预测精度方面有待进一步提升。文献[11]提出结合自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model, ARIMA)、卷积神经网络(Convolutional Neural Network, CNN)和LSTM的组合模型,模型通过预测特定时间段内的累积网络流量,能够根据流量变化趋势正确预测5G网络资源扩展性和可用性,但累积流量无法实现精细度更高的单时间点预测。文献[12]提出了一种基于卷积LSTM的相关层结合自注意力机制的蜂窝流量预测模型,仅从单一视角注意特征,欠缺捕获序列相关性的依赖性关系。文献[13]提出了一种双通道时间注意力机制的LSTM⁃CNN模型,预测模型在LSTM⁃CNN中加入了通道和时序注意力机制,提高了模型在时序特征捕捉上的准确性,但预测效果依赖于CNN特征的提取效果,使预测性能受限。文献[14]提出了一种基于时间注意力辅助CNN的预测网络结构,采用时间注意力机制捕获蜂窝流量数据的时间相关性,使用CNN捕获空间相关性,但忽略流量间的空间结构关系,难以进一步提升精度。
针对以上方法存在的问题,本文提出一种基于MHSA(Multi⁃Head Self⁃Attention)的LSTM⁃TCN基站流量预测混合模型,它既能对基站流量数据中的长期依赖进行建模,又能根据短期依赖关系提取数据中的局部特征。为了进一步提升预测性能,模型中引入MHSA,使其能够自适应地选择对预测目标更加重要的时间步和特征,提高预测的精度,为基站休眠应用提供可靠的数据支撑。
1" 基于MHSA的LSTM⁃TCN基站流量预测模型
在基站流量预测问题中,基站流量数据除了存在周期性、趋势性、异常值和噪声等特征外,还存在隐含的时序依赖关系,有效捕捉这种自相关依赖关系对预测效果至关重要。这要求搭建的网络模型既能捕捉流量数据内部的长短期特征,同时具有良好的时间序列建模能力。因此,以能够捕捉流量数据长短期特征的LSTM网络为基础,加入具有良好全局特征提取能力的TCN(Temporal Convolutional Network)进行优化,搭建LSTM⁃TCN网络,有效捕捉基站流量各个时间尺度的依赖关系,提取出丰富的短期和中长期特征信息,更好地表征关键历史流量特征。
为了进一步增强网络对基站流量数据特征的表达能力和建模能力,本文加入多头自注意力机制,将多个注意力信息进行融合,使得LSTM⁃TCN网络能够从多个角度提取输入基站流量特征,从而提高模型对基站流量数据预测的准确度。MHSA⁃LSTM⁃TCN流量预测模型结构如图1所示。
2" 基于基站流量预测模型的算法
2.1" MHSA流量关联提取算法
注意力机制能够根据基站流量数据输入,自动分配注意力权重的资源配置,评估不同历史流量输入对预测流量输出的贡献率,为关键流量特征信息增加更多的权重,提升模型对重要特征的敏感度。
基站流量输入数据可表示为[X∈RN×T×1],[N]为流量数据输入的条数,[T]为时序长度,[X]通过不同的可学习参数矩阵[Wq]、[Wk]、[Wv∈R1×dk]映射得到自注意力机制的查询、键、值矩阵[Q]、[K]、[V∈RN×T×dk],其中[dk]为键的维数。自注意力计算公式可表示如下:
[Attention(Q,K,V)=softmaxXWq(XWk)TdkXWv] (1)
式中[Attention(·)]表示注意力机制的计算。MHSA允许模型联合关注来自不同位置的表示不同子空间的信息,通过对同样的[Q]、[K]、[V]求多次注意力,得到多个不同的输出,将多个输出拼接得到最终的输出,MHSA的计算公式可表示为:
[headi=Attention(XWQi,XWKi,XWVi)] (2)
[MultiHead(Q,K,V)=Concat(head1,head2,…,headn)WO] (3)
式中:[WQi]、[WKi]、[WVi][∈R1×dk],分别为查询、键、值的变换矩阵;[headi∈RN×T×dk]为第[i]头注意力的输出,[i∈[1,2,…,n]];[Concat(head1,head2,…,headn)∈RN×T×ndk]表示多头拼接矩阵;[WO∈Rndk×1]为输出的变换矩阵。经过MHSA后得到流量输出[X=MultiHead(Q,K,V)∈RN×T×1],MHSA通过并行多个自注意力计算来捕获流量数据序列在不同子空间中的关联信息,从而更全面地获得特征表示。它可以学习流量数据中任意位置间的依赖关系,根据数据不同位置的重要程度选择性提取信息,允许后续模型更好地学习基站流量数据的长期依赖信息。
2.2" LSTM流量长短期依赖特征提取算法
经过MHSA强化表达的基站流量数据[X=[X′1,X′2,…,X′N]∈RN×T×1],将作为LSTM⁃TCN模型中LSTM层的输入数据。对于输入LSTM层中的每个数据样本[X′i]可表示为[X′i=[x′i,1,x′i,2,…,x′i,T]∈RT×1],[x′i,t]表示第[i]条数据[t]时间步的流量数据。LSTM单元在[t]的遗忘门和输入门的输入为[x′i,t],[t-1]时刻的隐藏状态输出为[ht-1],它们分别与状态单元连接并将上一时刻的单元状态[ct-1]更新为[ct];输出门的输入为更新后的单元状态[ct]、[x′i,t]和[ht-1],通过[tanh]和[sigmoid]函数变化后更新隐藏状态为[ht]。计算公式为:
[ft=σ(Wfx′i,t+Wfht-1+bf)it=σ(Wix′i,t+Wiht-1+bi)ct=tanh(Wcx′i,t+Wcht-1+bc)ct=ct-1∗ft+ct∗itot=σ(Wox′i,t+Woht-1+bo)ht=ot∗tanh(ct)] (4)
式中:[ft]、[it]、[ct]、[ct]、[ot]和[ht]分别为遗忘门、输入门、输入节点、状态单元状态、输出门和隐藏状态;[Wf]、[Wi]、[Wc]、[Wo]和[bf]、[bi]、[bc]、[bo]分别为遗忘门、输入门、输入节点和输出门对应的权值向量和偏置向量;[σ]表示[sigmoid]激活函数;“[∗]”表示向量元素按位相乘,即在第[i]条数据中[x′i,t]与LSTM第[l]个单元的[t-1]时间步隐藏状态[hi,t-1,l]组合后,再次输入到该单元中并将隐藏状态更新为[hi,t,l],[l∈[1,2,…,L]],[L]为LSTM单元个数,遍历所有单元在时间步[t]的隐藏状态[Hi,t=[hi,t,1,hi,t,2,…,hi,t,L]∈RL],所有单元全部时间步的隐藏状态为[Hi=[Hi,1,Hi,2,…,Hi,L]∈RT×L]。LSTM层设置为返回序列时,最终输出为隐藏状态[H=[H1,H2,…,HN]∈RN×T×L]。[H]包含了每个时间步的隐藏状态,从而可以保留更多的流量历史信息,有助于学习基站流量数据中长期的时序特征,实现更复杂的网络结构,增强模型的功能和效果。
2.3" TCN流量全局特征提取算法
TCN在一维卷积网络模型基础上进行了因果卷积和膨胀卷积的改进,并通过残差块构建基本网络单元。膨胀因果卷积及残差块如图2所示。膨胀卷积使得有效窗口的大小随着层数呈指数型增长,有效地扩大了TCN的感受野,能够用较少的参数提取基站流量数据全局信息;因果卷积计算流量数据时间步[t]的输出时,只有在时间步[t]及之前的状态参与卷积。保证流量数据时间顺序,从而真实反映流量数据的时序关系,避免基于未来信息进行预测,防止出现基站流量预测中潜在的信息泄露问题,以保证预测的准确性和可靠性。
在LSTM⁃TCN模型中,LSTM和TCN串联,LSTM的输出[H∈RN×T×L],即为TCN层的输入。[H]中的元素[Hi]可表示为[Hi=[Hi,1,Hi,2,…,Hi,L]∈RT×L],TCN卷积核的非线性映射为[F=f1,f2,…,fK],膨胀因果卷积计算公式如下所示:
[Hi,t=k=1KfkHi,t-(K-k)d] (5)
式中:[Hi,t∈RK]是第[i]条数据输出[Hi=[Hi,1,Hi,2,…,Hi,T]∈RT×K]的第[t]个元素;[fk]代表卷积核的第[k]个元素;[Hi,t-(K-k)d]为第[i]条输入的第[t-(K-k)d]个时间步的元素,[K]为卷积核数量,膨胀因果卷积的输出为[H=[H1,H2,…,HN]∈RN×T×K]。特征维度变化仅发生在第一层卷积中,后续卷积输入输出维度均为[N×T×K],并通过对[Hi,0]前的[(K-1)d]个数据使用零填充保持输入输出维度一致。膨胀因果卷积的感受野大小为[(K-1)d+1]。
输入流量数据序列过长时,膨胀卷积需要堆叠更多的层来获取全局特征,层数过多需要通过残差连接避免梯度消失。由扩张因果卷积层、ReLU激活函数、Dropout层组成残差块,并通过残差连接加快梯度传播,提升非线性和特征学习能力,帮助深层建模基站流量特征。对于输入[Hi],残差块连接可表示为:
[Yi=δ(Conv1D(Hi)+res(Hi,Wi))] (6)
式中:[Yi∈RK×T]是TCN残差块输出[Y=[Y1,Y2,…,YN]∈RN×K×T]的第[i]条数据;[δ]代表ReLU激活函数;[res(Hi,Wi)]为残差输出,[Wi]代表权重矩阵;[Conv1D(Hi)]为直接映射输出,通过1×1卷积实现和残差输出之间的特征维度匹配。
3" 结果及分析
本文提出的流量预测模型及算法基于Python 3.9实现,样本批量设置为16,训练100个周期;采用学习率为0.001的Adam优化器。对基站流量数据集进行预处理后,并对文中所提的方法进行对比分析。
3.1" 数据来源与预处理
实验使用运营商多个基站的脱密流量数据作为数据集,每个基站采集31×24共744条流量数据。原始流量数据存在噪声和缺失,为了保证实验数据的完整性并提高预测模型的准确性和稳定性,对数据标准化后按[3σ]准则剔除异常值,并使用K近邻算法对缺失值进行填充保证数据集的完整性,最后对数据集进行Min⁃max归一化。其中28天的数据作为训练数据,最后3天的数据作为测试数据。采用预测模型中常使用的评价指标:均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)和决定系数[R2]对模型性能进行评估,计算公式如下:
[RMSE=1ni=1nyi-yi2] (7)
[MAE=1ni=1nyi-yi] (8)
[R2=1-i=1n(yi-yi)2i=1n(yi-yi)2] (9)
3.2" 模型验证
本文采用MHSA⁃LSTM⁃TCN预测模型对基站流量数据进行逐时预测,基站流量预测结果如图3所示。该模型能够较好地拟合流量数据的变化趋势,较为准确地对基站流量进行预测。
为了进一步验证本文方法的优点和性能,将本文所提预测模型的结果与现有几种广泛应用的模型LSTM、TCN、LSTM⁃TCN、MHSA⁃LSTM⁃CNN进行了仿真和比较,结果如表1所示。
由表1可知,本文模型相较于TCN模型、LSTM模型、LSTM⁃TCN模型、MHSA⁃LSTM⁃CNN模型,其预测结果得到了最小的RMSE、MAE和最大的[R2]值,即在三种误差评价指标上预测精度都有明显的提高,证明了该模型在流量预测方面的可行性,在整体预测效果和性能方面改善效果显著。
4" 结" 语
本文提出了一种结合MHSA的LSTM⁃TCN基站流量预测算法,算法使用MHSA提取基站流量数据中的时间依赖,LSTM提取流量数据中各个时间步的长短期依赖关系,TCN网络进一步强化全局特征,算法通过这种方式有效捕捉了基站流量数据的长短期时间依赖,从而提升预测准确率。实验结果表明,本文提出的模型对基站流量数据的预测误差相比其他模型有了明显减小,有效地提高了基站流量预测模型的预测精度,能够为蜂窝网络中基站的决策部署与流量监控提供理论和应用参考。
注:本文通讯作者为贾海蓉。
参考文献
[1] 工信部运行监测协调局.2023年通信业统计公报[N].通信产业报,2024⁃01⁃29(008).
[2] 工业和信息化部运行监测协调局.2023年通信业稳中有进[N].中国信息化周报,2024⁃01⁃29(007).
[3] 杨馥瑜,赵东.基于深度强化学习的基站休眠控制算法[J].中国科技论文在线精品论文,2023,16(2):170⁃178.
[4] ZHU Y, WANG S. Traffic prediction enabled dynamic access points switching for energy saving in dense networks [J]. Digital communications and networks, 2023, 9(4): 1023⁃1031.
[5] MA H, YANG K, PUN M O. Cellular traffic prediction via deep state space models with attention mechanism [J]. Computer communications, 2023, 197: 276⁃283.
[6] 刘洁.5G通信工程中的网络节能技术分析[J].电子技术,2023,52(3):294⁃295.
[7] 王鑫.中国铁塔5G宏基站解决方案[J].信息通信,2020(10):235⁃237.
[8] JIANG W W. Cellular traffic prediction with machine learning: A survey [J]. Expert systems with applications, 2022, 201: 117163.
[9] ZHU G, LYU Z, JIAO X, et al. Pushing AI to wireless network edge: An overview on integrated sensing, communication, and computation towards 6G [J]. Science China (Information sciences), 2023, 66(3): 130301.
[10] 赵巍.基于改进长短时记忆神经网络的5G通信网络流量预测[J].沈阳工业大学学报,2022,44(6):672⁃676.
[11] DANGI R, LALWANI P, MISHRA M K. 5G network traffic control: A temporal analysis and forecasting of cumulative network activity using machine learning and deep learning technologies [J]. International journal of ad hoc and ubiquitous computing, 2023, 42(1): 59⁃71.
[12] MA X, ZHENG B, JIANG G, et al. Cellular network traffic prediction based on correlation ConvLSTM and self⁃attention network [J]. IEEE communications letters, 2023, 27(5): 1909⁃1912.
[13] JIA H R, WANG S Y, REN Z. CNN⁃LSTM base station traffic prediction based on dual attention mechanism and timing application [J]. The computer journal, 2024, 67(6): 2246⁃2256.
[14] SHEN W X, ZHANG H X, GUO S S, et al. Time⁃wise attention aided convolutional neural network for data⁃driven cellular traffic prediction [J]. IEEE wireless communications letters, 2021, 10(8): 1747⁃1751.
作者简介:李维烨(1999—),男,黑龙江牡丹江人,硕士研究生,研究方向为通信信号处理及应用。
贾海蓉(1977—),女,山西洪洞人,博士研究生,教授,研究方向为通信信号处理及应用、人工智能。