基于机器学习的无线网络流量预测与增长潜力评估

2021-11-28 03:58邢旭东高晖顾军
中兴通讯技术 2021年2期
关键词:机器学习

邢旭东 高晖 顾军

摘要:提出一个基于机器学习的无线网络流量预测及流量增长潜力评估方案。该方案分析蜂窝网络中的实际业务流量数据在时间维度上的变化规律,并借助高斯过程的机器学习方法来预测业务变化趋势,从短期角度为运营商的網络优化部署提供指导。基于极限梯度提升(XGBoost)机器学习框架,建立网络中其他运营数据与业务流量的多维映射关系,应用改进的量子粒子群算法进一步寻找蜂窝小区所能承载的流量上限,从长期角度为网络优化部署提供指导,提升网络流量水平、释放流量增长潜力。

关键词:机器学习;移动网络数据分析;流量预测;流量增长潜力评估

Abstract: A wireless network traffic prediction and traffic growth potential evaluation scheme based on machine learning is proposed. Based on the actual traffic data in the cellular network, this scheme analyzes the change rule in the time dimension and uses the machine learning method of Gaussian process to predict the trend of traffic, which provides guidance for the network optimization deployment of operators in the short term. Based on the eXtreme Gradient Boosting (XGBoost) machine learning framework, the multi-dimensional mapping relationship between other operation data and traffic in the network is established, and the revised quantum particle swarm optimization algorithm is applied to further find the upper limit of traffic that the cellular cell can carry, so as to provide guidance for network optimization deployment from a long-term perspective, improve the network traffic level, and release the traffic growth potential.

Keywords: machine learning; mobile network data analysis; traffic prediction; traffic growth potential evaluation

随着无线设备数量的飞速增长,移动用户对更高性能无线服务的需求正在逐年上升。在这样的背景下,5G应运而生。更密集的组网、更快的速率、更低的时延和更可靠的移动性保障是5G的特点[1]。随着5G商业化进程的逐步推进,物联网、云计算、大数据等领域将呈现裂变式发展态势,逐步形成5G产业生态,为行业升级提供强劲动力。

近年来,在无线网络流量预测和流量增长潜力挖掘等领域中,基于人工智能和机器学习等方法的研究引起了学术界和产业界的极大关注[2]。无线网络流量预测方法是指,将网络流量随时间的变化视作一个时间序列,根据过往的流量变化规律来预测未来的变化趋势,并将预测流量与当前流量之间的差异作为流量增长潜力的量化结果[3-4]。典型的时间序列预测方法包括差分整合移动平均自回归模型(ARIMA)[5]、季节性ARIMA[6]等。在对规律不明显、构成成分复杂的时间序列进行预测时,传统方法的预测性能已经明显下降。因此,人们需要寻找新的方法来应对复杂的流量模式。得益于硬件计算能力的极大提升,当前业界也在尝试使用深度学习模型来预测网络流量。例如,文献[7]首先对流量数据做栅格化预处理,然后以栅格为单元,利用堆叠自编码器(SAE)提取栅格流量在不同历史时刻的特征,并利用这些特征训练长短期记忆(LSTM)网络,最终实现对栅格单元的网络流量预测。然而,自定义栅格忽视了单个蜂窝小区的流量浮动,这导致深度学习模型容易出现过拟合现象。鉴于此,本文提出一种基于机器学习的可解释性强、泛化性能好的流量预测方法,从短期角度指导网络优化部署。

长期来看,对网络流量增长潜力的评估能够有效解决网络的优化部署问题。蜂窝网络流量的波动意味着小区的负载也会随之波动。如果小区的历史指标经常处于高负载状态,就说明其覆盖范围内的数据传输需求高于网络本身的负载水平。这意味着该小区具有较大的运营收益潜力。为此,运营商通常会实施网络扩容,在满足用户需求的同时扩大收益。反之,如果网络的业务量没有达到相对较高的收益水平,增长受到抑制,则需要收集多种指标数据,分析具体原因,并制定相应的优化策略,以提升网络流量,释放流量增长潜力[8]。因此,在充分挖掘大量蜂窝网络业务数据的基础上,本文设计一种基于机器学习的获取无线网络高价值状态的通用方法,从长期角度释放网络流量增长潜力。同时,本文以现网中的实际业务数据为基础,从小区流量的短期变化趋势与长期增长潜力两个方面考虑,围绕蜂窝网络流量指标来设计解决方案。在小区流量短期预测方面,本文提出基于高斯过程(GP)的流量预测方案。基于高斯过程对物理资源块(PRB)利用率预测的研究[9],本文进一步综合考虑分组数据汇聚协议(PDCP)服务数据单元(SDU)下行流量、PRB利用率等指标,将各指标的历史时刻流量作为输入,采用高斯过程核函数分别对其短期、长期变化趋势等因素进行拟合建模,并将模型预测的流量变化趋势作为输出。在小区流量长期增长潜力评估方面,本文首先分析其他网络指标对流量指标的影响情况,即建立其他指标与流量指标之间的映射关系;其次,调整其他指标的取值使流量指标最大化,即基于该映射关系挖掘蜂窝网络的高价值状态。

1流量预测及增长潜力评估的问题描述

本节分别对流量预测和流量增长潜力评估两部分内容进行数学描述,首先将其抽象为数学问题,然后分析相应的难点并提出解决思路。

1.1基于高斯过程的业务流量预测

1.2基于XGBoost方法的多元流量增长潜力评估

实现流量增长潜力评估需要应对两个主要挑战:(1)建立网络流量指标与其他业务指标之间的多元映射关系,以量化不同指标对网络流量的影响;(2)基于多元映射关系来挖掘高价值状态信息,即当多元映射关系返回的流量达到最大时,需要明确其他指标的取值状态。

在给定机器学习模型F(·)的前提下,挖掘网络高价值状态相当于解决优化问题maxF(x)。其中,x表示一组包含各个网络指标取值的特征向量。

2流量预测及增长潜力评估方案

2.1基于高斯过程的流量预测

高斯回归过程作为后深度学习时代的统计建模工具,天然地拥有数据驱动和清晰的模型解释性等特点。因此,本文基于高斯回归过程设计一种无线流量预测方法。

3基于网管数据的实验

本节采用的数据集由某运营商在中国的真实数据组成。采样时间跨度为2018年10月15日—2019年1月15日,采样粒度为24 h/d。每个小区共有2 232条记录,每条记录均包含平均激活用户设备(UE)数、PDCP层平均速率、平均信道质量指示(CQI)、下行PDCP SDU数据量等指标。我们从中随机抽取80%的数据作为训练数据,并将剩余20%的数据作为测试数据。结合相关网络运营方面的专家经验,本研究从现有数据集包含的指标中遴选网络下行流量指标和其他6种不同业务行为的指标,即D = 6。这些指标分别是平均激活UE数、物理下行共享信道(PDSCH)利用率、下行PDCP层平均速率、平均CQI、下行64正交振幅调制(QAM)占比、下行PRB满负荷时间和下行PDCP SDU数据量。

3.1基于高斯过程的流量预测仿真

实验中,我们采用MATLAB中的基于高斯过程的机器学习包(GPML)进行建模,利用高斯过程对PRB利用率和下行PDCP SDU流量进行预测。本实验分别利用单小区的300 h历史时刻的PRB利用率和下行PDCP SDU流量数据,来预测下一个小时的数据。预测结果基本符合真实数据的变化趋势。该模型对突变比较明显的数据缺乏一定的适应性,但对变化平稳的数据具有很高的预测精度。从平均绝对百分比误差(MAPE)来看,基于高斯过程建立的模型对PDCP SDU流量数据和PRB利用率的预测性能分别为0.3551和0.2068,而基于ARIMA建立的模型在这两个指标上的表现分别是0.4015和0.3081。由此可见,高斯过程预测模型的表现要优于ARIMA模型。

3.2多元流量增长潜力建模

3.3最优运营状态挖掘

充分拟合数据的机器学习模型能够量化不同网络业务指标对网络下行流量的影响。本文中,我们测试多种群体智能算法在多元回归模型上的搜索性能,使用RQPSO算法从基于XGBoost量化的模型中挖掘最优网络运营状态,并将基本粒子群算法(PSO)和QPSO算法作为对照。3种算法各迭代60次,它们的收敛过程如图2所示。

由图2可知,PSO算法在早期的收敛速度较快,但在10次迭代之后,该算法的搜索基本陷入停滞状态。QPSO算法的收敛速度慢于RQPSO算法,在同样的迭代次数内没有获得相对较优的优化结果。RQPSO算法在前30次的迭代中搜索速度较快,在迭代末期逐步收敛在28 GB左右。因此,RQPSO算法的优化结果在3种算法中是最优的。与QPSO算法相比,带有混合量子搜索行为的RQPSO算法能够充分发掘流量评估模型潜力,得到最高的网络流量潜力值和与之对应的高价值运营状态。在高价值运营状态下的各个网络指标的取值如图3所示。

3.4网络优化指导

以基于机器学习方法得到的蜂窝网络运营高流量价值(流量潜力上限状态)为参考,我们列举一些评估流量增长潜力的实例。图4中的两张子图分别展示不同蜂窝小区在某单位时段内的各网络指标的真实统计值与机器学习方法得到的高价值状态的对比。其中,蓝色雷达图表示由机器学习方法得到的蜂窝网络运营高流量价值状态,红色雷达图表示实际的网络运营数据值。高价值状态的各项指标依次是:流量潜力上限为27.94 GB,平均激活用户数为42,PDSCH资源利用率为96%,下行PDCP层平均速率为72 Mbit/s,平均CQI為14,下行64QAM调制占比为81%,下行PRB满负荷时间为2 391 s。

在图4(a)中,网络实际流量为16.15 GB,比上限流量少了约12 GB。用户数、PDSCH利用率和PRB满负荷时间基本相同。平均CQI为11,比最优状态低3个等级。下行64QAM调制占比仅为28%,与最优状态相比,差距较大。下行速率为38 Mbit/s,差距也较大。总的来说,流量增长潜力受到抑制的原因在于当前蜂窝网络的整体覆盖能力偏弱。因此,我们应当分析造成弱覆盖的具体原因,并进行相应优化,以释放流量增长潜力。

在图4(b)中,网络实际流量约15.02 GB(比最优状态的流量少了约13 GB),平均CQI为14,下行64QAM调制占比为85%,这说明覆盖质量良好。用户数、PDSCH利用率和下行PRB满负荷时间等其他指标,与最优状态相比,差距较大。总的来说,流量差距较大的主要原因在于该小区覆盖范围内的激活用户数量较少。如果网络长时间处于这种状态,就需要运营商加大业务推送力度,增加新用户来提升流量,从而释放流量增长潜力。

4结束语

本文提出一个基于机器学习的无线网络流量预测和流量潜力评估方案。与传统方法相比,高斯过程回归的无线流量预测方法能够显著提高预测精度,从短期角度指导网络优化部署。同时,流量增长潜力评估方案可以量化其他指标与流量的关系,构建多维映射模型。本文提出的RQPSO算法能够对多维映射模型进行最大化求解,从长期角度指導网络优化部署,更好地为运营商提供网络优化量化指导,从而提高运营商的经济效益。

致谢

本研究得到中兴通讯产学研合作基金的资助。感谢项目负责人北京邮电大学许文俊教授。北京邮电大学项目组团队中的童伟强、林元杰、蒲俊林、郑远、黄春雷、胡卓尔等对本文的研究工作做出大量贡献,在此谨致谢意。

参考文献

[1] IMT-2020 (5G)推进组. 5G愿景与需求白皮书[EB/OL]. (2014-05-28) [2021-01-20]. http:// www.imt2020.org.cn/zh/documents/1

[2]吕惠.中国电信发布人工智能发展白皮书[J].计算机与网络, 2019, (13): 15

[3] LI R, ZHAO Z, ZHOU X, et al. The prediction analysis of cellular radio access network traffic: from entropy theory to networking practice [J]. IEEE communications magazine, 2014, 52(6): 234-240. DOI: 10.1109/MCOM.2014.6829969

[4] YANG S, KUIPERS F A. Traffic uncertainty models in network planning [J]. IEEE communications magazine, 2014, 52(2): 172-177. DOI: 10.1109/MCOM.2014.6736759

[5] ZHANG M, FU H, LI Y, et al. Understanding urban dynamics from massive mobile traffic data[J]. IEEE transactions on big data, 2017, 5(2): 266-278. DOI: 10.1109/TBDATA.2017.2778721

[6] SHU Y, YU M, YANG O, et al. Wireless traffic modeling and prediction using seasonal ARIMA models [J]. IEICE transactions on communications, 2005, 88(10): 3992-3999

[7] WANG J, TANG J, XU Z, et al. Spatiotemporal modeling and prediction in cellular networks: a big data enabled deep learning approach[C]//IEEE INFOCOM 2017-IEEE Conference on Computer Communications. Atlanta, GA, USA: IEEE, 2017: 1-9. DOI: 10.1093/ietcom/ e88-b.10.3992

[8]李一,杨雨苍,李菲,等.基于用户感知的FDD LTE网络扩容方法研究[J].邮电设计技术, 2018, (3): 54-58. DOI: 10.12045/j.issn.1007-3043.2018.03.012

[9] RASMUSSEN C E. Gaussian processes in machine learning [C]//Summer School on Machine Learning. Berlin, Heidelberg, Germany: Springer, 2003: 63-71

[10] CHEN T, GUESTRIN C. Xgboost: a scalable tree boosting system [C]//The 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. San Francisco, CA, USA: ACM, 2016: 785-794

[11] SUN J, FENG B, XU W. Particle swarm optimization with particles having quantum behavior [C]//IEEE 2004 Congress on Evolutionary Computation. Portland, OR, USA: IEEE, 2004, 1: 325-331

作者简介

邢旭东,北京邮电大学可信分布式计算与服务教育部重点实验室在读硕士研究生;研究方向为机器学习、深度学习算法在无线网络大数据分析中的应用。

高晖,北京邮电大学信息与通信工程学院副教授;主要从事5 G /B 5 G物理层新理论及关键技术、无线大数据及人工智能等方面的研究;主持并参与多个国家自然科学基金、国家重点研发计划等项目;发表论文1 6 0余篇,申请专利2 0余项。

顾军,中兴通讯股份有限公司高级方案架构师;主要从事4 G /5 G无线组网方案及性能方面的研究工作;发表论文5篇,申请专利2 0余项。

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用