基于随机森林算法的O 域B 域5G 分流比提升方案

2021-12-14 01:48:22沈佳成居新星
通信技术 2021年11期
关键词:换机分流终端

袁 江,沈佳成,居新星

(中国电信股份有限公司金华分公司,浙江 金华 321000)

0 引言

随着5G 牌照的发放,2021 年进入我国5G 消费者(2C)发展加速年,5G 移动通信网络处于高速发展阶段,各运营商5G 建设也步入高峰,竞争非常激烈,全年新增约58 万个5G 基站。与此同时,5G 手机销售占比也快速提升,如图1 所示,预计2021 年底,5G 终端占总销售终端的80%,2022—2024 年5G 快速成为主力军,预计2024 年底5G 用户占总移动网用户将达近80%,5G 终端数量的爆发式增长必然带动5G 登网用户大幅增加[1]。

图1 5G 现状与预测

图2 为某省4G 和5G 用户平均每月上网流量(Dataflow of usage,DoU)均值对比,可以看出,5G DoU 均值24G,相比4G 提升50%~80%,5G 的发展给运营商带来经济价值的提升。

图2 4G 和5G DoU 均值对比

随着5G 网络建设、5G 终端发展、5G 用户增多,让用户获得良好的业务感知是运营商关注的焦点,也是竞争中胜出的关键,这就需要一种成熟的指标评估5G 用户发展和体验情况,5G 分流比的概念呼之欲出。5G 分流比的提升一方面可以让5G 用户更多使用5G 网络,另一方面可以有效降低4G 的负荷[2]。某省的分流比数据如图3 所示,5G 分流比仅占3%,与5G 用户的终端占比还有很大的差距,然而当前业界还没有比较全面的评估提升5G 分流的方法和手段。本文基于运营域(O 域)和业务域(B 域)数据,采用随机森林算法,从市场和网络两方面出发,市场方面注重4G 至5G 用户迁移,网络方面侧重点为提升驻留比,将分流比从3%提升至11.35%[3]。

图3 5G 用户、5G 终端、5G 流量对比

1 5G 分流比提升方案分析

5G 分流比定义为:用户产生的5G 网络流量与非5G 网络流量和5G 网络流量之和的比例。分流比的提升与5G 终端渗透率、5G 开关打开比例、5G DoU 系数和5G 流量驻留比相关,下文详细论述了5G 分流比与市场侧和网络侧的关系。

1.1 5G 分流比、驻留比、B 域、O 域数据介绍

5G 分流比的计算方式为:

式中:5G 终端数量为a;非5G 终端数量为b;5G终端产生的5G 流量为c;5G 打开比例为g;打开开关的5G 终端DOU为DOU1;其余用户DOU 为DOU0。

进一步推导:

式中:h为5G DOU 系数,即为打开5G 开关的DOU与其他普通用户的DOU的比,DOU1/DOU2。

进一步推导,引入5G 终端渗透率k,SA 渗透率k1,NSA 渗透率k2,

进一步得到5G 分流比与终端渗透率的关系:

进一步换算:

5G 驻留比用Z表示,开关开启5G 终端产生的5G 流量比上开关开启5G 终端产生的总流量,分为SA 流量驻留比Z1和NSA 流量驻留比Z2,推导驻留比关系为:

驻留比与终端渗透率的关系表示为:

B 域为业务域(business support system)的数据域。B 域有用户数据和业务数据,比如用户的消费习惯、终端信息、平均每用户收入(Average Revenue Per User,ARPU)的分组、业务内容,业务受众人群等。

O 域为运营域(operation support system)的数据域,O 域有网络数据,比如信令、告警、故障、网络资源等[4-5]。

1.2 O 域B 域数据应用,提升分流比策略分析

根据数据分析,5G 分流比与5G 终端渗透率、5G 开关打开比例、5G DoU 系数和5G 流量驻留比相关,分解推导为:

式中:T为SA 用户占全网5G 用户的比例。

式(8)中,5G 分流比与总体流量驻留比呈线性正相关,流量驻留比提升多少倍,分流比相应提升多少倍。5G 分流比与5G 终端渗透率、5G 开关打开比例都呈非线性正相关,二者对5G分流比贡献度一样,推动5G 开关打开与发展5G 终端用户数作用等效。结合某运营商本地数据在可预见的将来,开关打开比例可提升1.5 倍左右,渗透率当前基数还很低,可提升5 倍左右,可提升空间比较大,因此发展5G 终端提升渗透率是重点。5G 分流比与打开开关的5G 终端DoU 系数呈非线性正相关,在用户业务类型、行为习惯无明显差异下,该系数一般在2 倍左右。

式(9)中,5G分流比与独立5G用户(standalone,SA)占比呈线性正相关,SA 用户占比越高,分流比越高;因此,发展用户时,重点要提升SA 驻留比。同理,SA 驻留比越高,分流比越高。

综上所述,分流比的提升需要市场侧加大精准营销力度,网络侧重点提升驻留;然而传统的市场营销仅仅考虑用户行为并没有结合网络数据,缺乏精准性和效率性,5G 驻留比的提升当前也没有统一的方法和理论支撑。当前运营商同时拥有用户数据(B 域)和网络数据(O 域),如果能够综合考虑两方面因素,分流比提升的节奏必然大大加快[6]。

本文综合考虑B 域数据与O 域数据,一方面结合换机用户的终端、网络行为及网络体验3 个方向建模,通过算法挖掘4G 终端用户的5G 换机潜力值,指引市场侧加速5G 用户发展;另外一方面,从4G工参、4G 测量报告(Measurement Report,MR)、5G 工参、5G MR、5G 话统出发,结合市场用户数据,指引网络侧精准建站和网络优化,提升驻留比[7-8]。

1.3 随机森林算法应用

市场侧5G 精准营销从换机用户的终端、网络行为及网络体验3 个方向建模,涉及到用户侧B 域数据。其中,终端数据包括终端上市时间、价位、品牌;网络行为可以分为视频偏好用户、游戏偏好用户、网页浏览偏好用户、电话偏好用户等;网络体验可以分为上行感知速率、下行感知速率、DoU、语音质量。综合以上数据进行建模实现4G高潜用户的精准识别。网络侧驻留比提升数据源包括4G MR 和5G MR,在5G 网络中,MR 数据和4G网络中类似,同样也分为事件型和周期型MR,除了4G 中具有的参考信号接收功率(Reference Signal Received Power,RSRP)、跟踪区(tracking area,TA)等信息外,还增加了波束信息及下行信号干扰噪声比(signal to interference plus noise ratio,SINR)等信息,网络侧综合以上数据对区域精细5G 价值建站判断,实现精准规划建设辅助5G 网络优化,实现分流比提升[9]。

在之前的分析中,不管是市场侧的数据还是网络侧的数据都是极为庞大,传统的营销模式和网络规划优化并没有综合考虑B 域和O 域数据,缺乏针对性和实时性。本文通过机器学习算法的数据分析方法建立精准的高潜用户识别模型和精准规划5G站点模型,将极大程度提升驻留比提升的效率。

随机森林是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。上世纪八十年代Breiman 等人发明了分类树算法,该算法通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树结果。随机森林在运算量没有显著提高前提下提高了预测精度;此外,随机森林对多元共线性不敏感,结果对缺失数据和非平衡数据比较稳健,可以很好地预测多达几千个解释变量的作用[10]。随机森林算法如图4 所示。

如图4 所示,随机森林是由多个决策树分类模型组合而成。这多个决策树都由原始样本有放回的随机抽样形成的新样本训练而来,全量数据通过有放回的抽样形成K个新样本,并训练出K个决策树模型。这K个决策树即构成了整个随机森林。后续,新样本则会放入各个决策树中进行结果判断,各个决策树具有平等投票权,根据多数原则最终决定模型输出。在本文研究构建的问题模型中,模型输出即为判定该用户是否为4G 高潜用户和该栅格是否有价值进行5G 规划建设。

图4 随机森林算法

此次建模的主要目的是通过各字段数据,预测出该用户是否为4G 高潜用户和该栅格是否有价值进行5G 规划建设。该问题属于有监督类学习中的分类问题,且具有数据体量大、数据字段多、各字段数据非线性分布的特点;因此,在本次研究选择随机森林算法进行模型构建。

2 5G 分流比提升策略应用实例

本次研究采取5 段式循环迭代的方式进行。首先,将全网O 域和B 域数据进行采集、计算和关联形成原始分析数据,得到可以输入机器学习模型的规范化训练数据;其次,导入随机森林算法模型进行训练,根据查准率和查全率对模型进行评估;最后,提炼模型中的经验逻辑关系并指导下一次迭代分析。

2.1 市场策略

市场策略的研究数据主要来源于某运营商O 域和B 域数据,市场侧模型整体字段情况如表1 所示。

表1 研究数据字段表

本次研究的随机森林模型通过R 语言进行构建,样本采用市场侧用户B 数据与网络侧O 域数据,将以上数据进行组合生成1 000 组样本数据,其中训练集与测试集按照7:3 比例进行分割,森林内决策树数量设置为500。整体模型预判项为4G 升级为5G 高潜用户标志,将除“高潜用户”字段以外的数据作为模型的输入,“高潜用户”作为模型的输出。将已有的市场数据导入随机森林算法进行训练,分析提炼12 个输入项和是否高潜用户之间的深层逻辑关系;然后以此逻辑关系指导下一次迭代过程[11]。

2.2 网络策略

在市场侧根据O 域和B 域数据,通过随机森林算法建立准确的4G 到5G 用户迁移模型,实现5G用户数的提升,与此同时,网络也需要同步配合市场侧的需求做好5G 驻留的优化提升。5G 驻留比能够比较客观地反映5G 网络质量情况,提升5G 驻留比能够有效提升用户感知和运营效益。网络侧以5G驻留比指标为切入点,从精准规划补点提升基础网络覆盖,优化4G 和5G 互操作策略两个角度出发。

本文在5G 高价值建站区域的选取上,综合O域和B 域数据,考虑的关键要素如表2 所示。

表2 研究数据字段表

模型训练过程与市场策略相似,将除“5G 高价值建站标识”字段以外的数据作为模型的输入,“5G 高价值建站标识”作为模型的输出,将此导入随机森林算法进行训练,得出围绕投资收益和用户体验的精准建站模型,从而精确识别5G 优先建设区域,达到提升5G 流量提升分流比的目的。

网络因素除了精准规划建站以外,4G 和5G 网络互操作策略也影响驻留比,从而影响分流比。随着5G 的商用部署及技术演进,联通、电信网络出现多制式、多频点并存的情况,网络结构日益复杂,4G 和5G 网间移动性策略及配置不统一、不合理导致用户驻留5G 困难。此外,4G 和5G 网间互操作边界多,场景复杂,现网如果存在配置不合理、电联配置不一致的情况,将会导致用户无法基于业务和5G 覆盖迅速返回5G 网络;因此,合理的互操作参数设置将影响着用户驻留网络,决定了5G 驻留比水平。

2.3 分流比提升效果

针对移动市场饱和,结合O 域和B 域数据,从换机用户的终端、网络行为及网络体验3 个方向建模,并通过随机森林算法深度挖掘4G 终端用户的5G 换机潜力值,以加速5G 用户发展。

从图5可以看出,通过某城市数据分析,换出排名靠前4G 终端型号是iphone 7p 和iphone 6,2017 年的终端换出率最高,换出终端1000~3000 元价格分布是最高的。接下来对换出用户的网络行为及网络体验做分析。

图5 某城市4G 终端换出数据

从图6 可以看出,视频偏好用户中换机用户的400 KB 启动时延普遍高于不换机用户。如图7 所示游戏偏好用户中换机用户的下行RTT 时延波动普遍高于不换机用户。

图6 视频偏好用户换机与不换机对比

图7 游戏偏好用户换机与不换机对比

基于已经成功换机的254 个用户数进行模型建立,并将某城市的数据导入模型分析模型识别换机高潜用户12.46 万,其中真实换机用户9.85 万,准确率79%[13],如图8 所示,从2 月17 日到6 月15 日,某城市5G 活跃用户数从1.83 万提升至11.68 万。

图8 某城市5G 活跃用户数变化

网络侧通过随机森林算法模型建模,识别优先建设区域,多维度特征分析识别高优先级建设区域,综合考虑价值终端、热点业务、体验维度和口碑场景,如图9。

图9 多维度特征分析识别区域

如图10 所示,根据模型输出的高价值区域,以某区域栅格为例,当前已规划145 宏站,13 个微站,在现网共站址加站1 个宏站、38 个微站,新建站7个宏站、1 个微站。如图11 所示,从2 月17 日到6月15 日区域内5G 驻留比从9.31%提升至38.37%。

图10 模型输出规划结果

图11 驻留比提升效果

综合市场策略和网络策略,从图12、图13 中可以看出,从2 月份起整体5G 流量从4.03 TB 提升至54.61 TB,分流比从2%提升至11.35%。

图12 5G 流量变化

图13 分流比变化

3 结语

本文基于B 域和O 域数据体量大、数据字段多、各字段数据非线性分布的特点,采用随机森林算法建立市场模型和网络模型,准确地将5G 分流比提升的工作精准定位到用户级。同时辅以网管、基站数据等O 域数据,可以将用户与网络有机结合起来,实现5G 分流比的大幅度提升,极大地减少了4G 负荷,提升了5G 基站的利用率。

猜你喜欢
换机分流终端
涉罪未成年人分流与观护制度比较及完善
X美术馆首届三年展:“终端〉_How Do We Begin?”
现代装饰(2020年8期)2020-08-24 08:22:58
NSA架构分流模式
通信控制服务器(CCS)维护终端的设计与实现
基于MEC的LTE本地分流技术
电信科学(2017年6期)2017-07-01 15:44:53
多功能北斗船载终端的开发应用
电子制作(2016年15期)2017-01-15 13:39:14
肝胆胰外科手术与动、静脉自然分流
ABB Elastimold 10kV电缆终端及中间接头
自动化博览(2014年4期)2014-02-28 22:31:14