姚世立 钮远
中国移动通信集团江苏有限公司
5G是第五代移动通信技术的简称,作为4G通信技术的延伸,将在全社会数字化转型进程中担负着不可替代的重要使命。就目前来看,5G在技术、标准等方面都取得了阶段性的成果, 5G作为国家“新基建”的领头羊,初期以运营商建设5G网络基础设施为主,带动5G上游产业链发展;随着5G网络基础设施的完善,需要促进个人信息消费和垂直行业融合应用的快速发展。据相关调研显示,近80%的用户希望在2021年之前用上5G网络。国家有需要,人民有需求,让更多的用户升级5G网络,更快地使用5G网络,享受5G发展带来的红利,是本文研究的重点。
5G由技术为中心向用户为中心转变。5G网络的主要优势在于:(1)热点高容量,数据传输速率远远高于以往蜂窝网络,峰值速率可达到10Gbps;(2)低时延高可靠,空中接口时延水平控制在1ms以内;(3)低功耗大连接,超大网络容量,提供千亿设备的连接能力,满足物联网通信需求。
图1为5G网络交互示意图,现网5G网络采用NSA组网方案,终端与网络交互主要分为以下四个步骤:(1)终端发起网络附着请求,同时上报支持DCNR(Dual Connectivity E-UTRAN and NR,双连接的演进UMTS陆地无线接入网和新无线)双连接能力;(2)网络根据用户签约信息判断是否允许该终端接入,如允许则与终端建立LTE承载;(3)LTE根据空口环境等触发承载迁移,下行端口变更为5GNR;(4)终端通过LTE/5GNR收发数据。
图1 5G网络交互示意图
从图1可以看出,用户使用5G网络需要具备两个基本条件:(1)5G网络覆盖;(2)终端具备接入5G网络能力。
5G网络建设是一个长期过程,短期内无法做到全覆盖。为精准识别可升级5G网络用户,需优先开展5G网络覆盖对用户影响的研究工作。
按现有网络流量分析,用户对网络需求主要集中在7: 00 -22: 00,5G网络覆盖影响度研究主要聚焦该时段。按使用场景将用户上网时间切片,细分为工作日与假期,工作日细分为通勤、工作、居家。
用Wi表示5G网络覆盖影响度,用Pi表示5G时长占比,用Si表示网络使用感知系数。设5G网络全覆盖情况下,W=10,P≡1,S=10。
(1)5G时长占比
通勤:上下班高峰时段,基站切换数大于阈值。P1=该时段5G时长/总时长;
工作:基站覆盖区域属性为办公、商圈、学校等,基站切换数小于阈值。P2=该时段5G时长/总时长;
居家:基站覆盖区域属性为居民区、学校等,基站切换数小于阈值。P3=该时段5G时长/总时长;
假期:周末、法定假日等。P4=该时段5G时长/总时长。(2)网络使用感知权重
在不同使用场景下,用户对5G网速及稳定性需求存在差异。设网速需求总分5分,用户对高网速需求越高得分越高;网络稳定性需求总分5分,用户对网络稳定性要求越高得分越高。两项得分相加得到该使用场景下网络使用感知总得分。按S=10对总得分做归一化,得到网络使用感知权重:S1=1.2,S2=1.9,S3=3.1,S4=3.8。如表1所示。
表1 网络使用感知权重
由此,通勤场景5G网络覆盖影响度为:
其他场景5G网络覆盖影响度类推,从而得到5G网络覆盖影响度计算公式:
在大数据的背景下,企业网络平台应结合先进的电子信息技术,设立相应的信息安全系统,并定期对于安全系统进行检查,发现安全漏洞时应及时进行维护,使其能够对企业的信息进行实时保护,还应该将大数据信息库进行更新,保证数据库中的信息安全,而政府应该对于网络信息安全设置相应的法律规定,使信息泄露后能够有法律保障,维护企业以及使用者的利益,从而保证网络数据的安全,营造绿色的网络使用环境,促进大数据时代进行下一步的发展。
由上式可见,W越高表示用户主要活动范围内,5G网络覆盖及使用体验越好。因明细较多,这里不全部枚举,挑选典型用户展示如下。基于当前5G网络处于高速建设时期,以W=7为评判阈值,当W≥7分时,判定5G网络覆盖可满足用户日常使用需求。随着5G网络的建设发展,该评判阈值将随之提高。如表2所示。
表2 5G网络覆盖影响度
用户在5G网络覆盖范围内,通过5G智能终端连接5G网络。截至2020年2月底,国内5G智能终端市场已初具规模,终端品牌超过40款。本节通过大数据技术,对已升级5G智能终端用户进行分析,通过机器学习构建升级5G智能终端用户模型,精准识别可升级5G智能终端用户,以开展智慧营销工作。
本研究属于大数据预测分析中分类预测模型,分析目的为预测未进行5G智能终端升级用户在后续升级5G智能终端的概率。本研究可使用逻辑回归、神经网络、随机森林建模。使用小规模数据模拟建模后,神经网络模型预测精度优于另两种模型方案。
神经网络是一个非线性的数据建模工具集合。神经元之间的连接赋予相关权重,训练算法在迭代过程中不断调整这些权重,从而使预测误差最小化并给出预测精度。多层感知器神经网络(MLP)包含多个隐藏层,可以发现更复杂的关系。本研究选用MLP为最终建模方案。
筛选已升级5G智能终端用户(以下简称5G用户),为确保模型数据平衡防止过拟合,随机提取等量级的非5G智能终端用户(以下简称非5G用户)。按用户特征信息提取样本数据,特征信息分类及细化见表3。
表3 用户特征信息
为确保分析数据质量,首先对样本数据进行数据分析。
(1)数据过滤:将样本数据中与目标变量无关的特征信息进行剔除,保留用户标识(user_id)、年龄(age)、性别(sex)、月消费(ARPU)、流量(DOU)、终端使用时长(T_mon)、地市(area)7个特征信息,其中user_id仅作为记录标识,不作为模型输入。设定输出观测值result,当用户为5G用户时,result=1,否则result=0。
(3)数据分区:在有监督的机器学习中,数据集一般被分成培训集、测试集和验证集。培训集主要用来培训模型;测试集主要是测试已培训模型的分辨能力(识别率等)、推广能力;验证集主要用于调整模型的超参数,在神经网络中可以通过验证集选择隐藏层神经元的数量。分区数据均从样本数据中随机抽取,本研究按培训集50%、测试集40%、验证集10%分区。如图2所示。
图2 5G智能终端升级模型
MLP一般由一个输入层,一个输出层和若干个隐藏神经元层组成。每一层由一个或多个神经元互相连结。一个神经元的输出便是另一个神经元的输入。
本研究中输入层:age、sex、ARPU、DOU、T_mon、area。
隐藏神经元层:隐藏神经元层与输入层全连接。用xi表示输入变量,用 ωi表示各输入变量的加权系数(权值),用P表示加权求和,用y表示输出。
隐藏神经元层包括两部分:(1)对输入变量的加权求和;(2)对求和结果进行“激活”得到输出。定义输入恒为1的权值为ω0,即权值也包含偏移量,则加权求和的公式为:
其中:
激活公式为:
MLP的目标是使误差最小。MLP的误差可用平方误差函数E表示。设样本x有n个属性,目标值t有J种可能,则该MLP的输入层(第一层)一共有n个神经元,输出层(第L层,设MLP一共有L层)一共有J个神经元。样本x经过向前通路得到最终输出,其中下标表示y所在层的神经元索引,上标表示y所在的层。则该样本的平方误差为:
上式中的平方误差函数除以2,是为了便于后面的求导运算,因为它不影响误差的变化趋势。yjL由上一层(即L-1层)所有神经元的输出经加权激活后得到,而第L-1层神经元又由第L-2层的所有神经元输出经加权激活后得到,因此可以说误差E是全体权值ω的函数,通过改变权值ω,就可以达到使误差E最小的目的。
通过上述方法得到图3中的神经网络模型。
图3 神经网络模型
本模型输出预测结果为1或0,模型输出预测$N-result与观测result相同时模型输出准确,各分区准确率为:培训集准确率75.88%,测试集准确率75.69%,验证集准确率75.81%,因模型输出明细数据过多,这里不全部枚举,部分模型输出数据如图4所示。
图4 神经网络模型输出
对模型输出准确率进一步研究,对比观测值与预测值发现,观测值result=1预测准确率90.1%。本模型输入样本中5G用户观测值result=1确定且唯一;随机抽取非5G用户观测值不确定,因模型需要定义result=0。本模型构建初衷为预测result=0用户转变为result=1用户概率,因此本模型构建符合预期。如图5所示。
图5 神经网络模型result分类
结合5G网络覆盖度影响度和升级5G智能终端模型,抽取当月非5G用户50万户,经模型演算后预测可升级为5G用户共35万户。如图6所示。
图6 预测模型输出
鉴于疫情期间,尽量减少用户到营业厅接触,预测输出数据主要应用在江苏移动掌上营业厅,应用周期为3周,应用位置包括首页Banner及5G新品专区。模型应用后,用户升级5G网络成功率较模型应用前有较大提升。随着疫情解除,该模型将扩展运用于线下实体厅店,有助于进一步提升成功率。如图7所示。
图7 掌上营业厅应用展示
在5G网络大发展时期,为让更多的用户进行网络升级,更快地使用到5G网络。本文对已升级5G网络用户开展分析,基于网络覆盖对用户使用影响的先决条件,通过大数据机器学习分类算法构建升级5G网络模型。本模型在江苏移动掌上营业厅APP开展应用,模型应用较未应用前,用户升级5G网络成功率有较大提升,后续该模型将扩展应用至线下实体厅店。因模型基于过去的数据进行预测,目前已知进行5G网络升级用户量偏小,模型输入量级在十万级,模型输出存在一定的误差。随着后续升级用户群的扩大,将进一步对模型进行优化。