基于大数据分析的移动网城市画像研究与应用

2019-06-27 12:01傅俊锋中国联通网络技术研究院北京100048
邮电设计技术 2019年6期
关键词:平均年龄画像预测

傅俊锋,孙 红(中国联通网络技术研究院,北京100048)

0 引言

在移动互联网充分发展和提速降费持续推进的背景下,当前的个人移动通信市场,从用户数量上来看已经接近峰值;从用户结构来看4G用户占比也渐趋稳定。因此对于运营商而言,迫切需要利用大数据分析方法,对省市用户、业务有一个清晰的画像,从而进一步挖掘现有用户潜力、提升业务量和收入。

本文以单个城市为基本单元,提出了一套城市画像方法,用于对不同城市的用户、业务现状进行刻画,通过对比,了解其在市场和网络方面的优势和短板。在此基础上以2G用户转网为例,研究用户、业务变更的规律,从而实现对不同城市在下一周期内发展趋势的预测。基于现状和预测,运营商在市场推广上可以早作准备,抓住市场发展先机;在网络建设上能提前部署,及时满足业务需求。

1 城市画像方法

用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出来的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”,而标签是通过用户信息分析而来的高度精炼的特征标识。

所谓城市画像,既包含用户画像的概念,又比用户画像更宏观,偏向于从整体上对城市的特点、规律进行把握。本文提出的城市画像方法从用户及业务总量、用户模型、用户结构这3个角度进行分析,通过精炼的关键指标对单个城市进行刻画,最终通过散点图和雷达图的方式将城市画像的最终结果直观地呈现出来。

下面以中国联通A省及A1市、B省及B1市为例,对其画像指标进行对比分析(原始数据已通过函数进行了变换,与现网真实情况无关)。

1.1 总量指标

总量指标反映了城市的用户和业务规模的大小,具体指标取定:用户数、收入。

2省的用户数、收入指标分布如图1所示(A省为橙色,B省为蓝色)。

图1 2省用户数、收入指标分布

从图1中可以看出,收入指标同用户数指标呈正比例分布;2省大部分地(市)的分布区域比较接近,各有2个地(市)规模较为突出;A1市、B1市在所在省内规模都相对较小。

1.2 模型指标

模型指标反映了城市内用户的业务使用情况,具体指标取定:平均ARPU、平均DOU、平均MOU。

2省的平均ARPU、平均DOU指标分布见图2。

图2 2省平均ARPU、平均DOU指标分布

A省平均DOU普遍高于B省,说明A省用户使用数据流量更为活跃;B省虽然平均DOU较低,但也有部分地(市)平均ARPU分布在头部;A1市在A省内的模型指标数值相对较大,平均DOU更是排在第1位;B1市在B省内的这2个指标都分布在尾部,用户较不活跃。

2省的平均DOU、平均MOU指标分布见图3。

图3 2省平均DOU、平均MOU指标分布

2省平均MOU分布区域接近;B省有2个地(市)平均MOU显著高于2省其他地(市),而A省则有2个地(市)平均DOU显著高于2省其他地(市),说明B省少数地(市)侧重于语音业务;A1市的用户使用数据业务最多,而B1市语音、数据业务均不活跃。

1.3 结构指标

结构指标反映了城市内不同用户群的构成,具体指标取定:平均年龄、移动互联网用户占比、2G用户占比、2I2C用户(互联网套餐)占比。

2省的平均年龄、移动互联网用户占比指标分布如图4所示。

图4 2省平均年龄、移动互联网用户占比指标分布

A省用户普遍比B省年轻,其移动互联网用户占比更高;A1市平均年龄在2省各地(市)中分布在头部,相对更年轻,大部分用户都是移动互联网用户;B1市平均年龄分布在尾部,移动互联网用户也较少。

2省的2G用户占比、2I2C用户占比分布见图5。

A省2I2C用户占比普遍高于B省;B省部分地(市)2G用户占比偏高,也存在部分地(市)2G用户占比较低;A1市2I2C用户占比最高,2G用户占比分布在头部,而B1市则正好相反。

图5 2省2G用户占比、2I2C用户占比指标分布

1.4 城市画像指标汇总

最终的画像结果如图6所示(橙色为城市级,蓝色为省级,紫色为全国级;为方便图形显示及对比,以三者最大数值为单个指标轴的最高点)。从分布形状来看,A、B 2省的差异十分明显,A1、B1 2市的差异更加显著。

图6 A省及A1市、B省及B1市画像

2省用户及业务规模相当,但由于用户结构的较大差异,A省用户使用数据业务更多,B省用户则更偏向于语音业务。A省的收入主要由年轻的移动互联网用户产生,而B省的收入主要依赖于年龄偏大的语音型用户。

A1、B1 2市的用户及业务规模在省内都较小,但其用户构成完全不同:A1市的2I2C用户占比、平均DOU明显高出全国平均水平,其他指标同全国平均水平相近;而B1市的移动互联网用户占比、2I2C用户占比、平均ARPU、平均DOU都很低,而2G用户占比很高。

因此初步的结论是,B省及B1市需加大年轻用户的市场发展力度,同时利用市场手段将2G用户转为4G,在提升移动互联网用户占比的同时,也能提升其平均ARPU。

2 2G用户转网模型分析

在对不同城市进行精准画像的基础上,运用大数据分析的方法,对用户行为的规律和原因进行深入分析,通过市场手段有针对性地对用户进行引导,从而能预测出下一个周期不同城市的画像变化情况。根据城市画像的变化,还可以进一步细化出用户和业务在地理上的分布,为网络的精准建设提供数据支撑。

中国联通运营4G网络已经多年,但目前仍有相当比例的2G网络用户,不少本地网2G网络用户占比达到50%。大量的2G用户导致2G网络无法退网,长期运营3张无线网络,运营成本居高不下。2G网络还占用了宝贵的低频资源,无法释放出来用于建设4G L900网络。因此,2G用户的转网对于提升ARPU值和企业收入、降低运维成本、提高4G建网效率具有重要的意义,是中国联通未来几年更好更快发展的一个关键因素。

本文以2G用户转网为例,通过SPSS Modeler对历史数据进行建模分析,得出影响2G用户流向的关键因素,预测哪些2G用户更有可能转为3G/4G用户,哪些2G用户会离网。对转网后的用户,通过统计其转网前后业务量的变化,从而得到实施2G转网对不同城市画像指标的影响。

2.1 模型指标

提取A省、B省最近2年的部分2G用户数据进行建模,根据2G用户流向的变化,打上4类标签:未转网、离网、转为3G、转网4G。用于建模的主要字段如表1所示。

表1 建模主要字段列表

2.2 建模分析

在SPSS Modeler软件中构建如图7所示数据流。

图7 SPSS Modeler数据流

在数据流中,通过“2G用户流向分析”导入整理好的源数据,经过多个模型的对比分析,最后选择2种模型进行用户流向的建模。

2.2.1 随机森林

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,主要应用于回归和分类,能够很好地处理高维度的数据。采用随机森林模型的预测结果,准确率达到82.9%。其预测的各个变量的重要性如图8所示。

图8 随机森林预测变量重要性

可以看到,“入网年份”对预测结果的重要性最高,其次为“客户年龄”及“DOU”。

2.2.2 C5.0

C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。采用C5.0模型的预测结果,准确率达到93.2%。其预测的各个变量的重要性如图9所示。

图9 C5.0预测变量重要性

可以看到,仍然是“入网年份”对预测结果的重要性最高,其次为“融合类型”及“DOU”。

综合这2种模型的预测结果,可知“入网年份”对2G用户流向的影响最大,另外这2个模型中都出现的重要变量还有“DOU”“主叫通话次数占比”“中国联通通话次数占比”“客户年龄”。

2.3 模型解释及验证

下面对2G用户流向在不同指标中的分布进行统计验证(见图10)。

从图10中可以了解到:

a)入网年份。2008年以前入网的2G用户基本上都离网了,2008年以后入网的2G用户转为4G的比例更高。可能的原因是,2008年以前入网的用户到了其客户生命周期的末期,对号码的依存度较低;2008年后入网的用户,由于中国联通推出了3G/4G业务,增加了网络对用户的吸引力,因此转网用户更多。

b)融合类型。图10中“1.0”为智慧沃家,“2.0”为主副卡,“3.0”为沃家庭,“0.0”为非融合套餐。融合套餐中转网3G/4G的用户比例高,非融合套餐离网比例高。说明融合套餐增加了用户黏性,对保有用户起到了较大的作用。

c)DOU、年龄。DOU低、年龄大的用户离网比例高,而DOU高且年轻的用户更倾向于转网3G/4G。说明中国联通3G/4G网络对年轻的移动互联网用户吸引力更大。

d)主叫通话次数占比、中国联通通话次数占比。这2个指标对2G用户转网的影响虽然不如前几个指标显著,但同转网3G/4G用户比例也存在着正相关的关系。说明对中国联通网络黏性大的用户转网3G/4G的概率更大。

最终选择C5.0模型对A省、B省的2G用户进行流向的预测。

图10 2G用户流向分布

3 城市画像预测

根据模型预测的结果,A省总的2G用户离网的比例为41%,转网3G/4G用户的比例为37%;B省总的2G用户离网的比例为47%,转网3G/4G用户的比例为26%。对2省的历史数据进行统计,发现2G用户转网后其平均ARPU增长为15元,平均DOU增长6倍,平均MOU基本持平,转网3G/4G的用户中10%转为2I2C用户。由此计算出2省各个地(市)的城市画像指标。

图11和图12分别给出了2G用户转网后2省用户数、收入指标、平均ARPU、平均DOU的分布情况,与图1和图2(2G用户转网前)相比可以看出,推动2G用户转网后,2省各地(市)的用户数、收入普遍略有下降,但用户模型和用户结构得到了改善。

从最终的城市画像图(见图13)来看:

图11 2省用户数、收入指标分布

图12 2省平均ARPU、平均DOU指标分布

图13 A省及A1市、B省及B1市画像

a)A1市变化较大的指标为平均年龄、移动互联网用户占比和2G用户占比,2G用户占比的变化较B1市更为显著,其原因是转网3G/4G的2G用户比例高,剩余2G用户更少。

b)B1市变化较大的指标为平均年龄、移动互联网用户占比和2G用户占比,平均年龄、移动互联网用户占比的变化较A1市更为显著,其原因是B1市3G/4G用户本身基数较小,在转网后年轻的3G/4G用户快速增加。

A1市2G用户占比从转网前的23.7%下降到10.0%,2G用户的减少在市区的高校、商场、写字楼等区域会表现得更显著。需关注这些区域的2G基站负荷,及时对负荷低的基站进行减频或者退网。

B1市用户平均DOU从转网前的1.7 GB增加到2.3 GB,增长了35.3%,而商场、景点等热点区域的流量增幅更大。因此从网络建设的角度,需了解转网后流量的地理分布情况,从而提前对网络进行扩容。

4 总结

本文通过对2G用户转网的建模分析,对比了转网前后2个省及2个典型地(市)的城市画像变化趋势。为了解用户和业务现状、了解业务发展趋势并在网络建设上及时应对提供了详细的数据支撑。本文提出的方法,还可以同其他热点专题相结合,如2I2C用户、视频业务等专题,运用大数据和模型分析,滚动刷新全国不同城市的画像指标,实现网络的精准运营。

猜你喜欢
平均年龄画像预测
无可预测
威猛的画像
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
“00后”画像
画像
韩国人平均年龄41岁
不必预测未来,只需把握现在
网友真实状况鉴别手册
去年中国有438名公安民警牺牲 平均年龄46.3岁