移动互联网时代的用户上网行为分析浅谈

2014-05-17 03:31罗晓娜杨静雯
信息通信技术 2014年4期
关键词:决策树套餐数据挖掘

张 第 罗晓娜 杨静雯

1 中国联通研究院 北京 100032

2 中国电信集团公司 北京 100031

引言

随着移动互联网时代的到来,传统通信行业正面临着终端智能化、无线接入宽带化、业务融合化、运营平台化的挑战,用户每天通过移动终端等信息载体、利用基础网络进行无线接入和信息交互,以获得自己需要的信息。无处不在的网络在给用户提供便捷服务的同时,也带来了流量爆炸式增长的压力,这给运营商网络扩建、升级带来难题。为满足用户需求,运营商不断加大对网络建设的投资,但流量的激增并没有给运营商带来相应的营业收入的快速增长。2013年,中国联通实现营业收入2 950.4亿元,同比增长18.5%,净利润达104.1亿元,同比增长46.7%,而移动手机用户数据流量增长则为120.3%,达到2 698亿Mb[1]。与此同时,以腾讯、新浪为代表的大量OTT(Over The Top)企业通过运营商提供的网络向自己的用户提供互联网产品及服务,绕开了传统的运营商收费路径,通过客户端广告植入、在线商店等进行盈利。另外,即时通信类的互联网产品使得传统的语音、短信费用转换为低廉的流量费用,从而大大降低了用户对于运营商的黏性,也对传统语音和短信业务造成巨大冲击。运营商虽然投入大量人力、财力和物力建设基础网络,但并没有通过数据流量获得应有的营业收入,投入产出不成比例,面临“被管道化”的危险。同时,用户规模和流量规模快速增长,也导致了运营商之间同质化竞争愈发激烈,数据产生的附加值越来越低。因此,运营商寻找新的利润增长点、提高流量经营的质量迫在眉睫。

反观消费渠道的多元化和消费内容的多样化,导致用户在信息交互过程中产生大量各异的行为偏好、决策偏好和忠诚行为[2],而用户的这些偏好反映在每一个上网行为的细节中,并最终影响运营商的业务收入和利润水平。

在最先获得用户行为资料的前提下,运营商很有必要对用户上网行为进行深入分析、深度发掘、细化分类,构建流量差异化计费体系,提升流量价值,增加核心竞争力,才不会被移动互联的时代浪潮所湮没。

1 数据流量激增,运营商如何利用

据统计,全球移动数据流量将在2014年达到每月4.2EB,预计到2016年时将增长到每月10.8EB,如图1所示。

图1 全球移动数据流量增长趋势(2011~2016年)

以中国联通为例,每月的上网记录数已超过2万亿条,是目前运营商所有计费数据的30倍以上,并且以每月7%的速度递增[3],运营商需要用数量巨大的服务器来存储这些数据,虽然服务器成本逐年下降,但与能耗相关的成本所占比重会逐渐平稳或者上升,如果留存这些海量数据的意义仅仅在于查询流量、解决客户流量争议,难免有些“大材小用”。

相比其他企业,运营商能够第一时间获得用户消费行为的资料,有着得天独厚的优势。这些看起来毫无规律可循的用户上网信息,内部是存在关联性的,利用数据挖掘技术[4],能够定量地分析用户行为,如上网浏览内容偏好、时间偏好等,通过对这些数据的分析,运营商可以重新进行用户市场划分,提出更具有针对性的营销体系。

本文主要是从数据挖掘的角度重新观察这些数据并加以利用。由于电信运营商内部数据库中存储着海量多维的信息,这些信息不仅包括常规的年龄、品牌、套餐资费[5]、终端的IMEI、终端品牌、终端类型等基础信息,随着运营商自身数据平台的完善,还包括用户何时何地上网、上网的内容偏好、各种应用的驻留时间、手机支付信息等等,从理论上来讲,这些丰富的内容为数据挖掘提供了可能性,同时,运营商将借助数据挖掘技术在日益激烈的流量竞争中制定准确的决策,提高流量经营的质量。

2 数据深度挖掘,分析用户上网行为

以WCDMA移动通信网络系统为例,运营商可在核心网(Core Network,CN)网关GPRS支持节点(Gateway GPRS Support Node,GGSN)处通过一定的技术手段获取用户同外部IP分组网络交互的信息,并利用自身服务器集群,按照一定的录入数据库规则,实时存储用户的上网数据。表1为用户上网信息的简单汇总,通过数据挖掘的过程,可以分析出对于用户上网的影响因素,从而细分用户群体,为精细化营销奠定基础。

表1 用户上网记录初始数据

数据挖掘技术是从海量数据中提取或者“挖掘”知识的过程,这些知识必须的是隐藏的、潜在有用的,常用的主要方法有聚类分析、决策树分析、关联分析、判别分析、回归分析和神经网络分析等,本文主要使用的分析方法是决策树分析。主要考虑方便快速地对用户行为数据进行分析,提供有效的决策支持。

2.1 数据预处理,形成训练样本

为便于对初始数据处理,需要进行预处理。首先对初始数据按照以下规则进行粗粒度的分类,形成训练样本。

1) 按照年龄层次划分。小于20,20~30,30~40,大于40,共计4部分。

2) 按照上网集中时段划分。对于上网集中的定义为:以小时为计量单位,上网流量大于10M/小时。系统需要对每个用户的小时用量进行累加,选出流量最多的一个小时,作为上网集中的时段。本文暂不考虑日均流量小于10M的用户。9:00之前归为上班途,9:00~12:00归为上午,12:00~17:00归为下午,17:00~19:00归为下班途,19:00~24:00归为晚上,共计5部分。

3) 按照主要流量划分。①网页类:主要指利用手机终端浏览各种门户网站,图片等。②即时通讯类:如QQ、飞信、微信等。③视频类:优酷、PPLive、乐视网等。④游戏类:网易游戏等。⑤社交类:开心网、人人网、微博等。⑥其他类:如某些炒股软件等,共计6部分。

4) 按照终端类型划分。Android、iPhone、Windows Phone,共计3部分。

从运营商BSS系统中读取用户相关的ARPU值,作为数据挖掘的一个目标函数,如表2所示。

表2 用户上网记录预处理后的数据

2.2 数据挖掘,影响因素排序

根据数据挖掘的基本理论[6],任何样本分类的信息期望为

其中,数据集为S,m为S的分类数目,

Ci为某分类标号,Pi为任意样本属于Ci的概率,Si为分类Ci上的样本数。

将用户群体划分为A1、A2、A3三类,分别代表的ARPU值为低,中等,高,则用户的信息熵为

按照先前的分类,对每一个年龄阶段的用户,统计其属于A1、A2、A3三类的个数,然后得出概率,从而计算属性age的信息期望,如表3所示。

表3 每个年龄阶段的ARPU分布及概率

P1、P2、P3分别表示每个年龄阶段中的用户属于A1、A2、A3的概率。

由此得出属性age的信息增益为

同理可得到其他属性的信息期望

2.3 数据后处理,生成决策树

通过比较各个属性信息增益的高低,可选出影响ARPU的关键因素,如表4所示,影响用户ARPU的第一要素就是时间,根据上述实例,将用户人群进行简单的初步划分,如图2所示。

表4 各属性的信息增益对比

图2 用户按照时间属性进行分类

由于实例中的样本量较小,第一层级的决策树形成之后,就完全符合了用户行为跟ARPU的对应关系,即处于第二层级的属性都是平等的,用户只要处于某个时间段,其通常的上网行为对应产生的ARPU就是固定的。

在实际生活中,由于海量样本及影响ARPU的因素不止列出来的五类,如地域、收入等也会影响用户ARPU值,则可以在第二层级去掉时间属性后进行二次划分,直至满足下列停止分割的条件之一。1)一个节点上的实例都属于同一个类别;2)没有属性可以再用于对数据进行分割。

经过上述步骤之后,就可以形成一个完整的决策树。图3展示的就是具有普遍意义的决策树。

图3 普遍意义的决策树

在移动互联网时代,用户通过移动终端进行无线接入,产生数据流量并非是一个一次性过程,通过时间的积累,可以从中发现用户的行为规律,进而能够促使决策树的形成。

3 关注群体特性,实现精细化营销

决策树的形成是建立在大量用户上网行为数据基础上的,它代表了用户行为的偏好,是市场的风向标。经过计算得出的决策树,可指导规则制定者完善营销方案。本文主要通过决策树来关注用户群体的上网需求,以制定更为灵活的套餐和资费,细分运营商目前的数据流量市场。

通常,规则的制定者要根据数据挖掘的结果,首先确定目标函数、制定套餐和资费的目的是提高用户的ARPU值、挖掘潜在用户、还是增加用户使用品牌的忠诚度。以下分析以提高ARPU值为最终目标函数。

3.1 基于上网时间段的套餐划分

具体到上述的实例,时间增益为各个属性中的最大值,即影响用户ARPU值的第一要素是时间,则在套餐的制定上可以考虑专门设立基于上网时间段的套餐包,在特定的时间段内享有流量优惠,如闲时资费比忙时资费便宜,但此“忙闲时”不同于网络中话务业务的忙闲,主要指数据业务。一方面满足用户的个性化需求差异,另一方面,有目的地引导用户上网时间分布,疏导流量,缓解网络压力,提高用户上网感知。而用户在享受流量优惠的同时也增加了黏性,提高了对产品的忠诚度,从而有利于发展低ARPU用户至更高档位的套餐。

3.2 基于定向流量的套餐划分

在实际运营中,用户的数量成千上万,需求也迥异,假定影响用户ARPU值的第一要素是流量,则可以在一定的时间内持续观察用户上网记录,根据用户浏览的内容进行推荐定制,如视频套餐包(对优酷、乐视等看视频网站有定向流量),社交套餐(对新浪微博、人人网等有定向流量)等。2014年6月,为满足用户在没有Wi-Fi的情况下顺利观看世界杯比赛,中国联通和中央电视台合作,推出了3元包月的“WO+视频”看世界杯定向流量套餐。

定向流量的套餐模式一方面可以给用户带来流量使用的优惠,在满足用户个性化需求的同时,降低了用户离网风险;另一方面可以加强和OTT企业的深度合作,双方协作分成,探索新的运营商盈利模式,在移动互联网时代,降低运营商“被管道化”的风险。

3.3 基于用户群体的套餐划分

若考虑影响用户ARPU值的第一要素是年龄,则可以根据用户的年龄进行定制,如少年套餐(侧重游戏类、视频类流量)、青年套餐(侧重社交类、即时通信类流量)、中年套餐(侧重网页类流量)。每个套餐的侧重点不一致,对于流量的内容计费方式也不一样,类似于目前中国联通的3G网络 A、B、C三种套餐。但对于运营商的上网记录查询系统而言,需要能够区分用户访问的网址及内容,也就意味着运营商需要建立一个应用地址信息库来和互联网URL进行一一匹配,并不断更新完善。

3.4 基于QoS的套餐划分

随着微信、微博等提供永久在线服务的互联网产品迅速普及,加上智能终端为减少电量消耗而采取的“快速休眠节电功能”,这些都给网络带来了巨大的副作用:频繁的接入制造了大量的信令开销,呼损率降低,特别是在节假日或是传输中断的时候,给网络带来的冲击力会远远超过其承受力,极大地影响了用户体验。

运营商可以采取阶梯计费的方式,优先满足一部分要求保证QoS而愿意提高资费的用户需求,提供较高等级的上网保障,而普通用户上网也不会因此受到较大影响。此划分方法不仅在业务层面上需要进行细分,在网络层面也要细化各种端到端需求。

3.5 基于上网速率的套餐划分

用户对于上网的需求各不相同,下载用户对于网速的要求要高于观看在线视频等流媒体业务的网速,相比之下,浏览普通网页对于网速的要求最低,基于此,也可进行上网速率的套餐划分。网络下行速率越快,资费越高,但要保证用户的上网体验。

3.6 用户上网行为数据挖掘的其他用途

由于运营商掌握着第一手用户资料,具有天然的优势,而用户上网行为信息,通过数据挖掘既可以预测用户行为发生的可能性,帮助企业提供更多的且是用户真正需要的服务,还可以在一定的时间段内积累用户上网数据,进行趋势分析和周期性分析。同时,根据用户上网喜好,可进行针对性更强的电话营销、广告投放等业务。

而与OTT企业开展合作,为战略合作伙伴提供数据咨询也是未来商业模式的一种,可以使“用户上网行为信息”这个金矿得到最大价值的利用。

4 小结

一直以来,电信运营商的用户不断要求更低的通话资费、更好的通话质量、更快捷的客户服务,还要求更出色的上网体验、更灵活的计费模式。通信行业的增速逐渐放缓,4G时代的到来更加剧了竞争,用户在面对运营商时有了更多的选择权,使得运营商都非常重视用户群体特征,以实现更为精准的营销,增加用户黏性。

要实现精细营销,就要细分用户群体,就要借助信息管理技术,充分了解用户行为信息,针对用户的偏好对市场进行恰当的划分。

用户上网记录,一方面可以为客服人员直观地解答用户流量疑问,降低投诉率,提高用户上网满意度;另一方面经过数据挖掘后的用户行为,为市场部门制定更为有效的营销方案提供数据支撑,业务人员也可以根据掌握的用户消费习惯进行一定的业务推广。

总之,对于第一手获得用户行为信息的运营商来说,要充分利用这个天然的优势,不断提升流量价值,要抓住移动互联网飞速发展的机遇,不断优化运营模式,及时转型,避免被越来越多的OTT企业管道化,对这些数据进行深度挖掘,指导企业日常运营,与OTT企业开展深度合作,将数据封装为服务,形成可对外开放、可商业化的核心能力,实现商业模式的创新,营造双赢的局面,运营商在移动互联网时代也可以大展手脚。

参考文献

[1] 中国联通公布2013年度业绩,净利润增长近五成[EB/OL].[2014-07-16].http://www.c114.net/news/119/a823233.html

[2] 周毅,孟卫东,柳晓.移动数据业务购买意愿的关键影响因素研究[J].管理工程学报,2010,24(1):29-34

[3] 王志军,黄文良.大数据在移动用户上网记录查询中的应用研究[J].信息通信技术.2013,7(6):29-34

[4] 整合“大数据”商业化模式,提高流量经营的质量[EB/OL].[2014-05-21].http://labs.chinamobile.com/mblog/7539/194721

[5] 许冬琦.大数据时代,运营商机会大于挑战[J].通信世界,2012(19):38

[6] Tan Pangning,Steinbach Michael,Kumar Vipin.数据挖掘导论(完整版)[M].范明,范宏建,译.北京:人民邮电出版社,2011

猜你喜欢
决策树套餐数据挖掘
《加什么不要钱》
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
一种针对不均衡数据集的SVM决策树算法
儿童套餐
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
婚姻是一份套餐
一种基于Hadoop的大数据挖掘云服务及应用
绘潭