数据挖掘助力精细化流量经营

2012-04-17 01:52:12陈志竞梁伯瀚
电信科学 2012年7期
关键词:运营商终端社交

陈志竞,梁伯瀚

(中国电信股份有限公司广东研究院 广州 510630)

数据挖掘助力精细化流量经营

陈志竞,梁伯瀚

(中国电信股份有限公司广东研究院 广州 510630)

移动互联网时代,移动数据流量正以前所未有的速度在增长,电信运营商面临着增量不增收、流量套餐渗透率不高、自有移动互联网业务推广难等问题。本文结合电信运营商的实际案例,介绍运用协同式过滤、社交网络分析、决策树等数据挖掘技术在流量套餐精确营销、移动互联网业务个性化推荐等流量经营重点工作中的应用和效果。

流量经营;数据挖掘;协同式过滤;社交网络分析;决策树

1 引言

2011年全国电信主营业务增长10%,同期GDP增速为9.2%,全球电信业的增速也已整体落后于GDP的增速,电信行业增速缓慢已经成为现实,如何寻求新增长是电信运营商共同关心的问题。随着3G网络应用的发展和智能手机的普及,电信运营商流量收入不断提升,成为它们的收入增长点和主要的收入来源,如近两年日本NTT DoCoMo和软银两家运营商的数据收入占比均已超过50%。国内电信运营商开始越来越重视流量经营,各种评价流量经营健康度的指标,如总流量、户均流量、流量活跃率、流量ARPU等,都已纷纷被纳入国内电信运营商的年度考核目标中。

区别于传统的话务量经营,电信运营商的流量经营面临着几方面的挑战。首先,流量激增导致流量与收益剪刀差“增量不增收”的挑战,电信运营商均承受极大的网络流量激增压力,以AT&T 2007-2010年为例,移动数据流量增长了8 000%,移动用户数量增长了54%,移动业务收入仅增长了52%。其次,电信运营商的产业地位受到挑战,并有边缘化的趋势,移动互联网产业链的各个环节目前都在发展把握用户资源的能力,电信运营商距离用户最近的优势已经逐渐丧失,同时网络、计费等能力方面的优势也正在受到更大的挑战。虽然国内电信运营商做了大量的努力,包括成立移动互联网业务运营基地,终端预置自有移动互联网业务,但自有业务使用率普遍不高。因此,无论电信运营商希望在管道层面实现收入增长,还是在内容、应用、服务等层面获得新增长,都迫切需要加强用户流量行为洞察,通过精细化流量经营的手段贯彻其智能通道和综合平台的移动互联网战略。

然而,精细化流量经营对数据挖掘技术提出了新的要求。一方面,原始数据品类增多,收集难度增大,除了运营商计费平台的流量详单以外,很多移动互联网内容应用和访问行为都是非结构化数据,需要借助各种类似日志采集、URL 探测、深度包检测(deep packet inspection,DPI)和文本挖掘的创新数据分析处理方法。另一方面,随着移动互联网的发展,用户行为从个人需求向社群需求发展,挖掘技术热点方向也随之改变,如社交网络分析(social network analysis,SNA)成为热点研究方向。最后,对行为分析的实时数据应用要求也在不断提高,很多个性化推荐都要求基于当前行为做出最能适应用户当前需求的实时推荐,需要借助类似基于用户(user-based)和基于产品(item-based)的各种协同式过滤算法。

现阶段,国内电信运营商精细化流量经营的主要举措是开展潜力用户的针对性营销活动,培育高流量用户。其中的针对性营销活动主要包括流量套餐的精确营销、智能机升级销售、移动互联网应用的推荐使用等。运用数据挖掘技术对海量电信客户数据的分析可以帮助运营商提高精细化流量经营的效率,基于当前的数据条件和应用需求,笔者曾协助中国电信股份有限公司广东分公司做了一些精细化流量经营的实践与应用,根据挖掘分析所用的数据品类,主要可以划分为基于用户消费行为数据的精细化流量经营和基于终端信息数据的精细化流量经营。

2 基于用户消费行为数据的精细化流量经营

2.1 移动互联网用户兴趣爱好分析

在移动互联网时代,用户需求越来越呈现个性化和多样化,流量经营如果可以在充分了解客户需求的基础上,以合适的方式为目标用户提供差异化产品满足其移动互联网需求,则可以有效地实现扩大流量用户规模、提升用户流量价值等目标。

移动互联网用户兴趣爱好分析主要是通过分析用户的网络使用偏好,对用户进行分类,建立用户偏好属性特征标签,再结合用户的基本资料、消费情况、业务订购情况等信息,筛选出特定业务的营销客户群,将合适的业务推荐给合适的用户。如图1所示,客户偏好属性特征可以划分为商务理财偏好型、资讯生活偏好型、游戏娱乐偏好型、音乐偏好型等,进而可以对移动互联网应用进行梳理,形成相应的主题应用,如可以对应构建音乐偏好、资讯偏好、娱乐偏好、商务偏好四大类应用,对相应用户进行主动推荐。

根据数据采集的方式不同,在实际开展兴趣爱好的分析过程中采用了两种不同的分析方法。

第一种是从系统获取每个用户访问移动互联网页面对应的页面URL,从中识别出关键的网站信息,从而分析出用户上网的行为习惯,并结合收入、账户、其他产品的使用行为等进行用户细分。这种方法的前提是要预先建立并维护URL数据的分类目录,有可能某些网站的URL需要识别到第二级甚至更多级目录,由于互联网页面的丰富繁多且更新变化频密,分类目录的维系工作对分析人员而言是一大挑战。

第二种分析方法则是从系统获取用户在搜索引擎所输入的关键词内容,分析用户的内容爱好,再结合其他用户收入、背景信息等对用户进行分类。这种分析方法的优点在于对用户偏好内容的分类目录整理维护较为轻松,缺点是获取的信息量比页面URL分析方法要片面一些,因为它只能捕捉到使用搜索引擎的用户信息。

通过分析用户的兴趣爱好,并结合用户的业务使用情况,投其所好地进行针对性的营销,事前可以先确定用户群,从而有效提高营销成功率,降低成本,避免传统营销方式费时费力的成本、极易造成用户的反感等问题。

2.2 多业务通用的潜在目标用户识别

对比传统电信业务,移动互联网业务具有品类多、生命周期短、更新速度快、上线时间快等特点,采用协同式过滤(collaborative filter)技术可以建立多业务通用的目标用户识别模型,能有效满足移动互联网时代流量经营的要求。

协同过滤技术的原理是为每个用户计算寻找其 “邻居”相似用户,从用户的话音行为/价值、增值业务行为/价值和客户信息等基础通信特征出发,通过计算目标用户和其他用户之间的相似性,根据相似度大小计算出每个用户的“邻居”用户集合。简单来说,就是把用户分成了成千上万的群,每个群里面的用户都是足够相似的,具备类似的通信行为特征,可以认为他们是同一类人。

根据流量经营的具体需要,通过两种不同的方式开展针对性营销活动。一种是针对业务或流量套餐寻找潜在目标用户,该业务现有用户的所有邻居用户都可以视作该业务的潜在目标用户。另一种方式是对单个用户开展差异化的流量提升关怀,统计每个用户邻居用户的移动互联网业务的使用情况,向该用户推荐其邻居使用频率高的业务或流量套餐。

通过实践验证,在某地开展的流量套餐营销过程中,设计了协同式过滤模型提供名单和随机方式两个组分别进行营销,结果发现,采用协同式过滤名单的营销响应率达到21.6%,是随机方式的2.1倍,如图2所示。

需要说明的一点是,为提高该业务潜在目标用户清单的准确性,在使用协同式过滤技术提取到的潜在目标客户清单的基础上,还可以应用业务规则过滤的方法,将潜在目标用户进行二次筛选和过滤,形成最后的目标用户清单。关于业务规则过滤的内容,笔者在2010年第9期《电信科学》上发表的《3G移动增值业务全程精确营销实践》一文中已详细描述,在此不作赘述。

2.3 社交网络分析在流量经营中的应用

随着社交媒体工具(如微博等)的迅速发展,社交网络分析已经成为数据挖掘业界关注的热点。社交网络分析研究的对象是个体之间的关系。对电信运营商而言,用户之间相互通过电话和短信所发生的联系,某种意义上代表了他们的社交圈关系。因此,如何通过研究电信用户的社交圈关系,更好地了解用户的消费行为和需求特征,为用户提供更好的服务,是电信运营商开展社交网络分析的初衷。电信用户社交网络结构如图3所示。

社交网络分析在现阶段比较成熟的算法主要有两大类:一类是用户分群算法;一类是扩散分析算法。前者主要是根据社交关系把网络划分切割成若干个群体,并计算显示各个用户在社交网络中的角色,这些角色包括意见领袖、跟随者、传播者等;后者是通过建立影响力扩散模型,描述用户在社交网络中受其他用户的影响程度。

在流量经营实践应用中,社交网络分析也有两个方向:一个是抓住意见领袖、传播者等角色用户,利用他们在社交网络中的特殊身份,开展针对性的营销活动;一个是基于扩散力分析模型,计算现有用户对周边用户的影响力,为移动互联网业务寻找潜在目标用户。在电信网络中,扩散力分析可以看作在给定了一些用户原始状态信息,经过一段时间后,所有用户受到该状态用户的扩散影响。例如,已知一批用户流失,根据其之前在电信网络通话或/和短信构成的社会网络关系,计算其他用户在一定时间后也流失的可能性。

为了验证社交网络分析模型的效果,笔者所在的项目团队选取了扩散力分析模型对流量套餐营销做实证。通过选取某地2011年8-9月通话清单建立的社交网络扩散力分析模型,并选定期间已有流量套餐用户作为扩散源,统计其他用户受他们影响的扩散得分。10月底的数据显示,扩散得分排名较高的前10%用户使用流量套餐的比例为2.51%,而流量套餐的总体新增比例仅为0.95%,由此可推断,扩散力分析模型输出的潜在目标用户名单具备更高的营销成功率。

3 基于终端信息数据的精细化流量经营

手机终端作为用户使用移动互联网业务的载体,是流量经营不可忽视的重要组成部分。终端信息数据主要包括手机终端的产品信息、功能信息和位置信息等。需要说明的是,在实际营销应用过程中,终端信息往往是作为基础数据,要与其他系统联动才能体现其价值。

3.1 终端特征与高流量用户的关联关系挖掘

为更好地了解高流量用户的终端选用偏好,有必要开展终端特征与用户流量价值的关联关系挖掘,其中终端特征包括操作系统、内存大小、外观设计、价格档次、电池容量等。分析的前期需要通过系统获取到所有用户的终端特征信息,并提取每个用户的流量使用情况后关联形成用户级的数据宽表。

项目实践中,笔者采用了C5.0决策树模型进行关联关系挖掘,将用户手机上网流量作为目标变量,筛选了11个终端参数变量作为输入变量。模型结果显示,根据变量对手机上网流量的区隔力,终端参数变量按照重要性排序分别为屏幕尺寸、摄像头像素、重量、触摸屏类型、分辨率、待机类型、AP主频、RAM大小、WLAN功能、待机时间、手机价格。同时,模型输出了有实用意义的关联规则,如图4所示,再对原始规则做进一步的提炼后得到两条关键的高流量用户规则,一个是屏幕尺寸在3.5英寸及以上,另一个是屏幕尺寸在3.5英寸以下,但具备WLAN功能且重量较轻者。根据模型输出的规则,一方面可以指导运营商终端的采购策略,另一方面可以对符合规则的低流量用户进行针对性的营销活动。

3.2 终端更换事件营销

用户更换手机终端对运营流量经营而言是个重要的时间机会,通过实时获取用户的新终端信息,一方面可以基于新终端相对旧终端的新功能有针对性地推荐业务,如一非智能手机用户更换了一款智能手机,运营商即可对用户推荐一些常用的移动互联网业务客户端,如微博、手机证券等给用户安装使用;另一方面,可以预先分析每款终端用户群的移动互联网业务使用特征,在用户更换使用某款终端时,按照该款终端的用户使用习惯,给用户推荐尚未订购的业务。

基于终端位置信息的数据挖掘的前景一直被业界看好,但目前国内运营商在这方面的应用实践还不多,是下一步研究的一个方向。

Help of Data Mining for Delicate Traffic Operation

Chen Zhijing,Liang Bohan
(Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China)

In the era of mobile internet,mobile data traffic is growing at an unprecedented rate.The telecom operators are facing problems,such as great increase in data traffic but not in income,the penetration of traffic packages is not high,the promotion of its own mobile internet applications is difficult,and so on.This paper is based on the actual case of the telecom operators,and it introduces the use and effect of collaborative filtering,social network analysis,decision tree data mining technology in traffic operation.

traffic operation,data mining,collaborative filtering,social network analysis,decision tree

2012-06-10)

猜你喜欢
运营商终端社交
社交之城
英语世界(2023年6期)2023-06-30 06:28:28
社交牛人症该怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
X美术馆首届三年展:“终端〉_How Do We Begin?”
现代装饰(2020年8期)2020-08-24 08:22:58
社交距离
第一财经(2020年4期)2020-04-14 04:38:56
通信控制服务器(CCS)维护终端的设计与实现
你回避社交,真不是因为内向
文苑(2018年17期)2018-11-09 01:29:28
多功能北斗船载终端的开发应用
电子制作(2016年15期)2017-01-15 13:39:14
取消“漫游费”只能等运营商“良心发现”?
消费者报道(2016年3期)2016-02-28 19:07:30
第一章 在腐败火上烤的三大运营商
IT时代周刊(2015年9期)2015-11-11 05:51:43
三大运营商换帅不是一个简单的巧合
IT时代周刊(2015年9期)2015-11-11 05:51:27