电信套餐个性化推荐模型

2016-07-19 18:03王虎
企业导报 2016年13期
关键词:数据挖掘

王虎

摘 要:在内忧外患的市场环境下,电信运营商推出大量的电信套餐用以满足用户的各类电信服务需求,但是过量套餐加大了用户选择合适套餐的难度,对用户造成了困扰。针对电信套餐的个性化推荐问题,通过数据挖掘技术构建了基于用户消费行为的电信套餐个性化推荐模型。

关键词:电信套餐;数据挖掘;协同推荐

引言:近几年,随着国内电信市场逐渐饱和,运营商基础通信服务慢慢呈现供大于求的局面,新用户净增数逐年呈下降趋势,三大运营商之间的竞争也日趋白热化,运营商在价格竞争的同时,设计推出大量的电信套餐来满足日新月异的用户需求。然而大量电信套餐的上市行为并没有缓解各大运营商的竞争压力,反而引发一系列的问题[1]:(1)对于用户来说,电信套餐数量庞大,多种套餐的捆绑内容和额度近似,月租费却又相差很多,很难从大量的套餐中快速选择出符合用户需求的套餐,同时用户和套餐的不适配会对用户造成不必要的经济损失,容易引发用户对电信企业形象的负面评价,最终造成用户流失。(2)从企业角度来看,电信企业难以把握用户的需求和市场热点,对于新套餐的推广仍然采用粗放式的广告投放方式,造成用户审美疲劳,高成本,低回报,实际推广效果不理想,造成企业大量资源浪费。因此,电信系统主动向用户推荐合适套餐的研究十分必要。本文对协同过滤算法及其关键技术做了详细分析,并针对电信行业特点设计了电信套餐的个性化推荐模型,并对模型的主要模块进行了详细介绍。

一、协同推荐算法及其关键技术

(一)协同过滤推荐的概念。协同过滤推荐[2]也被称为社会过滤推荐,在社会群体中以兴趣相似度为度量寻找用户间的相关性,或发现项目间的相关性,基于这些关联性进行推荐活动。实现协同推荐主要有三个步骤:步骤1:收集用户偏好数据。步骤2:计算相似度,找到相似用户群或者物品。步骤3:依据推荐策略,进行推荐计算。协同过滤推荐算法根据相似度比较对象的不同,可分为基于用户的协同推荐和基于物品的协同推荐。

(1)基于用户的协同推荐算法。根据历史数据,计算所有用户对产品的喜好程度,并由此找到目标推荐用户的相似邻居集,依据算法原则“邻居用户喜欢的产品,目标推荐用户也可能喜欢”将邻居用户喜欢的产品汇总并排序形成推荐集推荐给目标用户。(2)基于物品的协同推荐算法。根据历史数据,计算所有用户对产品的喜好程度,并由此找到相似物品集,依据算法原则“正在使用物品的相似物品,用户也可能喜欢”将相似物品汇总并排序形成推荐集推荐给目标用户。

(二)相似度计算。在推荐的场景中,需要进行用户间的相似度计算,或者进行物品间的相似度计算,以下为几种常用的相似度计算方法:

(1)欧几里德距离。欧氏距离是最容易理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。两个n维向量a

(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离。

d(x,y)=■ 公式(1)

(2)Cosine相似度。Cosine 相似度被广泛应用于计算文档数据的相似度。T(x,y)=■=■ 公式(2)

(3)皮尔逊相关系数。皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在 [-1,+1] 之间。

p(x,y)= ■=■ 公式(3)

注:Sx, Sy是 x 和 y 的样品标准偏差。

(三)相似邻居的计算。根据相似度计算确定邻居主要有两种方式:(1)固定数量邻居法。不管有多少数量的邻居,我们只用距离来确认最近的K个,作为其邻居。该方法容易受K值影响,近似邻居数小于K值时,会选择远距离不太相似的点作为邻居,对推荐集造成影响,降低推荐准确率。(2)基于相似度门槛的邻居。以当前目标点为中心,K值为半径的圆范围,范围内的所有点都是其邻居,该方法不能确认邻居的数量,但是能够保证邻居用户间的相似度不会产生太大差异,确保推荐结果的准确性。

(四)协同过滤算法的优势和不足。(1)协同过滤算法的优势。1)内容难以解析的商品也能够很好的进行推荐,如电影、音乐。2)能够挖掘用户潜在需求,推荐内容新颖。(2)协同过滤算法的不足。1)稀疏性问题:如果用户历史评价信息缺失或者稀少,利用评价信息寻找相似用户的准确性就会大大降低。2)性能问题:随着推荐用户数和推荐商品种类数的增加,系统的性能会越加低效。3)冷启动问题:没有用户使用或者评价的新产品,无法运用协同推荐。

二、基于用户消费行为的电信套餐个性化推荐模型

本文根据电信行业的特点,从用户消费行为数据出发,结合数据挖掘技术和推荐方法构建了如图1所示的电信套餐个性化推荐模型。

图1 电信套餐个性化推荐模型

电信套餐个性化推荐模型共分为7个主要模块:

(1)信息收集模块。信息收集,包括用户基本信息、消费清单账单数据、用户业务订购数据、用户终端使用信息、套餐产品构成信息、套餐资费等信息的收集。(2)用户建模。先根据电信业务领域相关知识构建电信业务领域本体模型,每一个用户模型/套餐模型都是电信业务领域本体的一个实例,业务本体依据用户消费偏好数据自动生成个性化的用户模型,每一个电信套餐也依据套餐设计信息由本体生成个性化的套餐模型。(3)聚类分析模块。电信用户数据具有基数大、数据结构复杂的特点,造成推荐算法计算量巨大,推荐系统负荷过重,影响推荐效率,针对此问题采取K-means聚类对用户数据进行预处理操作,大大减少用户或者物品的最近邻居搜索范围,提高计算速度,从而提高推荐效率。为了达到细分用户的目的,需要进行两次用户聚类。一次聚类是根据用户消费占比数据将用户群划分成数个消费偏好存在差异的类簇;二次聚类是在一次聚类结果集的基础上,选择目标用户所在的类簇为第二次聚类的数据源,根据用户在各业务的消费量值为依据来进行用户的聚类划分。(4)寻找邻居用户集模块。在聚类结果集的基础上,选择合适的相似度计算方法进行用户相似度计算,并以目标推荐用户为中心,以用户间的相似度为距离值,选取最近的K个用户作为目标推荐用户的最近邻居用户集。(5)个性化推荐集生成模块。由邻居用户集确定套餐预测集和增值业务预测集,同时进行TOP-N筛选、电信业务规则过滤和用户-套餐的适配比对过程,最后形成一个满足用户电信需求的套餐或者增值业务推荐集。(6)套餐推荐模块。以分区推荐的方式,将个性化推荐集混合推荐给目标用户,并给系统反馈推荐结果和相关推荐反馈信息。(7)推荐系统更新模块。根据反馈信息评估整个推荐模型和过程,确认模型存在缺陷就将更新信息反馈回电信业务领域本体,更新本体结构和概念等信息,生成新本体,同时重新生成用户模型和套餐模型。

结论:本文主要介绍了协同过滤算法的主要思想、关键技术以及算法存在的问题,同时根据电信行业特点和数据特征,研究者提出了基于用户消费行为的电信套餐个性化推荐模型用以有效解决电信套餐的个性化推荐问题,智能推荐符合用户需求的电信套餐,从而推进电信服务产品智能化的研究进程。

参考文献:

[1] 陶如军. 中国电信:拥抱互联网思维[J]. 国企, 2014, 09:58-61.

[2] 黄仁, 孟婷婷. 个性化推荐算法综述[J]. 中小企业管理与科技(中刊), 2015, 03:271-273.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议