吴曜宏,王鹤鸣,刘义铭
(1. 中国电子科技集团公司第三十研究所,四川 成都 610041)
摘 要:随着3G市场的深入以及4G商用的开始,移动通信行业面临着激烈的竞争,企业的发展型态已由过去以产品为中心的经营方式转变成为以客户为中心的消费型态。企业的发展必须以对客户的需求和消费行为的了解为重心,否则将会流失重大的商机。对于移动通信行业来说,如何通过数据挖掘技术去找优质客户群及可能流失的客户群具有十分重要的意义。利用数据挖掘技术,通过建立模型,预测电信企业的客户流失情况,为企业提高效益提供参考。
关键词:数据挖掘;移动通信;客户预测
doi:10.3969/j.issn.1002-0802.2015.06.019
基于数据挖掘的移动用户预测
吴曜宏1,王鹤鸣1,刘义铭1
(1. 中国电子科技集团公司第三十研究所,四川 成都 610041)
摘要:随着3G市场的深入以及4G商用的开始,移动通信行业面临着激烈的竞争,企业的发展型态已由过去以产品为中心的经营方式转变成为以客户为中心的消费型态。企业的发展必须以对客户的需求和消费行为的了解为重心,否则将会流失重大的商机。对于移动通信行业来说,如何通过数据挖掘技术去找优质客户群及可能流失的客户群具有十分重要的意义。利用数据挖掘技术,通过建立模型,预测电信企业的客户流失情况,为企业提高效益提供参考。
关键词:数据挖掘;移动通信;客户预测
doi:10.3969/j.issn.1002-0802.2015.06.019
收稿日期:2015-02-19;修回日期:2015-04-20Received date:2015-02-19;Revised date:2015-04-20
中图分类号:TP311
文献标志码:码:A
文章编号:号:1002-0802(2015)06-0724-05
Abstract:For the deep-going of 3G markets and the beginning of 4G commercialization, the mobile industry faces fierce market competition. The development pattern of the enterprises changes from product-centric operation mode in the past times to the customer-centric operation mode at present. The enterprise must, for its development, focus on the requirements and consuming behaviors, or otherwise it would lose the major business opportunities. It is very important for the mobile industry to find the high-quality customer groups and the possibly lost customer groups via data mining technology. This paper describes the model based on data mining technology. Simulation results show that this method can effectively forecast the customer loss of telecom enterprise, and provide a reference for enterprises to improve their efficiency.
作者简介:
Mobile Customer Forecast based on Data Mining
WU Yao-hong ,WANG He-ming ,LIU Yi-ming
(No.30 Institute of CETC, Chengdu Sichuan 610041, China)
Key words:data mining; telecommunication industry; customer prediction
0引言
自我国电信重组以来,逐步形成了多家运营商共同竞争的市场格局。随着3G市场的深入以及4G商业化的开始,电信产业的竞争变得尤为激烈,并且竞争的方式已悄然发生改变。企业的发展型态已由过去以产品为中心的经营方式转变成为以客户为中心的消费型态。企业的发展必须以客户的需求和消费行为的了解为重心,否则将会流失重大的商机,造成企业的损失。事实上,电信市场已趋近饱和,再加上电信行业市场的激烈竞争,因而,要在这样的环境下再去花更多的人力、物力、财力去开发新的客户,对电信企业来说并不是一个有效的方法。那么,如何才能留住客户并不断挖掘新的客户,以增加企业效益,对于移动通信行业具有十分重要的意义。
1数据挖掘基本概念
1.1数据挖掘的产生
数据挖掘(Data Mining,DM)自提出以来,其发展经历了经典的统计,人工智能,机器学习三个阶段。特别是在对商业和服务型领域所需要的大量数据进行处理应用时,数据挖掘技术可以充分发掘隐藏在海量数据后的价值信息,这是传统的数据分析方法无法做到的。数据挖掘是数据库技术、信息科学、可视化等各种学科综合发展的结果。
数据挖掘技术是企业从海量数据中找出有价值的信息的一项利器。现代企业搜集了大量的数据,包括交互过程中产生的客户信息、市场收集信息、行业态势信息等各种重要信息,但是这些信息往往数据量过大且杂乱无章,使得企业决策中无法直接利用,甚至可能会因为理解和利用的失误导致决策行为产生严重错误。如果能够利用数据挖掘技术,从数据库中挖掘出有用的信息与知识,作为决策支撑,必然能增强企业的竞争优势。
图1数据挖掘的多学科交叉
数据挖掘技术自产生以来,就引起了人们的重视,众多学者开始关注这一新领域,并不断研究。文献[1]对数据挖掘的概念、发展及其常用技术作了详细而深入的研究。对数据挖掘中相关技术、算法的改进作了进一步的研究。文献[2]则对数据挖掘的应用进行了研究,分别阐述了其在客户忠诚度分析及CRM系统中的应用。这些研究都不断推动着数据挖掘技术的快速发展。
1.2数据挖掘的定义及体系结构分析
数据挖掘,就是从大量的数据中发掘出有用信息,并且加以分析和利用。其主要由各类数据库或数据仓库、数据挖掘引擎、知识、模式评估、图形用户界面模块组成,这些模块的有机组成就构建了数据挖掘系统的体系结构,典型的数据挖掘体系结构如图2所示。
图2典型的数据挖掘体系结构
下面对各个有机组成的模块作简单介绍。
(1)数据库或数据仓库服务器:数据挖掘的基础是相关数据信息,因而,当数据挖掘过程开始时,数据库或数据仓库服务器从底层的操作性数据库或数据仓库,甚至是外部数据源中通过一定的处理过程提取相关数据,如对数据进行清理、过滤、转换、集成等。
(2)领域知识库:领域知识库主要用来指导搜索和挖掘的过程,或对挖掘的结果进行评价。
(3)数据挖掘引擎:该模块可以说是整个挖掘体系中最核心最重要的组成部分,一般由多个功能模块组成,用于对数据进行深层次的分析和处理,如:分类模块、聚类分析模块、关联规则模块、时间序列模块等。
(4)模式评估模块:该模块主要是实现与数据挖掘模块的交互,使得数据挖掘能够按照预期的方向进行。一般来说,模式评估模块与数据挖掘引擎集成度越高,其交互影响也就越深,则该系统越高效。因而,在设计数据挖掘系统的过程中,二者的交互是必须要考虑的。
(5)图形用户界面:该模块主要是采用图形方式来实现用户和数据挖掘系统之间的交互,提供相关交互接口。在实际应用中,由用户提出数据挖掘任务,提供一定的数据挖掘参数,指导数据挖掘的过程,并根据数据挖掘返回的过程处理结果进行干预和指导,从而更进一步研究数据挖掘工作。此外该模块还可以实现用户对数据库的浏览及对挖掘模式的额评估。
2常用数据挖掘模式
一般的数据挖掘可以分为预测型挖掘和描述型挖掘两种。预测型数据挖掘一般由已知结果建立,用于预测新的行为表现,如分类(classification)、回归分析(regression)、时间序列(time series)等。描述型数据挖掘大多为分析现有数据,描述数据中的行为关系,如分群(clustering)、关联法则(association rule)、序列分析(sequential affinity)等。数据挖掘按其学习模式的不同又可分为监督式学习的数据挖掘技术及非监督式学习的数据挖掘技术,分别以分类技术和分群技术为代表。
数据挖掘的这些模式已经成功应用于各个行业。文献[3]利用数据挖掘对LTE网络进行优化,文献[4]则阐述了数据挖掘在电子商务中的应用。电信市场的竞争激烈,要在这样的市场格局再去花更多的人力、物力、财力去开发新的客户并不是一个有效的方式。本文将以用户数据信息为样本,构建数据挖掘算法,分析其特征。
3模型建立与仿真分析
3.1建模方法分析
首先,筛选出客户数据中的重要属性,通过与专家讨论的方式,过去的经验值以及参考相关文献来选择客户的属性。然后,对数据进行预处理,并将数据分成训练数据及测试数据来建立优质客户及可能流失客户的预测模型,并对模型做评估与比较,其实现流程如图3所示。数据的预处理的主要目的是避免“垃圾进,垃圾出”的情況。针对原生数据中的不完整或不一致或无法辨别的数据进行加工处理。而另一方面,也对数据进行筛选,降低数据处理的维度。
图3 客户流失预测实现流程图
3.2实现算法
数据挖掘的算法很多,如文献[4]提出的基于遗传规则算法。本文根据移动通信行业实际,采用决策树中的C4.5算法。C4.5算法是先构建一颗完整的决策树,再针对每一个内部节点依使用者定义的错误预估率(Predicted Error Rate)来做判定树修剪的动作。而C4.5在建立分支节点时,则是通过内部节点的数据比重,动态的去决定判定树的分支节点。C4.5算法构造决策树的过程为:
Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性,S:训练集)
Begin
If S为空,返回一个值为Failure的单个节点;
If S是由相同类别属性值的记录组成,
返回一个带有该值的单个节点;
If R为空,则返回一个单节点,其值为在S的记录中找出的频率最高的类别属性值;[注意未出现错误则意味着是不适合分类的记录];
For所有的属性R(Ri) Do
If属性Ri为连续属性,则
Begin
将Ri的最小值赋给A1:
将Rm的最大值赋给Am;
For j From 2 To m-1 Do Aj=A1+j*(A1Am)/m;
将Ri点的基于{< =Aj,>Aj}的最大信息增益属性(Ri,S)赋给A;
End;
将R中属性之间具有最大信息增益的属性(D,S)赋给D;
将属性D的值赋给{dj/j=1,2…m};
将分别由对应于D的值为dj的记录组成的S的子集赋给{sj/j=1,2…m};
返回一棵树,其根标记为D;树枝标记为d1,d2…dm;
再分别构造以下树:
C4.5(R-{D},C,S1),C4.5(R-{D},C,S2)…C4.5(R-{D},C,Sm);
End C4.5
3.3建模结果与分析
通过挑选的八个客户属性包含客户的性别、客户的年龄、客户的费率方案、客户的付款方式、客户的欠款金额、客户的入网年限和客户平均账单金额来建立预测模型。由于客户的平均账单金额是连续型的数值。所以,将平均账单金额用类别的方式做分类,然后增加一个平均账单金额范围的属性并作为目标属性。而分类的方式则是按照移动公司内部政策将平均账单金额做分类。如表1所示。
表1 账单分类
经过决策树的分类,找出预测的模型,而预测客户平均账单金额模型此实验结果是将客户分成四群,分别是1.06,1.98,2.85,3.97这四类的客户群。第一群是1.06这个群组,代表的是客户平均账单金额小于250.5元的客户群。第二群是1.98这个群组,代表的是客户的平均账单金额大于或等于250.5元且小于1 299.43元的客户群,以此类推。比较移动公司与本文预测模型对账单平均金额的分类情况。如下表2所示。
表2 账单分类的对比
假定在当时移动公司对于优质客户群是定义在客户的平均账单金额大于或等于1 400元的群组里,即表2中的第3、4、5的群组。而本文对于优质客户群的定义则是平均账单金额大于或等于1 299.43元的群组里。
当预测出客户的平均账单金额的范围后,可以针对所定义的客户群去找出需要的优质客户。而优质客户就是落在平均账单金额范围是在3~5的客户群,另一种就是平均账单金额大于1 299.43的客户。但是,如果客户的平均账单金额大于1 299.43,而可能这样的客户早就已经流失掉了。为了让预测模型更准确,进一步做客户群是否会流失的预测,以确定所预测出来的优质客户是具有实质意义的。图4所示为用于分析四类的客户群是否会流失的预测模型。
图4预测模型
通过上面的模型,只有账单平均金额范围落在1,账单平均金额介于0到250.5元的客户才会流失。而优质客户,即账单平均金额范围是3、4的客户是不会流失的。表3为选择数据进行的四次实验情况和预测的平均准确度。
因而,第一次的预测准确度为(339+229)/639=88.8889%;以此计算得第二、第三、第四次的预测准确度分别为89.5149%、88.7324%、88.8889%。平均准确度为:89.0063%。
从模型结果可以看出,在预测客户平均账单金额的模型中,平均准确度达到89.0063%。这就意味着可以通过所建立的预测模型筛选出优质客户群。同时,也可以发现一些预测错误客户的特征。因而,客户有效的分群(包括优质客户,可能流失的客户以及预测错误的情况) ,那么就能与不同的客户群保如果将客户有效的分群(包括优质客户,可能流失持良好的关系,进而降低客户的流失比例。一方面,可以让优质客户可以持续为企业创造利润。另一方面,也能及早地对于可能会流失的客户采取一定的措施,以避免客户大量的流失。此外,还可以针对预测错误的情况加以分析,避免让企业花更多的成本去处理不具实质效益的客户群。
表3 预测结果
4结语
数据挖掘及数据仓库技术在电信行业中具有十分广泛的应用,包括客户细分,业务预测,重要客户挖掘以及客户流失预测和控制识别等。本文阐述了数据挖掘的体系结构及常用模式,针对移动通信行业的客户流失问题,建立了基于用户集合的数据挖掘模型,对移动通信行业的优质客户及可能流失客户进行预测,仿真分析结果验证了该模型的有效性及实用性。通过所建立的预测模型挖掘出优质客户群,并对将流失的客户群采取针对性措施,将大大提高企业的效益及数据的价值。
参考文献:
[1]HAN Jia-wei,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2005.
HAN Jiawei, Micheline Kamber.Data Mining Concepts and Techniques.[M]. Beijing: China Machine Press,2005.
[2]刘芳,郭宇春.基于数据挖掘的用户忠诚度分析[J].计算机技术与发展,2013,07(23):14-17,21.
LIU Fang, GUO Yu-chun. User Loyalty Analysis based on Data Mining[J].Computer Technology and Development,2013,07(23):14-17,21.
[3]刘毅,刘珂,孔建坤.基于大数据挖掘的LTE网络规划研究[J].通信技术,2015(02):194-198.
LIU Yi, LIU Ke, KONG Jian-kun.TD-LTE Network Planning based on Big-Data Mining [J].Communications Technology, 2015(02):194-198.
[4]李岚.数据挖掘技术在电子商务中的应用[J].通信技术,2007(08):74-76.
LI Lan. Application of Data Mining Technology In Electronic Business [J].Communications Technology,2007(08):74-76.
吴曜宏(1981—),男,硕士,主要研究方向为计算机网络及通信技术;
王鹤鸣(1988—),男,助理工程师,主要研究方向为数据库、信息处理;
刘义铭(1982—),女,硕士,主要研究方向为信息安全。