一种基于K—Means算法的移动客户聚类分析方法

2016-05-14 01:12李睿颖柳炳祥万义成
数字技术与应用 2016年8期
关键词:means算法聚类分析

李睿颖 柳炳祥 万义成

摘要:客户投诉是客户对企业管理和服务不满的表达方式,是企业最有价值的信息来源,因此,如何分析处理客户投诉的数据,掌握投诉客户的基本特征,进而把客户的不满转化客户满意,锁定他们对企业和产品的忠诚,赢得客户的信任,是企业核心竞争优势所在。论文将K-means算法应用于移动客户的聚类分析中,针对某企业某段时间的移动通信投诉数据进行聚类分析,目的是根据移动公司投诉数据进行聚类,找到对每个类别客户应该采取的营销策略,以提升公司对客户的价值,改善客户关系管理工作。实验结果验证了方法的可行性和有效性,为移动客户聚类分析提供了一种分析的方法。

关键词:K-means算法 移动客户 聚类分析

中图分类号:TP309 文献标识码:A 文章编号:1007-9416(2016)08-0157-02

1 引言

客户投诉是每一个企业不可避免遇到的问题,它是客户对企业管理和服务不满的表达方式,也是企业有价值的信息来源,它为企业创造了许多机会。因此,如何利用处理客户投诉的时机而赢得客户的信任,把客户的不满转化客户满意,锁定他们对企业和产品的忠诚,获得竞争优势,已成为企业营销实践的重要内容之一。论文将K-means算法应用于移动客户的聚类分析中,目的是根据移动通信公司投诉数据进行聚类,找到对每个类别客户应该采取的营销策略。

2 K-Means算法

K-Means算法,也称为K-平均算法,是最常用普遍的基于划分的聚类方法,是根据数据样本中的属性值之间的相似度来对数据样本进行区分。它把最终分类的个数k随机地选取k个初始的聚类中心而且不断地迭代,直到取得目标函数的最小值或无法取得更进一步的优化,则生成最后的模型,即为聚类的最终结果。在K-means算法中,每一个簇当中都有一个中心,即为“质心”,k个簇同样就会有k个质心。任何一个样本被划到哪个簇中,就看它和哪个质心的“相似度”最大。K-means算法当中,权衡相似度的标准就是“距离”。一个数据样本为什么划分到这个簇,就是看这个样本是这个簇的质心的距离是最小,则是由样本的每一个属性的取值来共同参与决定。

K-Means算法的流程首先是选择k个簇的质心,由用户选定样本中的簇的数量k,然后生成k个质心;其次是计算每一个样本与k个质心的距离,把他归纳到距离最短的类别去;第三,计算出新的聚类质心,由于在指派样本的过程中,一个簇的某些样本可能会被划分到另一个簇,同时也可能其他的簇中的样本转移到这个簇中,则需要重新确定新的质心;最后,制定算法停止规则,输出最终结果。其中停止规则分为最大迭代次数和差异容忍度两种,最大迭代次数是指算法将不断重复“计算每一个样本与k个质心的距离---计算出一个新的聚类质心”,直达到“最大迭代次数”。当到达了极限后,算法停止计算,产生新的簇。差异容忍度是在每一次迭代介绍后,计算出每个簇计算前后质心的距离差,小于预先设定的差异容忍度,则算法停止,否则继续迭代。

3 K-Means算法在移动客户投诉数据聚类分析中的应用

3.1 实验数据集

实验数据集包含2711个样本,有6个属性(投诉内容,故障行政区,使用网络类型,责任原因,终端描述,客户品牌)组成,如表1所示。其中投诉内容A1-A9分别代表wifi问题、短信问题、宽带问题、国际漫游问题、手机上网问题、通话质量问题、网络设备故障、网络数据问题、信号问题。故障区B1-B20分别代表宝山区、崇明区、奉贤区、虹口区、黄浦区、嘉定区、金山区、静安区、长宁区、闵行区、浦东新区、普陀区、青浦区、松江区、徐汇区、杨浦区、闸北区、其他区域、外省、国外。使用网络类型C1代表2G网络,C2代表3G网络。责任原因D1代表客户问题,D2代表网络部门。终端描述E1-E15分别代表HTC、IPHONE、OPPO、步步高、华为、酷派、联想、中兴、小米、诺基亚、三星、索尼、其他。

客户品牌F1代表全球通,F2代表全球通VIP,F3代表动感地带,F4代表神州行。

3.2 实验过程

选取移动通信公司投诉数据excel表格导入SPPS-Modeler软件当中,首先选择“源”下方“excel”确保数据导入软件当中,其次选择“字段选项”下方“类型”确定模型的类型,最后选择“建模”下方众多模型中的“K-means”算法,完整的数据流如图1所示。

在实验过程中,选择模型使用分区数据时,确定选择聚类为几类,选取K-Means模型节点,分别选取k均值为2,3,4,5,6等多个参数进行实验分析,经过一系列k均值比较,比较得出选取k均值为5,即聚为5类;选用专家模式,选取最大迭代数10,其余参数均为默认,聚类结果如图2所示。

从图2中看出,聚类-1占训练集样本62.6%,聚类-2占6.0%,聚类-3占2.3%,聚类-4占11.0%,聚类-5占18.1%。最大聚类(聚类-1)与最小聚类(聚类-2)的比例为1:26.95。

3.3 实验结果分析

通过实验结果可知,聚类1中,投诉内容大致为信号问题、短信问题、通话质量差,通常这个投诉点发生在2G网络使用情况下,公司旗下每个品牌都有这些投诉现象。聚类2中,投诉点主要集中“神州行”用户对短信接收问题,以及对短信计费问题。聚类3中,投诉点在信号以及wifi问题。这类的wifi问题指在无线热点没法连接或者信号微弱,以及无法登录。聚类4中,在“神州行”品牌客户中,2G的网络手机网络数据会出现问题,建议所有的使用2G网络的客户,可以到移动营业厅或者网上营业厅进行网络免费手机,免费换3G卡的业务,并且资费不变。聚类5中,责任原因归属在网络部门自己。移动客户投诉所用的问题中,责任都出现在网络部门没有经常性的维护和发现问题。加强内部管理,加大检修力度,将信号问题有效的解决掉,这样客户的满意度才会增长。

4 结语

通过移动通信公司投诉数据聚类分析的实验表明,K-Means算法表现出相对良好的聚类性能。经过k取值的不同进行不断的比较,大大提高了聚类的优越性,从而实现良好的聚类性能。利用K-Means算法对移动通信公司投诉数据进行聚类,找到对每个类别客户应该采取的营销策略,提升客户价值,改善客户关系管理工作。

参考文献

[1]刘尧坤.顾客投诉管理与处理技巧[M].广州:广东经济出版社,2005.

[2]徐远纯,盛昭瀚.一种基于决策树算法的客户流失分析方法[J].计算机与现代化,2004 (8).

[3]赵小宁,李凤霞.因子分析法和聚类分析法在网上银行客户满意度研究中的应用[J].时代金融,2015(3).

[4]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报(自然科学版),2006 (12).

猜你喜欢
means算法聚类分析
SIFT算法在木材纹理分类上的应用
基于省会城市经济发展程度的实证分析
基于数据抽样的自动k⁃means聚类算法