利用ClementineC5.0模型预测CDMA客户流失

2011-12-31 00:00:00
电脑知识与技术 2011年20期


  摘要:该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测。通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型。此模型对客户流失预测有较高的准确性,为电信经营分析系统作了有益的尝试与探索。
  关键词:数据挖掘;客户流失;统计分析;C5.0模型;CDMA客户
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)20-5031-02
  1 概述
  以中国电信云南某公司的项目支撑为基础,从统计数据来看,维持5%的老用户增长,给电信公司带来的利润将远远超过85%,而要想把一位非电信用户发展成客户,其成本将比保留一位老客户的成本高得多,统计数据表明成本是4倍左右,此时,客户对电信的忠实程序也将发生强烈的变化,由此给企业造成的损失将大大增加。从项目的实施情况来看,为了保证成功向客户推销运营商的产品,多数人都只愿意向老客户推销。因为由此付出的代价比用户要小得多,成功率也要高得多。通过这些数据我们可以看到防范老客户的流失相比发展新用户来说就显得尤为重要了,这也是普遍企业最为关注的问题之一。
  2 研究现状及C5.0模型特点
  在我们国内,很多运营商为了应对市场的竞争,多数都己经建立了 “电信经营分析系统”,这在一定程序上为深层次的数据分析提供了良好的数据处理分析平台。而目前国内在数据利用上确远远不及国外的层次深,国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索,在更高领域的应用如数据挖掘还不太成熟,更谈不上深层次的应用。而这些在国外,很多知名的电信运营商却已经能够很好地利用数据挖掘技术,以便通过建立客户流失的模型,提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作,这样做的目的可能有效地控制入网用户的流失。
  Clementine作为一个数据挖掘软件,给运营商创造了很好的数据处理应用平台,在此平台下,运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型,而后把由此模型生成的数据使用在推销应用领域。参照行业执行标准CRISP-DM模型,我们可以有效地改进决策过程,这不仅可以数据到更优商业成果的数据挖掘。而且还可以这样可以分析出哪些属性是影响客户流失的重要因素。现在比较流行的流程包括决策树、神经网络、逻辑回归、聚类关联性分析等。本文选择的是C5.0模型节点来进行电信的客户流失预测。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本,目标字段必须为分