基于组合预测模型的数据挖掘技术研究与探索

2018-01-29 07:36
实验室研究与探索 2017年12期
关键词:决策树数据挖掘遗传算法

闫 贺 新

(吉林工程职业学院, 吉林 四平 136000)

0 引 言

客户流失是通信行业面临的重要问题,不仅会使企业市场占有份额缩小,还会出现客户恶意离网产生欠费行为,从而增加了经销商的运营成本。为使企业利润最大化,以获得更大的生存空间,各运营商都把争取更多的客户作为经营理念和目标。数据显示:发展一位新客户的成本是挽留一个老客户的4~6倍,而客户忠诚度下降比例则是企业利润下降比例的4倍[1],可见做好客户关系管理,防止客户流失是通信行业提升企业核心竞争力的重要途径。

针对上述问题,出现了很多有效的数据挖掘算法[2]。为了提高电信客户流失预测精度, 提出一种基于主成份分析支持向量机的电信客户流失预测方法,获得较为理想的预测效果[3]。针对决策树算法测试属性选取上存在的缺点, 建立基于Weka的知识自动获取的客户流失预测模型,克服了决策树算法取值偏置的问题[4]。为了避免现实中流失客户与未流失客户比例偏斜问题,采用多基决策树联合决策的方法进行建模,与单个分类器相比, 提高了预测模型的查准率和泛化能力[5]。提出了一种基于慢启动的频繁模式挖掘算法,用于电信企业客户流失预警模型[6]。纵观以上文献,都采用了单一的预测方法,但每种算法都存在一定的不足,从而使结果不能达到最佳。基于此,本研究以提高客户流失预测命中精度为目标,结合决策树、遗传算法以及单神经元3种模型特点,尝试建立一种多算法组合预测模型,并对某电信企业进行客户流失预测与评价。

1 数据挖掘算法分析

数据挖掘是指在海量的、杂乱的数据中提取隐含在数据当中具有潜在利用价值的信息,通过分析能够为人们提供决策作用的过程[7],广泛应用于地理、电信、银行等领域。基于CRISP-DM标准的数据挖掘过程包括业务与数据理解、准备、建模、评估和部署等环节,是一个不断往复优化过程,其中数据准备、建立模型、模型评估是数据挖掘重要的组成部分,见图1。

图1 CRISP-DM数据挖掘流程

(1) 数据准备。数据准备是数据挖掘结果准确与否的前提条件,是利用计算机技术对数据信息的预先处理,主要功能是将杂乱的、不符合规则的无效数据进行清洗和筛选,再根据业务分析的结果对数据进行整合与转化,为建立模型奠定良好的数据基础。

(2) 建立模型。模型的建立是数据挖掘的核心部分,不同的挖掘算法对数据的抽取和处理方式不尽相同,产生的结果也各有差异,可以根据不同的数据特点及业务需求选择最合适、最有效的挖掘算法。

(3) 模型评估。为检测经过数据挖掘得到的结果是否达到预期要求,需要对模型进行评估。如果发现挖掘结果不符合业务需求,则需要重新选择数据或采用其他挖掘算法。

随着研究的不断深入,各种挖掘算法不断被完善和优化。根据研究内容,现只对决策树、遗传算法以及单神经元3种典型的分类方法进行分析对比。

1.1 决策树算法

决策树(DT)是一种类似流程图的树形结构,由若干分支和结点组成,节点表示某个属性的测试,分支代表每个测试的结果,根节点与叶结点之间的路径就是一条分类规则[8]。决策树算法的预测过程一般分两个阶段:① 利用训练集建立并进化一棵决策树;② 测试各节点的属性值,对决策树进行检验、校正,例如图2是预测客户信用风险的流程框图。

图2 决策树算法举例

1.2 遗传算法

遗传算法(GA)是根据达尔文优胜劣汰法则产生的用于模拟生物进化过程的计算模型。遗传算法具有很强的全局搜寻能力,不受函数本身连续性的影响,包括初始化种群、个体评估、执行选择运算、执行交叉运算、变异运算等过程[9-10],其流程如图3所示。

图3 遗传算法流程

1.3 人工神经网络算法

人工神经元(ANN)是通过模拟人脑功能而提出来的一种算法,具有很强的逼近功能,用于表示从多输入到单输出的映射关系,如图4所示。

若把wji作为输入量所对应的权重值,神经元的阈值为θj,则输出Rj的表达式为:

(1)

神经网络的训练学习指按一定的规则自动调整神经元之间的连接阙值,寻找最佳的目标函数,并可根据外部条件变化自动调整的过程[11-13],如图5所示。

图4 人工神经元模型

图5 神经网络的训练过程

2 基于多算法组合模型的客户流失预测

电信企业运营过程中的流失客户可以分成两种类型:一种是因为企业之间的竞争、套餐变更以及服务质量等因素引起的主动客户流失。另一种是由于话费欺诈、恶意停机等因素引起的被动客户流失,前者的一般形式为主动解除或变更合同,后者的一般形式为欠费停机等形式的账户休眠[14]。客户流失关系到通信运营企业的利润收入以及生活空间,如何建立有效客户流失预测模型是判断客户是否有流失倾向的关键。

2.1 预测模型

在数据挖掘软件平台Clementine 中建立基于决策树、遗传算法、人工神经网络的预测模型。构造Lagrange函数[15]:

α3zn-zn)2+ξ(α1xn+α2yn+α3zn-1)

(2)

式中:xn,yn,zn表示3种单一模型的的预测值(i=1,2,3);α1,α2,α3表示组合模型的权重系数;λ为Lagrange 算子。

利用多组合模型进行数据挖掘的步骤:

(1) 预处理。将原始数据集进行分区,数据样本和测试样本的划分比例为6∶4;

(2) 构建单一预测模型。分别用决策树C5.0、遗传算法和人工神经网络对训练集进行建模;

(3) 预测。将测试集中的样本数据带入单一模型中进行预测,得到预测分析结果;

(4) 构建组合预测模型。将单一模型的预测结果带入Lagrange函数,得到组合预测模型的权重系数,并建立组合预测模型;

(5) 计算预测结果。对Lagrange函数求解,得到组合模型预测结果。

基于Lagrange 函数的组合模型预测流程见图6。

2.2 模型评价

分别采用单一算法模型与多算法组合模型对10 000个客户信息进行预测分析,如表1所示,其中“0”代表客户没有流失,“1”代表客户已流失或有流失倾向。

为进一步分析不同模型的预测结果,对表1结果进行统计分析,得到各模型算法的预测命中率。设每个客户月均消费为人民币35元,分别得到不同模型预测客户流失的数量及误判损失,结果如表2所示。

评价结果表明,本研究所设计的基于Lagrange的多算法组合预测模型集合了各单一模型的预测优势,大大提高了客户流失的预测命中率,达到91%左右,比单一模型的预测命中率有了大幅提升,由组合模型所造成的误判损失也将大大降低。由此可见,本研究所设计的多算法组合模型预测效果好,可有效预测客户流失和流失倾向,满足企业需求,达到预期目的。

表1 不同模型算法的客户流失预测结果

表2 流失量预测及误判率对比结果

3 结 语

针对电信行业无法准确预测客户流失的问题,把数据挖掘技术应用于客户关系管理过程,根据单一预测模型的特点和缺陷,将决策树、遗传算法以及人工神经网络算法融于一体,建立基于Lagrange 函数的多算法组合预测模型。同时,用所建模型对某电信企业客户流失情况进行预测,根据客户信息、消费行为等历史数据判断客户流失的可能性。结果表明,与单一预测模型相比,多算法组合预测模型对电信客户流失预测命中率大幅提高,能有效获取客户流失倾向,为运营商采取相应措施提供理论依据,从而使电信企业营销方案的制定更具针对性,避免因营销手段的盲目性造成成本浪费。

[1] 张晓滨,高 峰,黄 慧.基于客户细分的客户流失预测研究[J]. 计算机工程与设计,2009,30 (24):5755-5758.

[2] 王梦雪. 数据挖掘综述[J]. 软件导刊,2013, 12 (10):135-137.

[3] 王观玉, 郭 勇.支持向量机在电信客户流失预测中的应用研究[J]. 计算机仿真,2011, 28 (4):115-118.

[4] 尹 婷, 覃锡忠, 贾振红,等. 基于WEKA 的客户流失预测研究[J]. 激光杂志,2013,34(5):44-46.

[5] 郭俊芳, 周生宝. 基于联合决策树的客户流失预测模型设计[J].计算机与现代化,2010 (5): 5-7.

[6] 刘志超,王 雷,谷 垒,等.基于数据挖掘技术的客户流失预警模型[J]. 微计算机信息,2011, 27 (2):176-177.

[7] 潘大胜,屈迟文. 一种改进ID3型决策树挖掘算法[J]. 华侨大学学报(自然科学版),2016,37 (1):71-73.

[8] 蔡中民.PSO 遗传算法进行数据挖掘的策略构建和分析[J].科技通报,2013, 29 (3):176-177.

[9] 余小双.遗传算法及其在数据挖掘中的应用研究[D]. 武汉:武汉纺织大学, 2010.

[10] 童翔威.RBF神经网络在数据挖掘中的应用研究研究[D].长沙:中南林业科技大学,2009.

[11] 储 兵,吴 陈,杨习贝. 基于RBF 神经网络与粗糙集的数据挖掘算法[J]. 计算机技术与发展,2013, 23( 7):87-91.

[12] 常 凯. 基于神经网络的数据挖掘分类算法比较和分析研究[D]. 合肥:安徽大学,2014.

[13] HE Cong, REN Li-hong, DING Yong-sheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J]. Journal of Donghua University, 2014,31(2):92-97.

[14] 王振环.基于数据挖掘技术的电信领域客户流失预测系统的研究与实现[D].长春:吉林大学,2006.

[15] 刘光远, 苑森淼, 董立岩. 数据挖掘方法在用户流失预测分析中的应用[J]. 计算机工程与应用,2007, 43( 9):154-156.

猜你喜欢
决策树数据挖掘遗传算法
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于并行计算的大数据挖掘在电网中的应用
基于遗传算法和LS-SVM的财务危机预测
基于决策树的出租车乘客出行目的识别
基于改进的遗传算法的模糊聚类算法
一种基于Hadoop的大数据挖掘云服务及应用