具有置信度的决策树在客户价值分类中的应用

2019-11-12 12:01常志玲
电脑知识与技术 2019年25期
关键词:置信度决策树

摘要:客户价值的不同,给企业带来的利益不同,因此客户价值的科学分类成为企业成功的关键。针对客户数据收集的过程中难免会有特殊实例或噪声数据造成数据的不一致性,把变精度粗糙集的分类质量的量度作为信息函数对客户价值进行分析,对两个甚至两个以上属性的分类质量量度相等的特殊情形,选择归属度大于[β]的分支数目少的属性对客户价值进行分类,最终生成具有置信度的决策树。实验表明,该算法能够有效地处理不一致性数据集,并能合理地将客户价值进行合理分类,供决策者参考。

关键词:决策树;变精度粗糙集;置信度;客户价值;客户分类;

中图分类号: TP182        文献标识码:A

文章编号:1009-3044(2019)25-0193-04

Abstract: Classification of customer value is the key to enterprises success. A decision tree based on Variable Precision Rough Set is applied to the analysis of customer value about the inconsistency in the dataset of customer relationship management. The Measure of Quality of Classification is acted as information function to select the condition attribute in this method, and the maximum number of ownership attributes are acted as the node when two or more attributes have the same value of quality of classification. The method can classify the data set of customer correctly and find some valuable decisions for analysis.

Key words: Decision Tree; Variable Precision Rough Set; Confidence; Customer Value; Customer Classification

隨着“一带一路”的构建,企业面临全球竞争,客户是企业竞争的重点对象,要想让企业在竞争中获胜,就要留住老客户,发展潜在客户,因此要满足不同客户所需要的不同服务。另外不同的客户给企业带来的利润不同,比如占20%的VIP客户却可以给企业带来80%收益,而占80 %的一般用户给企业只能带来20%利润,因此科学的客户价值分类就非常重要了。现在客户除了比较产品的价格和质量外,还比较产品的售后、服务态度等方面,为此,客户关系管理系统[1,2](Customer Relationship Management简称CRM)就产生了。CRM可以动态及时地分析客户的行动大数据,获取客户的需求,对客户的未来行为进行预测,分析客户的价值,对客户进行科学的分类,针对不同的客户提供不同的服务,留住高价值客户,发展潜在客户。

但是CRM系统中庞大的数据量阻碍了人们从中发现有价值的客户关系模式,随着数据挖掘技术的发展,国内外很多学者也把粗糙集[3,4]、决策树[5,6]、神经网络[7,8]等应用到CRM的客户价值数据信息挖掘中,但是在客户数据收集的过程中难免会有特殊实例或噪声数据造成数据的不一致性,从而影响分析的结果。因此本文使用引入置信度和变精度粗糙集的分类质量的量度对经典决策树进行改造,然后使用改造后的决策树对客户的历史数据进行挖掘,从而避免了不一致信息对预测结果的影响,挖掘出若干合理的客户数据规律,供企业决策者参考。

1 具有置信度的决策树模型

1.1决策树

在数据挖掘中,决策树[9]算法是一种非常有效的分类方法之一,它是一种树结构,由结点、分支和叶子组成,其结点用样本的属性组成,分枝由属性的取值组成,叶结点由样本的类别值构成。它采用自上而下的递归方法,根结点是由信息量最大的属性构成,中间结点是以该结点为根的子树所包含的样本中信息量最大的属性。比较典型的决策树算法ID3算法[10],由J.R.Quilan在1986年提出,该算法的树结构的结点选择了属性的信息增益最大者。自20世纪60年代以来,决策树广泛应用于预测、分类和规则获取等领域。还有后来的C4.5算法,是对ID3算法的改进,它的树结构的结点采用信息增益率最大者。这些算法在分类预测中都取得了很好的效果,但是在某些方面都存在着不足,比如针对训练集数据中难以避免的噪声数据就没法处理了,因此难以提高决策树的泛化能力,所以就有人针对不可避免的噪声数据,使用变精度粗糙集理论对现有决策树进行构造[11],取得一定效果。本文根据实际问题,在前人研究的基础上利用变精度粗糙集理论的最大分类质量量度结合归属度对决策树进行进一步构造,很好地避免了不一致信息对预测结果的影响。

1.2变精度粗糙集模型

Pawlak[12]提出了粗糙集(Rough Set简称RS)模型,但是RS理论对近似边界定义太严格,不利于处理噪声数据,Ziarko[13]等人针对这个问题提出设置[β]阈值参数,来放松近似边界的定义,其中[0.5<β≤1],就是变精度粗糙集(Variable Precision Rough Set)。随着[β]增大,变精度粗糙集模型的近似边界区域变窄,即VPRS意义下的不确定区域变小。当[β=1]时,变精度粗糙集模型就变成了粗糙集模型,因此粗糙集模型是变精度粗糙集模型的一个特例,所以变精度粗糙集模型能够在一定程度上容忍数据的不一致性,并有利于解决属性间不确定关系或无函数数据的分类问题。

2 该模型在客户价值数据分析中的应用

2.1实例分析

对一个企业来说,区分客户的价值以及发展潜在客户是非常重要的。客户价值是指客户能够给企业带来的利润的高低。不失一般性,以本地区某超市一个月交易记录为例,随机从中选取30位顾客的391条记录。通过数据预处理,并从中随机抽取19个顾客的数据为训练集,如表1所示。其中[C={a,b,c,d}]是条件属性集,[D={e}]是决策属性。对于条件属性[a]表示所获利润,取值1表示所获利润在0~40元之间,2表示40~100元之间,3表示大于100元;条件属性[b]表示促销次数,取值1表示促销次数4次以上,2表示0~4次;条件属性[c]表示购买频率,取值1表示8次以上,2表示4~8次,3表示1~4次,4表示0~1次;条件属性[d]表示最后一次购买至今的天数,取值1表示30天以上,2表示10~30天,3表示0~10天。决策属性[e]表示客户价值类别,取值1表示低价值客户,2表示一般价值客户,3表示高价值客户,4表示最高价值客户。经分析发现该决策表存在不相容信息(例如对象11和16等,条件属性相同而決策属性不同)。

用具有置信度的决策树算法(Confidence_decision_tree)对该数据集进行决策树的构造,其过程如下:

取[β=0.667],其步骤如下:

(1)数据集[U]取值不纯;

(2)分别由Measure_Quality_Classification_algorithm计算出每个条件属性相对于决策属性的 [β]分类质量的量度为:[γβ(a,e)=0.5263];[γβ(b,e)=0];[γβ(c,e)=0.053];[γβ(d,e)=0.053];

(3)经过比较可知属性a的分类质量的量度值最大,所以选择属性[a](即所获利润)作为决策树的根结点;

(4)由于属性[a]取三个不同的值,因此形成决策树的三个不同分支,其中[a]=1(即表示利润低于40元)的数据集以75%(即大于[β])属于同一类别低价值客户,因此标记为树叶。当[a]=2(即表示利润在40~100元之间)时,再递归调用本算法,计算得[γβ(b,e)=1],[γβ(c,e)=1],[γβ(d,e)=0.22],计算[xn(b)=2],[xn(c)=4]。所以属性[b](即促销次数)符合条件选为子树的根结点进行进一步构造,当[b]=(0~4)次时,其对应的数据集66.7%(即等于[β])的属于同一类别一般价值客户,当[b]=(>4)次时,其对应的数据集66.7%(即等于[β])的属于同一类别低价值客户。当[a]=“>100”时,再递归调用上述算法,其对应的数据集66.7%(即等于[β])的属于同一类别高价值客户。

(5)结束。最终所构造的决策树如图1所示。

对于同一数据集采用C4.5算法构造的决策树如图2,采用粗糙集理论的决策树算法构造的决策树如图3所示。由于这两种算法很成熟,在此文中就不再叙述。

分析图1基于置信度的决策树模型对客户价值训练集进行分析的结果,从根结点到叶子结点得到一条决策规则,叶子结点下方的百分数为该规则的置信度(未作标记的置信度为100%)。可以看出当[β=0.667]时可以得出如下具有置信度的决策规则:

1.IF所获利润=“<40”THEN属于低价值客户(置信度为75%);

2.IF所获利润=“40~100”AND促销次数=“<4”THEN属于一般价值客户(置信度为66.7%);

3. IF所获利润=“40~100”AND促销次数=“>4”THEN属于低价值客户(置信度为66.7%);

4.IF所获利润=“>100” THEN属于高价值客户(置信度为66.7%)。

以第1条规则为例进行解释置信度的作用,75%的记录符合所获利润为“<40”,那么这类客户就是低价值的客户。根据实际情况有可能25%的客户数据是其他数据类别,即形成了所谓的噪声数据,因此不失一般性,可以认为不管什么原因,只要所获利润小于40元,认为就是低价值的客户,这样的规则是合理的。

由以上规则可以看出,所获利润基本上决定了客户类别,如第1条和第3条规则,对于低价值客户没必要花费心思去做工作,对于高价值客户要想办法保留。对于第2条和第3条规则而言,可以看出,对于低价值客户如果促销次数多一些,那么就使从低价值客户所获利润等同于一般价值客户,因此每个月可以适当地多搞几次促销活动来提高所获利润。从以上分析可以看出所得规则的合理性及有效性。

2.2结果分析与比较

为了验证本置信度的决策树在客户价值分类中的有效性能,采用硬件实验环境为:Pentium(R)4, CPU2.40GHZ,,2G内存, 软件环境:Windows XP 和Matlab6.5,使用表1的数据集,分别使用置信度的决策树、C4.5算法和基于粗糙集的决策树进行训练预测,其结果如表2所示,采用置信度的决策树模型对该数据集进行预测分析,树形结构最简单,产生的规则数目最少,其规则泛化能力最强,不会出现不可分的对象组,也就是所有对象都可分类预测,有效地避免了由噪声数据带来的过拟合问题。而采用C4.5算法和基于粗糙集的决策树对该数据进行分析预测,获得的决策树相当复杂,产生的规则数目相对多,并且都或多或少存在不可预测的对象组。例如,在图2中,符合所获利润=“40”,并且购买频率=“4~8”的记录这些客户到底是低价值客户还是高价值客户呢?确定不了。

3 结束语

在目前商业竞争日益严峻的环境下,把具有置信度的决策树应用于企业客户价值分类预测,实验表明,该方法更加科学实用,而且对产生的规则具有较高的可理解性。和其他决策树算法相比较,本置信度决策树算法所得的客户分类决策规则数量少,并能够很好避免由噪声数据所导致的不一致决策表对结果的影响,提高了该算法泛化能力,能够对特殊实例进行更好的处理,具有实际应用价值,能够为企业决策者提供更有价值的参考。

参考文献:

[1] 丁秋林.客户关系管理[M].北京:清华大学出版社,2003.

[2]  David J. Finnegan, Wendy L. Currie. A multi-layered approach to CRM implementation: An integration perspective[J]. European Management Journal, 2010(28):153–167.

[3] 侯淑源.基于粗糙集和关联规则的电子商务客户分类与交叉销售研究[D].青岛:青岛科技大学,2018.

[4] 魏娟. 基于粗糙集的知识发现及在CRM中的应用研究[D].哈尔滨:哈尔滨工程大学,2006.

[5] 尹婷,马军,覃锡忠等.贝叶斯决策树在客户流失预测中的应用[J]. 计算机工程与应用, 2014,50(7):125-128.

[6] 肖进.决策树分类器融合在CRM客户分类中的应用研究[J].软科学,2008,22(9):18-21.

[7] 张献忠.基于决策树的旅游CRM 系统的分析和设计[J].现代计算机,2018, (8):97-100.

[8] 覃华,苏一丹,何慧.基于免疫遗传神经网络的CRM数据挖掘模型的设计与实现[J].计算机工程与设计,2005,14:182-184.

[9]  Han jiawei, KamberMicheline.數据挖掘概念与技术[M].北京:机械工业出版社, 2001.

[10] Quinlan J R. Induction of decision trees[J]. Machine Learning,1986,(1):81-106.

[11] 常志玲,张晓玲.增量式的多变量决策树构造算法研究[J].计算机技术与发展,2011,21(2):90-93.

[12]  Pawlak Z.W. Rough Sets [J]. International Journal of information and Computer Science,1982,11(5):314 -356.

[13]  Z iarko W. Variable precision rough set model [J]. Journal of Computer and System Sciences,1993,46(1):39-59.

[14] 孙洁,周庆敏,常志玲.变精度粗糙集模型在决策树构造中的应用[J].计算机工程与应用,2007,43(7):195-197.

【通联编辑:唐一东】

猜你喜欢
置信度决策树
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
系统可靠性评估与更新方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
正负关联规则两级置信度阈值设置方法
基于改进决策树的故障诊断方法研究
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
置信度条件下轴承寿命的可靠度分析