郑焱
摘 要:ID3算法作为最经典的决策树分类方法,因其直观、简单、容易实现等优点,在电子商务领域得到了广泛应用。文章首先分析了ID3算法的基本原理与流程,然后以某商务网站为例,以其客户交易数据为研究对象,深入探讨了该算法在客户分类中的具体应用。通过该算法的使用,可对商务网站的客户进行准确分类,从而为其开展个性化服务及精准营销提供重要的理论依据。
关键词:决策树分类方法;ID3算法;客户分类
中图分类号:TP305 文献标识码:A
Abstract:ID3 algorithm is the most classical decision tree classification method.Because it is simple and easy to implement,it has been widely applied in EC.This paper first analyzes the basic principle and process of ID3 algorithm. Then this paper uses a business website as an example and takes its customer transaction data as the research object to discuss the specific application of ID3 algorithm in customer classification.With this algorithm,we can accurately classify the customers of business websites to provide an important theoretical basis for personalized service and precision marketing.
Keywords:the classification method of the decision tree;ID3 algorithm;customer classification
1 引言(Introduction)
ID3算法是最典型的決策树分类算法之一,通过该算法可实现对样本的精确分类,方便进一步进行精细化处理。因ID3算法的实用性,近年来许多专家学者对该算法的优化及应用进行了探讨与研究,如赵克新等[1]针对无人机空战态势估计中存在的多参数、非线性、实时性等问题,提出了一种改进决策树思想的态势估计推理方法,并验证了该方法的效率及准确性;徐兵等[2]提出了一种基于梯度提升决策树的车辆换道融合决策模型,并以NGSIM车辆轨迹数据集为基础,对支持向量机(SVM)、随机森林(RF)、GBDT及基于GBDT的融合决策模型进行了训练及性能测试,验证了本文所提出方法的准确率;柴宏涛[3]针对作战体系中信息资源分类过程中存在的问题,提出了一种基于ID3算法的分类映射模型,并应用算例进行了模拟;陈茜等[4]通过调查问卷收集了湖北省相关高校及其他单位的人才需求信息,使用ID3算法构建决策树模型,分析了影响相关人才留在某二线城市和留在武汉主客观因素,并据此提出了武汉市引进、留住人才的对策建议;罗计根等[5]针对ID3算法的局限性提出了一种融合GINI指数的ID3改进算法,较好地解决了信增益偏好属性值多的问题,并应用六组UCI数据集进行效果验证等。可见,目前该领域的研究仍然比较活跃,方法的改进及应用领域的拓展依然是研究的重点。
2 ID3算法的基本理论(The basic theory of ID3 algorithm)
2.1 相关定义
信息量(熵):用来反映决策树一个结点的信息容量。设为样本集合,,类别属性。假设为类别中的样本个数,则该集合S所包含的信息量(熵)为[6]:
可见,是对给定对象进行分类的信息量与利用属性划分当前样本集合信息量的差值。在构建决策树的过程中,可利用的值来对各属性的重要性进行评估。
2.2 ID3算法流程
ID3算法的核心是基于“信息熵”理论,其构建决策树的过程是:首先根据式(3)计算出每个属性的值,然后将各属性的值按由大到小排序,取出值最大的属性作为划分标准,不断重复该过程,直至生成一个决策树。具体算法流程如图1所示。
图1 ID3算法流程
Fig.1 ID3 algorithm flow chart
3 ID3算法在商务网站客户分类中的应用(Application of ID3 algorithm in customer classification of business website)
随着电子商务的高速发展,其经营管理的复杂程度也越来越大,尤其是客户关系管理变得越来越复杂。因此,本文将ID3算法应用到商务网站的客户管理中,以决策树方法来构造模型,进行客户价值分析,找到最有价值的客户,从而开展有针对性的促销活动,更好地提供个性化的服务及精准营销。
下面以某商务网站为例,详细分析ID3算法在客户分类中的具体应用。
3.1 构造训练集
根据某商务网站的数据仓库的用户信息和日志,从中提取部分客户交易信息构建数据集,如表1所示。
3.2 计算信息增益
应用ID3算法生成决策树算法的过程如下:
(1)在表1的训练集S中,类别属性集C有两个不同取值,即{是,否},因此类别个数m=2。假设类C1对应于“是”,而C2对应于“否”,类C1有7个样本,类C2的有三个样本。根据公式(1)可计算出相应样本分类所需的信息熵:
其后,ID3算法利用的值对各属性的重要程度进行排序,取出值最大的属性构造决策树的第一个结点,并对该结点所代表的全部属性值进行测试,从而得到该结点的各个分支,依据这些分支将原有数据集分为若干个子数据集。若某结点所包含的所有数据类别相同,那么该结点就是就不用再细分,标记为决策树的叶结点。
3.3 构建决策方案
根据计算结果可知,属性“消费金额”所获得的信息增益最大,因此该属性将作为测试属性产生当前分支結点。因该属性有三个不同取值,故产生三个不同分支,则将当前样本集合划分成三个不同子集。划分结果如图2所示。
从图2可知,“消费金额”<50的样本类别的取值均为“是”,因此在该分支结果标记为“是”,并产生一个叶结点。根据训练样本集合,依据以上处理过程,最终所产生的决策树如图3所示。
通过ID3算法的分析,可知“消费金额”是决策树分支的最重要因素,其次为“购买方式”“商品种类”“是否女性”等。根据图3所示的决策树,得出如下结论:
(1)易流失客户为以下三类:
①消费金额在50—100,购买方式采用普通方式的客户;
②消费金额大于等于100,参加团购,不是女性的客户;
③消费金额大于等于100,采用普通方式购买的客户。
(2)忠实客户为以下三类:
①消费金额小于50的客户;
②消费金额在50—100,参加促销的客户;
③消费金额大于等于100,参加团购,是女性的客户。
根据分析结果,可对易流失的客户有针对性地推出优惠、促销等活动,从而达到吸引客户、留住客户的目的。同时,进一步分析客户流失的原因,找出商务网站经营管理过程中存在的问题,并针对问题制定出切实可行的解决对策,从而提高客户的忠诚度;对于忠实客户,可进一步分析其特征,挖掘其深层次的需求,做到比客户更了解客户,从而提供更好的个性化服务。
4 结论(Conclusion)
ID3算法是一种归纳分类算法,采用自顶向下的递归方式构造决策树,具有简单、便于实现等优点。将该算法应用于商务网站的客户管理中,可以挖掘出大量的潜在的、隐含的、有价值的客户信息,并在此基础上构建预测模型,对客户进行准确分类,方便进一步为客户提供针对性更强的个性化服务,或者精准营销策略的深入开展。
参考文献(References)
[1] 赵克新,黄长强,魏政磊,等.改进决策树的无人机空战态势估计[J].哈尔滨工业大学学报,2019(4):66-73.
[2] 徐兵,刘潇.采用梯度提升决策树的车辆换道融合决策模型[J].浙江大学学报(工学版),2019(4):1-10.
[3] 柴宏涛,李建华,沈迪.基于ID3算法的信息资源分类管理映射模型研究[J].计算机工程与设计,2013(3):1082-1086.
[4] 陈茜,马向平.基于决策树ID3算法的人才留汉吸引政策研究[J].武汉理工大学学报(信息与管理工程版),2019(4):148-153.
[5] 罗计根,杜建强.融合GINI指数的ID3改进算法[J].南昌大学学报(工科版),2019(3):80-84.
[6] 朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.
作者简介:
郑 焱(1998-),男,本科生.研究领域:计算机科学与技术.