数据挖掘技术在快递品牌选择上的应用

2020-03-31 11:10:10杨亚能王晓东
物流技术 2020年2期
关键词:决策树主观年龄

吴 迅,杨亚能,王晓东,薛 明,杨 柳

(湖北物资流通技术研究所,湖北 襄阳 441002)

1 引言

物流行业作为我国国民经济的重要产业,近年来发展迅速,特别是随着电子商务的快速发展,网上购物的兴盛,物流业更是迎来了发展的春天。正是因为物流业的快速发展,跟物流相关的快递企业如雨后春笋般一个个破土而出,这些快递企业之间形成了竞争,而制约这些快递企业能够稳定健康发展的最重要的因素便是快递的客源量。本文正是在这个背景之下,利用数据挖掘的方法,选择国内五家快递公司为研究对象,研究什么样的因素会造成客户选择哪一个品牌的快递,并把影响客户选择哪一个快递品牌的条件提供给各品牌快递公司,以供其有针对性的选择并发展客源。

2 研究方法的构建

本节主要通过采集可能影响客户选择快递品牌的多种因素数据,并对这些数据做相应的数据处理,同时通过阅读数据挖掘相关文献,得到一种能够分析处理这些采集过来数据的方法,并利用该方法实现对数据的挖掘分析。其总体流程图如图1所示。

2.1 数据的收集

针对有快递需求的人们,通过他们对快递选择的主观意识和客观行为活动的研究,确定出影响人们对快递品牌选择的几个主要因素,它们分别为:客户年龄(age),客户性别(gender),客户工作(job),客户受教育程度(education),客户对某个品牌快递的主观印象好坏(evaluation),客户的收入(income),了解所选择快递的方式(contact)。并把这些数据转换成Excel 表格的形式。其中客户性别用m 表示男性,w表示女性;客户工作用r表示白领类工作,e表示蓝领类工作,w表示其他类型工作;受教育程度用r表示研究生以上学历,b表示大专或者本科学历,o表示其它学历;客户对某个品牌快递的主观印象好坏分别用A、B、C、D、E 代表三通一达与顺风五种品牌的快递,了解所选择快递的方式用D代表快递公司本身的宣传,用I 代表通过其它人的介绍,用W 代表通过网络查询获得。

图1 总体流程图

2.2 数据的处理

在获取的数据中,存在着原始数据的离散化程度不够,影响数据分析结果的缺陷,为了克服该缺陷,必须进行一些数据的处理,在本文中处理前的数据利用数据分析软件WEKA分析的结果如图2所示。

图2 处理前数据

在图2中,八幅图片中除最后一幅图kind属性代表上述七种因素作用的结果外,其它七幅图分别代表七种影响因素,每幅图中每个直方图的高低代表属性的数量,直方图中不同的颜色代表这个属性在不同取值时五种快递各自所占的比例。可以明显的看到客户年龄(age)和客户收入(income)数据在横坐标上连续分布,没有断点,对于离散化的数据分析会产生一定的影响。利用Python 程序对Excel 数据进行处理,把客户年龄分成4个阶段,用字母J表示九零后及其以下的年龄,B 表示八零后,Q 表示七零后,L表示六零后及其以上的年龄。把客户收入同样也分成4 个等次,用字母G 表示超高收入,M1 表示高收入,M2表示中等收入,D表示低收入。处理后的数据如图3所示。

图3 处理后的数据

3 实现方法

本节利用J48 即C4.5 算法对上述经过采集处理后的数据进行挖掘分类,并根据分类结果得到最能影响人们选择快递品牌的条件。

3.1 J48算法的实现

J48算法是在ID3算法的基础之上优化改进而来的,但与ID3 算法不同的是J48 算法挑选的是数据中最高信息增益率的属性为测试属性。其基本思想是在样本集T中,假设变量a有k个属性,它们的取值分别为 a1,a2,...,ak,相应的a取值为 ai的样本集中有ni个数,假设n 为所有样本数的和,有n1+n2+...+ni=n,则为了获取样本a 的属性信息所付出的代价可以用a的熵值H(X,a)表示为:

信息增益率可以定义为平均互信息比上获取a信息所付出的代价,可以表示为:

具体建树过程见表1。

输入:训练集S,特征集A。输出:决策规则集

算法:C45_DT(A,S)

表1 J48算法建树过程

3.2 J48算法仿真结果

在WEKA 平台上,以上述J48 算法为基础,建立J48 算法模型,再以上述采集到的数据为研究对象,把这些数据在J48算法模型中进行训练,调整模型以及模型参数,最终通过不断的调整参数,得到的最好分类结果如图4所示。

图4 分类的结果

在图4中,所建立的模型分类正确率为70%,该模型具有很高的参考价值。得到的决策树如图5所示。

图5 决策树

在图5中,可以看到影响一个人对哪种快递品牌选择的最重要的因素是Evalution,即客户对某个品牌快递的主观印象好坏,其次是inconme即客户收入以及age 即客户年龄,最次要的是客户的性别,该决策树由四层组成,每层之间是与的关系,Evalution 为树的根节点,客户对哪种品牌快递的选择会受到如下条件的影响:

(1)当客户对A快递的主观印象比较好,收入为超高(G)和高(M1)时会选择A快递,收入为低(D)时会选择E 快递,收入为中等(M2),性别为男性(m)时会选择A快递,性别为女性(w)时会选择C快递。

(2)当客户对B快递和D快递的主观印象比较好时,会直接选择B和D快递。

(3)当客户对C 快递的主观印象比较好,且年龄为八零后(B)、六零后及其以上(L)、七零后(Q)时,会选择A快递,年龄为九零后(J)时会选择C快递。

(4)当客户对E 快递的主观印象比较好,且收入为高(M1)、中等(M2)、低(D)时会选择E 快递,当收入为超高(G)时,会选择A快递。

4 结论

本文通过对有快递需求的客户主观意识和客观情况进行研究,选取了可能影响客户选择快递品牌的多种因素数据—客户的年龄、性别、工作、收入、受教育程度以及对某个品牌快递的主观印象好坏,并把影响客户选择快递品牌的这些数据通过数据挖掘技术中的J48算法建立了模型,通过参数的调整得到了正确率最高的模型,以及得到了影响客户选择快递品牌的决策树,通过该决策树,得到了影响客户选择快递品牌的四个先决条件。同时,在该决策树的建立中,由于采集的影响因素偏少,采集的数据量偏小,导致模型的正确率没有达到最佳状态,决策树的普适性不高,在今后的研究中将加大对影响因素的设定和数据量的采集,以达到决策树普适性的条件。

猜你喜欢
决策树主观年龄
变小的年龄
“美好生活”从主观愿望到执政理念的历史性提升
加一点儿主观感受的调料
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
刑法主观解释论的提倡
法律方法(2018年2期)2018-07-13 03:22:06
TOO YOUNG TO LOCK UP?
年龄歧视
算年龄
基于决策树的出租车乘客出行目的识别