数据挖掘在物流客户细分中的应用

2015-05-11 15:34:05李煜陈相汝
现代商贸工业 2015年7期
关键词:数据挖掘

李煜 陈相汝

摘要:针对物流客户细分的目标,对客户信息挖掘的需求,从数据挖掘的定义出发,介绍了物流客户细分中数据挖掘的目标以及相应的挖掘流程。为了进一步说明,以某批发商客户数据作为挖掘对象,利用数据挖掘软件SPSS Clementine,建立K-means模型进行了聚类分析,得到挖掘结果。最后对挖掘结果进行分析,完成了该批发商的客户细分。

关键词:数据挖掘;SPSS Clementine;客户细分

中图分类号:F25

文献标识码:A

文章编号:16723198(2015)07004404

1引言

随着计算机网络技术和数据库技术的迅速发展,信息化时代的来临,物流企业不能只依靠谁的仓库面积大,谁拥有的车辆船舶多来吸引客户,而必须清楚知道客户的需求,针对客户的需求提供让客户满意的客户才能在留住老客户的同时,吸引并发展更多的新用户。面对大量繁杂冗余的客户数据和信息,怎么才能找出真正有用的信息,挖掘出客户的需求。这是依靠传统方法所不能解决的问题。

近年来,数据挖掘作为一种有效的工具,在信息处理方面有着巨大的发展,本文将介绍数据挖掘在物流客户细分中的应用。

2客户细分数据挖掘简述

2.1数据挖掘

数据挖掘是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程。数据挖掘又称作知识发现,由此可见,它并不是创造信息,而是在已有的数据和信息的基础上发现对决策分析有用的信息。由于数据挖掘处理海量数据发现有用信息方面有着得天独厚的优势,无疑数据挖掘能对物流中的客户管理提供强有力的支持和帮助。在本篇文章中,主要应用数据挖掘高度自动化地分析客户数据,对客户进行细分,从中挖掘出不同地区不同客户的需求特点,以便物流企业关注相关客户和货源的同时,对改进营销策略和客户管理策略提供帮助。

2.2客户细分

客户细分就是根据客户的属性、行为、需求、偏好以及价值等因素进行分类,把一个整体的客户群以相应的变量划分为不同的等级或子群体,以便从中寻找共同的要素,分门别类地研究客户行为与需求,并进行有效的客户管理,从而为企业充分获取客户价值提供理论和方法指导。数据挖掘可以把企业大量的客户以各自属性为基础分成不同的类。此外,数据挖掘还可以对新客户的各项属性进行类比和评分,以确定新客户是属于一般、目標、还是重点客户。

2.3物流客户细分中数据挖掘的任务

数据挖掘的主要任务主要有分类分析、聚类分析、关联分析、预测、时序模式、偏差分析等。而在物流客户细分中的任务主要有以下几个。

(1)分类分析。

物流客户数据存在不同的类型,如企业的性质、地域、服务需求种类、服务方式、服务频率等不同的属性。分类分析将对这些数据进行内在联系的分析,找出一个类别的概念描述,来代表这类数据的整体信息。如表1所示。分类分析的结果可进一步被用于规则的描述和相关的预测。

(2)聚类分析。

由于后文的案例与聚类分析相关,此部分内容将在后文详细介绍。

(3)关联分析。

关联就是两个或两个以上变量的取值之间存在某种规律性。关联分析即是通过一定的方法,发现数据项与属性之间的关联。比如在大量的物流客户数据中可能存在着某种规律与联系,我们可以将客户的地区与服务种类、货源等属性进行关联分析,得到某地的货源与某地区的客户有着特殊的关联。或者将客户与服务种类、服务频率等属性进行关联分析,得到客户需求服务的趋势走向,以便制定更适宜的客户策略。

(4)预测。

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。历史的数据用于构造模型,来解释当前观察到的行为。当这个模型应用到当前的输入,给出的结果就是对未来的行为的预测。比如说通过对新客户和老客户的各种数据的对比和分析,我们可以预测该新客户对物流企业的重要程度,是一般客户、目标客户还是重点客户。

3物流客户细分数据挖掘流程

因为不同领域不同行业具体情况的不同,数据挖掘的任务、需要解决的问题以及对象的不同,数据挖掘的具体实施步骤也会有所不同。由于物流客户的数据作为一种普遍的客户数据调查样本,本文将介绍跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining,CRISP-DM)。它提纲挈领地描述了数据挖掘的完整过程,提供了物流客户数据挖掘的方法和步骤。其主要过程为:商业理解、数据理解、数据准备、模型建立、模型评估、模型部署。

(1)行业理解(Business Understanding)。

在数据挖掘的最开始阶段,我们必须明确挖掘的需求和最终的目标。从数据的收集、统计、整理和挖掘都有统一明确的目标。在物流客户细分的数据挖掘中,我们应该针对我们最后索要达到的目标,选择相应的数据,建立各种模型,最后得到相应的结果。于是,行业理解应该包括明确对象:各种客户;评估环境:挖掘的需求性,约束,风险,现有的资源以及将要付出的成本;明确挖掘目标:进行客户细分,更好地进行客户管理;最后是制定项目计划。

(2)数据理解(Data Understanding)。

从数据收集开始我们就在进行数据理解,收集后熟悉数据,描述数据,进而对数据的可用性进行评估,根据挖掘目标过滤出所有可能有用的数据,以及数据的潜在假设,检验数据的质量,最后建立相关数据库。

(3)数据准备(Data Preparation)。

数据准备这一阶段,是将我们所收集的原始数据处理成最终建模所需要的数据。它主要包括数据集的描述;以一定的包含或者排除的准则进行数据选择;清洗数据;以派生属性或者数据转化、离散等方式构造数据;整合数据;最后是格式化数据。数据准备的过程可能会多次执行,且执行顺序不限,直到得到所需数据为止。

(4)模型建立(Modeling)。

模型建立这一阶段,我们需要针对物流行业的特点,根据所选择的数据挖掘模型技术方法进行建模。它主要包括选择建模技术、生成测试设计以及构建模型。需要注意的是,在建模过程中需要对参数进行调优,也可能会需要多次执行数据准备阶段的工作。

(5)模型评估(Evaluation)。

在进行模型部署之前,需要先进行全面的模型评估。模型评估主要包括模型的测试,算法的完善等,并判断模型是否达到了既定的商业目标,是否有改进空间等。

(6)模型部署(Deployment)。

在模型部署这一阶段中,挖掘的发现的结果以及过程将得到解释。模型部署生成直观的报告,或者是将结果嵌入到客户管理系统等,实现最初的行业理解中的目标。

4聚类分析与K-means算法

所谓“物以类聚”,聚类分析是把属性按照属性的相似程度分为若干类别。同一组中数据相似度尽可能大,而不同组之间的差距尽可能大。与分类分析不同的是并没有事先规定数据的类别,这样一来,便可以得到代表性大的客户,进行重点分析和培养,改进客户管理方案。

K-means算法是J.MacQuene于1967年提出的一种著名的划分算法,至今仍然是最为常用的聚类算法之一。它是一种基于划分的聚类方法,以K为参数,把n个对象分为K个簇,以使类内具有较高的相似度,而类间的相似度最低。相似度的计算根据一个簇中对象的平均值来进行。

K-means算法的處理流程如下:首先,随机地选择K个对象,每个对象初始地代表了一个簇中心。对于剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。平方误差准则是经常被采用的准则函数,其定义如下。

E=Ki=1

P∈Ci

|p-m i|2

其中,E是数据库中所有对象的平方误差的总和;p是空间中的点,表示给定的数据对象;Mi是簇Ci的平均值(P和mi都是多维的)。

5客户细分案例

根据物流客户细分数据挖掘流程,本文以某批发商的客户数据(该数据集来自UCI数据库)为例,进行客户细分的数据挖掘。在行业理解和数据理解之后,进行数据准备。例如除去对数据分析过程和结果无用的字段,除去信息不全的记录以及将文字类的记录转化成可量化的数据(例如将销售途径中的团购大客户(horeca)转化为1,零售(retail)转化成2;客户所在区域Lisbon转化成1,Oporto转化成2,其他地区转化成3),将发货种类归为鲜货类(fresh)、奶制品类(milk)、杂货类(grocery)、冷冻品类(frozen)、清洁剂和纸类(detergents_paper)熟食类(delicassen)等。

接下来在数据挖掘软件SPSS Clementine中导入客户数据表,通过导出表格结点查看该表中的数据信息,如图2所示。

在数据流中利用“type”结点来读取字段,双击该结点对其进行属性设置,在聚类方法中所有参与聚类的字段在设置字段格式时其方向(Direction)都将被设置为输入(In)。如图3所示,以便进行后续的K-means分析。

生成聚类分析数据流设置好以后,我们将K-means结点加入到数据流,并在聚类数中设定聚类的类别数,这里我们设置为5。设置好后,执行该数据流。浏览执行结果我们能够得到相关聚类的信息,如图4所示。

从结果中我们可以看到,客户一共被分为5类,第一到五类分别包含117、35、86、105、37条记录。显然第一类中客户最多,相似度显示第二类和第三类接近,且销售渠道信息对聚类结果影响不大。

最后我们接入“table”结点输出个记录的分类信息。如图6所示。

至此,客户细分数据挖掘完成。现就K-means模型结果做出如下分析。

对于第一类客户数量多属于其他区域的团购大客户,对除了清洁剂以外的其他类型产品需求量大,是与

批发商频繁交易且每次交易量很大的客户,应重点管理。对于分类四和分类五的销售方式都是零售,他们对产品的需求也相似对清洁剂、杂货和奶制品需求较大,只不过四的顾客属于其他区域,五的区域属于区域2,他们每次交易量不大,却交易频繁,属于批发商的目标客户。对于第二类和第三类客户来说,他们都属于团购大客户,对各种类型的产品需求量一般,多是一次性交易或少次交易,每次交易量较大的客户。这类的客户需求不定,属于一般客户,但不排除在今后,其中有潜力客户以后会发展成重点客户。

该案例按照数据挖掘的跨行业标准过程,应用SPSS Clementine挖掘软件,以K-means模型对某批发商客户数据进行聚类分析,最后在得到的结果上进一步分析,完成了整个客户细分。

6总结

在今天的大数据时代,数据挖掘作为知识发现的科学方法被人们所重视着。然而在物流领域,数据挖掘的应用仍处于起步阶段。本文从数据挖掘的定义出发,介绍了数据挖掘的流程以及在物流客户细分中的应用,用SPSS Clementine数据挖掘工具对某批发商客户数据进行了简单的挖掘,并得到了相应的结果,说明了数据挖掘在物流客户细分中的应用。相信在未来,数据挖掘在物流行业中会有着更深入的研究以及更广泛更实际的应用。

参考文献

[1]蒙肖莲,蔡淑琴.商业银行客户流失预测模型研究[J].系统工程,2004,22(12):6771.

[2]高联雄.智能公交系统数据挖掘与应用[D].北京:北京邮电大学,2011.

[3]黄雄伟.基于Web数据挖掘的客户行为分析研究及应用[D].武汉:武汉理工大学,2011.

[4]朱子昊.基于数据挖掘技术的物流信息系统研究[D].上海:上海交通大学,2007.

[5]刘昱岗,安冬冬.数据挖掘在公交调查数据分析中的应用研究[J].公路工程,2014,(02).

[6]杨竟洵.关联规则挖掘技术在3PL企业信息系统中的应用研究[D].成都:西南交通大学,2009.

[7]曹洁,徐强.利用数据挖掘技术对公交乘客特征状况的分析[J].计算机工程与设计,2007,28(17):42604262.

[8]戴稳胜,张阿兰,谢邦昌.数据挖掘的方法、流程及应用[J].中国统计,2004,(10):535.

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的离散数据挖掘研究