基于K-means算法的数据挖掘与客户细分研究

2019-12-13 03:02马培梁
市场研究 2019年11期
关键词:手肘细分均值

马培梁/文

大数据时代,善于从中挖掘对企业有用的信息,可以开拓 新的市场和机会。图1简单说明了数据分析的过程。

图1 大数据挖掘过程

为获得市场竞争机会,很多企业从客户细分角度出发,进行有价值的数据挖掘。客户细分是1956年美国学者温德尔史密斯提出来的。随着研究的深入,1994年Hughes提出了关于客户细分标准的RFM模型,R(Recency)代表最近一次消费,F(Frequency)代表消费频次M(Monetary)消费额度。目前大多学者用此模型进行客户细分。国内当前利用大数据进行客户细分研究很多,陈静宇(2004)提出了中间商潜在客户价值的能力空间和市场空间分析模型、客户价值立方体细分模型及需求链分析模型。毛躍霖(2015)通过建立客户流失预测模型,针对不同流失进行靶向营销,减少客户流的流失。王虹、孙红(2016)提出运用混合聚类算法应用到汽车销售公司的客户细分管理中。总的来讲,大数据挖掘和企业客户细分结合研究,可以针对细分结果的不同,使客户拥有更好产品体验。

一、客户细分及细分方法

1.客户细分

当前流行的客户细分主要特点有个性、态度、行为、忠诚度等,同时以RFM模型为基础,根据业务需要进行细分。这样就能更有效根据客户不同特征,提供给客户需要的产品。

2.细分方法

(1)K-means算法

通常被称为劳埃德算法(Lloyd's algorithm),支持没有任何先验知识情况下,对多个属性进行聚类分析,算法分为以下几个步骤:

第一步:随机选取k个样本均值点,默认为5个,记第i个均值为ui;

第二步:求取各个样本点到各均值点的距离,距离最短的归到一类;

j=1、2…k,i=1、2…n,d 第 i个点到第 j个均值的距离,xi为第i个数据值。

第三步:再对第二步得到的新的k类,分别求取均值,得到新的均值点;

第四步:重复二、三步,直到操作得到的样本均值点不再显著变化为止。

(2)层次聚类

层次聚类包括两种凝聚和分裂,凝聚将每个样本都看成一个聚类,自下而上相似的逐渐合为一组,完成聚类。分裂恰好和凝聚相反,由一个整体分裂成各个子聚类。

(3)DBSCAN 聚类

该方法主要强调核心样本和非核心样本。一个聚类是一个核心样本的集合,递归方法获取。选取一个核心样本查找它邻居样本的核心样本,然后查找新核心样本的邻居样本的核心样本,最终得到聚类。

二、K-means算法和RFM模型结合

某电器公司2018年的销售数据86135条,经过预处理空值和对部分不合理的异常数据进行删除,2018年全年的数据有84342条,基于RFM标准进行K-means客户细分。利用Jupyter-notebook软件基于python语言编程,进行客户细分。

首先,按照用户ID对各属性分组,分别对客户的订购日期进行取最大日期即得最近订购日期,订单ID求个数即订购频次,订单金额求和即购买总金额。

其次,将数据按照公式:

规范化.其中订购日期先换算成天数,以2018/01/01为基准进行规范化,数据均在0至1之间。

由于k-means均值算法分类k值随机选取,为了选取更好的分类结果,评估最优的聚类个数,有两种方法:平均轮廓系数和手肘法.平均轮廓系数公式表示:

xi表示第i个聚类点到本类其他店的平均距离。yi表示第i个聚类点到其他类中点的平均距离Si取值范围为(-1,1)越接近1表明分类越好。

如下附表所示为K与平局轮廓系数的关系。

附表 K与平局轮廓系数的关系

因此,当K=2时,聚类最好。

手肘法公式表示:

SSE是误差平方和,代表聚类结果的好坏,Ci是第i个簇,p是Ci的样本点,mi是Ci的质心。随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。

图2 k值与SSE之间的变化关系

本样本聚类数评估,选择采用手肘法,如图所示k值与SSE之间的变化关系。

显然,肘部对应k值为2。

三、结语

对于本数据集的聚类而言,最佳聚类数应该选2。因此该电器公司应该把客户分为两类。A类是最近购买时间短,购买频次多,相对购买金额稍微低些。B类客户购买日期相对较长,频次较低,购买金额也相对较低,所以公司在重视A类客户同时,应该针对B类客户采取不同的策略,以促进消费,增加客户的消费频度,更多的购买本公司的所需要的电器商品。限于工具功能和数据的不足,当数据量超过一定值时,K-means算法消耗时间过长,效率变低。后续研究可以考虑处理海量数据用Mini Batch算法,通常处理100万条以上数据。

猜你喜欢
手肘细分均值
深耕环保细分领域,维尔利为环保注入新动力
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
1~7月,我国货车各细分市场均有增长
简历
整体低迷难掩细分市场亮点
关于均值有界变差函数的重要不等式
关于广义Dedekind和与Kloosterman和的混合均值
纸媒新希望 看新型报纸如何细分市场逆势上扬