基于K-means算法的数据挖掘与客户细分研究

2019-12-13 03:02马培梁

市场研究 2019年11期

马培梁/文

大数据时代，善于从中挖掘对企业有用的信息，可以开拓新的市场和机会。图1简单说明了数据分析的过程。

图1 大数据挖掘过程

为获得市场竞争机会，很多企业从客户细分角度出发，进行有价值的数据挖掘。客户细分是1956年美国学者温德尔史密斯提出来的。随着研究的深入，1994年Hughes提出了关于客户细分标准的RFM模型，R（Recency）代表最近一次消费，F（Frequency）代表消费频次M（Monetary）消费额度。目前大多学者用此模型进行客户细分。国内当前利用大数据进行客户细分研究很多，陈静宇（2004）提出了中间商潜在客户价值的能力空间和市场空间分析模型、客户价值立方体细分模型及需求链分析模型。毛躍霖（2015）通过建立客户流失预测模型，针对不同流失进行靶向营销，减少客户流的流失。王虹、孙红（2016）提出运用混合聚类算法应用到汽车销售公司的客户细分管理中。总的来讲，大数据挖掘和企业客户细分结合研究，可以针对细分结果的不同，使客户拥有更好产品体验。

一、客户细分及细分方法

1.客户细分

当前流行的客户细分主要特点有个性、态度、行为、忠诚度等，同时以RFM模型为基础，根据业务需要进行细分。这样就能更有效根据客户不同特征，提供给客户需要的产品。

2.细分方法

（1）K-means算法

通常被称为劳埃德算法（Lloyd's algorithm），支持没有任何先验知识情况下，对多个属性进行聚类分析，算法分为以下几个步骤：

第一步：随机选取k个样本均值点，默认为5个，记第i个均值为ui；

第二步：求取各个样本点到各均值点的距离，距离最短的归到一类；

j=1、2…k，i=1、2…n，d 第 i个点到第 j个均值的距离，xi为第i个数据值。

第三步：再对第二步得到的新的k类，分别求取均值，得到新的均值点；

第四步：重复二、三步，直到操作得到的样本均值点不再显著变化为止。

（2）层次聚类

层次聚类包括两种凝聚和分裂，凝聚将每个样本都看成一个聚类，自下而上相似的逐渐合为一组，完成聚类。分裂恰好和凝聚相反，由一个整体分裂成各个子聚类。

（3）DBSCAN 聚类

该方法主要强调核心样本和非核心样本。一个聚类是一个核心样本的集合，递归方法获取。选取一个核心样本查找它邻居样本的核心样本，然后查找新核心样本的邻居样本的核心样本，最终得到聚类。

二、K-means算法和RFM模型结合

某电器公司2018年的销售数据86135条，经过预处理空值和对部分不合理的异常数据进行删除，2018年全年的数据有84342条，基于RFM标准进行K-means客户细分。利用Jupyter-notebook软件基于python语言编程，进行客户细分。

首先，按照用户ID对各属性分组，分别对客户的订购日期进行取最大日期即得最近订购日期，订单ID求个数即订购频次，订单金额求和即购买总金额。

其次，将数据按照公式：

规范化.其中订购日期先换算成天数，以2018/01/01为基准进行规范化，数据均在0至1之间。

由于k-means均值算法分类k值随机选取，为了选取更好的分类结果，评估最优的聚类个数，有两种方法：平均轮廓系数和手肘法.平均轮廓系数公式表示：

xi表示第i个聚类点到本类其他店的平均距离。yi表示第i个聚类点到其他类中点的平均距离Si取值范围为（-1，1）越接近1表明分类越好。

如下附表所示为K与平局轮廓系数的关系。

附表 K与平局轮廓系数的关系

因此，当K=2时，聚类最好。

手肘法公式表示：

SSE是误差平方和，代表聚类结果的好坏，Ci是第i个簇，p是Ci的样本点，mi是Ci的质心。随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。

图2 k值与SSE之间的变化关系

本样本聚类数评估，选择采用手肘法，如图所示k值与SSE之间的变化关系。

显然，肘部对应k值为2。

三、结语

对于本数据集的聚类而言，最佳聚类数应该选2。因此该电器公司应该把客户分为两类。A类是最近购买时间短，购买频次多，相对购买金额稍微低些。B类客户购买日期相对较长，频次较低，购买金额也相对较低，所以公司在重视A类客户同时，应该针对B类客户采取不同的策略，以促进消费，增加客户的消费频度，更多的购买本公司的所需要的电器商品。限于工具功能和数据的不足，当数据量超过一定值时，K-means算法消耗时间过长，效率变低。后续研究可以考虑处理海量数据用Mini Batch算法，通常处理100万条以上数据。