基于LRFMC模型的客户价值数据挖掘方案

2021-03-22 02:56杨雄徐鑫荣
电脑知识与技术 2021年6期
关键词:聚类分析数据挖掘

杨雄 徐鑫荣

摘要:人工成本永远是企业运营预算的重中之重,数据挖掘可以有效发现数据中包含的客户价值,提供不同客户群体的针对性服务,合理布局和提高现有客服人员的资源效率。基于RFM模型提出了LRFMC客户价值评价模型,通过对比特征值的权重,利用K-means聚类算法,将客户群体按不同特征进行分类,根据客户价值等级,针对高价值优质用户和低价值潜在用户展开数据分析。

关键词:客户价值;聚类分析;LRFMC模型;数据挖掘

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2021)06-0022-04

数据挖掘终极目标是为了发现数据更多的价值,在大数据时代下[1],不单单只是将数据的量提升到一个前所未有的地步,还将数据的时效性进一步地延长了,数据之间已经不再是最开始的因果关系,而是潜藏着彼此之间重要的相关性[2]。换句话说,数据挖掘的真正目的不单单是挖掘数据的现有特征,而是通过分析关联性,探索出更深层次的价值,从而为企业带来利润。作为商业数据的挖掘,不单单需要优质的算法,还需要一些贴近业务的数据模型。从算法的完善到整个模型的建立,现阶段的数据挖掘,也从对数据本身和算法的关注,逐渐变成了对整个业务模型的关注,数据挖掘的核心也不单单只是对算法的追求,还包括了数据模型的建立和数据的应用[3]。

在目前数据研究领域[4],虽然数据挖掘已经是一个热门话题,但很难在中小型企业真正地实施起来,更多的是在为大型企业或者政府机关服务[5]。其根本原因在于中小型企业的数据挖掘成本永远是经营预算的重中之重。一个好的模型与算法,可以提高客服人员的效率,提高他们面对客户的有效性。利用将客户分群所得出的结果,将高质量客户从客户群中分离出来,使客服能够针对性地提供高质量服务[6,7]。而对低价值的潜在用户进行分析,思考是公司服务问题还是客户本身问题,从而可以更好地做出经营策略的改变。本文使用LRFMC客户价值评价模型和k-means聚类算法,利用开源数据分析高质量用户和低质量用户的特征构成,为企业决策层提供有针对性的参考建议,从而提高企业工作效率和降低运营成本[8,9]。

1 客户价值RFM模型

研究客户价值的模型有很多,而最常见的应该就是RFM模型。RFM模型主要是来评价客户这两方面:客户本身价值和他所能带来的价值。该模型通过一个客户的近期消费行为(Recency)、购买行为的频率(Frequency)以及消费的能力(Monetary)这三项的指标来说明该客户对企业的价值影响。

1.1 RFM模型关键特征介绍

(1)特征R说明

R(Recency) 指的是客户在离数据统计的截止日期前最近一次消费的时间间隔。在该模型中,如果最近一次的消费时间与截止的时间间隔越短,那么就意味着用户对现在的服务或者商品比较感兴趣。最近一次的消费时间与截止时间的间隔不仅仅为确定客户的消费群体提供的依据,还可以看出企业的发展趋势,如果距离最近一次消费时间很近的客户在增加,那么就说明客户来往的频率很高,这也从侧面反映了企业的趋势是在稳定增长。反之,如果最近一次消费的时间与截止时间越长,那么就说明客户来企业消费的次数越来越少,也就说明企业在流失客户。

(2)特征F说明

F(Frequency)指的是在统计的时间段内作为客户他所消费的次数。很显然,假如一个客户的消费频率越高,那么就能从侧面说明这个客户对企业的满意度越高,他对企业的质量也就越高,而作为服务业来说,增加客户的消费频率也是增加营业额最有效的手段,同时还能为企业抢夺竞争对手的市场。所以企业要在消费频率下降的时候,要推出促销活动,来增加消费。

(3)特征M说明

M(Monetary)指的是客户在统计的段时间内消费金额的多少。基本上对于企业来讲,如果一个客户消费的越多,那么就说明作为单个客户的消费能力也就越强。企业里最常说的二八法则,通常意义就是百分之20的客户贡献了企业百分之八十的销售额。而这些用户,也是企业在进行营销活动时不得不特殊照顾的群体,尤其在商家资源预算不足时,这类群体更是应该挽留和重点照顾的对象。

在傳统的RFM模型中,离截止统计时间最近的一次消费时间间隔,消费频率以及消费金额的多少都是评价客户价值最重要的特征,其中离截止统计时间最近一次消费时间的间隔是最有力的特征。

1.2 RFM模型结果解读

RFM因为包含3个特征,所以此处选择使用三维坐标系来进行解读。如图1所示横轴表示Recency,纵轴表示Frequency,竖轴表示Monetary,每个轴一般使用5级表示程度,1为最小,5为最大。在这里需要特别说明的是,在x轴上,R越大,那么这类客户离截止统计时间最近一次消费时间的间隔越短,该用户的价值在这一维度上也就越高。将每个轴上划分为5个等级,等同于将客户划分成5*5*5=125种类型。在图1中,左上方角的客户R,F,M特征取值为1,5,5,说明这类客户在最近一段时间内没有消费,因为R值最小。原因可能包括客户对当前服务的不满,或者其他商家的活动更多,导致该类客户的流失,而这一类用户的价值恰恰是最高的,在表现出人数降低时,就应该引起企业的警觉。F如果越高,则说明客户很活跃,经常进行消费;消费金额M越高,则说明该用户拥有很高的消费能力,也应该值得商家重视。同样,如果客户的R,F,M这三个特征最高,如都取5,5,5,那么就说明无论从哪个方面来讲该用户都是最优质的用户,即该用户近期进行了消费,消费频率高而且消费金额也大。这样的用户是企业利益最主要的贡献者,需要被重点关注和维护。

2 LRFMC模型的设计

虽然在衡量客户价值时,已经提出了RFM模型,其中消费金额M直接反映了在统计时间内客户在该企业消费的情况。但在运输行业比如航空产业、快递产业中,消费金额M受到运输距离、舱位等级等各种因素的影响,而且即使客户消费金额一样,对运输类公司而言,所带来的价值也是不一样的,因为需要考虑到该客户运输距离的长短,是否经常消费,舱位等级或运输保单高低等因素。本文模型采用的数据集是一家航空公司的客户数据,其观测窗口的时间宽度为两年,该数据集总共有62988条客户档案信息和乘坐航班的记录,数据特征如表格1所示,主要由三个部分组成,第一部分是客户的基本信息,第二部分是客户的乘机信息,第三部分保存的是客户积分信息。

LRFMC模型选择客户在特定时间段内积累的飞行里程M和客户在特定时间段内乘坐舱位所对应的折扣系数的平均值C两个特征来代替RFM模型的消费金额M。此外,在LRFMC模型中我们又增加了客户关系长度L。改进后LRFMC模型的5个特征构建过程具体如下所述:

(1)第一个特征是L。L是客户加入会员的时间到统计截止时间的间隔,单位是月份,其中LOAD_TIME代表观测窗口的结束时间,FFP_DATE代表入会时间,如公式1所示:

L=LOAD_TIME-FFP_DATE                      (1)

(2)第二个特征是R,即LAST_TO_END。这里的R与传统RFM模型里的R其实含义相同,指的都是客户最后一次消费时间到统计截止时间的间隔,在航空公司里就是指客户最后一次乘机时间到统计时间间隔了多久,单位是月份,如公式2所示:

R=LAST_TO_END                              (2)

(3)第三个特征是F,即FLIGHT_COUNT。F在传统RFM模型中,指的是消费频率,在航空公司的实际业务里,指客户在观测窗口时间内所乘机的次数。单位是次数,如公式3所示:

F=FLIGHT_COUNT                     (3)

(4)第四个特征是M,即SEG_KM_SUM。在RFM模型中M是客户的消费金额,而在本文里结合航空公司的实际业务,M是客户在观测时间窗口内的总飞行里程。单位是千米,计算公式如4:

M=SEG_KM_SUM                   (4)

(5)第五个特征是C,即AVG_DISCOUNT。传统客户价值RFM模型里没有该特征,在航空公司数据集中,C是指在观测窗口时间内客户乘坐舱位的折扣系数。无单位,计算公式如5:

C=AVG_DISCOUNT                   (5)

3 基于LRFMC模型的客户价值聚类分析

聚类分析就是通过对数据集所表现出的特征,根据需求将数据特征相似的数据分为一组,并不断进行迭代操作,直到各个数据组间的数据到质心的位置不再有变化。本文结合了LRFMC模型的五个特征来将数据合理的划分为5个组别,因此在k-means算法中选择初始聚类种子数为5。通过k-means聚类算法随机选择5个数据作为质心,迭代计算每个数据到质心的距离,并根据距离远近来调节质心距离和给数据集分组,直到数据的位置不再发生变化。

3.1 散点图的聚类分析

散点图最适合在二维空间里对数据集进行可视化,因为它能够直观的表示出聚类后每一个样本数据的在空间的分布情况,也能够很容易看到每一个聚类中心所处的位置。选取R语言stats库中的K-Means函数将处理后的数据集进行k-means聚类分析,选取特征M和特征F分别作为横坐标及纵坐标,结果如图2所示:

可以发现由于样本数量过多,散点图分布过于密集,而且散点图只能展示二维平面下的数据分布情况,比较各个特征的大小就极为不方便。考虑到所选取可视化方案要能够从多维度展示數据的结果,而且能够清晰地比较出每个数据特征之间的差异,本文采取了可以从多个维度展现出多变量特征情况的雷达图。

3.2 雷达图的聚类分析

雷达图可以从多维度来分析和构建数据集的聚类结果,并且将这些数据利用比率表示出来,填写到一张可以展示出其中每个特征比率关系的等比例图形上。本文选用的是R语言内置库fmsb的radarchart函数,代码如图3所示:

在代码中,我们首先导入了fmsb函数库,然后使用apply函数,取出每个特征下的最大最小值,并使用date.frame函数构建了新的数据集。在radarchart函数的使用中,第一个参数填入的是数据,在后面的参数中,我们指定了每个轴的段数为5,字体大小为1,线宽为1,雷达图效果如图4:

从雷达图的展示效果上看,我们很容易就发现各个客户群的特征情况。而且每个客户群都有属于自己的颜色和线条类型,比起之前的散点图,我们更直观地感受到不同群体间的特征差异。 结合雷达图展示的特征,我们很容易得出这样的结果,如客户群1的L特征最大,以此类推,得到各个客户群的特征表整理如表2所示。

我们根据每个客户群的不同特征表现,定义每个客户群的重要程度。

(1)重要保持客户:该一类客户的特征是,折扣系数C较高,即代表乘坐航班的舱位等级较高,且距离最后一次统计时间长度低,飞行次数F或者飞行里程M较高。这些特征都说明了这类客户对公司的贡献是占主体的,也是最值得重视和资源倾斜的。

(2)重要发展客户:该类客户的特征是,平均折扣系数C较高,但距离最后一次统计时间长度R较低,但飞行次数F或者总飞行里程M较低。这类客户目前看似价值不大,但只要公司能够加以引导,那么在接下来的时间中,很有可能成为重要保持客户。

(3)重要挽留客户:该类客户的特征是,平均折扣系数C,飞行次数F或者总飞行里程M较高,但是距最后一次统计时间长度R较高或者乘坐频率F较小。这类客户变化较大,所以要重点联系。

(4)一般客户与低价值客户:该类客户的特征是,平均折扣系数C很低,最近乘机距最后一次统计时间长度R高,飞行次数F和总飞行里程M都很低,会员入会时间短。

经过分析后,给出的客户群价值排名如表3所示。

4 总结与展望

本文针对当前企业客户价值的挖掘分析不足,提出了一种基于LRFMC的客户价值评价方法。该方法不同于已有客户价值RFM评估模型只考虑客户的消费额度、消费频率、消费时间间隔等参数;而是同时考虑了客户关系时间和消费折扣系数2个属性,引入LRFMC模型和雷达图来提高客户群体特征值的表述效果。实验结果证明相对于传统二维散点图的聚类分析评估方法,采用本文提出的方法能够更有效地对客户群体进行分类和更细粒度地对客户群体特征进行有效区分。由于该模型是建立在历史数据上的,所以为了确保模型的稳定性,需要积攒足够数据后,更新运行模型结果。并且由于没有正确的基準值作为参考,每次运行后都需要做后续的观察与监测,若增量数据的实际情况与判断的结果变化差异过大,就应查看变化原因,改进模型或者针对客户做出一些业务上的调整。

参考文献:

[1] 孟小峰, 慈祥, 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013(50): 146-169.

[2] Güden S, Gursoy U T. Online Shopping Customer Data Analysis by Using Association Rules and Cluster Analysis[J]. Lecture Notes in Computer Science, 2013, 7987:127-136.

[3] Held F P, Blyth F, Gnjidic D, et al. Association Rules Analysis of Comorbidity and Multimorbidity: The Concord Health and Aging in Men Project[J]. Journals of Gerontology, 2015, 71(5):217-223.

[4] 李健, 王小蒙. 基于R语言的数据挖掘工具的设计[J]. 内蒙古科技与经济, 2017(24):58-59.

[5] 普拉迪帕塔·米什拉.R语言数据挖掘:实用项目解析[M].机械工业出版社,2017:110-135

[6] 罗亮生, 张文欣. 基于客户价值的航空公司客户关系管理策略[J]. 企业经济,2008(12): 20-22.

[7] 陈慧敏. 云计算模式在客户关系管理系统中的应用[J]. 现代商贸管理, 2013(8):160-161.

[8] 耿向华. 数据挖掘在旅游商务系统中的应用研究 [J]. 魅力中国 ,2013,5(27):287-288.

[9] 郭良. 基于数据挖掘技术的客户信息分析 [D]. 上海:华东师范大学,2015.

【通联编辑:王力】

猜你喜欢
聚类分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究