基于聚类方法的航空公司客户价值分析

2023-07-14 15:13许超
计算机应用文摘·触控 2023年12期
关键词:航空公司

摘要:随着社会的发展,互联网技术融入各个行业,目前很多公司和企业的营销重点不仅是保证产品质量,还更加注重以客户为中心,以满足客户的需求,将客户作为公司实现利润增长的重要目标。文章主要根据客户细分的方法,利用K-Mcans聚类、DBSCAN聚类、Mcan-Shift聚类分别对客户进行细分。

关键词:航空公司;客户价值分析;K-Mcans聚类

中图法分类号:TP311 文献标识码:A

首先,K?Means 聚类将航空公司客户分为5 类,达到了细分的效果,并且更好地保留了航空公司的客户,增加了客户的满意度,在采取方案时更有针对性,有利于航空公司的未来发展。其次,DBSCAN 聚类将航空公司客户分为2 类,即重要客户和不重要客户,没有尽可能地保留客户,对能够发展成重要客户的没有进行细分,未达到细分的效果,所以此方法不是最适合的。最后,Mean?Shift 聚类将航空公司客户分为9类,达到了细分的效果,但是在采取对应策略时会出现重复,所以也不是最好的方法。综上,K?Means 聚类能够高效地细分航空公司客户,对客户进行分类之后,能够更有针对性地采取服务,为航空公司提高客户满意度,从而吸引更多的客户,最终给航空公司带来较大的利益。

1 数据与方法

1.1 数据预处理

航空公司客户信息数据包括航空公司客户的姓名、性别、年龄、会员卡号、入会时间、第一次飞行时间、会员卡级别、工作地城市、工作地所在省份、工作地所在国家等,以及客户的飞行里程数、航班数、购买机票金额等,共计61 340 条。由于数据残缺不全,因此不能直接进行数据挖掘,数据预处理技术则是提高数据质量的重要手段。

所谓数据清洗,是指将源数据中的“脏”数据清洗掉,即清洗掉每一列数据中的缺失值或异常值,为之后数据的读取作铺垫。观察数据可以发现,原始数据中有以下几类数据:票价为空值、票价为0、年龄大于100、平均折扣率为0、总里程数为0。由于航空客户数据量大且原始数据占比小,因此将其丢弃,达到数据清洗的目的。另外,数据变换的方式为属性构造和数据标准化。

通过观察数据可知,航空公司数据的每一列数值差距过大,为1~1 000,会导致偏移,因此通过数据标准化将数据放缩到[0,1]区间;属性构造就是将原有的属性和新添加的属性合并,源数据中属性较多,所以选择与LFRMC 指标相关的5 个属性,由于原始资料无法直接反映5 个LFRMC 指标,因此要从原始资料中抽取5 个指标。其中,L=LOAD_TIME?FFP_DATE(客户注册时间);R=LAST_TO_END(上一个航班时刻);F=FIGHT_COUNT(总的航班数);W=WEIGHTED_SEG_KM(总里程数);M=SUM_YR_1+SUM_YR_2(购买机票总金额),最后达到数据变换的目的。

1.2 聚类模型原理

聚类分析是指将数据按特定的特性进行归类,即将数据接近的分为一组[1] 。由于不同的人群有差异,因此,聚类分析无法用于预测,仅限于对知识的挖掘。

本节对K?Means 聚类的基本原理进行了描述,同时对DBSCAN 聚类、Mean?Shift 聚类的基本原理进行了阐述,为后期对客户价值进行分析作铺垫。

1.2.1 K?Means 聚类原理

对事物进行归类、归纳和揭示客观规律是人们认识与改造世界的常用方法。聚类分析将各种属性进行区分,从而使聚类分析能够较好地处理不能识别的对象。聚类算法的种类繁多,其中最常用的是K?Means 算法。K?Means 算法是一种高效的、能够有效地处理海量数据的方法。实际上,K?Means 算法常常被用来对企业的客户进行价值分析。

K?Means 算法的具体实现步骤如下:首先任选K个样本点作为初始数组中心;其次重复迭代;再次根据样本点的平均值,重新赋予每个样本点最近的值;最后更新计算平均值,直到聚类中心不再发生改变,停止迭代。

1.2.2 DBSCAN 聚类原理

DBSCAN 密度聚类是将具有足够密度的区域划分成簇,并且能够发现任意形状的簇。比如,在众多点中随机选中1 个点,将该点看作中心点,并以规定的半径画1 个圆,圆内最少包含的样本点叫做阈值。

若在指定半径内有足够多的样本点,则圆的圆心转移到内部样本点。待圆发现所圈样本点数量少于预先指定的值时,则停止。K?Means 聚类算法只能处理球形的簇,即一个聚成实心的团,具有一定的局限性。

但在现实中还会出现各种各样的情况,此时就会用到DBSCAN 密度聚類。

1.2.3 Mean?Shift 聚类原理

Mean?Shift 聚类是由均值和偏移组成的[2] ,即有一个点X,周围有很多点Xi ,计算点X 移动到每个点所需要的偏移量之和,得到平均偏移量。该偏移量包含大小和方向,方向是周围分布密集的方向。然后点X 往平均偏移量方向移动,再以此为新起点,不断迭代,直到密度最大处,停止迭代。

2 基于聚类方法的航空公司客户分类

2.1 客户聚类

2.1.1 K?Means 聚类

使用K?Means 聚类算法对客户数据进行客户分群并将航空公司客户聚为5 类。如图1 所示,客户群1 在所有特征上的值都很小,且在L 处的值最小,说明客户群1 是新入会员较多;客户群2 在C 处的值最大,在F,M 处的特征值较小,说明客户群2 是偏好乘坐高级舱位的客户群;客户群3 在F,M 上的值最大,且在特征R 上的值最小,说明客户群3 频繁乘机且近期都有乘机记录;客户群4 在L 处特征最大,在R 处特征较小,其他特征适中,说明客户群4 的入会时间较长,飞行频率也较高,是较有高价值的客户群;客户群5 在R 处的值最大,且在L,M,F,C 处的值都相对较小,说明客户群5 已经很久没乘机。

2.1.2 DBSCAN 聚类

使用DBSCAN 聚类对客户数据进行分群,结合清洗后的数据以及DBSCAN 聚类,能够将客户分为2类[3] 。0 标签定义为重要客户,-1 标签定义为不重要客户。

聚类对应标签为[-1-1-1…-1-1-1];0 标签的个数是48 911;-1 标签的个数是13 132。

与K?Means 方法相比,DBSCAN 不需要事先知道要形成的簇类的数量。并且,与K?Means 方法相比,DBSCAN 可以发现任意形状的簇类。但其弊端是如果已知类别数,K?Means 更直接,而DBSCAN 是基于密度的聚类,无法找出中心点。

2.1.3 Mean?Shift 聚类

使用Mean?Shift 聚类对客户数据进行分群,结合清洗后的数据,将客户分为9 类,分别是重点保持客户、开发重点客户、重点发展客户、现有重点客户、重点挽留客户、不重点挽留客户、普通客户、特殊客户、低成本客户。Mean?Shift 算法是基于核密度估计的爬山算法,同样不需要指定聚类个数,但计算速度较慢。

2.2 客户价值分析

经综合考量,K?Means 聚类将航空公司客户分为5 大类更为合适。因此,本文定义了5 个层次的客户类别,即重点保持对象、重点发展对象、重点挽留对象、普通对象和低成本对象。

(1)重点保持对象,该客户群的平均折扣系数(C)较高(通常是较高的航班舱位),最近一架飞机(R)出发的时间更短,(F)和(M)的飞行次数更多,这就是航空公司的宝贵客户,而且是最适合的客户。他们为航空公司做出了最大的贡献,但是他们的份额却很少。为了提升客户的忠诚度和满意度,使其消费水平最大化,航空公司应该给予他们更多的关注。

(2)重点发展对象,他們具有较高的平均减少系数(C),较短的间隔时间(R),但是较少的航班(F)或总的飞行英里,这些客户的会员时间(L)有限,是航空公司的潜在客户。

(3)重点挽留对象,留住这些具有较高的平均折扣率(C)、航班数(F)、总里程数(M)的客户,他们曾搭乘过但长时间未预订过的航班时间(R)长。这些客户的价值有很大的不确定性,因为不同的原因导致不同客户退出,所以要及时地了解客户的发展情况,并与他们保持联络是非常关键的。航空公司要根据客户近期的消费次数和使用次数,收集客户的消费变动情况,制定客户清单,加强与客户的联络,采取一定的市场推广措施,以延长客户乘坐航班的时间。

(4)普通对象和低成本对象,这些客户的航班平均折扣系数(C)非常低,他们从未乘坐过航班(R)的概率较高,航班数(F)或总公里数(M)少,黏附时间(L)短。他们是航空公司的普通客户和低成本客户,不需要特别制定服务,按照航空公司日常标准提供服务即可。

3 结束语

在对航空公司客户价值进行分析的过程中,客户注册时间、上一个航班时刻、总的航班数、总里程数、购买机票总金额都是重要的指标。本文通过K?Means聚类、DBSCAN 聚类、Mean?Shift 聚类将航空公司的客户群体划分成不同类型。通过对比发现,将航空公司客户分为5 类效果更好,其中3 类重点对象对航空公司的发展具有重要价值,所以可以进行会员升级和里程兑换服务,这不仅增加了趣味性还有效地保留了客户,同时提高了客户满意度,从而给航空公司带来更大的收益。

聚类分析的应用较为广泛,但仍存在不足,如并不是每一个案例都适用,需要具体问题具体分析。另外,此次研究使用的指标不足,只考虑了客户注册时间、上一个航班时刻、总的航班数、总里程数、购买机票总金额,但是舱位等级等因素也有可能影响航空公司客户的价值。

参考文献:

[1] 陈方芳,傅仰耿.基于聚类算法识别大型百货商场客户价值的RFM 模型[J].景德镇学院学报,2021,36(3):68?72.

[2] 刘淑英,邹燕飞,李红.基于K?Means 算法的航空公司客户价值分析[J].数字技术与应用,2021,39(11):10?12.

[3] 张天炫,包丹文,狄智玮,等.基于K?means 的航空旅客空间行为模式研究[J].华东交通大学学报,2019,36(5):59?66.

作者简介:许超(1994—),硕士,助教,研究方向:人工智能技术。

猜你喜欢
航空公司
航空公司的低成本战略及其实施对策探讨
IATA上调2021年航空公司净亏损预测
中国航空公司新开义乌直飞符拉迪沃斯托克航线
航空公司应收账款压降的途径和措施
航空公司客票直销的现状与分析
航空公司能力系统协同度测评模型与应用
航空公司战略成本管理研究
航空公司战略成本管理分析——以南航为例
柬埔寨筹组新航空公司