基于K-means聚类分析的航空旅客在线购票行为研究

2019-12-24 05:51
新营销 2019年8期
关键词:订票购票旅客

(中国民航大学经济与管理学院 天津 300300)

引言

随着互联网以及手机支付的快速发展,越来越多的旅客在出游时选择线上购买机票的方式,旅客购票渠道主要分为两种,一是通过航空公司官方网站进行购票,二是通过第三方订票平台购买机票。线上购票日益成为主流的购票方式。不同的旅客怀揣着不同的目的选择购票方式,有的用户追求线上购买的方便快捷和高效,有的则是为了更大的折扣和更低廉的价格,如何对这些旅客进行有效分类,并通过不同的营销策略来吸引他们订票将成为航空公司和第三方订票平台需要思考的主要问题。

传统的航空旅客主要依据旅客的累计飞行里程将乘客划分为不同的会员等级,对旅客的聚类也主要通过用户的基本信息诸如性别、年龄、职业、收入等传统因素。根据飞猪平台2017年统计结果显示,超过83%的飞猪平台用户是“85后”的年轻人。随着用户的年轻化,出行需求也随之变革,年轻一代的消费习惯更趋向个性化与定制化。航空公司和第三方订票平台要想吸引这部分在线订票旅客,就要抓住不同类别旅客的特征并推行不同的营销策略。

一、聚类指标的选取

本文在聚类指标的选取上参考了前人的研究成果。吕红霞等在《基于聚类分析的铁路出行旅客类别划分》中采用了分层凝聚类法中的凝聚法进行变量聚类,并选择年龄、性别、月收入、出行目的、费用来源等指标对旅客样本进行聚类;顾兆军等在《基于潜在类别模型的航空旅客分类》中运用了潜在类别模型对民航旅客进行分类,选取了旅客的性质、购票方式、舱位性质、提前购票时间、离港时刻以及离港日期是否是节假日等指标反映旅客的出行目的;许青林等在《一种基于航空旅客行为的旅客细分模型》中提出一种旅客价值评价模型来提高旅客细分的准确度,分别选取了TSDHFG6个指标。

参考以上研究中所选择的航空旅客的主要特征并加入在线购票旅客的特点,本文选取的划分依据包括如下指标:年龄、购票渠道、选择该种购票渠道的原因、提前购票时间、出行目的、购票时最主要考虑的因素以及旅客每日上网时间。通过对以上指标进行量化作为在线购票旅客的属性特征,用于旅客样本的聚类分析。

二、基于K-means算法的在线购票旅客聚类模型构建

K-means算法是最常用的基于划分的聚类方法,根据数据样本中的属性值之间的相似度来对数据样本进行区分。随机的选取K个初始的聚类中心,不断地迭代,直到取得目标函数的最小值或无法进一步地优化,则生成最后的模型,即为聚类的最终结果。

我们选择K-means聚类算法是因为它是一种较为成熟的聚类算法,该算法本身具有优化迭代功能,可以克服样本数量较少时聚类的不准确性。另外,由于只是针对部分小样本所以可以降低总的聚类时间复杂度。

以本文为例,我们一共选取了816个样本,每个样本信息具有7个属性值,分别为年龄、购票渠道、购票原因、提前购票时间、出行目的、每日上网时间、购票主要考虑因素。这7个属性从不同的维度描述了各个样本数据的特征。每一个样本最终都会被划分到一个簇族中,我们设定将816个样本划分为K个簇族,最终就会生成K个聚类中心。

在线购票旅客聚类的模型如下

(1)

其中,k表示聚类个数,xj表示第j个在线购票旅客,ui表示第i类在线购票旅客的聚类中心,V表示样本xj到其所在类别聚类中心ui的距离平方和。

三、在线订票旅客聚类过程

(一)实验过程

1.数据预处理

数据来源包括计算机订座系统(CRS)中的旅客PNR记录及在线调查问卷,随机抽取2017年6-12月CRS中的数据,整理问卷所得数据,对数据进行量化和定性描述,实验数据集包含816个样本,有7个属性如表1所示。

表1 在线购票旅客特征数据集

其中,年龄A1~A6分别代表18岁以下、18~24岁、25~35岁、35~45岁、45~60岁及60岁以上;购票渠道B1~B4分别代表航空公司官网、代理人网站、微信支付宝和其他;购票原因C1~C7分别代表可以购买折扣票、推出附加服务(如旅行路线、酒店预定)、购票方便、无需下载App、熟人或朋友推荐、受广告影响、单位指定售票点购买;提前购票时间D1~D6分别代表当天、出发前1~3天、出发前4~7天、出发前8~14天、出发前15~30天、出发前30天以上;出行目的E1~E5分别代表公商务出差、探亲访友、度假旅游、学生上学和其他;每日上网时间F1~F4分别代表一小时以下、1~3小时、3~5小时、5小时以上;购票主要考虑因素G1~G7分别代表时刻、价格、航空公司品牌、航班班次、机型、托运额度及餐食、其他。

2.基于K-means算法的初步聚类

选取在线购票旅客特征数据,对在线购票旅客的7个属性指标数据进行聚类,初始聚类中心为软件自动生成,分别选取K均值为2、3、4、5、6等多个参数进行实验分析。通过HART检验,发现聚类数为3时得到的聚类效果最好,初步将在线购票旅客分为3类。

(二)聚类有效性检验

Hart指标可以用于聚类分析中最佳聚类数的检验,Ha≤10时,其最大值对应的类数作为最佳聚类数。

(2)

式中:k为聚类数,n为样本个数,trW(k)为组间离差矩阵的迹。由表2可知,Hart指标得到的最佳聚类数均为3。

表2 不同聚类数的Hart值

(三)聚类结果分析

表3描述了最终聚类中心各个旅客特征的情况,根据聚类有效性检验以及聚类有效性评价指标得到K=3时聚类效果最好。

表3 最终聚类结果

聚类结果如表3所示,对各个簇族进行分析,我们可以将聚类1概括为“年轻的休闲旅客”。该类别旅客的年龄组成主要为25~35岁,主要的购销渠道为代理人网站,选择该类渠道的主要原因是可以购买到折扣票,提前购票时间主要为8~14天,出行目的为旅游度假,每天使用手机上网的时间多数在3~5小时,购票时最关心的因素为票价。

聚类2与聚类1较为相似,只在两个属性上略有差异。聚类2可以概括为“穷游的学生旅客”。该类别的购票者的年龄组成主要为18~24岁,主要购销渠道同样为代理人网站,选择该类渠道的主要原因是朋友推荐,提前购票的时间主要为8~14天,出行目的主要为旅游度假,每天使用手机上网的时间大概在3~5小时,购票时最关心的因素仍然为票价。

聚类3可以概括为“高品质的中年旅客”,该类别旅客的年龄组成主要为35~45岁,主要的购票渠道为代理人网站,选择该类渠道的主要原因是受到广告的影响,提前购票的时间为4~7天,出行目的主要为探亲访友,每天使用手机上网的时间在1~3小时左右,购票时最关心的因素为航空公司的品牌。

四、在线购票旅客聚类的营销管理应用

根据问卷调查显示,71%的旅客会选择通过多种渠道比较来购买机票,且大部分乘客表示不会忠诚于一家订票平台。这说明随着可供选择的订票平台的增多,旅客会更加理性地选择符合自身需求的购票方式。

对于聚类1“年轻的休闲旅客”而言,该类乘客购票的主要目的是旅游度假,购票时考虑的主要因素是票价,说明该类乘客对价格的敏感程度较大。针对该类旅客,购票平台可以推出少量的节假日特惠旅行机票,并且在旅客出行前一至两个月就为乘客推送该条线路上的机票信息,设置低价提醒。

对于聚类2“穷游的学生旅客”而言,该类乘客的最大特点是时间充裕,对票价较为敏感。所以针对该类乘客,航空公司以及订票平台可以在学生出行较为集中的一些线路中开设学生特惠机票。另外,“90后”是喜欢社交的年轻一代,要想提高这一类旅客的购票忠诚度,第三方订票平台可以打造自己的社交圈,让用户在其App上发布自己的出行动态,旅行攻略,并给予其积分奖励或者其他的订票优惠奖励,提高订票平台的分享度。

对于聚类3“高品质的中年旅客”而言,该类乘客在航班选择上考虑的首要因素是航空公司的品牌,且出行的目的主要为探亲访友。可见该类旅客更加重视旅行的体验、服务、舒适度以及航班安全性。购票平台在吸引该类乘客时应注重推送高品质的航班信息,如较好的航班时刻、大型的航空公司、舒适度更高的机型。

五、结论

本文以通过线上购买机票的航空旅客为研究对象,运用K-means聚类算法对旅客样本进行聚类,并根据聚类有效性指标对聚类结果进行分析得到了如下结论。

(1)基于K-means聚类算法,可以很好地利用在线购票的航空旅客自身属性,将旅客划分成不同类别,基于聚类有效性指标以及假设检验,可以确定划分结果的准确性,将具有相似属性的旅客划分为同一类别。

(2)通过对前人的研究总结,我们选取了7个属性值来描述样本的特征,通过K-means聚类算法,以及Hart聚类有效性指标得到将样本划分为3类时聚类效果最好,说明聚类结果准确可靠。这三类旅客可分别概括为“年轻的休闲旅客”,“穷游的学生旅客”,以及“高品质的中年旅客”。

由于本文的数据量较少,在聚类结果上可能存在一些误差。另外,由于K-means聚类自身的局限性即无法自行选择初始聚类中心也可能对最终的实验结果造成影响。

猜你喜欢
订票购票旅客
不同的购票方法
非常旅客意见簿
直击痛点的“候补购票”可多来一些
铁路候补购票服务扩大到全部列车
航空订票恶意行为检测方法
我是人
订票姑娘
给小旅客的礼物
金旅客车
稍安勿躁