基于Canopy-KMeans组合聚类的机票代理人行为刻画研究

2022-01-11 09:42王洪建
现代计算机 2021年32期
关键词:代理人机票刻画

王洪建

(厦门航空公司,厦门 361006)

0 引言

我国航空公司机票销售渠道主要包括航空公司直销、大型代理销售、在线旅行社销售和二、三级代理销售,其中有超过90%的机票都是直接或间接通过大型机票代理销售的[1]。随着民航运输市场及电子商务的蓬勃发展,C2B已成为航空公司销售的主要途径[2],在这种模式下,由于存在大量非透明的代理商之间的相互分级交易,使得航空公司逐渐失去对代理人的全面掌控能力,低买高卖、溢价销售、捆绑销售、恶意退票、违规占座、虚假广告、无证销售等乱象屡禁不止[3],严重破坏了航空运输市场秩序,给航空公司造成巨大的经济和声誉损失。基于物联网及大数据的销售模式是航空公司销售模式转变的必由之路[4],为此,航空公司必须实时动态分析掌握机票代理人的行为特征,并依据其特征制定不同的奖惩机制,以规范航空运输秩序,维护公司利益。基于大数据的用户画像为解决机票代理人行为特征分析提供了必要的技术途径,用户画像已经被广泛应用于学术资源分析、兴趣推荐、恶意行为识别等诸多领域,并取得了可喜的成果[5]。

因此,本文拟基于大数据技术对机票代理人开展行为特征分析,帮助航空公司针对机票代理人的不同行为特征,采取不同的渠道政策,构建C2B 模式下高效合理的机票销售体系。主要研究工作包括数据分析与整理、代理人属性重构、代理人行为刻画、结果分析四个主要步骤。

1 数据分析与整理

1.1 原始数据集

取某航空运输市场91天的脱敏交易数据,该数据记录了航空公司、机票代理以及乘客之间的机票买卖情况,包含43家航空公司、7420家机票代理,以及一个PAX 实体(代表乘客),共包含5831365条交易记录,数据结构如表1所示。

表1 原始数据集表结构解释

1.2 数据分析与整理

由于代理人数据采集的困难性和不完整性,需要对原始数据进行分析与整理。首先是缺失值记录和异常数据剔除,通过统计发现,有991 条记录的buy_nbr 为空值,作为缺失记录删除。进一步对原始数据的销售额和销售量进行分位数间距值的统计,发现部分记录日销售量为107数量级,且有部分记录交易额小于100,删除此类数据共计17060条。

缺失记录和异常数据剔除之后,需再次删除对机票代理刻画影响甚微的记录,具体处理如下:首先逐天统计机票销售总数和总金额,得到市场整体趋势,然后分析航空公司、代理人之间的交易情况,分析发现:整体趋势和航空公司个体的销售特征都呈现出周期性变化的规律,且绝大多数航空公司个体的趋势和整体趋势趋于一致,同时还发现代理人的买入卖出有明显的偏好,存在偏好从其他代理购入而非航空公司购入的二级、三级代理。依据上面的整体趋势分析结果,进一步对每家航空公司和每个代理人分别进行分析,对和整体销售趋势一致的航空公司及代理人交易数据重点关注,对部分交易量明显极少的航空公司及代理人数据,予以剔除。

2 代理人属性重构

为了合理刻画代理人特性,需依据原始数据进行代理人属性重构,依据表1 的原始数据,可得到表2 重构后的代理人属性,该属性分两级指标,其中一级指标包含活跃度、市场份额、买卖交易偏好共3 项指标,2 级指标包含18 项指标。属性重构主要采用下述3种方法。

表2 代理人属性表

(1)累加求和法。将不同的特征值累加求和,会得到一个新的特征值。例如,在某一天,某代理人从其它代理人及航空公司买入,供给方数量为该代理人当天的入度,代理人卖票给其他代理人或乘客的机票数量,可以作为该代理人当天的出度,出度和入度求和得到该代理人的活跃度。

(2)对比分析法。代理人买入偏好主要考查代理人机票来源情况,定义为代理人从航空公司和其它代理人购入机票数量之比,同理可定义代理人卖出偏好。

(3)市场占比法。通过计算代理人交易总金额与整个市场交易总金额的占比,可以得出代理人的市场份额,对于衡量代理人的市场地位具有重要意义。在完成代理人属性重构之后,按照(1)式将重构后的属性归一化为均值为0,方差为1的数据,其中μ为属性均值,σ为属性方差。

3 代理人行为刻画算法

在完成基于原始数据的代理人属性重构之后,需对代理人行为进行特征刻画。目前针对航空代理人进行特征刻画,尚未见相关文献,但基于用户行为的推荐算法[6],和本问题有一定的相似性,且本问题本质上属于一个分类问题,聚类算法是诸多推荐算法中进行用户分类刻画常用的一类方法。由于聚类算法对空间维数庞大、数据存在一定程度不完备性的分类问题,效果明显,因此代理人行为刻画问题可采用聚类算法。Canopy-Kmeans 聚类算法是经典K-Means 算法的改进, 该算法解决了K-Means 算法初始值大小及位置的选取以及聚类个数难以确定的问题[7-8],恰好契合代理人行为刻画的数据基础及目标要求,因此,本文采用Canopy-Kmeans 聚类算法进行代理人行为刻画。

Canopy-Kmeans 聚类算法通过Canopy 算法进行粗聚类,得到类簇的个数,以此初始化KMeans聚类算法的K值,迭代初始化质心,选取误差平方和最小的聚类结果。针对代理人行为刻画的Canopy-KMeans聚类算法流程如图1所示。

图1 针对代理人行为刻画的Canopy-KMeans算法流程

其中,聚类输入为表2 所有一级和二级指标构成的行向量,记为Xi=(xi1,xi2…xiM),其中M为指标总数,i= 1,2,…,N,N为样本总数。同时,记录聚类质心为Ck=(ck1,ck2…ckm), 其中k=1,2,…,K,K为聚类中心总数,实际计算中聚类中心数K是依据Canopy算法动态确定的。

聚类质心的计算为簇中所有点的均值,样本与聚类中心的相似度采用欧氏距离,如式(2)所示,KMeans 聚类算法的优化目标函数如式(3)所示。

4 结果分析

4.1 代理人类别分析

Canopy-Kmeans 聚类算法最终将代理人划分为6 类,其分析对比如图2—图5 所示。从图2 可见,3、4 类代理人数量明显偏小,其余各类代理人数量较大但相差较小。从图3 可见,3、4 类代理人活跃度较其它类别代理人有显著差异。从图4可见,第3类代理人市场份额显著高于其它,第4 类代理人明显高于比第3 类之外的其它代理人。图5 给出了每类代理人买入航空公司、机票代理占比以及卖给机票代理、乘客占比的情况。从代理人的买入卖出偏好看,1 类代理人几乎只从航空公司买票然后直接卖给乘客,几乎不与其它代理人交易;2 类代理人主要从其它代理人买票然后卖给乘客,几乎不直接从航空公司买票,且不卖给其他代理人;3 类代理人主要将机票卖给乘客,买入方面没有明显的偏好。4 类代理人主要从航空公司买票,也会从其他代理人买入一定比例的机票,卖给乘客的比例稍大于卖给其它代理人的比例。5 类代理人主要将机票卖给乘客,买入方面没有特别的偏好。6 类代理人主要从航空公司买入机票然后出售给其他代理人。

图2 各类代理人数量对比

图3 各类代理人活跃度对比

图4 各类代理人市场份额对比

图5 各类代理人买入卖出偏好对比

综合上述分析可推测,1 类代理人为差旅管理公司,2类代理人为小型机票代理,3类代理公司为大型旅行社,4 类代理公司为大型机票代理,5类代理人偏好直销的中型机票代理、6类代理人为偏好分销的中型代理。经代理人实际身份核验,结果符合实际情况,如表3所示。

表3 各类别代理特征描述及特性刻画

从聚类结果中可以看出,机票代理人明显分为大、中、小型代理人,不同规模的代理人机票买卖偏好不同,比如大型机票代理偏好直接从航空公司买入机票;并且可以区分出差旅管理公司、旅行社等经营模式不同的机票代理人。

4.2 不同类别代理人行为特征分析

为了进一步分析代理人行为特征,不失一般性地选择O160 和O5234 两个代理人,对其连续91 天的销售特征与类别变化进行分析,如图6、图7所示。

图6 代理O160销售情况与所属类别变化分析

图7 代理O5234销售情况与所属类别变化分析

从图6可见,代理O160在60天之前,一直属于3 类代理人,可能是某大型旅行社,但是从第60 天之后,其销售趋势明显下降,具体表现为O160从其他代理买入的机票占比急剧下降,买入

度明显降低,销售额也明显降低,所属类别也发生了变化,不再属于3类代理。

从图7可见,代理O5234的整体销售趋势比较平稳,一直属于3类代理人,从60天开始,也出现了类似于O160的变化趋势,从航空公司买入机票的数量逐步提升,出入度、市场份额无明显变化。

从O160 与O5234 交易变化趋势中可以看出,O160 明显依赖于其他代理,市场应变能力不强,当市场环境发生变化时,市场地位明显降低。而O5234 在市场环境发生变化后,逐步提升从航空公司买入机票的比例,稳居第3类代理的位置。

从代理人销售趋势与所属类别变化分析中可以看出,代理人销售趋势基本与所属类别变化趋势一致,这验证了Canopy-KMeans 聚类算法应用于代理人行为特征刻画的准确性。

5 结语

本文在分析国内代理人实际销售数据的基础上,采用累加求和、对比分析、市场占比等方法重组生成了代理人活跃度、市场份额、买入卖出偏好等3 大类18 小类特征属性,进一步提出了一种基于Canopy-KMeans 聚类算法的机票代理人行为刻画算法,将代理人分为6 大类,最后的实证分析结果验证了基于大数据分析代理人行为刻画算法的正确性和有效性。其分析方法和结论有助于航空公司有针对性地采用不同的渠道策略、规范机票销售市场行为,具备现实的指导意义。

猜你喜欢
代理人机票刻画
一类无理函数的动力系统刻画
独立个人保险代理人:方向与轨迹
提高保险代理人忠诚度的路径探索
退票携程网退机票引争议
流逝的岁月 流淌的歌声
细致刻画,突显至爱
浅谈民法上的复代理问题
Unit 15重难点解析
监督、忠诚和代理人的选择