文 | 中国民航信息网络股份有限公司 赵耀帅
在互联网经济时代,基于大数据行为数据的用户画像已经成为企业了解用户偏好、提供个性化服务和精准推荐的重要手段。在民航领域,随着市场竞争日益激烈,从不同维度(如旅行偏好、旅行模式、旅行目的地、旅行目的和市场价值等)对旅客进行画像,为不同类型的旅客提供精准、定向服务,已经成为一种普遍的服务方式。
推测旅客的职业类别并发现他们不同的旅行模式对民航企业(如航空公司、售票代理和机场运营商)提高服务质量非常有帮助。例如,航空公司可以为对时间要求严格的商务人士提供便捷的往返机场接送服务。这样的精准服务将提高民航企业的客户黏性并增强市场竞争力。
定义1.旅客姓名记录(PNR)。旅客姓名记录r=(Pr,Ar)是关于一组旅客的旅行信息,他们一起订购飞机票并一同前往相同目的地。其中Pr=pi表示旅客组的集合,而Ar包括了所有旅客的个人和旅行信息,包括旅客ID、年龄、性别、航班号、订票时间、出发地等信息。
定义2.共行网络。一个共行网络是一个图G=(V,E,X,W),其中V是节点集,每个节点pi∈V代表一个旅客;E是边集,每条边eij∈E表示旅客pi和pj在PNR集中至少有一次共行关系;X是一组特征向量,每个向量Xi∈X是旅客pi的特征向量;W是一组权重,元素wij∈W表示边eij的强度。可以简单地将共行次数作为共行网络中旅客之间的权重。
定义3.推断旅客职业类型。给定一个共行网络G=(V,E,X,W),目标是学习一个函数:
f:G→L
其中L是问题的标签空间,即旅客可能的所有职业类型。
本文分别从个体旅客和旅客群体的角度观察旅客的出行模式,比较了三种职业的出行模式,并基于数据集计算了每种职业的出行模式。
个体出行模式指的是旅客的个人出行习惯和偏好,包含五个维度。
一是预订提前时间。人们通常提前预订机票,但对于不同类型的人,提前的时间是各不相同的。分析可以看出,运动员和导游的分布非常集中(运动员为8至10天,导游为10至13天),并且有明显的峰值(运动员为9天,导游为12天);相反,学者的分布相对均匀,没有峰值,更类似于所有旅客的总体分布。这些结果表明,运动员和导游在旅行计划方面更为擅长,而学者倾向于随机旅行。
二是出发时间。不同类型的旅客对出发时间有不同的需求。分析显示一天离散的24小时内不同职业旅客出发时间的分布情况。可以看出,运动员的出发时间主要集中在上午,峰值约在上午10点;导游通常在早上(大约上午8点)或晚上(大约晚上8点)出发,但在工作时间内出发的次数较少;而学者在整个白天有相对均匀的分布,类似于所有旅客的总体分布。认为这是因为运动员需要在白天旅行,既不太早也不太晚,以确保休息和节省能量;而导游需要在白天节省时间;但学者对此没有严格的要求。
三是月旅行次数。人们的旅行通常会展现出季节性的变化。分析看出,运动员在冬季的旅行次数远远超过夏季,月变化非常大;相反,导游夏季的旅行次数较冬季多,但变化较小;而学者每个月的旅行次数相对均匀,仅在7月至11月间略微增加。显然,体育联赛安排、旅游季节性和学术季节性的季节因素是完全不同的。
四是往返比。有些人在旅行结束时总是返回原地,而其他人经常在各地之间旅行。分析显示了不同职业旅客的往返比。可以看到学者的往返比远高于其他类型的旅客,甚至高于所有旅客的总体比率,而导游和运动员的往返比则较低。猜测这是因为学者通常必须在旅行后立即返回工作,而导游经常有包含许多城市的循环旅行,而运动员也需要在一段时间内为比赛而在许多城市间旅行。
五是目的地偏好。在现实生活中,有些人通常在几个主要城市之间旅行,而其他人可能会随机地去不同的城市。可以使用旅客在不同目的地上旅行次数的标准偏差来表示他/她的目的地偏好。分析看到导游的平均标准偏差远大于其他类型的旅客,这表明导游经常完全随机地前往各种目的地。相比之下,运动员和学者的目的地相对稳定,但仍然比所有旅客的整体水平更为多样化。
团体出行模式指的是与其他人一起旅行的旅客的特征,从以下四个维度观察:
一是年龄差异。有些人经常与同龄人一起旅行,而其他人可能与各个年龄段的人一起旅行。分析发现,运动员主要与同龄人一起旅行,而学者的分布相对较广,导游几乎与各个年龄段的人一起旅行。
二是性别差异。类似于年龄差异,一个旅客与所有同行者之间的性别差异也是一个非常重要的团体出行模式。分析看到,运动员几乎只与相同性别的人同行,而学者和导游对同行者的性别没有明显的偏好。
三是乘机人数差异。当人们与他人同行时,有些人倾向于与同伴一起办理乘机手续,而其他人则喜欢独自办理乘机手续。通过计算一个旅客与所有同行者之间的乘机人数差异来表示这种团体模式。分析看到,学者通常与同行者紧密一起办理乘机手续,而运动员次之,导游与同行者的乘机人数差异很大。可以认为这是因为学者通常与少数人同行,而运动员通常与一定数量的队友同行,而导游通常与庞大的旅游团同行。
四是航空座位距离。在旅行时,有些人喜欢在飞行中靠近同伴,而其他人可能不太在意。分析发现,运动员最喜欢坐在他们的同行者旁边,紧随其后的是学者,而导游倾向于在一定的距离内靠近他们的同行者。
本节详细介绍旅客职业类型推断的解决方案。首先,要构建复杂的特征来捕捉特征和旅行模式;然后,提出一种新颖的迭代分类算法。
从各个方面基于旅客的历史旅客姓名记录(PNR)设计了一系列特征。
首先基于旅客的个人旅行模式构建主要特征如下:
·f-1:总旅行次数
·f-2:总旅行里程
·f-3:目的地数量
·f-4:不同目的地的旅行时间标准差
然后,基于旅客的群体旅行模式构建主要特征:
·f-25:同行者数量
·f-26:与他人同行的次数
·f-27:与同行者的平均年龄差异
·f-28:与同行者的平均性别差异
·f-29:与同行者的平均办理登机数差异
·f-30:与同行者的平均座位距离
除了上述旅行模式特征外,在旅客共行网络的背景下,构建了几个链接结构特征,以捕捉旅客的局部链接信息:
·f-34:聚类系数:节点聚类系数是其相邻节点仍然互相邻居的概率,反映了邻居的结巴程度。
·f-35:自我组件数量:自我组件数是其相邻节点之间连接组件的数量,反映了邻居的紧密程度。
·f-36:嵌套度:节点的嵌套度定义为节点与其邻居之间的边的Jaccard系数的平均值,反映了节点在邻居中纠缠的程度。
条件随机场是全局协同推理模型之一,它表示在给定观察变量的情况下一组隐藏随机变量的条件分布。
给定一个共行网络G=(V,E,X,W),用Y表示对应于旅客集合V的标签变量的集合。设x是对X的取值,y是对Y的取值。CRFF定义了在观测值x的条件下隐藏状态y的条件分布P (y | x)。
令c为一个团,即F中的一组变量,使得每个节点对u,v ∈c都由一条边连接。设C为F中的团集合。然后,CRF将条件分布分解为团势能的乘积,其中xc和yc分别是团c中的条件变量和目标变量。团势是在c上定义的非负实值函数,表示团中变量之间的兼容性。给定一个赋值,它的势能值越大,赋值可能性就越大。通过使用团势能,网络G中目标变量的条件分布定义为:
其中Z (x)是归一化因子,确保概率分布总和为1:
构建CRF。构建CRF的主要任务是确定变量之间的依赖关系,即指定团和为团势能定义特征函数。给定一个共同旅行网络G=(V,E,X,W),所有旅客V的标签对应于CRFF中的目标变量Y,X是条件变量。在F中,如果G中存在旅客vi 和vj 之间的边,则在目标变量
证据团。证据团是一个由目标变量和其内容特征之一组成的二元团,它指示目标变量在给定特征的条件下的直接依赖性。
兼容性团。兼容性团完全由目标变量组成,它指示目标变量之间的相关性。
然后,需要为团势能定义特征函数。在这里只定义二元分类模型的势能函数。对于二元证据团,使用形式为的指示函数,其中对于三元兼容性团,简单地使用单一特征函数来跟踪这三个标签是否相同:
学习与推断。最大似然估计(MLE)可用于学习CRF的参数。在模型推断过程中,直接计算期望特征函数通常是一个NP难问题。因此,不能执行精确推断,需要在CRF中使用近似推断算法。循环信念传播(LBP)和马尔可夫链蒙特卡罗(MCMC)是两种常用的近似推断算法。在这项工作中,使用LBP来学习CRF的模型参数并推断旅客的职业标签。
迭代分类算法是一种广泛使用的局部协同推断框架。ICA首先使用传统基本分类器f仅基于其静态特征为每个节点预测一个标签。然后,它基于当前预测的节点标签构建动态关系特征。接下来,ICA通过f同时使用基本特征和关系特征重新预测节点标签。特征计算和标签预测的过程将重复进行,直到收敛或达到固定迭代次数。
选择三个经典的分类器,即随机森林、多层感知机和LogitBoost(LB)作为基准模型,并且还将它们作为构建迭代分类器的基本分类器,分别表示为ICA-RF、ICAMLP和ICA-LB。设置最大迭代次数N=100。
为了评估不同特征的重要性,需要计算每种方法中每个特征的显著性(即P值)和贡献。为了测量特征的贡献,依次从每种方法中删除一个特征,并计算由该特征引起的性能降级。最后,根据每个特征在所有方法上的平均P值(p)和贡献(c),得到不同数据集中最重要的特征(p <0.05且c >2.0%)。
在相同的环境中进行所有实验(一台普通PC,配备1.7 GHz CPU和4G RAM)。所有ICA方法都能在3秒内完成训练过程,然而CRFs在每个数据集上的训练需要超过40分钟,推断至少需要12秒。因此,在实际应用中,ICA可能更适合处理大规模实时业务数据。
本文研究了民航领域的用户画像问题,对民航企业更好地了解旅客需求并提高服务质量非常有帮助。本文从旅客的历史行为中发现不同类型旅客的旅行模式,然后提出了一种全局和一种局部的协同推断算法,以根据旅客之间的共同旅行关系推断旅客的职业。实验证明提出的方法能够有效地推断机上旅客的职业。本文提出的方法可以轻松扩展以处理其他旅客画像问题,如推断旅客的旅行偏好、目的地、市场价值和关系类型等。