冯霞 张晨 卢敏
摘 要: 分析理解民航旅客出行特征,对旅客未来潜在出行行为进行预测,是航空公司实施精准营销的重要支撑。该文以民航领域积累的大规模PNR数据集为基础,提出一种基于旅客信任网络的协同过滤航线推荐模型,借鉴社交关系网络引入旅客信任网络,对采用协同过滤进行航线推荐的方法进行改进,通过旅客信任网络中信任的传递性以发现相似旅客,从自身偏好和相似旅客偏好两个方面对旅客出行时对航空公司航线的选择行为进行刻画。实验结果表明,文中算法相较于传统的基于历史选择、基于航线热度等方法有更高的精准度和召回率。
关键词: 航线推荐; 航线预测; 旅客信任网络; 精准营销; 推荐算法; 实验验证
中图分类号: TN911.34?34; TP39 文献标识码: A 文章编号: 1004?373X(2020)04?0078?05
Prediction of route selection behavior based on passenger trust?network
FENG Xia1,2,3, ZHANG Chen1, LU Min1,2,3
(1. College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China;
2. Information Scientific Research Base, Civil Aviation University of China, Tianjin 300300, China;
3. Key Laboratory of Intelligent Application Technology for Civil Aviation Passenger Services, Tianjin 300300, China)
Abstract: The analyzing and understanding of the travel characteristics of civil aviation passengers and the prediction of their potential travel behaviors in the future are the important supports for precision marketing implementation of airlines. Based on the large?scale PNR data sets accumulated in the field of civil aviation, a collaborative filtering route recommendation model based on the passenger trust?network is proposed. The social relational network is used to introduce the passenger trust?network to improve the method which adopts collaborative filtering to achieve route recommendation. The similar passengers are found by means of the transitivity of trust in the passenger trust network. The passengers′ choice behavior for airline routes when they plan to travel are described in two aspects of their own preferences and similar passengers′ preferences. The experimental results show that in comparison with the traditional methods based on history selection or route attraction and so on, the algorithm proposed in this paper has higher accuracy and recall rate.
Keywords: air route recommendation; air route prediction; passenger trust network; precision marketing; recommendation algorithm; experiment verification
0 引 言
随着国民收入水平的不断提高,越来越多的人选择飞机作为远距离出行的首选方式,各大电商、航空公司等也适时推出了各种不同类型的在线航空出行服务。如何从大量的在线航空服务中找到满足自身需求的产品,对于旅客是一个难题;如何更好地理解旅客的出行行为偏好,提供更具有吸引力的服務,对于在线出行服务提供商,更是一个极具挑战的问题。
与此同时,近年来大规模的旅客出行使得民航业积累了大量的旅客姓名记录(Passenger Name Record,PNR)数据。对记录着旅客的出行行为信息的PNR数据进行挖掘分析,可以发现旅客出行的潜在偏好特征,对旅客和在线出行服务提供商有着重要价值。
现阶段,国内外对于民航旅客出行行为的研究主要集中在旅客行为细分和旅客价值计算。围绕旅客行为细分,文献[1]采用聚类和关联规则等对中东航空的常旅客数据进行细分,为面向不同组客户采取不同营销策略提供决策依据。文献[2]结合传统RFM模型,提出一种TCSDG模型描述旅客偏好,从而对旅客进行细分。围绕旅客价值计算,文献[3]提出基于客户的生命周期价值的细分方法,对旅客当前价值及潜在价值进行计算。文献[4]融合个体属性与社交关系,提出一种民航旅客价值度量方法,实现旅客价值计算和高价值旅客挖掘。事实上,旅客行为细分及旅客价值的计算只是划分出不同的旅客群体,并不能精确刻画每位旅客的行为特征,从而也无法对旅客提供有针对性的个性化服务。
本文重点关注旅客出行时的航空公司航线选择行为,预测旅客在未来一段时间做出出行选择时对航空公司航线的选择行为。其应用价值在于当旅客访问在线航空服务产品时,可以将旅客感兴趣的信息推送在首页,对航空公司的运营、服务、推荐等带来辅助决策支持。其本质可以看作是航空电子商务个性化推荐问题。
推荐系统[5]在1997年由Resnick和Varian提出,被广泛应用到各行业中,推荐对象包括书籍、音像、网页、文章以及新闻等不同方面,但在民用航空领域的应用还很不成熟。本文借鉴传统的推荐算法,以旅客出行时选择航空公司航线的行为为出发点,引入旅客出行信任网络的概念,从旅客历史选择行为及相似旅客出行行为上的相似性两个维度建模,提出一种基于旅客信任网络的航空公司航线预测模型 (Traveler Trust Network Collaborative Filtering,TTNCF)。在民航旅客201*—201*两年真实出行的PNR数据集上的实验结果表明,本文算法较之传统的基于热门航线预测的方法等,具有更高的预测精准度,能提高旅客出行行为的推荐质量,为在线服务系统提供依据。
1 相关定义
为了方便对问题的理解与表示,给出一些相关定义。
定义1 旅客出行行为。旅客在出行选择时会在多种方面做出决策,本文对民航旅客PNR数据进行分析,提取旅客ID、航空公司、起飞机场、目的机场,以“起飞机场?目的机场”组合作为旅客航线选择,从而得到每位旅客出行时对航空公司航线的选择行为,以此为出发点,对旅客出行选择进行分析。
定义2 旅客信任关系。旅客的出行行为信息中隐含着旅客间的多种关系,认为两名旅客在出行选择时如果具有相当数量的相同出行选择,则认为旅客在选择行为上存在一定的相似信任关系,相同的出行选择越多,信任关系越明显。据此构建旅客信任网络。
定义3 旅客的选择矢量相似性。对于旅客众多的历史出行选择,可以得到旅客对航空公司航线的选择矢量,表示为[(φ1 φ2 … φn)],[φn]表示旅客对某航空公司航线n的选择次数。通过计算旅客选择矢量之间的Pearson相关系数和Jaccard系数得到旅客的选择矢量相似性。
定义4 旅客对航空公司航线的偏好。对于旅客众多的历史出行选择,表示为[φ=(φ1,φ2,…,φn)],[φn]表示旅客对航空公司航线n的选择次数。笔者认为,旅客选择该航空公司航线的次数越多,即[φn(φ1+φ2+… +φn)]越大,则表示对航空公司航线n的偏好越明显。
2 基于旅客信任网络的旅客航线预测算法
2.1 基于历史选择的旅客航线推荐
不同于书籍、电影等商品推荐,民航旅客在做出出行选择时可能会多次选择同一航线,即反复选择同一产品。基于此,可以考虑一种简单的推荐方法,即直接用其历史出行选择作为推荐项推荐给目标用户。
图1给出了民航旅客201*年航线选择次数的分布情况统计结果,横坐标表示旅客选择选择同一航线的次数,纵坐标表示其占比。可以看出,旅客选择航线频次的分布属于典型的长尾性分布,同一旅客选择同一航线频次多为1次,重复选择的仅占少数。
不难推断,基于旅客历史选择的推荐算法有其固有的局限性。对于每位旅客,只考虑历史选择时不能产生新的推荐项,不利于覆盖新的选择以实现良好的市场营销。在实际出行中,旅客在做出决策时会受到各种因素的影响。不妨假设,在历史选择上具有相似性的旅客在未来选择上也将具有相似性。为考察相似旅客在未来出行选择上的相似性,结合传统协同过滤的方法,提出基于旅客相似性的协同过滤算法。
2.2 基于旅客矢量相似性的协同过滤算法
基于旅客相似性的协同过滤[6?7]推荐算法,假设相似旅客具有相似出行偏好,找到与目标旅客相似的旅客,并将相似旅客的偏好以一定权重推荐给目标旅客。具体分为两步:第一步是相似性评估;第二步是旅客未来选择行为预测。
主要流程如图2所示。
2.2.1 旅客相似性的计算
借鉴信息检索领域[8]文档相似性的计算方法,将旅客历史出行数据转换为旅客?航空公司航线选择矩阵,根据定义3,计算旅客间的选择矢量相似性。使旅客u扮演文档,将“航空公司?起飞机场?降落机场”作为航空公司航线词对i扮演单词,旅客u对不同航空公司航线词对i的选择次数作为词频[γui],得到旅客出行选择矢量。其中,出行历史中曾经选择的航线表示积极的偏好,偏好程度表现为选择的次数,出行历史中未选择过的航线项用零表示,没有负选择。
通过计算旅客选择矢量相似度来代表旅客间的选择偏好的相似度,计算方法分别为:
[sim(u,v)=Pearson=iγui-γ′uγvi-γ′viγui-γ′u2iγvi-γ′v2] (1)
[sim(u,v)=Jaccard=Nu?NvNu?Nv] (2)
式中:[sim(u,v)]表示旅客u与旅客v选择矢量之间的相似性,以此表示旅客选择偏好的相似性;[γui],[γvi]分别表示旅客u和旅客v对航空公司航线i的乘坐次数;[γ′u=1N(u)i∈N(u)γui],表示旅客u出行时航线选择次数的平均值;[Nu],[Nv]分别表示旅客u和旅客v选择过的航线集合。
2.2.2 基于旅客矢量相似性的协同过滤算法
得到旅客间选择偏好的相似度后,可以由式(3)计算得到旅客v对目标旅客u的影响系数[wuv]:
[wuv=simu,vv∈Susimu,v] (3)
式中,[S(u)]表示目标旅客u的相似旅客集合。
对目标旅客u的所有相似旅客的偏好以其影响系数[wuv]为权重进行加权求和,旅客u对于航空公司航线i的选择可以量化表示为:
[rui=r′u+v∈Suwuvrvi-r′v=r′u+ v∈Susimu,vv∈Susimu,vrvi-r′v] (4)
式中:[rui]表示目标旅客u在未来的出行选择中对航空公司航线i可能选择的预测结果;[rvi]表示目标旅客u的相似旅客v对航空公司航线i的乘坐次数。
上述旅客相似性计算中,由于可选的航空公司?航线对很多,而旅客实际的出行选择非常少,这使得矢量相似度的计算成为高维稀疏向量间的距离计算,难以捕捉旅客出行的真正相似程度。为进一步探究旅客间的相关关系,引入旅客信任网络,希望通过旅客信任网络中信任的传播,以获得相似旅客。
2.3 基于旅客信任网络的旅客航线预测算法
为进一步寻找相似旅客,提出一种基于旅客信任网络的TTNCF模型,如图3所示。通过旅客历史出行记录构建旅客信任网络,利用信任网络中的信任的传递关系[9?10]得到旅客间相似性。与基于旅客相似性的协同过滤算法相比,两个主要步骤保持不变,第一步发现相似旅客,第二步根据相似旅客对航空公司航线选择的加權总和进行预测。关键区别在于相似旅客的识别以及旅客间关系权重的计算。
2.3.1 构建旅客信任网络
根据定义2所定义的信任关系构建旅客信任网络,如图4所示。使用[G=(V,E,S)]代表旅客信任网络,其中V为网络中节点的集合,表示不同的旅客;E为节点间边的集合,表示旅客间是否存在信任关系;S为边上的权重,表示由边连接的两名旅客之间相同出行选择的数量,[S∈(1,2,…)]。
2.3.2 信任网络中邻居旅客影响系数计算
在旅客信任网络中,信任具有传递性,假设存在如图5所示关系,旅客u和旅客v之间存在信任关系,权重为[Tuv],旅客v和旅客x之间存在信任关系,权重为[Tvx],旅客u与旅客x之间没有显性的相同出行选择行为。认为,u和x之间也存在着一定程度上的信任关系。
对于目标旅客u,旅客v与其存在直接的信任关系,称旅客v为目标旅客u的一阶邻居;旅客x通过旅客v与目标旅客建立了联系,称旅客x为目标旅客u的二阶邻居。
在旅客信任网络的基础上,基于网络中信任的传递性,计算邻居旅客对目标旅客的影响系数w。对于目标旅客u,一阶邻居v对目标旅客u的影响系数可表示为:
[wuv=Tuvv∈h(u)Tuv] (5)
二阶邻居x对目标旅客u的影响系数可表示为:
[wux=wuv×wvx=Tuvv∈h(u)Tuv·Tvxx∈h(v)Tvx] (6)
式中:[Tuv],[Tvx]分别表示旅客u,v之间和旅客v,x之间的相同出行选择次数;[h(u),h(v)]分别表示旅客u和旅客v在旅客信任网络中的一阶邻居集合。
2.3.3 基于旅客信任网络的旅客航线预测算法
在旅客信任网络中,分别考虑目标旅客的一阶邻居和两阶之内邻居作为目标旅客的相似旅客集,对相似旅客的出行选择赋予其对目标旅客的影响系数[w]作为权值,进行加权求和得到目标旅客的选择偏好。
仅考虑目标旅客一阶邻居时,旅客u对于航空公司航线i的选择可以量化表示为如下:
[rui=r′u+v∈h(u)(wuv(rvi-r′v))=r′u+ v∈h(u)Tuvv∈h(u)Tuv(rvi-r′v)] (7)
考虑目标旅客两阶之内邻居时,即同时考虑一阶邻居和二阶邻居,旅客u对于航空公司航线i的选择可以量化表示为如式(8)所示:
3 实 验
3.1 实验数据及预处理
实验数据集由中国民航信息网络股份有限公司提供,包含201*—201*年两年的PNR集。PNR数据中包含旅客编号、航空公司、起飞机场、目的机场、航班号、出发时间、座位号等信息。在实验中,以前一年的数据作为训练集,后一年同旅客的出行记录作为测试集进行验证。对PNR数据进行分析和整理,包括去除重复记录,去除无效记录,去除较低频次旅客出行记录。将旅客加密后的身份证号作为旅客的唯一标识,记录中的航空公司编号、起飞机场三字码、降落机场三字码进行拼接得到航空公司航线对,以此作为旅客出行时对航空公司航线的选择标识。对前一年的数据进行预处理构建旅客关系网络,数据规模如表1所示。
3.2 实验评价指标
本文在最终的预测结果中,列出最可能出行的项目列表作为推荐项,引入准确率、召回率、F1值作为评价指标[11]。
准确率描述推荐列表中旅客真正选择的航线所占的比例,如下:
[PAll=1KK=1KPu=1KK=1KRu?TuRu] (9)
召回率描述推荐列表中旅客真正选择的航线占旅客真正选择记录的比例,如下:
[RAll=1KK=1KRu=1KK=1KRu?TuTu] (10)
式中:[Ru]表示给目标旅客u的推荐项;[Tu]表示旅客u在测试集上真实的出行记录。
F1值是综合准确率和召回率两个指标的评估指标,用于综合反映整体的性能,如下:
[F1=2PAllRAllPAll+RAll] (11)
3.3 实验基准方法
为了评估基于旅客信任网络的TTNCF模型的有效性,主要选取以下基准方法进行实验对比,介绍如下:
1) 依据热门航线推荐,记作AirlineHot。主要做法是:将航空公司航线对按照热门程度进行排序,选取Top?N作为下一年的可能出行选择进行预测。该方法为最常用的航线推荐方式,对所有旅客推荐无差异,不能对旅客产生有针对性的个性化推荐。
2) 基于历史选择推荐,记作UserHistory。主要做法是:将旅客过去的历史出行记录按出行频次进行排序,作为未来的可能出行选择进行预测。各用户间有了差异,但考虑因素比较单一,不能产生新的推荐项。
3) 基于旅客相似性的协同过滤算法,记作CFPearson和CFJaccard。主要做法是:通过计算旅客选择矢量之间的Pearson相关系数和Jaccard系数来表示旅客间的相似度。存在旅客选择矩阵极稀疏,相似度计算困难的问题。
3.4 实验结果
该数据集中,旅客出行次数范围为3~10,平均出行次数为3.7次,故试从预测结果选择Top5,Top10作为推荐项,各种不同方法的实验结果对比如表2~表3所示。
由于旅客出行受到多种因素的影响,对未来出行行为的预测及推荐是一项具有挑战的行为。从实验结果可以看出,基于旅客信任网络的推荐办法相较于传统的基于历史记录及热门航线的推荐办法有明显的优势,相比于基于旅客矢量相似性的协同过滤算法也有一定的提高。从表2~表3可以看出,考虑目标旅客一阶邻居作为相似旅客TTNCF1的效果要优于考虑目标旅客两阶之内旅客TTNCF2的预测效果。对实验结果进行进一步的分析,采用基于旅客信任網络的航线预测办法中,目标旅客邻居跳数k的选取对航空公司航线的预测覆盖率的影响情况如图6所示。可以看出,当k=1时,即通过寻找信任网络中一阶邻居节点TTNCF1,可以对66.95%的航空公司航线进行预测;当k=2时,即通过寻找信任网络中二阶内邻居节点TTNCF2,对航空公司航线的预测覆盖率可以达到86.78%。
TTNCF2的预测精准度虽然低于TTNCF1的预测精准度,但提高了对航空公司航线的预测覆盖率,能产生更多的新异性推荐,有利于市场营销。故TTNCF1和TTNCF2方法有不同的偏重,前者相较于后者有更高的精准度,后者相较于前者有更大的航空公司航线覆盖率,在考虑不同侧重时,可采用不同的预测办法。
4 结 论
本文针对传统的基于热门航线对旅客进行航空公司航线推荐办法的无差异性,提出一种基于旅客信任网络的航线推荐办法,对旅客航空公司航线选择推荐行为取得了一定的效果。但由于民航旅客出行的特殊性,旅客在出行时虽有一定的规律可循,但存在多种不可预知因素的影响,旅客的未来出行存在很大的随机性。在接下来的研究中将考虑更多的可能影响的因素,对旅客出行行为做出进一步的探究。
注:本文通讯作者为张晨。
参考文献
[1] MAALOUF L, MANSOUR N. Mining airline data for CRM strategies [C]// WSEAS International Conference on Simulation, Modelling and Optimization. Beijing: WSEAS, 2007: 345?350.
[2] 冯霞,徐冰宇,卢敏.民航旅客订票行为细分及群体特征分析[J].计算机工程与设计,2015,36(8):2217?2222.
[3] KIM S Y, JUNG T S, SUH E H, et al. Customer segmentation and strategy development based on customer lifetime value: a case study [J]. Expert systems with applications, 2006, 31(1): 101?107.
[4] 丁建立,刘晓庆,王家亮.一种融合个体属性与社交关系的民航旅客价值度量方法[J].航空学报,2018,39(2):263?274.
[5] RICCI Francesco, ROKACH Lior, SHAPIRA Bracha. Recommender systems handbook [M]. Boston: Springer, 2015: 1?34.
[6] KOREN Yehuda, ROBERT Bell. Advances in collaborative filtering [C]// Recommender Systems Handbook. Boston: Springer, 2015: 77?118.
[7] 荣辉桂,火生旭,胡春华,等.基于用户相似度的协同过滤推荐算法[J].通信学报,2017,35(2):16?24.
[8] LARSON R R. Introduction to information retrieval [J]. Journal of the American society for information science & technology, 2010, 61(4): 852?853.
[9] MASSA P, AVESANI P. Trust?aware recommender systems [C]// Proceedings of 2007 ACM Conference on Recommender systems. Minneapolis: ACM, 2007: 17?24.
[10] 王兴茂,张兴明,邬江兴.基于一跳信任模型的协同过滤推荐算法[J].通信学报,2017,36(6):193?200.
[11] 朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163?175.