基于RBM-BPNN的民航潜在高价值旅客预测

2019-09-13 03:36:40刘泽君
计算机应用与软件 2019年9期
关键词:类别旅客分类

徐 涛 刘泽君 卢 敏

1(中国民航大学计算机科学与技术学院 天津 300300)2(中国民航信息技术科研基地 天津 300300)3(民航旅客服务智能化应用技术重点实验室 北京 101318)

0 引 言

近年来,随着航空市场迅猛发展,民航企业合作竞争日益增强。为了提高竞争力,航空公司推行了常旅客计划。然而,由于常旅客计划的门槛较高并且反馈的利益较少,导致了当前消费尚少,但潜在价值较高的旅客群流失,不利于航空公司长远的利益发展。因此,如何预测旅客的价值成长趋势并发现潜在高价值旅客,先于其他竞争对手将其发展为高忠诚度高价值旅客成为了航空公司重点关注的问题。

目前,国内外关于潜在客户预测的研究主要运用基于特征分类的行为分析方法。林友芳等[1]构建旅客同行关系网络,统计同行行为特征,利用多层感知器进行分类预测。乔珂等[2]从高铁客票数据中选择了6类乘客价值影响因素作为分类指标,采用LCM模型进行高铁旅客的潜在类别分析。Nakahara等[3]从销售信息中归纳出客户购买行为特征,并用聚类算法发现潜在客户。

总体来看,上述方法都是先用统计方法提取潜在客户行为特征,再用机器学习模型进行分类预测。然而,民航潜在高价值旅客与低价值旅客往往存在特征相似性,统计方法提取的特征带有主观色彩,难以准确表达潜在高价值旅客特征信息,因而影响分类预测准确性。

为解决以上问题,本文将RBM[4]和BPNN[5]相结合。一方面,BPNN能发现旅客行为特征与价值类别之间复杂的非线性关系,相比其他分类模型具有更强的泛化和容错能力,更适用于民航潜在高价值旅客预测问题。另一方面, RBM能够自动提取特征,无需经验支持或人工干预,可以保证旅客行为特征的客观性、全面性,从而提高BPNN的分类预测效果。

本文提出了一种基于RBM-BPNN的潜在高价值旅客预测方法。首先依据航空公司的发展需求,设计民航潜在高价值旅客定义方法,并设置旅客类别标签;然后利用RBM自动提取潜在高价值旅客和低价值旅客的行为特征;最后根据旅客行为特征,利用BPNN进行民航旅客的分类预测,从而发现潜在高价值旅客。

1 预测模型构建

民航潜在高价值旅客预测的关键有两点:一是定义潜在高价值旅客,不同领域有不同的价值定义方式,民航领域的价值定义方式应符合航空公司的发展需求;二是设计拥有优秀的民航潜在高价值旅客特征表达能力和良好的特征学习能力的分类预测模型。

1.1 潜在高价值旅客定义

潜在高价值旅客定义分为两步:计算旅客价值、设置旅客类别标签。

1.1.1计算旅客价值

采用RFM模型(Recency Frequency Monetary)[6]作为民航旅客价值的衡量标准。RFM模型包含三项价值指标:最近一次消费时间与当前时间之差R、最近消费频率F和最近消费金额M。根据RFM模型,将旅客pi的价值表示为:

value(pi)=αi·βT

(1)

式中:αi=(Ri,Fi,Mi)表示旅客pi的价值向量,αi的各分量表示旅客pi最近乘机日期与当前日期之差(此项为负值)、近期乘机次数以及近期乘机金额的归一化值;β=(βR,βF,βM)表示权值向量,用于确定各分量在价值中的占比,一般由民航业背景结合专家经验确定。

1.1.2设置旅客类别标签

为了进行有监督的分类学习,需要划分价值类别,设置旅客类别标签。一般而言,潜在高价值旅客是指当前价值较低,未来一段时间后价值较高的旅客。记T为当前时刻,T′为未来某一时刻,V为价值阈值,表示高价值与低价值的分界限,根据旅客整体的价值分布,由价值衡量指标计算得到。若旅客在T时刻的价值小于V,在T′时刻的价值大于等于V,则称其为潜在高价值旅客,价值曲线如图1(I)所示。反之,若旅客在T时刻的价值小于V,在T′时刻的价值仍然小于V,则称为低价值旅客,价值曲线如图1(II)所示。

图1 旅客价值曲线图

T时刻到T′时刻的时间差|T-T′|的长短与民航业发展特征密切相关,对于航空公司而言,若该时段设置的过长,旅客对航空公司现阶段发展的作用不大;若该时段设置的过短,旅客的出行次数不足以形成行为偏好。综合考虑,将该时段设定为一年。航空公司可依据旅客上一年的出行记录预测其在下一年的价值,做出相应的决策。

定义价值阈值V。从旅客历史出行记录中可以获得旅客的近期消费情况,利用RFM模型计算出旅客价值并降序,根据20-80原则[7],价值排名在前20%的旅客创造了80%的利润,可视为高价值旅客。

设置旅客类别标签。一年后,旅客的价值会呈现不同的发展趋势,从而形成四种类别。其中:高价值旅客为两年均表现为高价值的旅客;异常旅客为在上一年表现为高价值且在下一年表现为低价值的旅客;潜在高价值旅客为在上一年表现为低价值且在下一年表现为高价值旅客的旅客;低价值旅客为两年均表现为低价值的旅客。旅客类别划分如图2所示。

图2 旅客类别划分

1.2 RBM-BPNN分类预测模型

RBM是无监督学习模型,由可视层和隐藏层组成,其隐藏层能够拟合可视层分布,常用于各领域的特征提取问题。BPNN是有监督学习模型,由输入层、隐藏层和输出层组成,能够通过复杂的函数变换发现输入和输出之间的关系,常用于各领域的分类预测问题。本文结合二者的优点,提出RBM-BPNN分类预测模型,模型由一个RBM和一个BPNN组成,结构如图3所示。

设RBM可视层节点vi的数目为m,代表m维输入属性,隐藏层节点rhj的数目为n,代表n个行为特征。则RBM的能量函数为:

(2)

式中:ai为vi的偏置;bj为rhj的偏置;wij为两层之间的连接权重。θ={w,a,b}为RBM中所有参数,根据式(2)可得到(v,rh)的联合概率分布为:

(3)

(4)

RBM的节点只有激活(1)、抑制(0)两种状态,且激活状态条件独立,则有:

(5)

(6)

式中:σ(x)=(1+e-x)-1为Sigmoid激活函数。

采用对比散度算法(Contrastive divergence,CD)[8],通过式(5)、式(6)对可视层和隐藏层进行重构,更新参数θ,当从隐藏层得到的可视层节点分布与原样本的分布最大程度相近时,认为该隐藏层为可视层的另外一种表达,是输入数据的特征,θ={w,a,b}条件下的式(5)即为行为特征的表达式。

将从RBM得到的输出特征作为BPNN的输入,增强BPNN的分类预测效果。设BPNN隐藏层节点bhk的数目为s;输出层节点ul的数目为2,代表两类分类结果;wjk为输入层到隐藏层的权重;wkl为隐藏层到输出层的权重;ck为隐藏层的偏置;dl为输出层的偏置。则BPNN隐藏层节点输出为:

(7)

预测结果的表达式为:

(8)

设yl为实际样本标签,在得到期望输出之前,BPNN转入反向传播阶段,误差函数为:

(9)

1.3 基于RBM-BPNN的民航潜在高价值旅客预测

基于RBM-BPNN的民航潜在高价值旅客预测的思想为:根据上一年表现为低价值的民航旅客的行为属性,利用RBM-BPNN分类预测模型判断其是潜在高价值旅客还是低价值旅客。高价值旅客和异常旅客非本文研究的重点,不作讨论。基于RBM-BPNN的民航潜在高价值旅客预测方法的实现步骤如下:

Step1根据RFM模型划分旅客类别,设置民航旅客类别标签,将上一年处于低价值的旅客的类别标签及行为属性组成样本,划分训练集和测试集。

Step2RBM-BPNN分类预测模型初始化,随机赋值RBM的参数wij、ai、bj和BPNN的参数wjk、wkl、ck、dl。

Step3RBM训练。输入训练集,使用CD算法进行RBM训练,提取旅客行为特征,重构误差满足要求后保存RBM网络结构及参数θ={w,a,b}。记v和rh分别为初始可视层和隐藏层,v′和rh′分别为重构后的可视层和隐藏层,η1为RBM学习率,则RBM各参数的更新准则为:

(10)

Step4样本重组。用RBM的隐藏层rh替换BPNN的输入层,作为旅客的行为特征,将旅客的类别标签及行为特征重组为样本。

Step5BPNN训练。使用误差反向传播法[9]逐层调整BPNN的权重和偏置,学习旅客行为特征与价值类别之间的关系,训练误差SE达到目标精度后保存BPNN网络结构及参数wjk、wkl、ck、dl。记η2为BPNN学习率,则BPNN各参数更新准则为:

wkl←wkl+η2bhk(yl-ul)

dl←dl+η2(yl-ul)

(11)

Step6分类预测。确定RBM-BPNN分类预测模型的网络结构后输入测试集,采用保存的RBM参数θ={w,a,b}和BPNN参数wjk、wkl、ck、dl进行旅客的分类预测,得到预测结果。

2 实 验

实验所用的数据集是中国民航旅客订座记录(Passenger Name Record, PNR),选取2010年后的某年X及次年全部旅客的出行数据进行实验。根据RFM价值模型和20-80原则,可以得到X年的潜在高价值旅客和低价值旅客数目(如表1所示)。

表1 数据集统计信息

2.1 数据预处理

PNR数据集中,一条记录仅代表一名旅客的一次订票信息。为了不损失信息的反映一名旅客多次出行的情况,需要将同一名旅客的多条记录合并,这既反映旅客全部出行的选择,又反映其对于选择的偏好。

原始PNR数据集含有10个属性,分别是性别、出生年份、航空公司、起飞日期、起飞时间、舱位、座位号、座位行号、折扣和航线距离。对于原数据集的离散型属性(性别、出生年份、航空公司、起飞日期、舱位、座位行号、座位号),将其值域内的每一个取值作为一个子属性,并依次记录旅客对于每个子属性选择的频次;对于原数据集的连续型属性(起飞时间、折扣、航线距离),先将属性离散化,用相应的离散区间替换连续属性值,再依次记录旅客对于每个离散区间选择的频次。

又因RBM的训练要求节点为二值0-1变量,因此对合并后的数据做二元化处理。对于一名旅客只能取唯一值的自然属性(性别、出生年份),将每个属性划分为0、1二值;对于一名旅客可取多值的属性(航空公司、起飞日期、舱位、座位行号、座位号、起飞时间、折扣、航线距离),分为零、低、中、高四项,每项设定阈值。最终,输入样本维度为2 288维(如表2所示)。

表2 属性维度统计信息

2.2 实验评价指标

实验选取精确度、召回率和F1值三个指标评估方法的性能。

2.3 实验及结果分析

从处理后的数据集中随机抽取潜在高价值旅客样本及低价值旅客样本各8 000条,组成16 000条训练样本;随机抽取潜在高价值旅客样本及低价值旅客样本各2 000条,组成4 000条测试样本进行实验。

参数wij、wjk、wkl、ai、bj、ck、dl的初始值通常为从一组均值为0,标准差为0.01的正态分布中抽取的随机值;RBM可视层节点vi数目m为2 288,与输入样本维度一致;BPNN输出层节点ul数目l为2;RBM重构误差小于2%时停止训练,BPNN目标精度设为0.1。

为测试本文方法的性能,进行了两种不同的实验。

1) 确定RBM-BPNN分类预测模型的最佳参数。RBM隐藏层节点数目n以及BPNN隐藏层节点数目s是对模型输出结果影响最大的参数,需要通过多次训练,对比寻找合适的值。

RBM隐藏层节点数目n取100到2 100,每次训练增加200。从图4可以看出,当隐藏层节点数设为700时三项指标最高,因此,将RBM隐藏层节点数目设为700。

图4 RBM隐藏层节点数目对结果的影响

BPNN隐藏层节点数s取50到650,每次训练增加50。从图5可以看出,当隐藏层节点数设为150时,精确度和F1值最高,且召回率较高,因此,将BPNN隐藏层节点数目设为150。

图5 BPNN隐藏层节点数目对结果的影响

2) 不同行为分析方法的对比。令n=700,s=150,将本文提出的基于RBM-BPNN的民航潜在高价值旅客预测方法(简称RBM-BPNN方法)与BPNN方法、DT方法、PCA-BPNN方法在相同的数据集上进行对比。其中,BPNN方法与DT方法采用了14个统计特征,包括性别、年龄、月平均出行次数、平均里程数、空闲时间出行比例、正常时间出行比例、繁忙时间出行比例、头等舱出行比例、商务舱出行比例、经济舱出行比例、平均折扣、节假日出行比例、工作日出行比例、周末出行比例。PCA-BPNN方法利用经典的PCA特征提取算法从原始数据中抽取特征,再输入 BPNN进行分类预测。不同方法的实验结果如表3所示。

表3 方法的对比 %

通过实验可以看出:

(1) BPNN方法在三项指标上均高于DT方法,这说明BPNN比DT具有更强的自适应能力,更适用于PNR数据集。

(2) BPNN方法和DT方法的三项指标均低于80%,说明基于特征分类的行为分析方法无法精确有效地发现潜在高价值旅客。这是由于统计方式提取的特征具有较强的主观性,难以合理地表示原始数据,是导致分类效果欠佳的重要原因。

(3) RBM-BPNN方法在三项指标上均高于BPNN方法和DT方法,说明RBM-BPNN方法比基于特征分类的行为分析方法更能有效识别潜在高价值旅客。这是由于RBM以概率计算方式自动选取性能良好特征,摒弃冗余特征,发现隐藏特征,所提取的特征比统计特征更为客观。

(4) RBM-BPNN方法在三项指标上均高于PCA-BPNN方法,说明RBM提取的特征比PCA提取的特征性能更好。这是由于RBM的特征提取过程是以拟合输入为目的,特征能够较为精确地代表原始数据;而PCA的特征提取过程是以去相关性为目的,忽略了特征之间的相关性和差异性,使得特征丧失了对数据的解释性,难以精确地反映原始数据的信息。

从对比实验的结果可见,基于RBM-BPNN的民航潜在高价值旅客预测方法具有更高的旅客分类准确率和民航潜在高价值旅客预测能力。

3 结 语

本文将RBM的无监督特征提取与BPNN的有监督分类功能相结合,提出了基于RBM-BPNN的民航潜在高价值旅客发现方法,对民航旅客未来的价值类别进行了预测。实验结果表明,与基于特征分类的行为分析方法相比,本文方法可以明显提高民航潜在高价值旅客发现效果。由于RBM-BPNN分类预测能够直接从原始数据集中自动提取并分类特征,无需经验支持或人工干预,因此可以用于不同领域的行为分析问题。

猜你喜欢
类别旅客分类
非常旅客意见簿
分类算一算
分类讨论求坐标
数据分析中的分类讨论
我是人
故事大王(2018年3期)2018-05-03 09:55:52
教你一招:数的分类
给小旅客的礼物
空中之家(2016年1期)2016-05-17 04:47:43
服务类别
新校长(2016年8期)2016-01-10 06:43:59
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
中医类别全科医师培养模式的探讨