基于随机森林算法的旅客空铁联运中转城市选择模型

2022-02-23 12:47任怡凤刘冬梅李宏伟
关键词:决策树旅客概率

杨 敏 任怡凤 盛 强 刘冬梅 李宏伟

(1 东南大学交通学院, 南京 210096)(2 上海携程商务有限公司, 上海 200335)(3 交通运输部公路科学研究院, 北京 100088)

党中央、国务院发布的《交通强国建设纲要》提出打造旅客联程出行系统,提升出行服务水平.空铁联运作为典型的联程出行模式,让旅客使用航空和铁路2种出行方式多阶段实现其完整出行,有助于扩大典型枢纽交通覆盖范围,提供丰富城际出行选择.空铁联运中转城市选择是联程出行的关键环节,不同中转城市会直接造成联运服务经济性、快速性、便捷性差异.对旅客空铁联运中转城市选择进行分析和预测,有助于挖掘联程出行需求、预估枢纽客流量水平,对于反馈枢纽设施建设、提升出行服务水平十分重要.

目前空铁联运领域的相关研究主要集中于以下3方面. ①服务设施规划层面.丁玲玲[1]和高克林等[2]采用定性分析方式,针对乌鲁木齐市、郑州市的空铁联运枢纽规划进行案例研究,从功能定位、联运设施、联运管理等角度对空铁联运服务规划提出具体要求;可钰等[3]提出空铁联运OD 可达性约束,建立面向关键空铁联运OD可达性的高铁时刻表优化模型,从而提升空铁联运服务可达性;Li等[4]基于网络理论提出一种分析空铁联运系统薄弱点的方法,并根据运行时间表和位置坐标数据识别空铁联运系统中的关键城市.②集计运量需求预测层面.戴福青等[5]基于超级网络理论构建空铁联运超级路网,并用Floyd算法进行求解,模型有效建立了城市间空铁联合交通流分布与现有供给运力之间的定量关系;黄娟等[6]考虑到铁路运输与航空运输间的联运和竞争关系,基于Logit模型采用分类预测的形式对湖北鄂州机场的空铁联运分担率进行预测;可钰等[7]基于既有航空和高铁的统计客流数据建立关于空铁联运换乘点选择的Logit模型,应用129对OD线路数据标定,分析经济性、快速性和方便性对空铁联运换乘点选择的影响.③旅客服务偏好层面.Jiang等[8]基于机场历史运营数据和意向调查,探究班次设置频率、机场衔接度、飞机票价、航班延误情况等各因素对旅客选择空铁联运服务的影响重要程度;李兴华等[9]使用k-means聚类算法评估空铁联运各项服务的重要度,发现票价优惠、换乘信息、安检互认等服务被认为是重要的联程联运服务类型,并且不同特性旅客存在不同的需求偏好;芮海田等[10]使用自主设计的调查问卷,应用Logit模型从个人特征和出行特征2个维度分析旅客在中长距离出行时出行方式选择的影响因素及影响过程,发现目的地城市等级、年龄、出发时间弹性等因素具有重要影响效果;Román等[11]通过构建多项Logit模型和混合Logit模型探究旅客选择空铁联运方式的影响因素和偏好特征,模型结果表明设计联合时刻表缩短换乘时间的方式能有效提升旅客空铁联运出行的意向,同时模型还标定了用户对空铁联运服务各环节的支付意愿.

而近年来,机器学习领域中的随机森林模型因其基于数据挖掘能够得到良好预测准确度的特性,已在诸多方面得到普遍应用,如交通流量预测、交通事故分析、模式识别等[12-17].但是,因机器学习中非参数模型的“黑箱”特性,在模型结果的可解释性上常被诟病[18].尽管如此,随着机器学习领域研究的发展,一些学者开始尝试挖掘随机森林模型在行为分析领域的可解释性.如Hagenauer等[19]构建多个机器学习模型对比分析出行者市内交通方式选择行为的预测效果,尝试通过因变量的敏感度分析和自变量的准确度贡献挖掘关键影响因素.Cheng等[20]对比随机森林模型和多项Logit模型对居民出行方式选择的建模结果,评估个人属性和建成环境等各影响变量的不同重要性,并发现随机森林模型的预测精度相对最高.Zhao等[21]和Cheng等[22]通过构建随机森林模型并尝试使用部分依赖图拓展分析各解释变量对出行方式选择的非线性影响关系,分析曲线变化趋势.

目前,空铁联运领域针对个体偏好的相关研究,其研究数据主要依托问卷方式进行行为调查和意向调查获取,研究方法则以建立离散选择模型分析旅客对联运各服务环节的偏好选择为主,鲜有应用机器学习模型在旅客个体层面针对空铁联运中转地选择行为的探讨.经典的离散选择模型要求数据符合严格的统计学假设分布,难以准确揭示自变量对因变量间的复杂非线性关系,机器学习模型则依托真实数据进行挖掘,可实现灵活和高精度的预测.因此,针对上述研究不足,本文应用携程旅行网提供的空铁联运旅客互联网历史订单脱敏数据,以京津冀城市群中保定-上海空铁联运场景为例,基于随机森林算法构建旅客空铁联运中转城市选择模型,并对比其他常用的机器学习算法和多项Logit离散选择模型,深入挖掘影响旅客空铁联运中转城市选择的因素及复杂非线性关系.

1 随机森林模型

1.1 基于决策树的集成学习算法

本研究使用随机森林(random forests,RF)算法来预测旅客城际空铁联运中转城市的选择,并探究影响因素与被选择的联程中转城市之间的复杂非线性关系.随机森林算法是一种灵活、易于使用的有监督机器学习算法.此算法首先由Ho[23]使用随机子空间方法提出,而后由Breiman[24]扩展,该扩展结合了Bagging理念和随机选择特征.大量的理论和实证研究都证明了随机森林算法具有很高的预测准确率, 对异常值和噪声具有很好的容忍度, 且不容易出现过拟合[25].从模型训练时耗角度,随机森林算法由于其Bagging并行构建决策树和Bootstrap抽样的机制,对于大量数据的训练具有高效的运行速度.该算法是一种基于决策树的集成算法,包含多棵由Bagging(并行)集成学习技术训练得到的决策树{h(X,Θn),n=1,2,…,N},其中X为输入向量,Θn为独立同分布的随机向量.当输入待分类的样本时,最终的分类结果由多棵独立的决策树的输出结果投票决定.该方法首先在原始数据集上通过Bootstrap有放回抽样重新选出N个新数据集;随后根据选出的N个数据集训练N棵决策树并组成RF分类器,并以决策树投票的方式决定分类结果,将得票最高的类别作为最终标签.图1为本研究案例中RF算法的示意图,首先将原始旅客订单数据使用Bootstrap有放回重采样方法划分为N个子样本集,而后针对每个子样本集Dn构建相应的决策树Tn,基于旅客多维度特征变量(如年龄、性别、出行偏好等),预测其选择的中转城市(如城市A、B、C).因输入的子样本集不同,可能会造成各弱分类器决策树的节点分裂情况不完全相同,即图1中各变量节点分裂阈值βnm(n=1,2,…,N;m∈N+)存在差异,但应用Bagging集成学习机制可有效降低模型方差,提升预测精度.

应用随机森林算法的建模流程具体如下.①对原训练集Dtrain进行Bootstrap有放回采样,得到N个新的子数据集Dn(n=1,2,…,N),并基于每个子数据集Dn来训练一棵决策树;②从子数据集Dn包含的所有M维特征中随机选取k维特征,k

图1 随机森林算法图解

1.2 袋外误差率

因为随机森林模型基于Bootstrap重采样技术,对于每一棵子决策树仅使用部分样本进行训练,未被选择的样本则被称为袋外样本,则其可以通过袋外误差(out-of-bag error, OOB Error)衡量模型的预测精度和泛化能力.对于每个子决策树分类器Tn的袋外误差率εn定义为

(1)

式中,Wn为对袋外子数据集错误分类的个数;Sn为袋外子数据集的样本数量.

对于含有N棵子决策树的随机森林模型,其使用袋外数据估计的泛化误差ERF为

(2)

1.3 特征重要度

随机森林算法可以基于Gini不纯度指数计算决策树划分节点的不纯度从而衡量特征重要度[26].每次对变量Xi进行节点拆分时,2个后代节点的Gini不纯度指数则会均小于父节点.本文使用Gini不纯度指数来识别有助于空铁联运中转城市选择的重要解释变量.对于用于进行分割的解释变量,先计算内部树节点处Gini不纯度指数的降低值,然后计算随机森林中所有决策树的Gini不纯度指数的平均下降值,从而作为相应观测变量的重要性度量.对于一个具备J个类别的节点分割变量Xi,其Gini不纯度指数计算如下:

(3)

式中,G(Xi)表示解释变量Xi的Gini不纯度指数;P(Xi=j)表示估计节点Xi处样本属于类别j的概率.而后决策树的分裂子节点构建则会按照Gini不纯度指数由高至低分配.

1.4 部分依赖图

近年来,一些学者开始展开对机器学习模型的可解释性方面的研究.上述的特征重要度即为一个常用的衡量指标,用于评估解释变量对于因变量的影响程度大小[19-20,27].但是,特征重要度无法像传统统计学模型一样通过标准化系数的符号和大小来分析解释变量对因变量的影响趋势、边际效应、弹性等重要指标.

为改进机器学习模型中的可解释性不足的问题,本文应用部分依赖图(partial dependence plot)来描述已标定的机器学习模型中解释变量对因变量的复杂非线性影响效果.部分依赖图首次被Friedman[28]提出,其在考虑了所有其他自变量的平均影响后,通过衡量特定自变量子集Xs对选择的因变量的log-odds对数几率或者概率的影响,对自变量子集Xs对因变量的影响趋势与程度进行图形化分析.受限于计算机图形化空间维度展示限制,一般自变量子集Xs的维度会选取较小,即选择1、2、3维,从而可绘制部分依赖图观察因变量与自变量子集之间的函数关系.对于因变量有K个分类的问题,部分依赖函数则会有K个独立的模型一一对应各分类.对于每一个分类各自的部分依赖概率函数,可由下式计算[29]:

(4)

式中,fk(X)表示因变量为第k个分类时对自变量X的部分依赖概率;pk为随机森林模型对类别k正确分类的比例;pl为随机森林模型对类别l正确分类的比例.

1.5 模型评估指标

为评估机器学习模型分类效果,本文应用精确率、召回率、F1得分、准确率4个指标进行评价,如下所示:

(5)

(6)

(7)

(8)

式中,C为所有预测正确的样本数;T为所有预测的样本数;nTP,k为对于类别k把正的判断为正的数目,即将实际中转城市正确判断为中转城市的数目;nFN,k为对于类别k把正的错判为负的数目,即将实际中转城市错误判断为非中转城市的数目;nFP,k为对于类别k把负的错判为正的数目,即将非实际中转城市错误判断为中转城市的数目;nTN,k为对于类别k把负的判断为负的数目,即将非实际中转城市正确判断为非中转城市的数目;Pk为对于类别k的精确率,表示对正样本结果中的预测准确程度;Rk为对于类别k的召回率,表示在实际为正的样本中被预测为正样本的概率;F1,k为对于类别k的F1得分,同时考虑精确率和召回率,是二者的等比例调和平均;A为模型总体预测准确率,表示所有预测正确的结果占总样本的百分数.因在样本集不均衡时,会导致准确率偏高,无法真实反映模型对于小样本量类别的预测效果;而应用此4个指标同时从多方面予以评价,可有效对比模型综合分类效果.

2 数据采集

京津冀区域交通一体化协同发展是实现京津冀世界级城市群目标的重要内容.然而目前京津冀范围内交通发展不均衡现象突出,尤其是河北省内地级市的高铁、航空建设不发达,限制旅客中长距离便捷出行,需依靠联程出行模式扩展其出行半径.本文选择保定-上海特定空铁联运场景进行案例实证研究.目前,保定市尚未建设机场,且保定市至上海市未有在运营的直达铁路线路,故有大量旅客选择铁路转飞机的联程出行模式完成其保定-上海的长途城际出行.

携程旅行网是当前中国拥有最多月活跃用户的在线旅游平台,汇聚海量多模式出行大数据,包含丰富的互联网用户订单和枢纽时刻表信息.本文使用携程旅行网提供的2020年8—10月从保定去往上海的空铁联运的旅客历史订单脱敏数据进行分析,其中共包含768条有效样本数据.样本数据中,旅客空铁联运共涉及3个中转城市,分别是北京(样本数102条)、天津(样本数61条)和石家庄(样本数605条).目前,保定与北京、天津、石家庄间均有多个火车站在运营铁路班次,样本中共覆盖保定站、保定东站、定州东站、白洋淀站4个火车站,其中石家庄与保定间运营的火车班次数量相对最多,天津最少;在机场航班运营方面,石家庄飞往上海的航班数量最少,北京与上海间运营的航空班次数量则相对最多.

该样本数据的描述性统计显示(见表1和表2),从保定至上海的空铁联运旅客中大部分选择从石家庄中转,相对较少的旅客从天津中转,数据集存在不均衡分布现象.在旅客个人属性特征维度,男性占比相较于女性更多,平均年龄在30岁左右.在旅客出行计划安排角度,虽大部分旅客在首程出发前将两程的行程一起提前预定,但在北京中转的旅客不提前购买下一程机票的比例相对更高;出发场站选择受其抵达便捷性及班次设定影响存在分布差异;首程出发时段的安排对于不同联程中转城市差异性不大.从空铁联运时耗特征角度,平均总行程时间在7 h左右;其中在北京中转的间隔时间最长,在石家庄中转的间隔时间最短.在空铁联运票价特征角度,首程火车票价会因运营线路、行驶里程、车辆类型、座位席次等级等因素变化,第2程接续的飞机票价则会因航线、运营航空公司、购票时间等因素波动;其中在北京中转的旅客相对平均花费最高,但其票价波动性变化也较大,在石家庄中转的旅客相对平均花费最少,其票价也更为稳定.

表1 分类型观测变量描述性统计结果

表2 数值型观测变量描述性统计结果

3 结果与分析

3.1 旅客空铁联运中转城市选择预测建模

为评估随机森林算法的分类效果,基于精确率、召回率、F1得分、准确率4个指标,与多项Logit模型(multinominal logistics regression, MNL)以及常用的机器学习分类算法K近邻(k-nearest neighbor, KNN)算法、支持向量机(support vector machine, SVM)算法进行对比,并将75%的样本数据用于训练,25%的样本数据用于测试,应用网格搜索的方法和10折交叉验证的方式训练分类器[30].MNL模型是最为广泛应用的离散选择模型之一,其基于随机效用最大化理论并假设效用随机项相互独立且服从极值分布.KNN是“懒惰学习”的著名代表,其在定类决策上依据最邻近的K个样本的类别来决定待分样本所属的类别,对于类域交叉或重叠较多的待分样本集处理简单有效[31].SVM算法使用铰链损失函数计算经验风险并在求解时加入正则化项优化结构风险,通过核方法进行非线性映射,是一个具有稀疏性和稳健性的分类器[32].

为防止模型训练过拟合或者欠拟合,图2展示了随机森林模型基于训练集调参过程中的袋外误差率随决策树数量、最大特征数、最少样本划分数、最大深度的变化.由图2可以发现,针对本案例数据,当决策树数量超过20棵、最大深度超过10层时,袋外误差率趋于收敛;最大特征数、最少样本划分数对模型效果的影响差别不大,均能取得训练集的袋外误差率在15%左右的效果.考虑到模型的运算效率和预测准确度,本案例设置随机森林模型的4个重要参数:决策树数量为100,最大特征数为无限制,最少样本划分数为8,最大深度为无限制.

(a) 决策树数量与最大特征数

(b) 最大深度与最少样本划分数

基于测试集的预测效果如表3所示,可以发现:①随机森林算法在分类的效果上表现最佳,其次是支持向量机算法,而多项Logit模型和K近邻算法表现相对较差.②根据精确率、召回率和F1得分3个指标,观察对于分类为北京、天津的样本数据预测结果,随机森林算法对于不均衡样本集的分类效果仍表现较好,具有较强的抗噪声和泛化能力;相对地,其余3种对比算法在占比较少的小样本中预测效果不佳.③随机森林算法对中转城市选择的总体分类准确率可达到88.54%,其中对于石家庄市的预测准确率可达到90%以上,表明算法应用效果较好.

表3 模型测试集预测效果比较 %

3.2 旅客空铁联运中转城市选择影响因素分析

随机森林模型可基于Gini不纯度指数计算观测变量的特征重要度,从而评估影响旅客空铁联运中转城市选择的自变量重要性差异.表4中,相对重要度即指将计算得到的各自变量的Gini不纯度指数使用归一化处理计算其在所有自变量中的重要性占比,累计重要度即指将各自变量的相对重要度按从大至小排序的累加计算值.结果表明,总行程时间、换乘间隔时长、总票价这3个运营服务层面的自变量对中转城市选择的各自相对影响可达到20%以上,再叠加首程出发时段、旅客年龄这2个变量,其对影响中转城市选择的累计重要度贡献可达到86.3%.而火车席次等级、是否提前购买下一程机票、性别等变量则对中转城市选择的影响程度不大,均低于5%的贡献率.

表4 空铁联运中转城市选择的影响因素特征重要度

根据标定的随机森林模型绘制影响因素的部分依赖图,进一步分析其与中转城市选择的非线性关系,结果如图3和图4所示.由于基于决策树的模型会产生不连续的分段常数模型并延续至树木总数,从而造成曲线并非严格平滑的碎片化分段效果,可更为细致描述自变量对因变量的影响.总体上,在默认情况下,旅客选择河北省省会石家庄市作为从保定去往上海的空铁联运中转城市的概率较大,可达到80%~90%左右;其次是首都北京,而选择天津作为从保定去往上海的空铁联运中转城市的概率最小.与前述影响因素重要性分析一致,总行程时间、换乘间隔时长、总票价这3个观测变量对中转城市的选择概率影响较大,并且呈现非线性影响关系.总行程时间、总票价对石家庄市被选择的部分依赖概率呈现Z形特征,由一高位平缓稳定值骤减降至一低位稳定值;而总行程时间、总票价对北京市、天津市被选择的部分依赖概率则呈现S形特征,由一低位平缓稳定值骤增升至一高位稳定值.

(a) 换乘间隔时长

(b) 总行程时间

(c) 总票价

(d) 火车席次等级

(e) 首程出发时段

(f) 出发场站

(g) 是否提前购买下一程机票

(h) 年龄

(i) 性别

(a) 北京中转概率

(b) 天津中转概率

(c) 石家庄中转概率

3.2.1 运营方服务供给层面分析

在班次设置方面,当旅客计划的总行程时间不超过300 min时,石家庄市作为中转城市被选择的概率较高;而随着总行程时间的增加,石家庄市被选择的概率会骤然下降,天津和北京被选择的概率会相应上升,最终三者趋于稳定.当换乘间隔时长在100~200 min以内时,随着换乘间隔时长的增加,北京和天津被选择的概率会逐渐下降;而当换乘间隔时长超过200 min以后,北京市被选择作为中转城市的概率会随着间隔时长的增加而缓慢上升.从服务供给方的换乘衔接效率角度分析,石家庄市依托正定机场高铁站与正定国际机场相距仅约3.4 km的地理空间区位优势能提供高效的机场大巴接驳服务,北京市凭借其发达的轨道交通系统可为旅客提供便利的铁路枢纽与机场枢纽之间的转换.从旅客的出行计划角度分析,当旅客计划的换乘间隔时长和总行程时长超过一定阈值上限时,更为倾向选择具有丰富功能性的大城市中转,因为其可在中转城市进行除换乘目的以外的其他需求活动,如旅游、购物、公务等.

在票务定价方面,当总票价低于1 300元时,3个城市被选择的概率均维持较为稳定的状态;而当总票价超过1 300元时,随着旅客支付的总票价的增长,北京市被选择作为中转城市的概率急速上升,而石家庄市被选择的概率急速下降,天津市被选择的概率则变化不大.火车席次等级对于中转城市选择的影响波动性不大,但是若旅客倾向于商务座、特等座和一等座等高级席次,则选择北京的概率会相较于其在选择高铁二等座的情况下更高.从旅客的经济承受能力角度分析,当旅客能承受相对更高的价格时,其会更倾向选择在一线大都市北京中转而非二线城市石家庄市.

在时间价格综合作用方面,北京市被高票价承受能力和时间预留充裕的旅客选择的概率较大,天津市在中等价格区间和中长时间预留的旅客中具有优势,石家庄市在偏好低票价区间和注重通行快速性的旅客中被选择的概率达到80%.

3.2.2 旅客方个人需求层面分析

在出行计划安排方面,其计划首程出发时段在03:00~08:00时段选择北京中转的概率相较于之后时段选择北京的概率更高,但总体大概率选择石家庄中转,并且时段越晚概率越高.从出发场站选择角度分析,从白洋淀站出发的旅客更有可能选择天津中转而非北京,其余选择保定站、保定东站、定州东站出发对于中转城市的选择影响不大.同时,若旅客未提前整体购买下一程机票,则旅客选择北京中转的概率会有所上升,但仍然是石家庄市被选择的概率最大.从服务供给方的运营班次数量角度分析,石家庄市与保定间运营的铁路班次数量最多,而北京市与上海间运营的航空班次数量最多,旅客更为倾向选择具有更多班次的中转城市为其出行提供更多保障.

在个人社会属性方面,其年龄、性别的部分依赖图曲线总体均较为水平,表明此2个属性对于中转城市的选择几乎无影响.尽管旅客年龄对于中转城市的选择概率影响在30~40岁区间内会有一个小波动,但总体变化不大.

4 结论

1) 本文对城际出行互联网订单数据进行挖掘,基于随机森林算法对旅客空铁联运中转城市选择行为进行模型构建与标定.研究结果表明,随机森林算法相较于多项Logit模型、K近邻算法、支持向量机算法在空铁联运中转城市选择问题上具有更高预测准确度,能有效处理不均衡样本,其总体准确率可达到88.54%,并具备描述解释变量与因变量间复杂非线性关系优势.同时,使用部分依赖图细致描述各属性特征对旅客中转地选择概率的影响趋势.

2) 在影响联程中转城市选择的因素中,运营方的服务供给侧属性相较于个人属性,即班次设置和票务定价相较于旅客出行计划和社会特征,会占据更高比重且为非线性影响作用,从而造成不同服务水平特征城市被选择概率差异.相较于传统单一方式的出行模式,联程出行服务模式中特有的换乘衔接效率等方面属性影响则更为突显,合理的时刻表衔接设置、便利的枢纽间接驳换乘服务有助于提升空铁联运服务吸引力.本研究结果可有助于铁路和民航部门进行联程中转城市市场份额估计,并在运输班次设置、枢纽场站选址、票价调控等方面进行相关政策制定和服务改善研究,如定制需求响应式接驳车、基于接驳服务水平设计一体化联运票务方案等.

3) 本文研究使用的旅客空铁联运出行订单样本数据量有限,并且互联网订单脱敏数据缺少较多个人社会经济属性,后续可以继续扩充数据量和特征维度来验证所述主要结论.此外,解析城际联程出行更复杂多模式场景,深入分析联程出行旅客特性需求、服务设施供给水平是下一步研究的重点.

猜你喜欢
决策树旅客概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
非常旅客意见簿
候车大厅的旅客
决策树和随机森林方法在管理决策中的应用
我是人
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖