机场到港旅客乘坐出租车短时需求预测

2023-08-21 12:20宋溢露
关键词:贝叶斯出租车标定

宋溢露,羊 钊

(1.南京航空航天大学 民航学院,南京 211106; 2.南京航空航天大学 通用航空与飞行学院,南京 211106)

随着飞机出行方式的普及化,机场旅客吞吐量增长迅速,民航发展处于重要的战略机遇期[1],人民对安全、便捷的航空出行方式仍有更高期待.2021年全国民航运输机场完成旅客吞吐量9.07亿人次,比上年增长5.9%[2].随着民航业的复苏,机场陆侧出租车业务量持续增长,为缓解机场出租车资源供给与机场到港旅客运输需求不匹配造成的矛盾,需要提高机场出租车集疏运系统运行效率,准确把握乘坐出租车的机场旅客短时流量.若能实现精度更高的机场出租车旅客短时流量预测,将有利于机场合理分配陆侧资源,缓解机场陆侧交通压力,完善机场集疏运系统,实现旅客出行便捷高效的建设目标.

机场到港旅客出租车需求预测涉及机场流量预测和地面交通流量预测两个方面.在机场流量预测方面,方法可以分为基于线性假设的、基于非线性假设的及基于线性假设与非线性假设组合的.其中,基于线性假设的方法有ARIMA模型[3]等,基于非线性假设的方法有神经网络[4]、神经网络分位数回归[5]模型等,基于线性假设与非线性假设组合的有卡曼滤波预测模型和反向传播神经网络模型[6]组合等.在地面交通流量预测方面,近几年的研究较多运用机器学习的方法.按照预测对象,可以分为路段流量、公交车流量、出租车(包括网约车)流量及地铁流量.其中,路段流量预测方法包括状态频率记忆神经网络[7]、线性模型的深度学习模型[8]、一种定制的机器学习方法[9]、支持向量机[10]等,公交车流量预测方法包括人工神经网络模型[11]、深度神经网络(DNN)-自动编码器(SAE)[12]等,出租车流量预测方法包括ST-Attn模型[13]等,地铁流量预测方法包括ARIMA模型[14]、 LSTM模型及其变体[15-16]等.

目前,关于机场出租车需求预测的研究分为宏观和微观两个方面.其中宏观方面指将旅客视为一个整体,根据旅客的宏观特征,预测其出租车需求.微观方面指将旅客视为个体,在对机场客流量整体预测的基础上,运用离散选择模型搭建旅客交通方式选择模型,得到机场陆侧交通方式分担率,间接得到出租车需求.

现有的机场出租车需求预测存在着以下两个局限:一是多从个体扩展到群体的角度出发,采用离散选择的方法,这类预测模型要求提供详尽的自变量信息,包含旅客个人信息等,数据采集及建模具有一定难度;二是对机场陆侧多种交通方式的交互影响考虑有所欠缺,利用天气、到港旅客流量对特定陆侧交通方式流量进行预测,大多采用单个交通方式单独预测,不考虑其他交通方式的影响.

鉴于此,本文基于LightGBM模型,从群体角度出发,考虑其他交通方式的影响,对机场到港旅客出租车流量进行直接预测.首先收集机场到港旅客出租车订单数据、机场到港飞机数据、机场天气报文数据和机场到港旅客地铁闸门数据,对数据进行时间归属、噪点过滤、平移切分、求解处理,利用斯皮尔曼相关系数分析数据,搭建LightGBM模型并根据具体情景采取网格法或贝叶斯优化进行参数标定,预测机场到港旅客出租车流量,并与其他预测模型进行对比.精确预测机场到港旅客乘坐出租车短时需求,有助于缓解机场出租车资源供给与机场到港旅客运输需求不匹配造成的矛盾,提高机场出租车集疏运系统运行效率,从而实现旅客出行便捷高效的建设目标.

1 数据处理与分析

本文依托美国纽约肯尼迪国际机场2020年1、2月的机场到港旅客开展机场到港旅客短时需求预测研究.选取的数据包括机场到港旅客出租车订单数据、机场到港飞机数据、机场天气报文数据和机场到港旅客地铁闸门数据.其中,机场到港旅客出租车订单数据内包含旅客出发地点、出发时间和人数;机场到港飞机数据包括机场到港航班机型数据、机场各时间段到港航班架次数据和机场到港航班客座率数据;机场天气报文数据包括风速、温度、露点温度、能见度、气压、是否下毛毛雨、是否降雨、是否有雷暴、是否有雾、是否降雪和是否有霾;机场到港旅客地铁闸门数据包括纽约R414、R535、R536这3条经过肯尼迪国际机场站点的地铁线路每4 小时各个站点闸门的过闸人数.

对机场到港旅客出租车订单数据进行噪点过滤和时间归属处理,得到机场到港旅客乘坐出租车流量时间序列数据.对机场到港飞机数据进行求解处理,求得机场到港旅客下机数量,求解公式为:

(1)

其中:f为机场到港旅客下机数量,Ni为第i种机型到港航班数量,Si为第i种机型的可用座位数,PLF为客座率,I为机型总数;对得到的机场到港旅客下机数量进行时间归属处理,求得机场到港旅客下机流量时间序列数据和机场到港旅客前1小时下机流量时间序列数据,两者组合,得到机场到港旅客下机流量时间序列数据集.对机场到港旅客乘坐地铁闸门数据进行数据切分和时间归属处理,得到机场到港旅客乘坐地铁流量时间序列数据,对天气报文数据进行数据切分和时间归属处理,得到天气时间序列数据,其中,由于1~2月均未发生雷暴,将该项数据删除.将生成的数据结合包含月份、日期、星期的时间特征,得到处理后的综合时间数据集,示例如表1.

采用斯皮尔曼相关系数对处理好的综合时间数据集进行分析.斯皮尔曼相关系数可以消除量纲,并对非正态分布的数据进行相关性分析.计算得到的斯皮尔曼系数范围在-1~1之间,绝对值越接近1,表明越相关,绝对值越接近0,表明越不相关.斯皮尔曼系数对应的p值表示两类数据的相关性用斯皮尔曼系数衡量是否合适,p值越接近0,表明越适用.得到的斯皮尔曼相关系数与相应p值如图1所示.

图1 斯皮尔曼系数相关热力图Figure 1 Spearman coefficient thermodynamic diagram

由图1可知,机场到港旅客出租车流量与地铁流量的斯皮尔曼相关系数p值小于0.05,通过显著性检验,斯皮尔曼相关系数适用于衡量两者相关性,且两者相关系数为0.57,表明机场到港旅客出租车流量与地铁流量具有一定的相关性,在建立模型时在自变量中加入机场到港旅客地铁流量将会有助于提高模型预测精度.

2 模型构建

LightGBM模型构建整体思路如图2.

图2 LightGBM模型构建整体思路Figure 2 LightGBM model construction idea

2.1 LightGBM模型介绍

本文采用LightGBM模型对机场到港旅客出租车流量进行预测,采集到的数据均为机场到港旅客机场出租车需求的外部特征,LightGBM作为一种典型的机器学习方法,可以从外部数据包含的有限特征集合中推断出新的特征,提高模型预测精度.

LightGBM是2017年提出的新的boosting框架模型[17],该方法在传统的梯度提升决策树(Gradient Boosting Decision Tree,GBDT)基础上引入了梯度单边采样技术(Gradient-based One-Side Sampling,GOSS)与独立特征合并技术(Exclusive Feature Bundling,EFB),可以在保证精度的前提下降低内存消耗.

其中,梯度提升决策树基本思想为:一次性迭代变量,迭代过程中,逐一增加子模型,并且保证损失函数不断减小.其目标是找到一个函数F*(x),使得x映射到y的损失函数L(y,F(x))到达最小.

(2)

其中:F(x)为预测函数,F*(x)为目标预测函数,L(y,F(x))为损失函数.预测函数F(x)为若干个弱分类器f(x)线性组合的形式.

F(x)=∂0f0(x)+∂1f1(x)+…+∂mfm(x)

(3)

其中:F(x)为预测函数,f(x)为弱分类器,∂为弱分类器的参数.

梯度单边采样技术根据梯度值给数据加以不同的采样权重,保留具有大梯度的数据,随机采样具有小梯度的数据,并保持数据原来的分布.这种采样方法相比均匀随机采样能获得更准确的信息增益.为减少训练时的样本特征.独立特征合并技术将高维特征中的互斥特征绑定在一起形成一个特征,从而减少特征维度,在不影响精度的情况下提升训练速度.

2.2 贝叶斯优化介绍

贝叶斯优化是一种有效的全局优化算法,基本思想为假设先验分布,得到后验分布并修改原分布置信度,它解决了根据黑盒目标函数获取的信息,找到下一个评估位置,从而不断逼近最优解的问题.贝叶斯优化最终优化目标为在全集A中寻找使f(x)值达到最值的x集合,在实践中,可通过取正负号在最小值和最大值之间转换,本文为取最小值.

(4)

其中:x*为目标取得的值,f(x)为目标函数,A为全集.

贝叶斯优化有两个关键部分,首先是使用概率模型代理原始评估代价高昂的复杂目标函数,其次是利用代理模型的后验信息构造主动选择策略.假设超参数优化的函数f(x)服从高斯过程, 根据已有的N组试验的输入输出{x,f(x)}, 计算f(x)的后验分布p(f(x)|x)来估计f(x).

(5)

其中:p(f(x)|x)为f(x)的后验分布,p(f(x))为先验概率,p(x|f(x))为样本x相对于函数f(x)的条件概率,p(x)为用于归一化的证据因子.

当贝叶斯优化用于机器学习模型的参数标定时,与传统的网格搜索法不同,当前的最优值搜索是在之前搜索结果的基础上,充分利用已知数据点的信息来进行的,通过概率代理模型和采集函数估计最优点最有可能出现的位置,因此贝叶斯优化调参迭代次数少,调参时间短,但也可能陷入局部最优解而未找到全局最优解.

2.3 参数标定

机场作为一个大型综合交通枢纽,连接飞机、汽车、地铁等多种不同交通方式,在旅客下机至乘坐上陆侧交通工具的过程,存在着多种突发情况,如天气、流量控制等原因导致旅客下机时间延后,地铁故障停运等原因导致乘坐其他交通方式流量陡增等.网格法参数标定可以找出参数的全局最优解,但调参时间相对较长,贝叶斯优化参数标定调参时间短,但可能陷入局部最优解.因此,提出两种调参方式,适用于不同情况,在平常条件下,采取网格法参数标定,在突发情况下,采取贝叶斯优化参数标定.

LightGBM模型实现算法控制与优化的主要参数包括学习率、决策树数量、决策树叶子数量.其他参数设定如下:L1正则化权重项为0;L2正则化权重项为0;树的最大深度不受限制;叶节点样本的最少数量为20;弱学习器的类型选择gbdt;确定使用所有数据训练弱学习器;构建弱学习器时,对特征随机采样的比例选择1;学习目标选择使用L2正则项的回归模型.

2.3.1 网格法参数标定

采用网格法对学习率、决策树数量、决策树叶子数量这3个主要参数进行标定,将均方误差MSE最小作为目标函数,参数调整过程如图3所示.

图3 LightGBM模型参数调整过程Figure 3 LightGBM model parameter adjustment process

最终主要参数标定结果为学习率取0.13,决策树数量取203,决策树叶子数量取6.

2.3.2 贝叶斯优化参数标定

采用贝叶斯优化对学习率、决策树数量、决策树叶子数量这3个主要参数进行标定,将均方误差MSE最小作为目标函数.最终主要参数标定结果为学习率取0.05,决策树数量取285,决策树叶子数量取20.

利用网格法与贝叶斯优化参数标定的结果,分别训练LightGBM模型,采用平均绝对误差MAE、均方误差MSE、均方根误差RMSE、R2和平均绝对百分比误差MAPE对模型预测精确度进行比较,采用参数标定用时对速度进行比较,结果见表2.

表2 网格法与贝叶斯优化参数标定性能结果比较Table 2 Comparison of calibration performance between grid method and Bayesian optimization

由表2可知,网格法参数标定的参数训练出的模型准确性更强,但参数标定时间较长,贝叶斯优化参数标定时间短,但标定的参数训练出的模型准确性略逊于网格法.

3 结果分析

为了验证LightGBM模型的准确性和可靠性,采用平均绝对误差MAE、均方误差MSE、均方根误差RMSE、R2和平均绝对百分比误差MAPE对模型预测结果进行衡量.同时,引入梯度提升回归树(GBRT)模型、长短期记忆网络(LSTM)模型、随机森林模型、支持向量机回归(SVR)模型和XGBoost模型对数据分别进行预测,比较不同模型的性能.按照固定比例随机划分测试集,重复多次实验,各模型MAE、RMSE、R2、MAPE见图4.

图4 各模型性能评价Figure 4 Performance evaluation of each model

由图4可知,LightGBM模型在MAE、RMSE、R2、MAPE指标中均表现良好.将LightGBM模型、梯度提升回归树(GBRT)模型、长短期记忆网络(LSTM)模型、随机森林模型、支持向量机回归(SVR)模型和XGBoost模型的5次测试结果取平均值,结果见表3.

表3 各模型平均性能值

由表3可知,LightGBM模型MAE、MSE、RMSE、R2、MAPE均优于其他模型,相比于其他模型,对于机场到港旅客乘坐出租车短时需求预测的精度更高.

4 结 语

本文以机场到港旅客乘坐出租车短时需求为研究对象,从群体角度出发,考虑其他交通方式的影响,基于交通方式的交互直接预测机场乘坐出租车的到港旅客流量.首先收集机场到港旅客出租车订单数据、机场到港飞机数据、机场天气报文数据和机场到港旅客地铁闸门数据,对数据进行时间归属、噪点过滤、平移切分、求解处理,利用斯皮尔曼相关系数分析数据,搭建LightGBM模型,根据具体情景采取网格法或贝叶斯优化进行参数标定,预测机场到港旅客乘坐出租车流量,并与其他6个预测模型进行对比,结果均优于其他模型,相比于以往研究,考虑乘坐地铁旅客数量对乘坐出租车旅客需求的影响,预测精度更高.

不同的国家地区旅客出行需求存在差异,本文由于数据收集的限制,以国外机场到港旅客乘坐出租车短时需求作为研究对象,其研究结果不适用于国内地区.但本文的研究方法具有可移植性.同时,本文只对比了单个机器学习的方法,在未来的研究中,可以采取多个机器学习方法的组合,进一步提高机场到港旅客乘坐出租车短时需求预测精度.

猜你喜欢
贝叶斯出租车标定
乘坐出租车
使用朗仁H6 Pro标定北汽绅宝转向角传感器
凭什么
基于匀速率26位置法的iIMU-FSAS光纤陀螺仪标定
贝叶斯公式及其应用
船载高精度星敏感器安装角的标定
基于贝叶斯估计的轨道占用识别方法
开往春天的深夜出租车
李书福炮轰出租车
一种基于贝叶斯压缩感知的说话人识别方法