刘 博,王笑天,徐 晨
(民航中南空管设备工程(广州)有限公司,广州 51000)
航班延误是未来一段时间民航业所面临的重要挑战。空管因素、航空公司运营因素、空域容量供需不平衡等因素都有可能导致航班延误。航班延误可明显影响民航系统的运行效率,所造成的经济损失与社会影响不容忽视,因此,对航班延误进行预测具有重要意义。
目前,航班延误预测的研究方法主要有基于延误传播的方法和基于数据驱动的方法两类。基于延误传播的方法侧重于研究航空运输网络中的航班延误传播现象,并试图基于该网络的潜在机制来预测航班延误。Beatty等[1]通过检查初始延误、延误频率和航班时刻表连通性来研究延误的传播。Xu及合作者[2-3]提出使用贝叶斯网络对延误的产生及机场缓解延误的程序进行建模。Pyrgiotis等[4]开发排队网络模型来研究航班延误的传播。
近年来,基于数据驱动的方法成为相关研究的常用方法。该方法采用数据挖掘、统计分析或机器学习技术直接预测航班延误,不需要探索延误传播机制。数据驱动的诸多相关模型及算法已被用于预测航班延误,其中包括随机森林算法、极端随机树和支持向量机等。Rebollo等[5]提出了基于网络的空中交通延误预测模型,该模型将时间和空间延误状态作为解释变量,并使用随机森林算法来预测离场延误。罗赟骞等[6]建立了基于支持向量机回归的航班到达延误预测模型,并发现了到达延误时间序列具有混沌特性。Khanmohammadi等[7]引入了多级输入层人工神经网络来预测进港航班的延误。模型中使用了日期(包括月份和星期)、出发机场、计划起飞时间和实际起飞时间等特征作为输入变量。Belcastro等[8]使用并行算法预测航班进港延误,同时考虑了航班信息(计划起飞和到达时间)以及起飞和到达机场的天气条件。徐海文等[9]利用深度神经网络模型并结合时效信息,建立了离场航班延误预测模型。陈昱君等[10]则利用自动编码器改进了基本BP神经网络算法,以进行离港航班延误时间预测。
目前的研究大部分着眼于个体航班的延误程度,对于旅客而言,关注个体航班的延误程度便于对行程做出预先规划,对于航司而言,单个航班的延误程度对后续运行的经济收益、公司信誉等都会有重要影响。而对于空中交通管理者而言,以机场、机场对乃至整个空中交通系统为统计对象的聚合延误则更容易帮助其了解系统性延误演化趋势,以帮助做出科学决策[11]。
区别于以往重点将航班个体作为主体对象的延误研究,本文将机场的航班聚合离场延误作为预测研究的主体,并采用机器学习的方法进行分析,以期为空中交通管理者的流量管理决策提供依据。LightGBM算法是一种高效高性能分布式的基于决策树算法的梯度提升框架,可用于排序、分类、回归等多种机器学习任务中。本文以机场为统计对象,基于LightGBM算法建立了航班聚合离场延误预测模型,并利用广州白云机场(ZGGG)的历史运行数据,将该模型与其他常用算法模型的预测结果进行对比,验证模型的可靠性和有效性。
本文聚焦于机场航班聚合离场延误时间的预测,是对延误持续时长的回归(定量)预测,不是对延误是否发生的分类(定性)预测。
预测指标Y为航班聚合离场延误,即为每个预测时段内机场所有离场航班的平均延误时间。本研究选取1 h为预测时段的时长,即Y为未来1小时内该机场所有离场航班预计离场延误的平均值。为了使预测结果更具直观性,将每个航班的离场延误时长定为实际起飞时间晚于预计起飞时间的时长,不考虑航班延误分类预测中定性判定延误的15 min阈值。
航班起降数据选取2017年3月1日—2018年2月28日广州白云机场的历史运行数据,共494 135条,其中,航班返航、备降及字段缺失严重等数据共8 567条,占总量的1.7%左右,这部分数据直接做删除处理。
通过对选取数据的分析处理,结合以往关于航班离场延误的研究,对一线人员的咨询,提取出时间特征、航班计划特征及延误特征3类共14条与机场延误相关的聚合特征,如表1所示。
表1 选取数据特征
其中,本时段累计需要进场/离场航班数,指的是机场本时段需满足进场/离场航班的数量,是本时段计划进场/离场航班的数量与本时段之前因延误未完成进场/离场航班的数量之和。前一时段进场/离场航班的延误数量,指的是前一时段实际进/离场时间减去计划进/离场时间不小于15 min的航班数量。
将收集的数据分时段(1 h),按如上特征进行整合,得到结构为8 760×14的特征数据集。此外,考虑到机场00:00—06:00起降航班量较少,故选取06:00—24:00的航班起降数据作为样本,最终得到6 570×14的特征数据集。预测指标为本时段离场航班的平均延误时间,处理得到6 570×1的标签数据集。由于各变量的量纲数据跨度较大,故对特征数据集及标签数据集进行归一化处理,目的是使各特征数据处于相同的数量级,消除它们之间的量纲差异对预测结果产生的影响。标准化处理公式为
(1)
LightGBM算法是基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的算法框架,GBDT与目前流行的Xgboost(eXtreme Gradient Boosting)算法相比,训练速度更快,内存消耗更低,准确率更高[12]。LightGBM原理与Xgboost类似,通过损失函数的泰勒展开式来近似的表达残差,并利用正则化项控制模型的复杂度
(2)
(3)
LightGBM算法采用leaf-wise节点分裂策略,只选择分裂增益最大的结点,从而避免部分结点增益较小所带来的损耗。同时在选择增益最大结点进行分裂时,进行最大深度的约束,从而防止过拟合。二叉树的分裂增益为
(4)
LightGBM算法采用基于直方图的排序算法,将特征进行离散化处理,可减少占用内存,加快模型的训练速度。其基本流程为:将数据集中的连续浮点数据进行统计,得到宽度为k的直方图,根据直方图各部分的统计区间将连续值离散化为k个离散值;分别以各离散值为索引遍历直方图中的数据,并累计统计量,寻找离散值中的最优分割点(图1)。
图1 直方图算法示意图
基于上述多类聚合特征数据,将机场的聚合离场延误预测问题转换为数据驱动的机器学习回归预测问题。根据LightGBM算法,将表1中的14个特征数据输入模型,以机场每小时的预计离场延误时间作为标签与预测指标,建立机场的聚合离场延误预测模型,并对模型的预测结果进行测试与分析。
标准化处理之后所得数据用于模型的构建,采用10-折交叉验证与网格搜索方法相结合的方式进行模型的训练与调参工作。建模时将数据集合划分为训练集、验证集和测试集三类。其中,训练集用于训练机器学习模型的参数,验证集用于无偏的评估模型性能和调节超参数,测试集用于测试最终的模型性能。数据集划分如图2所示:随机划设20%原始数据为测试集,剩余的数据采用10-折交叉验证的方法,90%为训练集,10%为验证集。
图2 数据集划分方式
在10-折交叉验证的基础上,利用网格搜索方式进行模型的超参数优化。此方法是将各个参数取值进行排列组合,然后将各组合用于模型训练,并对模型结果进行评估的方法,尝试所有的参数组合后,最优评估结果对应的参数即为最优参数。
本研究以广州白云机场为例,选取合适的预测指标,评估所建立模型的预测性能。
选择决定系数(R2)、均方误差(MSE)和平均绝对值误差(MAE)作为评价模型预测结果的性能指标。决定系数(R2),又称拟合优度,是对模型解释程度的度量,值越大表明自变量对因变量的解释程度越高。MSE是估计值和实际值之间的偏差的平方和的比率。它可以测量误差平方的平均值。MSE值越小表示预测精度越高。MAE是绝对误差的平均值,可以更好地反映预测值误差的实际情况。
(5)
(6)
(7)
将所收集的广州白云机场2017年3月1日—2018年2月28日的历史航班数据经预处理与特征提取,最终得到6 570×14的特征数据集与6 570×1的标签数据集。根据图2进行数据集的划分,对广州白云机场的航班聚合离场延误进行回归预测。
根据网格搜索超参数优化结果,模型的主要参数迭代次数为500次,学习率learning_rate为0.1,单棵决策树上的叶子数量num_leaves=27,最大深度max_depth=10,其他参数均取默认参数。最终预测结果的决定系数R2值为0.866 7,均方误差MSE为53.93,平均绝对值误差MAE为4.77 min。
预测结果可视化。为保证结果的可靠性,选取建模中未用到的数据进行预测,并对结果进行可视化分析。选取2018年3月31日的航班数据,经处理后进行预测,预测结果如下图3所示。图中纵轴表示每个时段内机场所有离场航班的平均延误时间。由图3可见,预测值与实际值的波动走向基本一致,当天大部分时段的预测误差均保持在7 min以内。
图3 2018年3月31日延误时间预测和实际结果
提取在预测过程中不同特征体现出的特征重要度示于图4。由图4可知,“本时段累计需要离场航班数”约占总重要特征的20%,占比最大,说明机场的离场航班滞留情况是对离场延误影响最大的因素。
图4 不同特征的重要性
为进一步对本模型的预测性能进行评估,选取较为常用的支持向量机、随机森林、极端随机树算法进行比较,不同算法均按照相同的方法流程进行了数据处理与建模。各算法在测试集上的表现如表2所示。由对比结果可知,本文算法在决定系数R2、均方误差MSE和平均绝对值误差MAE三个指标的表现上均是最优的,且在保持良好性能的同时,具有更高的运行效率。LightGBM算法对6 570条数据进行处理,只花费了0.76 s时间,这一速度比支持向量机算法快17倍,比随机森林算法快33倍,比极端随机树算法快20倍。
表2 不同算法的实验结果对比
本文以机场为研究对象,提出了一种预测机场聚合离场延误的方法,基于时间特征、飞行计划特征和延误特征三类与机场相关的聚合特征建模。结合实际航班数据,基于LightGBM算法进行对延误时间进行预测,结果表明:
(1)在1 h的时间窗口内,模型预测准确度可以达到0.866 7,平均绝对值误差仅为4.77 min,且相较于其他算法而言,本文所提模型运行效率明显提升;
(2)预测模型从机场角度预测航班的离场延误,可提醒机场管理人员、空中交通管制员和乘客有效应对机场及附近空域系统的拥堵情况。