基于气象因素与特征选择的进港航班延误可解释预测研究

2023-10-30 11:39王维莉王逸文
交通运输系统工程与信息 2023年5期
关键词:能见度航班机场

王维莉,王逸文

(上海海事大学,物流研究中心,上海 201306)

0 引言

航空运输具有高效和快捷等特点,已成为人们日常生活和商务活动中最主要的交通方式之一。然而,航班延误不仅会影响旅客出行计划,还可能导致航空公司和机场运营方面临巨大的经济损失和诸多后续问题[1],例如,旅客投诉、赔偿及航班资源的重新调整等。此外,航班延误还会对环境产生负面影响[2],例如,额外的燃料消耗和排放。据测算,2018 年,国内四大航空公司的延误成本约为720.93 亿元[3]。因此,准确地预测航班延误对于提高旅客满意度,降低运营成本及优化资源配置具有重要意义。

针对航班延误问题,现有研究方法分为建模仿真与深度学习两类,前者通过建立仿真模型进行预测,例如,王春政等[4]基于Agent模型表征机场网络系统中各元素及子系统间的交互作用,分析航班延误特征;WANG 等[5]建立面向航班运行的Agent 模型,并加入更详细的参数估计方法,对机场网络延误进行仿真;WU 等[6]使用贝叶斯网络设计航班延误传播模型,用以检验航班延误的传播效应。上述方法需要构造复杂的特征工程,且预测误差较大。随着空中交通大数据与人工智能模型的发展,多种深度学习方法逐渐应用到航班延误预测问题中,YU 等[7]在深度信念网络的基础上加入支持向量回归模型,挖掘航班延误的内在规律与影响因素;罗赟骞等[8]发现航班到港延误序列存在混沌特性,将序列进行相空间重构后,构建差分进化算法优化的支持向量机预测航班延误预测;吴仁彪等[9]考虑航班延误波及问题,提出基于CBAM(Convolutional Block Attention Module)-CondenseNet 的航班延误波及预测模型。由于不同机场之间具有延误传播特性,因此,众多学者开始关注航班延误的时空相关性,并提出相应的模型,此类方法通常将机场作为节点,航线作为边构建机场网络,建立图神经网络进行预测,例如,姜雨等[10]提出时空图卷积神经网络,预测美国51座枢纽机场离港准点率;刘晓琳等[11]提出融合时空注意力的自适应图卷积循环神经网络,预测航班延误,取得了较高准确率;姜雨等[12]在图卷积与门控卷积神经网络的基础上加入气象特征提取模块,进一步挖掘延误特征,有效修正预测误差。上述研究工作的开展为航空公司与相关部门的管理与运营提供了重要参考与科学依据。

然而,在实际预测过程中,仍有几个问题需要注意。一是,气象因素的复杂性和多样性使航班延误具有较大不确定性。恶劣的气象条件会对航班起降、空中交通和空域管理等环节产生重大影响。据《2021年民航行业发展统计公报》[13]统计显示,主要航空公司航班因天气原因造成的航班延误占60.24%,远超其他影响因素。但现有航班延误的相关文献对气象因素的分析与解释不足。二是,以往研究重视模型的预测效果,优化方向集中在预测精度的提升,并在一些数据集上证明各自算法的适用性,但实际应用中往往既需要“预测性建模”,也注重模型的可解释性。三是,已有文献在建立预测模型时,大多忽略特征冗余对预测精度的影响。若使用过多的特征会导致训练样本量呈指数级增长,且预测精度可能不升反降[14]。

鉴于此,本文在考虑不同气象因素基础上,筛选最优特征子集作为预测模型的输入,在比较多种机器学习算法后选择最优预测模型,进一步利用SHAP 方法解释预测结果,深入挖掘其影响因素,进一步提高航班延误预测的可解释性。与以往研究相比,本文的不同之处在于:(1)将多种气象因素纳入航班延误预测影响因子,并基于特征选择方法消除冗余因子,选择最优子集,最大程度捕获航班延误的不确定性,并降低模型计算量。(2)引入机器学习可解释模型,能兼顾实际问题中预测精度与可解释性分析的共同需求,定量分析不同因素间的影响程度大小与方向,解决先前各类深度学习模型的“黑箱”问题,拓宽航班延误预测问题的研究思路。

1 模型与方法

1.1 最大相关-最小冗余算法

最大相关和最小冗余算法是一种滤波式算法,用于在原始特征集合中找到与最终输出结果相关性最大但特征彼此之间相关性最小的一组特征。算法采用的互信息方法能够度量非线性相关关系,相比皮尔逊相关系数等方法具有更强的适用性。设Wn={z1,z2,…,zn} 为特征集合,从n个因素中选出与延误时间相关度较高的m个特征子集。延误时间c与所有特征之间的互信息为

特征之间的互信息为

式中:I为两个变量之间互信息计算函数;p为概率密度函数;zi,zj为两组特征集合,zi,zj∈Wn,i≠j。目标是找到含有m个特征的特征子集Sm,其中,m≤n,Sm⊆Wn。

依照最大相关计算原则有

最小冗余计算原则有

式中:|Sm|为集合Sm中特征的数量。

整合最大相关性和最小冗余度为

1.2 Catboost算法

Catboost 算法是一种改进的boosting 算法,以对称决策树为基学习器,通过有序提升的方式改进传统GBDT(Gradient Boosting Decision Tree)算法中的梯度估计。优点在于能够高效处理类别特征变量,对每次迭代所需的无偏梯度估计进行建树,克服了传统Boosting 框架存在的梯度偏差和预测偏移问题,减少过拟合情况,提高预测精度与泛化能力。

相比于GBDT 算法,Catboost 算法加入先验项和权重系数,减少噪声和低频率类别型数据对于数据分布的影响,计算式为

式中:a为权重系数;β为添加的先验项,对于回归问题,先验项取数据集标签的均值;为第k个训练样本的第i个类别特征;为的平均值;yj为第j个样本的标签;H为指示函数,括号内两个量相等时,取1,否则取0,即

同时,Catboost 采用对称树(Oblivious Tree)作为基预测器,模型训练过程中超参数较少,鲁棒性强。其特点是每层使用相同的分割特征。叶子节点可以被转化为二进制编码,结点的值被存储在一个长度为2d(d为树的深度)的浮点向量中,增强了预测性能。在计算第t棵树叶子节点的索引时,对于样本x,建立一个二进制向量,即

式中:Bx为对样本x建立的二进制向量;B[x,f(t,M)]为从向量B中读取样本x的二进制特征f的值;f(t,M)为二进制特征的数量;M为树的深度;t为树的棵数。

另外,该算法利用排序提升(Ordered Boosting)方法将GBDT中的梯度估计有偏改为无偏,从而能够抵抗预测偏移。

1.3 SHAP解释方法

SHAP 框架是一种用于解释模型预测的统一框架,其核心思想是计算特征对模型输出的边际贡献,既可以用于全局解释,也可以用于局部解释,能够提高模型预测结果的可信度,揭示特征与预测值间的复杂影响关系。

假设第i个样本为xi,第i个样本的第j个特征为xij,模型对第i个样本的预测值为Yi,所有样本预测均值为ϕ0,ϕi为xi的SHAP 值,则xij的SHAP值为

SHAP 值的思想主要来自于博弈论中的Shapley 值,通常用于解决多人合作博弈中的利益分配问题。在机器学习中,模型做了一定的改进,将特征作为参与者,模型输出作为合作结果,则xi的SHAP值ϕi为

式中:{x1,x2,…,,xn} 为所有输入特征的集合;S为除去特征xi得到的特征子集;F(S)为在特征子集S下的模型输出值。当SHAP 值大于0 时,说明该特征对预测值有正向作用;反之,小于0时,说明有负向作用。SHAP 框架不仅可以直观反映特征的重要性,更能分析不同特征对于航班延误的影响程度,从而揭示气象因素与航班延误之间的影响。

2 实验设计与分析

2.1 影响因素分析与数据预处理

本文的航班数据来源于美国交通运输统计局(Bureau of Transportation Statistics,BTS),气象数据来源于美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)。由于本文重点考虑气象因素对航班延误的影响,也考虑到出发地机场与目的地机场的天气条件均会影响飞机的进港延误时间,因此,本文选取迈阿密国际机场(MIA)—纽约肯尼迪国际机场(JFK)典型航线进行分析,其中,MIA机场为出发机场,JFK机场为到达机场。经整理后,共6843 条航班数据。考虑到美国民航发展水平与旅客对于航班延误的感知和接受阈值,同时,参考中国民用航空局与BTS机构对航班延误的定义,本文将进港航班延误时间定义为航班实际降落时间(航班实际到港挡轮挡时间)比计划降落时间超过15 min的情况。经过筛选后,有1605 条延误数据。纳入原始数据集的具体特征因子如表1 所示。其中,各类天气特征,例如,海平面气压、能见度及降水量等均可能会对航班延误产生影响,例如,露点数据通常可用来计算引擎结冰以及出现雾的可能性;能见度决定了目视飞行的视程,直接影响着航空飞行安全;降雨会对飞行姿态和起飞降落造成一定的影响。

表1 数据特征信息Table 1 Data feature information

鉴于原始数据中存在一定的缺失值,无法直接将其作为预测模型的输入,因此,需对数据集进行预处理,具体步骤如下。

(1)缺失值处理

由于部分天气数据存在一定的缺失值,因此,采用均值方式进行填充。其余数据未发现明显的异常值,故不进行异常值处理。

(2)特征构造

特征构造能够帮助模型捕捉各种影响航班延误的潜在因素。本文航班的日期能反映延误与日期相关的信息。同时,飞机起飞和降落通常会尽可能地在与风向一致的方向上进行,以利用风力增加升力和减少燃油消耗,因此,本文构造表示风力的特征,飞机跑道方向依据“逆风起降”原则推断出最大概率使用的跑道方向。例如,当风向为45°时,飞机大概率会选择(迈阿密国际机场)跑道8L 或8R。此外,航班延误也可能受多种其他因素影响,为反映历史延误趋势和获取历史延误信息,本文构造表示历史航班平均延误的特征。最终,本文构造的相关特征如下。

定义1 起飞月份为提取起飞日期这一日期型变量中的月度特征。

定义2 起飞日期为提取起飞日期这一日期型变量中的日期特征。

定义3 出发机场有效风力为出发机场风速乘出发机场风向与出发机场跑道方向差值的余弦值。

定义4 到达机场有效风力为到达机场风速乘到达机场风向与到达机场跑道方向差值的余弦值。

定义5 前3 班航班平均延误为计算该航班过去3个航班的平均延误时间。

定义6 前7 班航班平均延误为计算该航班过去7个航班的平均延误时间。

定义7 历史平均延误为计算该航班历史所有航班的平均延误时间。

(3)特征选择

为降低计算量和减少特征冗余,本文基于mRMR 算法,选择最优的20 个特征子集。经过筛选后,本文得到的最终输入变量为:历史平均延误、前7班航班平均延误、前3班航班平均延误、计划飞行时间、前序延误、出发机场平均湿度、出发机场最小湿度、出发机场平均能见度、出发机场最低能见度、出发机场最大风速、出发机场降水量、出发机场有效风力、出发机场云量、到达机场平均气温、到达机场最高露点、到达机场最大湿度、到达机场平均湿度、到达机场最小湿度、到达机场最低能见度及到达机场降水量。上述20个特征与延误时间的描述性统计结果如表2所示。

表2 变量描述性统计Table 2 Descriptive statistics of variables

2.2 评价指标

考虑模型的绝对误差与相对误差,本文选取平均绝对误差(Mean Absolute Error,MAE)RMAE、均方根误差(Root Mean Square Error,RMSE)RRMSE及平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)RMAPE作为模型误差分析的指标。其中,MAE、RMSE及MAPE分别为

2.3 实验结果

划分80%数据为训练集,20%为测试集,将筛选出的最优特征子集输入模型,输出为延误时间。同时,本文选用以下模型进行对比分析。

(1)Catboost

一种基于对称决策树为基学习器实现的集成学习模型,也能有效解决梯度偏差与预测偏移等过拟合问题。

(2)XGBoost

XGBoost是对梯度提升算法的改进,加入二阶导数与正则化项提升残差估计的准确性。

(3)LSTM(Long Short-Term Memory)

一种循环神经网络(Recurrent Neural Network,RNN)模型的改进,具有长期记忆功能,能够解决较为复杂的非线性拟合问题。

(4)随机森林(Random Forest,RF)

一种基于决策树的集成学习方法,适用于回归或分类预测。

(5)GRU(Gate Recurrent Unit)

GRU是RNN与LSTM模型的变体,相对于LSTM模型减少了门控数量,简化计算。

(6)SVR(Support Vector Regression)

SVR是支持向量机应用到曲线拟合中,使超平面与最远样本点的距离最小,具有泛化能力强和训练时间短等优点。

在训练非树模型时,对数据进行归一化处理。为确保公平,各模型的参数调优以网格搜索及交叉验证确定。各模型的测试结果如表3所示。

表3 各模型测试结果对比Table 3 Comparison of test results of each model

由表3 可知,经由mRMR 特征选择后的Catboost 模型取得了最高的预测精度,RMAE,RRMSE,RMAPE分别为24.31、42.15 及9.54%,显著低于其他模型。进一步看,无论是机器学习还是深度学习模型,经过特征选择后的模型相比于未经过选择的模型误差均有不同程度降低,说明特征选择能够改善预测精度。同时,随机森林模型表现相对较差,难以捕捉非线性特征;而Catboost 模型无论是否进行特征选择,均表现出最优预测精度,能够较好地拟合延误数据,捕捉非线性特征。因此,本文的分析基于Catboost算法实现。

2.4 DM检验

为进一步从统计学角度判断各模型预测性能的差异,本文采用Diebold-Mariano(DM)统计量检验各模型,DM检验的原假设为目标模型A的预期预测精度与基准模型B的预测精度一致,如果在一定的显著性水平下拒绝原假设,则表明两个模型预测性能存在显著差异。

所选用模型与各对比模型DM检验结果如表4所示。由表4可知,各对比模型的P值均为0,意味着拒绝原假设,表明本文所选用模型与各对比模型均在统计学上有显著差异。

表4 DM检验结果Table 4 Results of DM test

2.5 SHAP归因分析

基于SHAP 框架,本文对训练完成的Catboost模型的样本进行一次指标的SHAP贡献度计算,其中,样本所有参数贡献的总和等于样本在模型上的输出,即延误时间。本文以数据集中某个延误航班的数据为例,可视化该数据在SHAP方法下的局部解释,如图1所示。

图1 某航班延误数据的预测结果局部解释Fig.1 Partial interpretation of predicted results of a delayed data

图1中,采用不同颜色和长度的箭头表示对航班延误时间影响作用的方向和大小,各个特征将模型的预测结果由基本值(Base Value)推动到最终的取值f(x)。其中,基本值是模型所有样本预测的平均值,基本值左侧表示正向作用,即将延误预测值推高;基本值右侧表示负向作用,即将延误预测值拉低。对于该延误数据而言,出发机场平均能见度、出发机场降水量、前3 班航班平均延误、前7 班航班平均延误及出发机场最大风速这5 个特征显著拉高延误时间的预测值,而计划飞行时间、历史平均延误、出发机场有效风力、到达机场平均气温及出发机场最小湿度这5 个特征显著降低模型输出的预测值,其余部分特征由于影响作用过小无法全部显示。最终,该航班的延误时间预测值为61.36 min,与实际延误时间63 min较为接近。说明对于该航班而言,出发当天很可能是由于降雨导致能见度降低而产生的延误。

为进一步解释特征取值和SHAP 值之间的关系,本文基于Catboost 算法绘制所有指标与SHAP值之间的关系图,从而将所有局部解释转为近似的全局解释。各个特征的SHAP 值如图2 所示,特征重要性排序如图3所示。

图2 特征SHAP值Fig.2 Characteristic SHAP value

图3 特征重要性排序Fig.3 Importance ranking of features

在图2 中,1 个点代表1 个样本值,横坐标表示SHAP 值,特征值大小对结果的影响通过不同颜色表示,颜色越宽表示有大量样本聚集。同时,以SHAP 值为0 作为中间分界线,左侧的样本点对预测值有负向贡献,右侧有正向贡献[15]。由图2 分析可知:

(1) 计划飞行时间、前3 和前7 班航班平均延误、前序延误及历史平均延误等历史延误类因素对延误时间有较大影响,其中,计划飞行时间对延误时间有显著正向影响,表明航班延误也受到历史延误趋势等多种其他因素影响,一个航班的延误也可能会影响到后续的航班。

(2)出发机场最大风速、出发与到达机场降水量有显著正向贡献,即风速越大和降水量越高,航班延误时间越长,这是由于大风天气可能导致航班起降困难,而降雨量过大则会导致视线受阻,且连续暴雨易造成跑道积水,造成延误时间增加。

(3)出发机场有效风力、出发与到达机场能见度对延误时间有显著负向贡献,即有效风力越大,航班延误时间越短;能见度越高,航班延误时间越短。在本文的研究中,有效风力主要与风速与风向有关,当风和跑道方向一致,通常被称之为“头风”,头风给飞机的阻力越大,越有利于缩短飞机在跑道上滑行的距离,从而降低延误时间。而能见度高,意味着天气条件较好,飞机在起飞和降落时能够清楚地看到前方和地面,提高飞机起飞降落的准时性。

(4)结合图2 和图3 可知,在气象因素中,出发机场有效风力和到达机场最低能见度对延误时间的影响程度最大,且均呈现显著负向影响;湿度因素对延误时间存在一定影响,但不具备明显的正向或负向效应,高湿度和低湿度都可能对航班延误产生影响;整体来看,露点、云量及降水量等因素对延误时间的影响相对较小,但在综合考虑航班延误的多元因素时,仍然需要考虑他们的影响。

识别出所有特征与SHAP值之间的关系后,本文选择出发机场平均能见度、到达机场平均气温及出发机场降水量这3 个典型气象特征,利用SHAP归因方法对其作偏依赖分析,即在x轴上绘制特征的取值,在y轴上绘制对应特征的SHAP 值,并用颜色深浅反映能见度与云量、气温与露点及降水量与能见度之间的交互关系,以进一步探究关键气象因素对航班延误的影响以及多重气象因素间的交互影响。关键因素SHAP偏依赖分析如图4所示。s

图4 关键因素SHAP偏依赖分析Fig.4 SHAP partial dependence analysis of key factor

图4 中,横轴代表各关键因素的不同取值,纵轴代表各因素取值对应的SHAP值,颜色的不同代表右侧特征的数值大小。当SHAP 值大于0 时,表示对延误时间有正向影响;当SHAP值小于0时,表示对延误时间有负向影响。由图4分析可得:

(1) 如图4(a)所示,当出发机场平均能见度为16 km 时,对航班延误时间有压降作用。而当能见度小于13 km 时,平均能见度明显转为抬升作用。在平均能见度与云量交互影响下,平均能见度越高时,云量越低,表明大量的云量可能会降低能见度,从而导致航班延误增加。

(2)如图4(b)所示,不同气温对于SHAP值的影响不大,随着平均气温升高,露点数值也不断升高。综合来看,各气温点与露点数值下均有可能使SHAP 值上升或下降,说明平均气温与露点因素对于航班延误时间无明显影响,需综合考虑更多气象因素后再作判断。

(3)如图4(c)所示,当降水量在[0,30]mm 区间时,大部分点弥漫在SHAP等于0的下方,且平均能见度较高,但SHAP值变动幅度不大。在这个区间内,降水量对飞机的起飞和降落影响较弱,同时,其平均能见度较高,因此,在该区间内降水量对航班延误时间产生微弱压降作用;当降水量大于30 mm时,大部分点呈散状,且绝大部分位于SHAP等于0的上方,平均能见度也逐渐降低,说明大范围降雨可能会降低能见度,从而增加航班的延误时间,因此,需注意降水量因素对航班延误的影响。

(4)综合来看,大部分气象因素对航班延误均有影响,但各影响因素贡献不同,需关注出发机场平均能见度和降水量等指标。

3 结论

本文在分析影响航班延误各气象因素的基础上,考虑各因素的相关性与冗余性,基于mRMR特征选择算法筛选最优子集,构建Catboost-SHAP 可解释预测模型,得到最优预测结果,并从不同角度探讨各因素对航班延误的影响,利用SHAP归因分析得到不同特征的阈值效应,主要结论如下:

(1)构建的mRMR-Catboost预测模型相比其他机器学习模型误差更低,且特征选择有助于提高预测精度。相比于未经过特征选择的模型,RMAE,RRMSE,RMAPE分别降低了3.84%,3.35%,4.22%,并从统计学角度验证了该模型与对比模型的差异性。

(2)从气象因素看,延误时间是受到多种气象因素共同影响的结果,其中,机场风速和降水量有显著正向贡献,而机场有效风力和能见度对延误时间有显著负向贡献。

(3)前序延误等历史延误类因素同样也对航班延误具有较大影响,出行者可根据上述信息提前规划出行与安排。

猜你喜欢
能见度航班机场
机场罢工
全美航班短暂停飞
山航红色定制航班
山航红色定制航班
山航红色定制航班
如何避免GSM-R无线通信系统对机场电磁干扰
2005—2017年白云机场能见度变化特征及其与影响因子关系研究
面部识别使机场安检提速
低能见度下高速公路主动诱导技术的应用
最有创意的机场