基于多机场终端区交通态势的航班延误预测

2024-05-21 13:55:32张兆宁查子奇
科学技术与工程 2024年12期
关键词:终端区态势航班

张兆宁, 查子奇

(中国民航大学空中交通管理学院, 天津 300300)

尽管中国多机场系统的运行模式已经不断完善,但航班延误仍然是一个普遍存在的问题,会给航空公司带来经济损失、降低旅客满意度,并影响多机场系统内各机场的运行效率和服务水平。因此,准确预测航班延误至关重要,这不仅有助于机场、管制单位和航空公司有效应对延误问题,还可以为定制后续优化措施提供依据。

近年来,中外学者对航班延误预测的研究已取得了一定的成果。Belcastro等[1]使用可扩展数据挖掘技术,考虑了航班信息和天气情况,使用并行算法预测航班延误。Yi等[2]选择合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)处理不平衡数据集,利用Boruta算法进行特征选择,基于Stacking算法对航班延误进行分类预测。Güvercin等[3]提出“集群机场建模”(cluster airport model,CAM)方法,为每个机场拟合一个通用延误预测模型。Aljubairy 等[4]考虑了物联网数据中的未考虑的分布式传感器生成的信息,并开发合并不同数据源特征的算法,验证航班延误与空气质量指数之间的关联。Wang等[5]从战略阶段的角度预测航班延误,提出了一种机器学习方法,并开发3个评估算法性能的指标。Yazdi等[6]应用Levenberg-Marquart算法查找权重并偏置适当的值,并使用机器学习技术对航班延误进行预测。Qu等[7]利用飞行数据和气象数据的特点,提出了基于气象数据融合的深度卷积神经网络模型。谷润平等[8]采用数据统计方法,结合时空特征探索航班延误分布规律,并构建了灰色GA-BP多维航班延误估计模型。张兆宁等[9]从空中交通网络流系统角度出发,利用遗传算法优化BP神经网络,建立了拥堵预测模型。刘博等[10]基于SMOTE算法和条件生成对抗网络(conditional adversarial nets,CGAN),提出了一种航班延误预测模型,用于更准确地预测到港航班延误情况。丁建立等[11]为提升预测性能,提出一种基于轻量级梯度提升机(light gradient boosting machine,LightGBM)的航班延误多分类预测模型。屈景怡等[12]为充分利用数据集包含的时间和空间信息,提出了一种综合考虑时空序列的卷积长短时记忆(convolutional long short-term memory,Conv-LSTM)网络航班延误预测模型。

综上可知,中外学者对单个机场的航班延误进行预测,但是鲜少有人以多机场系统航班为研究对象,进行延误预测。且当前航班延误预测方法,主要是考虑天气特征、航班信息特征对延误的影响来进行预测,对于多机场终端区交通态势对航班延误的影响考虑较少。

鉴于此,考虑多机场终端区交通态势对航班延误的影响来进行航班延误的预测。通过分析多机场终端区交通态势,建立能够描述多机场终端区交通态势的指标。并采用反向传播(back propagation,BP)神经网络对多机场航班延误时间进行预测,将终端区交通态势指标、航班信息、天气环境数据等作为输入层,航班延误时间作为输出层。针对BP神经网络全局收敛速度缓慢、易出现局部极小值等情况,使用粒子群算法对BP神经网络模型进行了优化。最后以京津多机场终端区为研究对象,使用粒子群优化的BP神经网络预测模型进行航班延误预测,最后进行对比分析,证明了该模型的合理性和有效性。通过建立终端区交通态势指标和采用先进的神经网络和优化算法,该研究为提高航班延误预测的准确性和可靠性提供新的方法和理论支持。

1 多机场终端区交通态势

“交通态势”[13]通常指某一地区或区域内的交通情况和交通流动的现状、情况、趋势和特征。对于多机场终端区而言,终端区交通态势[14-16]是终端区内空中交通活动的一种宏观表述,目前尚没有统一的定义,将多机场终端区交通态势定义为:终端区内航空器数量、运行状况、相互关系、运动趋势以及所属资源的数量、分布和流动性等特征的综合表现。

1.1 多机场终端区交通态势分析

多机场终端区的交通态势变化会影响整个多机场系统内的航班。共用航线和航路点等空间资源可能导致航班延误在一个机场发生时会波及其他机场,从而影响整个多机场的航班正常运行。因此,了解终端区交通态势及其运行特征可以帮助准确预测航班延误,从而更好地应对航班延误情况。

在多机场终端区中,终端区空域、机场、跑道、进离场点及进离场程序等固态资源,对终端区交通态势的影响相对稳定。而终端区内的航空器属于动态资源,航空器的交通活动形成了不同方向和流量的交通流,这些交通流可以被视为态势中的事件。不同交通流具有不同属性和形成条件,对终端区交通态势的影响不同。因此,通过对不同态势下交通流的流量、流向、分布状态等属性进行描述,可以很好地反映终端区交通态势。

1.2 多机场终端区交通态势指标

为科学准确地对多机场终端区交通态势进行刻画,并为航班延误预测提供数据源,从态势影响程度较大的交通流入手,分析每架航空器运行过程中的终端区交通流分布情况和航路节点的拥塞情况等特征参数,以此为基础建立6个适用于描述整个多机场终端区交通态势的指标。

(1)跑道排队长度指数。跑道排队长度是指目标航空器从跑道上开始滑行或前轮刚刚触地时,在等待区等待起飞或者等待降落的航空器数量。

(2)进离场航线排队长度指数。进离场航线排队长度是指目标航空器从跑道上开始滑行或前轮刚刚触地时,处于终端区进离场航线上的航空器数量。

(3)走廊口排队长度指数。走廊口排队长度是指目标航空器从跑道上开始滑行或前轮刚刚触地时,多机场终端区走廊口处盘旋航空器的数量。

(4)终端区瞬时流量指数。终端区瞬时流量指数是指目标航空器从跑道上开始滑行或前轮刚刚触地时,多机场终端区内所有正在运行的航空器数量。

(5)终端区累计流量指数。终端区累计流量指数是指目标航空器从跑道口到终端区进出口点的运行过程中,已经飞离多机场终端区或已经完成降落的和正在终端区内运行的航空器数量。

(6)终端区饱和度。在数值上,它是流量与容量的比值。其中,容量是指单位时间内通过终端区航空器的最大架次。流量是单位时间内通过终端区航空器的架次。

为了讨论多机场终端区交通态势对航班延误预测准确性的影响,将多机场终端区交通态势指标计算得到具体的数值作为交通态势数据,输入到航班延误预测模型中。

2 基于多机场终端区交通态势的航班延误预测模型

为了对多机场航班延误进行预测,首先对多机场系统的数据进行采集和预处理。其次构建了基于粒子群优化的BP神经网络预测模型,相较于BP神经网络,PSO算法能够在更大的空间内搜寻可以大概率防止神经网络陷于局部最优解的局限性。

2.1 数据采集与预处理处理

针对航班延误预测,常用的数据源包括航班信息数据和天气数据,为了增强预测模型的综合性能,整合多个数据源来预测航班的延误,主要包括航班数据、天气数据和交通态势数据。

2.1.1 数据采集

航班数据取自飞常准航班数据分析平台,选取的数据为北京终端区内首都机场、大兴机场和天津机场2019全年的历史航班数据,气象数据来源于气象局网站,选取的数据为该多机场终端区2019年全年的气象数据, 交通态势数据通过上文确立的多机场终端区交通态势指标计算得到。

航班数据A可表示为A={ai1,ai2,…,aij},其中aij为第i个航班的第j个航班特征,主要包括时间信息、机场信息、航班信息与延误信息等共21个特征。

天气数据C可表示为C={ci1,ci2,ci3,…,cil},cil表示第i个航班的第l个天气特征主要内容包括时间、位置、天气状况、湿度、温度、风速、风向等25个特征。

交通态势数据S可表示为S={si1,si2,…,sim},其中simj表示第i个航班的第m个终端区交通态势特征,主要包括排队长度指数、流量指数等6个特征。

2.1.2 数据预处理

为保证航班延误预测的准确性,首先对选取的实验数据进行预处理,对维度较大、不完整、有噪音的数据信息进行初步过滤和降维处理,主要包括特征选择、数据缺失值处理、特征融合、数据编码。

(1)特征选择。在所选取的航班数据、气象数据、交通态势数据中并不是所有的特征都对航班延误存在影响关系,对实验数据特征进行了筛选,消除了重复和冗余的特征,最终筛选出的特征如表1所示。

表1 特征选择结果Table 1 Feature selection results

(2)缺失值处理。通过对数据集的检查,发现特征缺失数据和异常数据在整体数据中只占一小部分,故采用直接删除的方式进行处理。

(3)数据融合。将特征筛选和缺失值处理后的数据与每一架航班进行对应融合,航班数据A、天气数据C、对应相同日期进行数据融合,交通数据S对应相同航班号融合到上面的数据中,最终得到完整的航班延误预测实验数据。

(4)数据编码:对于历史航班数据存在的航班号,出发机场,到达机场,航空公司等信息,属于离散变量,采用one-hot编码,将每个特征的每个取值都表示成一个二进制向量。例如,将航班号编码为长度为N的二进制向量,其中第i个位置表示航班号是否为第i个可能的取值。对于天气信息、交通信息属于连续变量,采用数值编码,将每个特征的数值直接编码为实数,如将温度编码为实数,表示温度的绝对值。

2.2 模型构建

2.2.1 BP神经网络

BP神经网络是一种自组织、自学习的多节点前馈神经网络,具有误差反向传播,主要包括输入层、隐藏层和输出层。输入层,该层的数据通常是过程变量。隐藏层是中间的特征信息提取层,通过连接权重连接网络。输出层,需要获取该层的数据或预测目标数据[17]。其工作流程首先是输入信号的前向传播,即误差输出的计算是从输入到输出,然后是误差的向后传播,即权重和偏差的调整是从输出到输入。迭代学习用于调整连接权重和阈值的偏差,使误差沿梯度方向减小,从而确定网络的各种参数以满足最小误差。

2.2.2 BP神经网络参数选取

在多机场航班延误预测中,选择合适的输入层参数、隐藏层节点数以及适当的模型参数进行预测至关重要。考虑多机场终端区交通态势对航班运行的影响,将交通态势数据S、航班数据A、天气数据C这三类数据视为模型的输入,航班延误时间作为模型的输出,网络结构如图1所示。网络的隐藏层实现了复杂的非线性映射关系,使用sigmoid激活函数作为隐藏层的传递函数,以实现输入层和输出层之间的非线性映射[18],其计算公式如式(1)所示。隐藏层数设置为1,节点数计算公式如式(2)所示。

(1)

图1 BP神经网络结构图Fig.1 BP neural network structure diagram

(2)

式(2)中:k为隐藏层节点数;λ为输入层节点个数;β为输出层节点数;α为[1,10]的常数且取整数。

2.2.3 PSO算法优化BP神经网络

粒子群优化算法(particle swarm optimization algorithm,PSO)是一种随机全局搜索算法,它通过对鸟群在觅食过程中的迁徙和聚集行为的模拟以及群体活动规律的抽象建模来实现。PSO算法包含多个解决问题的粒子,每个粒子根据适应度函数不断更新自身位置和速度,并与其他粒子共享信息和协同进化,搜寻整个空间来找到全局最优解。

BP神经网络算法是基于误差函数梯度下降的单点搜索方法,缺乏全局搜索能力。因此,在学习和训练过程中,它可能面临鲁棒性差、收敛速度慢、泛化能力差等问题。相比之下,PSO算法具有结构简单、搜索范围广、鲁棒性强、收敛速度快等优点,能够寻找大多数全局最优解[19]。为了充分发挥两者的优点,提出基于PSO优化BP神经网络的多机场航班延误预测模型。该模型的核心思想是PSO算法利用其出色的全局搜索能力,不断更新粒子的速度和位置,以找到最合适的连接权重和阈值。PSO-BP神经网络预测模型的构建流程如图2所示。

图2 PSO-BP优化流程图Fig.2 PSO-BP optimization flow chart

多机场航班延误预测具体实现步骤如下。

步骤1构建单隐藏层的BP神经网络,选择数据样本的前80%作为训练集,将航班数据A、天气数据C、交通态势数据S中共26个特征作为输入层节点,航班延误时间作为输出层节点,并按式(2)选取隐藏层节点数。

步骤2初始化粒子群和神经网络权值,首先需要初始化神经网络的权值和偏置,并设置粒子群的初始位置和速度。使用高斯分布在[-0.1,0.1]随机生成初始权值w′,在[-0.5,0.5]随机生成初始偏置b,最后,将所有的权值和偏置连接起来形成1个向量X0=[w′,b],则粒子群的初始位置X0,particle=X0+随机扰动,随机扰动是一个随机生成的向量,用于在生成初始位置时增加一些随机性,使得粒子群的初始位置更加多样化,并将粒子群初始速度设为0.01,以控制粒子在搜索空间中的移动步幅。

步骤3计算适应度函数,将粒子群的位置映射到神经网络的权值上,计算神经网络的适应度函数,以平均绝对误差(mean absolute error,MAE)作为适应度函数。

(3)

步骤4更新全局最优位置和个体最优位置,根据适应度函数的值,更新全局最优位置和每个粒子的个体最优位置。全局最优位置是粒子群中适应度函数值最小的位置,而个体最优位置是每个粒子自己历史上适应度函数值最小的位置。

步骤5更新粒子速度和位置,根据全局最优位置和个体最优位置,更新每个粒子的速度和位置。具体的更新公式为

vid(t+1)=wvid(t)+c1r1[pbestid-xid(t)]+c2r2(gbestd-xid(t)]

(4)

xid(t+1)=xid(t)+vid(t+1)

(5)

式中:vid(t)、vid(t+1)、xid(t)、xid(t+1)分别为粒子i在t代和t+1代的速度和位置;pbsetid为个体最优位置;gbestid为全局最优位置;w为惯性权重;c1和c2为学习因子;r1和r2为在[0,1]均匀分布的随机数。

步骤6反向传播更新权值和偏置,将每个粒子的位置映射到神经网络的权值上,使用反向传播算法来更新神经网络的权值和偏置。

步骤7检验停止条件,判断算法是否满足误差达到一定精度的停止条件。

步骤8循环执行步骤3~步骤7,直到算法满足停止条件。最后采用数据样本的后20%作为测试样本来检验训练后的神经网络模型,输出测试结果。

2.3 评价指标

采用MAE、决定系数R2和延误预测准确率P对PSO-BP神经网络模型的性能和预测精度进行评价。MAE为预测值与真实值之间的绝对值误差的平均值,MAE越小,表示模型的预测值和实际观测值之间的误差越小,模型的预测能力越好。R2是一个用于评估预测模型拟合程度的指标,它表示模型可以解释目标变量方差的比例,决定系数的取值范围在 0~1,R2越接近 1,表示模型能够解释更多的目标变量方差,预测结果更为准确;反之,R2越接近 0,则表示模型解释目标变量方差的能力很弱,预测结果不可靠。准确率P是指预测准确的样本数占总样本的比值。R2和P的计算公式分别为

(6)

(7)

式(7)中:P为延误预测准确率;N为预测总样本数量;NP为预测准确样本数量。

3 实例分析

随着大兴机场的投入运营,京津地区两地三场的终端区运营模式逐渐成为具有代表性的多机场终端区空域系统。以天津、北京两地三场为研究对象,选取2019年北京首都国际机场、北京大兴国际机场和天津滨海国际机场的历史航班数据和天气数据,并考虑了终端区交通态势对航班延误的影响,确立终端区交通态势指标,计算得到终端区交通态势数据,数据集共包含样本632 742条,选取数据的80%作为训练集,剩余的20%作为测试集,最后采用PSO-BP神经网络模型对多机场航班延误进行预测。

3.1 预测结果

使用 MATLAB进行计算,此次预测模型网络结构层次为3层,将选取的26个特征作为输入层节点,将延误值作为输出层节点,根据式(1)可知,隐藏层节点的取值范围在[7,15],经过相关测试可知,隐藏层节点计算式(2)中常数α取值为5,隐藏层节点数k=10时模型效果最优,训练次数设为为1 000次,训练精度达到 0.001,学习率为 0.1。最大迭代次数Tmax=100、种群规模n=30、学习因子c1、c2均为1.5、惯性权重w=0.8。

经过多次迭代,粒子群算法能够逐渐增强种群个体的适应能力,根据图3的数据显示,种群在经过约70代进化后,粒子的适应度已经趋于稳定。PSO-BP预测模型的预测结果如图4和图5所示,各项最优指标R2=0.902,MAE=4.263,P=92.31%,延误预测结果基本接近于真实值。

图3 进化代数Fig.3 Evolutionary algebra

图4 PSO-BP预测误差Fig.4 PSO-BP prediction error

图5 PSO-BP预测值与真实值对比Fig.5 Comparison of PSO-BP predicted value and true value

3.2 多机场终端区交通态势对预测精度的影响

为了讨论多机场终端区交通态势特征对航班延误预测的影响,采用PSO-BP模型,采用不包含交通态势特征的数据重新对航班延误进行预测,将得到的预测结果进行对比,对比结果如图6和表2所示。

图6 交通态势特征影响误差对比Fig.6 Comparison of influence error of traffic situation characteristics

表2 交通特征对预测精度的影响对比Table 2 Comparison of the influence of traffic characteristics on prediction accuracy

考虑多机场终端区交通态势的PSO-BP预测模型,R2、MAE和P这3个评价指标值均比一般PSO-BP模型要好,且预测准确率提高了29.61%。证明了在对多机场系统内的航班延误预测的过程中,考虑终端区交通态势十分有必要。

3.3 不同预测模型的性能对比

为了进一步评估PSO-BP模型的性能和预测效果,采用相同的实验数据集,并使用相同的模型参数,分别采用GA-BP网络和BP网络模型进行了延误预测并通过确定的评价指标对该延误预测模型的模拟和验证结果进行评价和对比。具体评价结果如表3所示。

表3 不同模型预测性能对比Table 3 Comparison of prediction performance of different models

根据不同模型的对比结果(表3)可知,PSO-BP模型较普通BP模型和GA-BP模型,PSO-BP模型的R2最高,为0.902最接近于1;MAE最小,为4.363;准确率最高为92.31%,较另外两个模型预测准确率分别提高了41.96%和24.7%。通过3个评价指标的对比,PSO-BP的预测性能均为最优,证明采用PSO-BP模型对多机场航班延误预测的优越性。

4 结论

针对多机场航班延误预测,考虑多机场终端区交通态势对航班延误的影响,使用PSO-BP神经网络模型对航班延误进行预测,通过实例分析证明方法的有效性,得到以下结论。

(1)在预测过程中考虑多机场终端区交通态势对航班延误的影响,建立终端区交通态势指标集,将计算得到的终端区交通态势数据与航班和天气等数据结合,输入模型中进行训练与测试,实例证明,考虑终端区交通态势后,航班延误预测准确率有所提高。

(2)基于粒子群算法优化BP神经网络建立了多机场航班延误预测模型,采用MAE、R2和准确率P对模型的性能和预测精度进行评价。通过实例分析和与其他模型的对比,证明考虑终端区交通态势的必要性和该预测模型的优越性。

(3)只考虑多机场终端区交通态势对航班延误的影响,未来可考虑整个多机场系统的交通态势,进一步丰富交通态势指标,使实验数据集更加丰富全面,以获得更高的预测准确率。

猜你喜欢
终端区态势航班
全美航班短暂停飞
环球时报(2023-01-12)2023-01-12 15:13:44
事故树分析法在复杂终端区天气特情处置中的应用研究
山航红色定制航班
金桥(2021年10期)2021-11-05 07:23:10
基于MFD的终端区交通相态识别及其边界控制*
山航红色定制航班
金桥(2021年8期)2021-08-23 01:06:24
山航红色定制航班
金桥(2021年7期)2021-07-22 01:55:10
2019年12月与11月相比汽车产销延续了增长态势
汽车与安全(2020年1期)2020-05-14 13:27:19
汇市延续小幅震荡态势
中国外汇(2019年19期)2019-11-26 00:57:36
终端区交通流量管理和研究
消费导刊(2019年12期)2019-08-21 01:02:23
我国天然气供需呈现紧平衡态势