徐文英,王大军,卢朝阳,顾明昕
(1.南京航空航天大学 民航学院,南京 211106;2.兰州中川国际机场,兰州 730087;3.东部机场集团有限公司,南京 210006)
近年来,我国对民航运输的需求不断增加,空中交通流量逐渐增长.终端区是机场与航路的连接点,航班集中在此完成起飞、着陆、盘旋、等待等运行程序,是空中交通枢纽区域,由于其特殊的位置和结构,成为民航运输增长需求的一个瓶颈.精准预测进场航空器的飞行时间可以辅助管制员和决策系统得到进离场航空器的最佳排序顺序,减少航班冲突和延误,提高机场运行正常率.
对航空器飞行时间预测的研究受到国内外学者的广泛关注.Roy等[1]进行预测的4种方法中,只有引入自主迁移的交互多模型(Interacting Multiple Model,IMM)才能有效求解,达到15 min范围内的预测误差在30 s左右.Leege等[2]利用历史轨迹结合地面风和海拔风等气象数据预测飞行轨迹和时间.陈强等[3]基于径向基NN和最小二乘法构建进场航空器飞行时间预测模型,考虑航空器进场时的高度、飞行距离等来预测飞行时间,以上海浦东为例,仿真结果表明均方根误差小于50 s.马勇[4]基于FPRTree方法来预测四维航迹,通过对历史飞行轨迹进行索引进而得到预测结果,得到降落时间.Lee等[5]将飞行计划和程序信息融入模型,改进基于状态依赖过渡混合估计算法,通过下降阶段数据进行验证.Zhang[6]等提出利用ADS-B接收机进行电流轨迹更新.李阳等[7]通过建立进场航空器位置、高度、速度与飞行所需时间的函数关系,采用最小二乘支持向量机进行预测.Barratt等[8]对航空器历史轨迹进行重组和聚类,采用高斯混合模型预测航空器的进近飞行时间.叶博嘉等[9]提出了影响空域飞行的17个特征,采用随机森林、SVM等4种方法对比预测,结果显示随机森林预测效果最好.
目前基于运动学模型已经有了不少轨迹预测算法,但无法准确捕获飞机的机动性和不确定性.从实际数据轨迹挖掘,能够关注航空器长期飞行规律,融合空域动态变化、交通态势等信息,预测精度较好,但过去的研究大部分都只针对轨迹数据,融合其他信息较少,因此本文结合轨迹和实际运行时刻等相关因素对进场航空器飞行时间进行预测.
本文在总结国内外对航迹数据的处理和应用上,深入探究影响进场航空器在终端区飞行时间的影响因素,提出了影响进场航空器飞行时间的重要特征.采用基于密度的噪点空间聚类法(Density
based Spatial Clustering of Applications with Noise,DBSCAN)聚类得到交通流的不同路径类别,为航空器飞行时间的预测奠定了基础.基于集成算法[10]的思想,采用XGBoost(Exterem Gradient Boosting)算法建立进场航空器终端区飞行时间预测模型.以平均绝对误差和均方误差作为评价指标,将本文模型与线性回归(Linear Regression,LR)模型、支持向量机(Support Vector Mchines,SVM)和人工神经网络(Artificial Neural Network,ANN)模型进行对比分析.
本文采用的数据是云南昆明长水机场2019年12月6日至12月18日一天24 h内区域管制范围内航班的轨迹数据.雷达数据按照时间先后顺序排列,每隔4 s记录一条数据,飞行轨迹由这些间隔相同的离散数据点组成.
进场航空器从区域管制被移交到终端区管制的过程中必须根据管制员的指令,将航空器的速度和高度调整到相应走廊口的参数要求.两个管制扇区完成航空器管制移交后,进场的航空器需要按照管制员的指令依次完成进场飞行航段以及进近飞行航段.航空器在终端区进行着陆时通常会经历进场、起始进近、中间进近、最后进近和复飞5个阶段.进场航段需要对进场的航空器进行排序并且各个航空器要达到管制员要求的规定高度和速度.起始进近阶段主要目的是下降航空器高度,完成对准中间或最后进近航段.中间进近阶段主要用于调整航空器外部结构、速度和位置,确保平稳切入最后进近航段.最后进近航段是完成对准着陆航迹和下降着陆的航段.对于未满足着陆条件或者是着陆失败的航空器,则按复飞程序进行复飞.
基于采集到的二次雷达数据,根据航空器在终端区内的飞行特点,分析了影响进场航空器飞行时间的5个因素和22个特征.影响因素包括:航班因素、航空器因素、位置状态因素、运行模式、繁忙程度,影响因素及其特征见表1.
表1 影响因素与特征Tab.1 Influencing factors and characteristics
1)航空器因素:不同机型在飞机载重,起飞着陆性能参数上存在差异,在飞行性能上对飞行时间造成影响.航空器因素中特征为机型,可以按照尾流间隔分为重型(H)、中型(M)、轻型(L).
2)运行模式因素:运行模式决定了航空器经过的进场、进近航线以及不同的跑道运行模式.运行模式因素中特征为南北向运行和路径类别.
3)繁忙程度因素:在繁忙时刻,管制员需对航空器发布管制指令进行调配,空域中同时运行的航空器数量会对研究航空器的飞行时间有所影响.繁忙程度因素中特征为同时间段终端区内进场航班数量、离场航班数量和前序航班数量.飞越航班对管制员路径选择影响较小,在此不做考虑.
4)航班因素:航空公司飞行员的培训和操作流程要求的不同和不同起飞机场飞行航线的差异会影响航空器的飞行时间.航班因素中特征为航班所属航空公司和起飞机场.
5)位置状态因素:位置状态因素可表明航空器进场时的自身飞行情况,进场时的初始状态是重要的因素,关乎后续所需要的下降高度,进近程序所走的路线,路过的交叉点位置,调速所需时间和降落顺序等.位置状态因素中特征为时间,航空器位置,进场高度、速度、航向等.
因此,本文构建的进场航空器飞行时间预测特征变量集为
航空公司和起飞机场由字母或中文表示,是只有标签值没有数值含义的量,在进行数据训练之前需要重新编号,本文使用整数编码对航空公司和起飞机场进行编码.
预测进场航空器飞行时间的主要方法:利用DBSCAN算法对进场航空器路径进行聚类;利用XGBoost算法来预测进场航空器的飞行时间.预测飞行时间的整体方案流程图见图1,具体分为7个步骤.
图1 飞行时间预测流程图Fig.1 Flowchart of time-of-flight prediction
步骤1:对原始轨迹数据进行预处理;
步骤2:提取出进场轨迹数据并且进行重采样,构建路径聚类特征集,选取了11个特征量;
步骤3:对路径聚类特征集进行标准化和主成分分析后使用DBSCAN方法进行聚类;
步骤4:输出聚类结果,整理飞行时间预测特征变量集,选取了22个特征量;
步骤5:选取飞行时间预测训练集和测试集;
步骤6:构建XGBoost模型,输入训练集,设定模型参数,训练模型;
步骤7:输入测试集,输出进场航空器飞行时间预测结果.
每个航班从不同的走廊口进入并按照不同的路径降落,路径选择与进场飞行时间有相关性.为了获得航空器在终端空域实际的进场航路,通过聚类分析航班轨迹数据得到实际进场路径,便于后续预测进场航空器飞行时间.DBSCAN[11]是空中交通模式识别中使用较为广泛的方法,是一种基于密度的空间聚类算法,假定某一类别的样本应该分布在同类周围,该算法将具有足够密度的区域划分为簇,簇定义为密度相连的点的最大集合.该算法可以不用先验地确定簇的数量就可以识别异常值,因此适合航迹聚类场景.
首先对筛选提取出来的进场轨迹数据进行重采样得到相同维度的数据样本,再提取位置、航向、速度等需要的信息列.对数据集特征进行标准化处理,得到路径聚类特征变量集为
采用主成分分析法对特征变量集进行降维,提取少数相关性较大的主要特征.最后采用密度聚类方法DBSCAN得到航空器轨迹簇,作为进场航空器飞行时间预测特征之一.
根据1.2提取的航空器飞行时间预测特征变量集和路径聚类的结果,将特征与进场航空器终端区实际飞行时间相关联,得到训练模型所需的训练集.训练集中的实际飞行时间ATOF为实际降落时间ATA与实际进场时间AAT之差,单位为min.
XGBoost[12]是一种基于决策树(Classification and Regression Tree,CART)的分布式高效梯度提升算法,它可被应用到分类、回归、排序等任务中.其XGBoost预测树的生成过程见图2,具体分为5个步骤.
图2 XGBoost算法流程图Fig.2 Flowchart of XGBoost algorithm
步骤1:初始化每个样本的预测值;
步骤2:定义目标函数;
步骤3:简化目标函数;
步骤4:根据最优切分点划分算法建立决策树;
步骤5:累加决策树的预测值,得到最终预测值.
终端区进场航空器飞行时间预测模型目标函数Obj′为
式中:ŷi为模型的预测飞行时间;yi为实际飞行时间;fi为第i棵树模型;Ω(f)为正则化项.
根据XGBoost原理,XGBoost需要将多棵树的得分累加然后得到最终的预测得分,树的加法模型表达式为
将式(4)代入式(3)得到目标函数Obj()t为
目标函数Obj(t)的泰勒展开式定义为
式中:γ、λ为调 整参数;T为每棵树的叶子数量;w为每棵树的叶子节点的分数组成的集合.该正则化项用于控制模型复杂度,以避免过拟合.
根据ft(x)=wq(x),(q(x)为树的结构),将式(8)代入式(7),将目标函数进一步简化为
通过对wj求导等于0,求得叶子节点j对应的权值为
将式(10)代入式(9),可得到叶子节点的取值,表达式为
XGBoost建立决策树的思路是遍历所有的特征和分割点,然后选取最好的一个.假设IL和IR为左右子树分割后的节点(I=ILUIR),根据最优切分点划分算法计算每个特征点上分裂之后的收益Gain,表达式为
引入平均绝对误差MAE和均方误差MSE作为预测模型的评价指标,将XGBoost模型与线性回归LR、支持向量机回归SVR和人工神经网络ANN模型进行对比,评价指标MAE和MSE的表达式分别为
式中:N为测试集样本个数.
原轨迹数据范围为整个云南上空轨迹点,其中包含大量冗杂的数据点,且未区分航班类型.通过对轨迹数据的筛选、判断、处理,区分提取出可用的进离场和飞越航班在终端区的飞行轨迹数据,以某航班的数据为例(2019年12月6日RLH6516),部分信息见表2.表2中包括时间,X,Y坐标值,飞行高度,航向,爬升梯度,速度,重新标定后的独立编号id,航班类型(离场为-1,进场为1,飞越为0)等数据.
表2 可用的航空器航迹信息(部分)Tab.2 Available aircraft trajectory information(partial)
DBSCAN算法具有2个超参数:邻域半径eps和邻域内最小对象数minPts.采用网格搜索法寻找最优参数组合,即对各个参数取值排列组合,用于DBSCAN聚类训练,并使用交叉验证选取.设置的参数结果见表3.
表3 DBSCAN参数Tab.3 DBSCAN parameters
飞行员在航空器进场时会提前获知跑道运行方向,因此将其作为先验条件分类,将轨迹按照南向北向降落进行划分.以2019年12月6日的聚类结果为例,北向轨迹聚类簇见图3(a),南向轨迹聚类簇见图3(b).将每类簇参考NAIP上方向进行匹配命名,北向类别命名为N-MEBNA、N-XISLI、NGULOT、N-P297、N-LXI、N-ELASU,南向类别命名 为S-MX、S-GULOT、S-P297、S-LXI、SELASU,S-GE.
图3 轨迹聚类结果Fig.3 Clustering results of trajectories
DBSCAN聚类方法可以在聚类过程中发现异常点,某些特殊情况下航空器运行经过的不正常航迹归为噪声类别,噪声识别的结果图见图4.噪声轨迹占全部轨迹的9%,主要由部分盘旋转弯较大的航迹组成.本文对每一个进场航空器飞行时间都进行预测,对于无法准确区分类别的航迹也需要设立一个子类别进行预测,因此将噪声轨迹分为一类,命名为NOISE.
图4 噪声类别聚类结果图Fig.4 Clustering results of noise categories
由3.2得,长水机场终端区轨迹集共提取出13个聚类簇,北向6类,南向6类,噪声1类,分别为NMEBNA、N-XISLI、N-GULOT、N-P297、N-LXI、N-ELASU、S-MX、S-GULOT、S-P297、S-LXI、SELASU,S-GE、NOISE.南向和北向各6类聚类簇分别以数字0~5表示,噪声类别以-1表示,作为后续飞行时间预测的路径类别n的特征值.
航空器进入终端区后根据终端区状态、交通流情况选择路径,所以实际轨迹路径一般与飞行程序不同.对比标准进场程序图,可知在大方向上聚类结果与进场程序相似,部分航班运行轨迹按实际调配调整,聚类结果有效.
选取75%的数据作为训练集,25%的数据作为测试集,以12月6日北向运行的部分预测结果为例,预测结果见表4.
表4 飞行时间预测结果(部分)Tab.4 Results of flight time prediction(partial)
为了验证本文模型的优越性,另外选择了3种主流的预测模型作为对比,分别为线性回归LR、支持向量机回归SVR和人工神经网络ANN.4种模型的终端区飞行时间预测MAE和MSE结果见表5,各模型误差在±3 min和±5 min的预测准确率见表6.由表5可知,XGBoost的预测结果最好,准确率最高,MAE和MSE都是最低,分别为1.85和6.24;SVR的预测结果与XGBoost相差不大,但误差要高于XGBoost;ANN的预测结果最差,该方法可能不适合本文的样本数据;LR的结果受到部分极大异常预测结果的影响.由表6可知本文构建的XGBoost模型预测准确率最高,±5 min内的准确率达到95.18%,结果验证基于XGBoost的飞行时间预测模型能够有效地预测出航空器在终端区内的飞行时间.
表5 飞行时间预测评价指标结果Tab.5 Results of flight time prediction and evaluation indicators
表6 各模型预测准确率Tab.6 Prediction accuracy of models %
为了直观地体现预测效果,对飞行时间的实际值和预测值进行了可视化分析.由图5可知,人工神经网络ANN模型预测值偏离严重,整体预测效果较差.SVR模型在飞行时间数据集中的15~25 min部分预测效果较好,但在飞行时间大于25 min或小于15 min时预测结果出现了较大的偏离.线性回归LR模型相对ANN和SVR模型预测结果较稳定,但部分预测值偏离严重.相较而言,XGBoost整体预测结果偏离程度较小,且保持了一定的稳定性.
图5 实际结果与预测结果对比图Fig.5 Image of comparison between actual results and predicted results
1)分析终端区航空器的飞行特点并且总结了影响其飞行的5类因素,为后续建立模型特征集提供参考,根据实际数据获取情况和模型需求提取了影响飞行时间预测的22个特征.
2)建立基于DBSCAN方法的路径聚类模型,为预测航空器飞行时间提供了路径类别.
3)建立基于XGBoost算法的进场航空器终端区飞行时间预测模型.结果显示与LR、SVR以及ANN模型相比,XGBoost模型具有更优的预测准确度,±5 min内的预测准确率达到95.18%.