翟俐民,张建伟,韩云祥
(1.四川大学视觉合成图形图像技术国防重点学科实验室,成都 610065;2.四川大学计算机学院,成都 610065)
近年来,随着国民生活水平的提高和民航运输业智能化的发展,空中交通流量急剧增加。根据2019 年民航行业发展统计公报[1]显示,全行业完成旅客周转量11705.30 亿人公里,比上年增长9.3%,国内航线完成旅客周转量8520.22 亿人公里,比上年增长8.0%,全行业完成旅客运输量65993.42 万人次,比上年增长7.9%,国内航线完成旅客运输量58567.99 万人次,比上年增长6.9%。在航空器进港时终端区域空中交通严重拥挤的形势下,航班延误量逐年增加,不仅造成了极大的经济损失,还对旅客的安全带来一定的隐患。航空器接近终端区时,通过对航路点和到达时刻的精确预测,对航空器进行合理调度,可以有效提高空中交通运行效率和进一步提供安全保障。欧美各国在航空器进港时预计到达时刻预测方面的研究较国内更早、更成熟,欧洲单一天空计划(SESAR)和2015 年欧洲ATM 总体规划概述了到2050 年实现“欧洲航空界在可持续航空产品和服务方面居世界领先地位,并满足欧盟公民和社会需求”的愿景,准确、可靠的空中交通轨迹预测模型(TBO)的开发是下一代国家航空运输系统(NextGen)的主要目标,同时也包括终端区进港航空器预计到达时刻预测模型。
国内外学者在航空器预计到达时刻的研究中主要基于航空器性能参数与运动学模型以及数据挖掘与混合机器学习的研究方法。Hwang 等人[2]提出基于交互式多模型算法;张军峰等人[3]提出一种状态相关模态切换的混合估计算法(SDTHE);汤新民等人[4]构造航空器状态连续变化的混杂系统模型;马光辉等人[5]利用动态时间规整与层次聚类方法对历史雷达轨迹进行分析;Bai 等人[6]在预测航空器到达时间中通过设置单变量与多变量的对比实验,实时更新预测结果,同时将结果作为输入变量用于航空器间隔保持算法;Mueller 等人[7]构建基于性能的预测模型,通过模拟航空器在空域中的飞行轨迹,分析不同航行阶段预测误差的主要影响因素,包括飞机重量、推力等。上述研究主要以建立运动学模型为主,对历史雷达数据和气象信息等影响因素考虑较少。陈强等人[8]基于历史雷达轨迹分析,通过RBF 神经网络构建进场航空器进港时的高度、速度、进场飞行距离与进场飞行时间的映射关系,利用正交最小二乘算法设计基于RBF 神经网络的进场飞行时间预测模型,在考虑航空器机型的情况下,将航空器飞行时间预测的均方根误差控制在50s 以内;郑志祥等人[9]通过分析航班信息、天气信息以及空中交通信息,基于随机森林算法构建航空器到达时刻预测模型;李阳等[10]通过建立支持向量机训练集,使用LS-SVM 方法建立航空器进场过程中的位置、高度、进场飞行速度及所需时间之间关系,预测航空器进场飞行时间,将航空器进场飞行时间预测的均方根误差控制在11s。以上研究仅考虑单一方法在ETA 预测上的应用,对航空器进港时到达时刻的影响因素考虑不够全面,在预测时有机型等限制条件。本文基于历史航迹数据进行分析,利用层次聚类算法对航迹进行分类,通过构建LSTM 网络预测模型,实现终端区进港航空器到达时刻的精确预测。
聚类算法在许多实际工程中应用广泛,由于聚类规则的差异有不同的算法,包括基于层次的、基于密度的、基于划分的、基于模型的和基于网格的算法等。各种算法之间没有明确优劣之分,通常根据对聚类对象和聚类结果的要求不同,选择合适的聚类算法。考虑到聚类结果的不确定性和对聚类对象的距离相似度定义,本文采用层次聚类算法。层次聚类算法中,凝聚层次聚类相对于分裂层次聚类使用更为广泛。
凝聚层次聚类中,首先以单条航迹作为一个初始航迹簇,计算所有航迹簇之间的相似度,逐步聚合与其相近的簇,直到某个聚类终止条件被满足。
假设聚类航迹数据集T中的航迹条数为nt,则其距离矩阵大小为nt×nt。初始化聚类参数:聚类终止判定阈值Dstop,离群航迹簇判定阈值Ddrop。将每条航迹Ti作为一个初始航迹簇Ci,C为航迹簇聚类结果集合。
计算两两航迹簇之间的距离,得到初始距离矩阵D。其中,两条航迹之间的距离使用动态时间规整(DTW)进行衡量,航迹簇之间的距离为簇中每条航迹与另一个簇中每条航迹之间距离求和后取平均得到。航迹点数据为三维位置信息,计算其欧氏距离为航迹点之间的相似度。
定义当前航迹簇Ci的最小航迹簇间距离为D{Ci,Cj},航迹簇Cj为距离当前航迹簇距离最小的簇,每轮聚类过程将D{Ci,Cj} 相等的簇归为新的航迹簇中,同时将大于Ddrop的簇归为离群航迹簇。每轮聚类结束后,若C中任意航迹簇间距离D{Ci,Cj} 均大于Dstop,则聚类终止;否则,重新计算并更新距离矩阵,进入下一轮聚类过程。
聚类性能评价指标使用戴维森堡丁指数(DBI),计算的是任意两个类的类内平均距离之和与两聚类中心距离的比值,其计算公式为:
长短期记忆网络是一种循环神经网络(RNN)。传统的RNN 训练困难,隐藏层只有一个状态,对短期输入非常敏感,在实际应用中很难处理长距离依赖,而LSTM 作为一种改进的RNN,成功地解决了传统RNN的缺陷,通过增加状态来保存长期输入信息,从而更擅长处理时间序列问题,成为当下最流行的RNN 之一,在语音识别、自然语言处理等领域有众多应用。
航空器预计到达时刻受多种因素影响,搜集了2019 年8 月到10 月成都双流国际机场所有进港航班数据,其中包含:航迹点数据(经度、纬度、航向、高度、水平速度、垂直速度、到达时间等)、航空器基本信息(航班号、机型等)以及气象数据(风速、风向等)。此外,还包括终端区空中交通流信息以及双流机场终端区标准进场程序图等。据分析,航迹点的采样间隔约为15 秒,每天进港的航班数量大约有400 到500架次。
获取到的航迹数据中,会出现航迹数据缺失、航迹点数目过于稀疏以及航迹点数据重复等现象,需要对初始航迹数据进行数据清洗。通过分析每条航迹的航迹点数目及其分布情况,将航迹数据缺失和航迹点较为稀疏的航迹排除,删除重复航迹点数据,同时,对于航迹点数目相对较少的航迹,采用数据插值的方式进行数据增强。
将经纬度坐标数据,通过墨卡托投影变换将其转换为以机场为坐标原点的二维平面坐标数据。利用墨卡托投影正解公式,将经纬度坐标(B,L)转换为平面直角坐标系(X,Y),标准纬度B0,标准经度L0,e为第一偏心率,e'为第二偏心率,a为长半轴长,b为短半轴长,坐标系转换公式为:
将层次聚类结果作为航迹分类类别通过数值编码添加到特征数据中。对于类别型特征数据(如机型),通过One-hot 编码将其转换为数值型数据。对数值型特征数据需要进行归一化与标准化处理,以消除由于不同特征之间量纲不同带来的负面影响。
归一化函数式为:
标准化函数式为:
基于层次聚类和LSTM 的航空器到达时刻预测步骤如下:
(1)选取训练集、验证集和测试集。将预处理后的航迹数据按照航迹条数进行随机打乱,选取总样本的80%作为训练集以进行模型训练,10%作为验证集进行超参数调整和模型能力的初步评估,10%作为测试集来评估预测模型的泛化能力。
(2)判定航迹类别模型。对于训练样本,通过构建传统分类模型对航迹进行分类,不同类别的航迹进港时位置、速度等信息差异较大,对预测模型的精确度有至关重要的影响。
(3)使用BP 神经网络和LSTM 网络进行对比实验。BP 神经网络使用Sequential 顺序模型,包含输入层、隐藏层和输出层。LSTM 网络由重复的链式神经网络模块组成,每个单元包含输入门、遗忘门和输出门。使用修正线性单元(Rectified Liner Unit)为激活函数,分别使用Adam 和SGD 为优化算法,以加快模型收敛速度。
(4)模型评价指标。实验结果的评估主要使用两个评价指标,分别为均方根误差(RMSE)和平均绝对误差(MAE),公式分别为:
航迹聚类结果不同、分类模型准确度以及ETA 预测模型参数不同对ETA 预测均有较大影响,将从以上几方面对最终预测结果进行分析。
对航迹进行聚类时,由于在计算距离矩阵中使用的位置数据维度存在差异,聚类后的航迹簇类别个数也不同。使用经纬度二维信息进行聚类,聚类结果为6类。使用经纬度和高度三维信息进行聚类,聚类结果为8 类。相对于二维信息,增加高度维度使得航迹聚类时的分类效果更加精确,最终ETA 预测精确率提高了25%。
由于分类任务的复杂度较低,传统的分类模型即可达到较好的效果,使用逻辑回归和卷积神经网络分别对航迹类别进行预测,其预测准确度分别为97.02%和98.22%。
对于LSTM 网络,滑动窗口的大小对模型预测结果影响较大,当窗口较大时,预测ETA 所考虑的航迹信息越多,但窗口过大会导致过拟合现象,使得模型泛化能力降低。LSTM 网络预测精确率相对于BP 神经网络提高了18%,预测结果如表1。
表1 预计到达时刻(ETA)误差分析对比表
本文从航迹点中的二维和三维位置数据出发,利用层次聚类算法建立二维航迹聚类模型和三维航迹聚类模型,通过构建逻辑回归和卷积网络传统分类模型对航迹类别进行分类,同时考虑航迹点中的位置、航向、速度与航空器到达时刻之间的映射关系,利用BP神经网络和LSTM 网络建立预测模型。通过对比实验发现可以将ETA 预测的均方根误差控制在6s,具有较高的准确率。但在分析对航空器预计到达时刻的影响因素时,对于空域状态的评估仍有不足,同时在聚类过程中出现的离群航迹未进行深入分析,后续将对此类问题做出进一步研究。