陈亚青,张可欣,李颖哲
(1.民航飞行技术与飞行安全重点实验室,广汉 618307;2.中国民用航空飞行学院民航飞行技术与飞行安全科研基地,广汉 618307;3.中国民用航空飞行学院空中交通管理学院,广汉 618307)
随着世界经济的发展,我国交通运输行业尤其是民航业前进速度突出,随之而来的运行压力也与日俱增。在此背景下,提高我国民航的运行效率成为一个不可忽视的问题,提高跑道运行效率则是解决问题的一种重要手段。提高跑道运行效率最直接的方法是改扩建,但土地价格激增以及征地难度上升都造成了改扩建难以真正实现。行之有效的方法是研究并优化跑道占用时间来提升跑道运行效率。研究跑道占用时间需要构建跑道占用时间预测模型,基于实际运行数据,分别利用人工神经网络(ANN)、循环神经网络(RNN)、极度梯度提升树(XGBoost)、支持向量机(SVM)四种机器学习的方法构建跑道占用时间预测模型,对比分析预测模型运行结果。研究结果表明,基于RNN的跑道占用时间预测模型预测效果优于其他三种模型,该结果可为后续研究跑道占用时间提供参考。
国外对跑道占用时间预测模型的相关研究可以追溯到1984 年,Weiss 等[1]研究了航空器的尾流类别和跑道表面条件对跑道占用时间的影响。1990 年,Ruhl[2]提出了一个根据航空器的不同类型参数来预测跑道占用时间的模型。2001 年,Martinez 等[3]利用人工采集数据,对跑道占用时间进行模拟,最后得出了不同机型的航空器着陆跑道占用时间存在明显差距,轻型机的平均占用时间为45 s,中型机为50 s,这两类机型占用时间标准偏差为10 s。重型机的平均占用时间则达到了55 s,且标准偏差为6 s。2008年,Capri等[4]研究出了一种新的仿真模型,该模型可以利用车辆来跟随航空器,更加详细地模拟了航空器的滑行运动轨迹,相比传统的离散时间仿真模型来说研究精度得到了很大的提升。2013年,Tamsa 等[5]从四个不同机场利用ADS-B 等设备提取了相关运行数据,经过分析后得出了具有快速脱离道的跑道占用时间可以得到显著的缩短,此外还证明了航空器的类型并不是着陆跑道占用时间的关键性影响因素。2017 年,欧控中心与代尔夫特理工大学基于法国戴高乐国际机场的航空器运行数据[6],研究出了一种基于复合机器学习方法的跑道占用时间预测模型,该模型可以预测选定跑道30 分钟之内的航空器着陆次数以及每架航空器的跑道占用时间。
国内在这方面也有一些研究,2016 年康瑞等[7]学者将跑滑结构作为主要影响因素,通过建立跑道占用时间计算模型评估其对跑道容量的影响。2018 年高伟等[8]将跑道进出口布局、起飞等待点布局、占用时间及机型等因素的影响考虑在内利用蒙特卡洛方法仿真研究了起降航空器跑道运行效率。2019年金京等[9]以B-737机型为研究对象,建立了航空器着陆跑道占用时间统计模型,并以QAR 实际运行数据做对比验证了模型计算准确性。总体而言国内对跑道占用时间的研究相对较少并且研究的内容尚不够全面,仍需进一步推进研究。为此拟基于机载QAR 数据采,建立四种基于机器学习的跑道占用时间预测模型并验证了模型的精度,提出一种预测效果更好的跑道占用时间预测模型。
机器学习(machine learning,ML)是一种基于大量的历史数据集,利用计算机对其进行分析学习并从中找到规律以便对未来的情况进行预测的过程。机器学习算法根据历史数据生成模型,并通过学习对模型进行改进使其精度不断提升,模型成熟后可以根据新输入数据来进行预测结果的输出。近些年,越来越多的成熟的机器学习改进算法被各国学者研发推广,已经被广泛应用于生产生活的各个领域。机器学习可以按照训练数据集是否含标签分为监督学习和非监督学习两大类,本文采用的方法是监督学习。监督学习中包含神经网络,极限学习机,极度梯度提升树等,本文采用以上算法建立跑道占用时间预测模型。
2.1.1 人工神经网络
人工神经网络[10](artificial neural network,ANN)也是应用广泛的神经网络,其原理结构来自于生物神经网络,人工神经网络被广泛运用在数值预测与计算估计。最基础的人工神经网络处理单元是单层神经网络,也被称为人工神经元,其模型如图1所示。其中模型的输入分别为元素X1、X2、X3,其对应的权重为W1、W2、W3,在处理单元中包含输入的函数图>,以及激活函数f,输出单元则包括处理后输出的结果函数f。
图1 单层神经网络
2.1.2 循环神经网络
循环神经网络[11](recurrent neural network,RNN)的基本来源是1982 年由Saratha Sathasivam提出的霍普菲尔德网络。与一般的神经网络不同,循环神经网络的基本结构是多个基本组成相同的神经元,每个神经元直接互相影响,在循环神经网络的内部存在很强的记忆性,每个神经元的输入依赖于其前一个神经元的输出,神经元之间的连接具有重复性。整体的循环神经网络可以看作是一个单一的神经元的输出不断作为其输出循环的进行运算并得出最终的结果,具有非常强的时序性。经典的循环神经网络结构如图2所示。
图2 经典循环神经网络结构
极度梯度提升树算法[12](XGBoost算法)是梯度提升算法(Boost 算法)的一种实现方式。XGBoost 算法的基本思想就是不断生成新的树,后一棵树基于前一棵树的结果和实际值yi的差值来进行学习,从而降低模型的偏差。
最终模型结果的输出如下:
支持向量机[13(]support vector machine,SVM)是由Vapnik 等学者在二十世纪九十年代提出的算法。支持向量机的原理依据来自于统计学习,尤其是其中的风险最小原理,其本质是二元分类器的一种。支持向量机的结构可以简单描述为输入层、核空间以及输出层。一般情况下支持向量机被用来处理回归(support vector regression,SVR)问题和分类(support vector classify,SVC)问题。在处理分类问题时,支持向量机采用核函数将数据从低维度映射高维度空间后寻找一个最优的超平面将向量充分分割,使分割后的两部分数据点离平面的距离最远,降低了维度灾难和计算复杂度。分类过程的关键是利用核函数把复杂的分类过程通过映射转化成一个线性可分问题。利用核函数计算值K(xi,x)表达多维向量内积,计算t时间段内的前m数据(即数据时间窗口为m),输出预测结果,其原理如图3所示。
图3 支持向量机原理
处理回归问题时[14],支持向量机的训练集的实数域记为yi。此时计算训练数据与所建立的回归函数之间的差值,若其差值小于等于ε,则认为算法成立,其数学模型可表示为
图4 支持向量机回归原理
基于历史运行数据,将不同影响因素考虑在内,分别采用人工神经网络、循环神经网络、极度梯度提升树以及支持向量机这四种不同种类机器学习方法,建立航空器跑道占用时间预测模型,比较不同预测模型预测精度。具体可以简要描述为以下三个步骤:①数据收集以及数据处理;②跑道占用时间预测模型的建立;③预测结果对比分析。
基于收集到的武汉天河机场、北京首都机场、重庆江北机场、太原武宿机场、海口美兰机场、广州白云机场等六个机场的空客320飞机机载QAR 数据。选取气温、风速、风向、能见度、滑行距离、脱离道口角度、跑道入口速度、跑道出口速度、机场标高九种QAR 数据,作为参数构建跑道占用时间预测模型。
QAR 数据作为飞行分析常用数据源虽然有数据种类多、数据量大的优点,但其原始数据也存在数据缺失,数据单位不统一等缺点,造成数据不可以直接使用。对数据进行清洗[15],补充缺失数据、删除不可用数据。清洗后对数据分布进行分析,结果如图5所示,可以看出各类数据的数值从十几到上千差距很大,且数据分布不均。因此,在建立预测模型前,要对收集到的数据进行降维处理,以保证去除数值对模型的贡献程度差异过大而造成的计算误差。
图5 数据分布
对各影响因素的相关性进行分析,结果见表1,发现各因素之间在0.01水平(双侧)上显著相关,因此可以利用主成分分析法对数据进行降维。对数据进行总解释方差分析发现,九个影响因素可以转换为四种主成分,其旋转成分矩阵如表2所示。
表1 相关性
表2 成份矩阵
利用经预处理并降维后的包括温度、风速、风向、能见度、滑行距离、脱离道口角度、跑道入口速度、跑道出口速度、机场标高在内的数据作为参数,分别采用人工神经网络、循环神经网络、极度梯度提升树以及支持向量机四种机器学习方法建立预测模型,其流程如图6所示。
图6 模型构建流程
分别将建立的四种不同的预测模型所输出的预测值与实际运行数据进行对比,对预测模型的准确性进行对比验证,选出最适宜用于建立跑道占用时间预测模型的机器学习方法,其对比结果分别如图7—图10所示。
图7 基于ANN的跑道占用时间预测模型
图8 基于RNN的跑道占用时间预测模型
图9 基于XGBoost的跑道占用时间预测模型
图10 基于SVM的跑道占用时间预测模型
从以上四张预测结果对比图形可以看出,XGBoost模型、RNN模型预测值与实际值重合度更高。为了更好地对四种模型的预测效果进行对比,本文进一步计算了四种预测模型预测值的均方误差,平均绝对误差以及平均绝对百分比误差进行评价,其结果见表3。
表3 模型误差对比
从表3数据对比可以看出四个模型中,RNN模型的三种误差都是相对较小的,基于RNN 的跑道占用时间计算模型的预测效果在所建立的四种预测模型中是最好的。
研究基于实际运行数据,对数据进行处理分析后,分别利用四种不同机器学习方法建立了跑道占用时间预测模型。将建立的四种预测模型预测结果以及预测误差进行对比分析后得出,RNN 模型的均方误差、平均绝对误差、平均绝对百分比误差分别为21.5195、3.5130、0.0530,误差相对较小,且其预测值与实际值的吻合度也相对较高;而基于SVM 的跑道占用时间预测模型的均方误差达到了31.3156,由其预测值与实际值的对比图也可以看出偏差较大,在建立的四种模型中精度最低。说明基于RNN的跑道占用时间预测模型具有一定的优越性,RNN 方法更适用于预测跑道占用时间,该结论可以为后续跑道占用时间预测模型的研究提供一定参考。