陈超
摘 要:针对气象条件导致航班延误难以准确预测的问题,文章提出基于GP-LVM和LS-SVM的航班延误等级预测算法。通过GP-LVM对经过预处理的气象数据非线性降维,得到影响航班延误的显著变量;对航班延误进行LS-SVM的延误等级预测。仿真结果表明,文章提出的组合预测方法相对于单一SVM模型,能够提高航班延误等级预测准确率。
关键词:航班延误;高斯过程隐变量模型;非线性降维;最小二乘支持向量机
根据《民航行业统计发展公报》航班不正常原因统计分类中,天气原因占50%左右,复杂的航空气象影响着航班正常的运行,航班延误问题逐渐增多成为民航运输业发展道路上的阻碍。本文对枢纽机场的航班运行数据进行分析计算,预测得出机场航班延误等级,给相关部门调度运行提供依据。
气象问题极大地影响了机场跑道的容量架次标准,甚至在恶劣的天气条件下关闭跑道,对航班产生影响的气象因素较多,将海量数据参数引入预测模型,在运算中使得模型训练时间加长且预测结果出现偏离,降低了模型泛化性能。使用高斯过程隐变量模型(Gaussian Process Latent Variable Model,GP-LVM)降低数据的维度,减少模型的运算量,得到影响航班进离港航班延误显著变量数据矩阵,结合最小二乘支持向量机(Least Square Support Vector Regression,LS-SVM)进行航班延误等级预测研究。
1 高斯过程隐变量模型
高斯过程隐变量模型[1]用于N个D维观测数据Y=[y1,…yn]∈RN×D进行降维处理,得到向量在低维空间中信息的有效表示X=[x1,…xn]∈RN×d。模型假定向量各维度上映射fd独立,且分布函数为高斯过程,则:
(1)
因此,参数向量的似然表示为:
(2)
参数矩阵表示为数据各维度似然乘积:
(3)
其中,K是协方差函数矩阵。
从隐空间到高维空间的映射是非线性映射的高斯过程,公式简化为:
(4)
2 最小二乘支持向量机
LS-SVM算法通过引入约束条件将二次规划优化转化求解线性方程组的问题,提高运算效率,算法對航班延误等级进行预测过程[2]:xi∈Rn,i=1,…l为输入训练向量,yi∈Rl,yi∈{-1,1}为输出量,根据结构风险最小化原则,函数应用的标准形式:
(5)
其中,ω为权值矢量,γ为惩罚因子,b为偏置量,为空间映射函数。
求解约束优化问题,构造拉格朗日等式:
(6)
其中,αi为拉格朗日乘子。
对上式进行求偏导数优化,根据上述条件得到线性方程组:
(7)
其中,为核函数矩阵,y和α为向量,I为单位矩阵,化简得到LS-SVM函数为:
(8)
3 气象数据统计分析
3.1 数据预处理
影响航班正常运行的气象条件有低云、低能见度、强侧风、雷暴等,本文气象数据资源来自Metar报文,从观测点对机场气象数据的报告中提取气象信息,气象数据预处理包括以下3个方面:
(1)气象报文数据收集过程中出现缺失值和异常值,导致统计数据中存在噪声和异常数据。对不完整缺失信息进行拟合补全,对重复和不一致的数据进行清洗。
(2)在气象属性构造处理中对不同属性之间的关系重新构建,对于文字描述的气象类别进行定量分析,同时利用离散属性的取值范围实施数值化统计[3]。
(3)经过属性构造的数据在特征选择之前需要标准化处理。在同一维度上的数据每个样本的数值与该样本平均值的差值,对样本的标准差即为归一化处理,经过标准化符合的正态分布。数据归一化方程:
(9)
3.2 数据降维处理
经过预处理数据量较大严重影响预测模型的泛化能力,原因在于多个变量的气象因素集合属于高维数据且有着较强的噪声,导致预测结果较大的误差,本文引入高斯过程隐变量模型进行数据降维处理,GP-SVM算法流程如图1所示,具体步骤如下:(1)经过预处理后的气象数据矩阵为待降维的数据。(2)降维模型选取合适核函数。(3)构建高斯过程隐变量模型进行参数优化。
4 数据来源及实验方案
研究对象选择某国际枢纽机场,航班延误数据来自VariFlight网站。气象数据来自收集2017年1—9月报文数据,报文以每30 min一次的频率记录,统计得到共13 104条报文数据,每条报文数据包含10项气象条件,气象因素经过预处理成为数值矩阵,部分维度数据如图2所示。
预处理后的数据存在维度较大的问题,在模型预测分类过程中可能出现学习时间较长的现象,甚至导致预测结果,气象数据通过GP-SVM算法降维处理,数据变为5个维度,降维后的部分维度数据分布如图3所示。
气象数据经过降维处理后,结合航班延误数据将采集到的样本分为191个训练集和82个验证集,将训练集合对LS-SVM进行算法的学习和验证可以得到分类预测模型,再使用模型对测试集进行航班延误等级预测。对于训练得到LS-SVM模型采用不同的核函数,预测分类准确率会有所不同,经过对比发现采用径向基核函数,模型分类预测的准确率最高,航班延误等级测试结果如图4所示。
预测结果表明本文组合模型有着较高的预测精度,航班延误等级预测准确率较SVM模型提高约7%,各模型航班延误预测情况对比如表1所示。气象数据经过降维处理降低信息的冗余量,缩短模型的训练时间,提取到矩阵的显著变量,能够提高航班延误预测准确率。
5 結语
本文对航班延误问题进行深入研究分析,发现引起延误的气象因素集合属于高维数据,结合GP-LVM将数据矩阵降维处理,解决预测过程出现维度灾难问题。
将降维得到的显著变量作为向量输入模型,降低特征之间的冗余性,提高LS-SVM分类对航班延误进行等级预测精度。
由于气象因素引起航班延误甄别可能出现误差,在本文的延误等级预测结果发现,预测准确度较其他类型有所降低,希望后续有新的方法会提高准确率。
[参考文献]
[1]潘武生,黄玉水.一种基于高斯过程隐变量模型的表情识别方法[J].计算机仿真,2018(3):341-344.
[2]张瑞,李可,宿磊,等.深度稀疏最小二乘支持向量机故障诊断方法研究[J].振动工程学报,2019(6):1104-1113.
[3]王时敏.恶劣天气对航班延误影响的初步量化研究[D].南京:南京航空航天大学,2017.
Study on flight delay grade prediction based on GP-LVM and LS-SVM
Chen Chao
(College of Aviation Engineering, Civil Aviation University of China, Tianjin 300300, China)
Abstract:This paper establishes a combined flight delay prediction model based on GP-LVM and LS-SVM according to the difficulty in accurately predicting flight delays due to meteorological conditions. GP-LVM is used to reduce the dimension of preprocessed meteorological data nonlinearly, and the significant variables affecting flight delay are obtained. According to the classification verification results of LS-SVM, the next dimension reduction iteration was carried out. The simulation results showed that, the prediction accuracy of combined prediction method was improved compared with SVM.
Key words:flight delay; Gaussian process latent variable model; nonlinear dimensionality reduction; least square support vector regression