高 鹏, 江 柯, 余涛涛
(中国民用航空飞行学院 空中交通管理学院, 四川 广汉 618307)
近年来,随着航空运输的迅速发展,企业和用户对运输准点率的要求也越来越高,而天气因素是降低航班准点率的一大诱因,其中大雾天气在其中占比很大。设备落后的中小型机场一旦遭遇大雾造成的低能见度天气,面临的将是航班的返航与备降。因此提高大雾的预报准确率才能利于机场用户提前决策,降低低能见度天气带来的损失。
大雾的预报在过去常以人工主观预报为主,受人工误差影响较大,而近年来的数值模式预报、动力统计预报以及集合预报等手段都能显著提升预报准确率。伴随着计算机技术的不断进步,使得人工智能中的神经网络模型在利用海量历史数据对气象要素的预报中大展身手。通过分析能见度历史样本的统计规律,建立能见度样本之间的非线性关系[1]。这类方法包括人工神经网络(artificial neural network,ANN)、支持向量机 (support vector machine, SVM)等人工智能预测方法[2-3]。但是这类方法外推预报需要消耗大量的计算机资源,且对能见度物理机制掌握不足,因此比较适用于短期和超短期预测任务[4]。
卷积神经网络通过视频帧序列图像建立能见度与图像输入数据的非线性关系,通过卷积层提取图像特征,分析数据特征与能见度的关系,然后将训练好的模型用于能见度预测。卷积神经网络对于视频、图像处理能力比较强,但对于序列数据前后关联性不强[5]。因此提出了循环神经网络,能够考虑时间序列的时序相关性,理论上能够利用任意长度的历史信息来更加全面完整地对时间序列进行建模。作为一种特殊的循环神经网络(recurrent neural network,RNN)模型[4],长短期记忆(long short-term memory,LSTM)网络[6]通过自身特殊的结构设计,有效地规避了常规RNN训练过程中带来的梯度消失和梯度爆炸问题[7-8],使得数据能够有效地被训练[9],从而提升能见度预测效果。
由此本文基于长短时记忆网络(LSTM)模型,利用茅台机场海量高精度历史数据对茅台机场大雾能见度进行预报,实验表明更为复杂的长短时记忆网络能够有效提高茅台机场低能见度预测精度。
LSTM是一种特殊的RNN。一般的RNN展开方式是将几个功能相同的单元连续串联,即随着新输入信息的数量进一步扩大,通过上述自我循环的过程将上一个的状态信息传送给当前的,同时再对新的输入信息进行当前轮次的训练或者学习,一直到整个系统的训练全部完成,而最后获得的数据即是系统最后的预测结果。普通的RNN模型如图1[9]所示,图中ot表示输出层在t时刻的输出;st表示隐藏层在t时刻隐藏状态值;xt表示t时刻的输入值;V表示隐藏层到输出层的权值矩阵;W表示隐藏层到隐藏层的权重矩阵;U表示输入层到隐藏层的权重矩阵。
图1 普通RNN模型
原始的RNN系统在训练时,由于训练长度的增加或者网络层数的增加,很容易产生梯度弥散爆炸和局部梯度消失的现象,使得系统无法处理更长的信息,也因此无法得到更长距离数据的信息。LSTM的出现解决了在递归式神经网络中普遍存在的长期依赖现象,它通过内部控制信息传递的“门”一定程度上避免了梯度消失和梯度爆炸的出现[7-8]。最近,LSTM网络已经在视频分类[11]、语音理解[12]、文本翻译上得到应用。
LSTM是RNN模型演化出来的变体,两者的区别在于普通RNN结构简单,隐藏信息只源于当前时刻输入和上一时刻的隐藏层信息,没有记忆功能。LSTM网络结构复杂,不仅引入了细胞状态,而且使用输入门、遗忘门、输出门3种门来保持和控制信息。LSTM网络结构如图2[10]所示,图中i、f、o、c、h分别表示输入门、忘记门、输出门、内部状态、单元输出;W表示权重矩阵;b表示偏置项;σ表示sigmoid函数;tanh表示双曲正切激活函数;o表示哈达马乘积。
图2 LSTM网络结构
LSTM细胞由输入门、忘记门、输出门和内部状态构成。输入门是判断当前时刻系统的输入输出信息中有哪些需要存储的候选状态;忘记门是控制上一时刻的单位状态,有哪些必须需要被遗忘;而输出门则是控制当前单位状态有哪些必须输出到当前的输出值。
目前,针对LSTM等递归神经网络模型,主流的训练方法有两种,按时间展开的反向误差传播算法(BPTT)[8]和实时递归学习算法(RTRL)[13]。由于BPTT算法概念清晰且计算高效,在计算时间上较RTRL更具优势,因此本文采用该算法来训练LSTM网络。
对于LSTM来说有一个时序概念,就是需要把梯度沿时间通道传递的时间BP算法,所以称之为Back Propagation Through Time-BPTT。BPTT基本思路就是首先把整个LSTM网络按时间顺序展开,之后再通过时间误差反向传播计算对扩展后的网络进行时间训练。与标准的BP算法相似,BPTT也是需要重复使用链式规则。与标准前馈神经网络不同的是,对于LSTM网络,损失函数不但与输入层次状态相关,也同时与上一隐藏层的状态相关,且LSTM每一级的权重都是共享的。
本文使用的3年(2017—2019年)茅台机场大雾数据来自机场35号跑道的自动气象观测系统(AWOS)1 min 4次的能见度VIS、风速数据WIND SPEED,1 min 1次的湿度HUMIDITY、温度TEMP、机场修正海平面气压数据QNH,其时间分辨率较高。
由于茅台机场于2017年正式开航且位于山区,因此受气象条件以及当地环境等因素影响容易导致数据的缺测、异常。因此本文前期针对数据进行了大量处理工作。
本文利用前向填充和均值平滑法对数据进行缺省值处理。对于1 min 4次的时间分辨率较高的数据,采用前向填充法即用前一值代替后面的缺测值;而对于1 min 1次的数据,采用均值平滑法,即用临近时间的均值来代替中间的缺省值。
在使用多变量时序序列进行大雾能见度预测时,由于量纲的不同,数值差异较大,例如24 h降水和气压值量纲相差较大。为避免数值过小的数据被忽略、数值过大的数据对权重占比大,同时为加快模型收敛,需要对变量和能见度值进行归一化处理[14]。其归一化公式为
(1)
式中:x′是数据进行归一化后的结果;x为气象初始数据;xmax为每种气象要素对应的最大值;xmin为每种气象要素对应的最小值。
特别地,针对风向,考虑其物理意义,使用正弦函数对其进行归一化,将其数值归算到区间[-1,1]内[1]。
机场大气能见度数值是局地变化的,其时间精度和空间精度较小,周围小的扰动便会引起能见度数值发生波动,因此只基于历史能见度数据对当前能见度的短时预测方法存在着明显的不足,而研究各个气象要素对能见度的影响,并基于皮尔逊相关系数法筛选预报要素因子,既能提高外推潜力,又能有效降低预测模型的噪声。
将经过数据处理后的AWOS数据利用Pearson相关系数法公式进行计算,其中Cov表示协方差,σ表示标准差,μX表示X的期望,μY表示Y的期望。其Pearson相关系数的绝对值越接近于1,则代表数据之间的相关性越好,而越接近于0,则代表相关性越差。负值代表数据间呈现出负相关关系,正值代表数据间呈现出正相关关系。
(2)
代入经人工经验判别的影响机场能见度的19个气象要素数据,计算可得温度和湿度、10 min平均风速与能见度的相关性最大,如图3所示,3年平均值分别为0.621、-0.574 2、0.587 6。气压、24 h降水与能见度的相关性次之,3年平均值分别为-0.373 8、-0.037。由此可见,在预报能见度值时的温压湿降水是其主要影响因素,因此采用将影响能见度最显著的6组气象数据序列与能见度数值序列构成多变量的序列来使用多个气象要素序列预测能见度值。
图3 2017—2019年茅台机场温度、湿度、能见度折线图和气压24 h降水能见度折线图
构建机场低能见度短期预测的LSTM模型,主要需要确定模型的5个超参数,即输入层时间步长、输入层维数、隐藏层层数、隐藏层节点个数以及输出层维数。
输入层时间步长是表示用于进行机场低能见度预测的变量时间序列的长度。该参数的设定既要考虑到预报信息的完整性,也要兼顾到模型训练的实效性。过长的历史序列长度会导致模型复杂度较高,可能导致模型的过拟合,从而得到恶化模型;过短会缺失预测信息导致模型预测精度难以提高[15-16]。本文通过模拟网络优化算法,将该参数设置为18,即输入前18个时刻(前3 h)的历史数据用于预测;输入层维数即变量数,在单变量预测时,输入层维数为1;隐藏层层数就是LSTM层的个数,隐藏层数越多学习到的经验越多,即模型的非线性拟合能力提高,但同时模型的复杂度及计算成本也将增加。针对大雾能见度预测,本文通过模型优化,将该参数设为1;同样的方法将隐藏层节点个数设为128;由于本次预测任务是预测大雾能见度的具体数值输入回归任务,因此将输出层维数设为1。
本文采用的样本数据为AWOS系统提供的茅台机场2017—2019年连续3年的实测数据,获取的数据包括风速、能见度、机场修正海平面气压数据、温度、湿度以及24 h降水量等6种不同的时间序列,采样的间隔为10 min,总计154 961条样本数据。
利用输入的前18个时刻的LSTM模型预测后10 min、1 h、2 h的能见度。利用平均绝对误差(mean absolute error,MAE)来评价此次模型的误差和准确度。MAE的公式为
(3)
式中:yi表示预测值;y表示实测值。MAE越大,则代表误差越大,模型的预测效果越差。
输入的前18个时刻的LSTM模型预测后10 min的损失函数曲线、能见度实测值和预测值拟合曲线如图4所示。
图4 预测10 min的损失函数曲线、能见度实测值和预测值拟合曲线
由图4可见该模型此次预测的效果较好,预报准确率为85.43%,预测曲线和真实曲线的拟合程度高,MAE为2 146.78 m。
输入的前18个时刻的LSTM模型预测后1 h的损失函数曲线、能见度实测值和预测值曲线如图5所示。
图5 预测后1 h的损失函数曲线、能见度实测值和预测值拟合曲线
由图5可见该模型此次预测的效果较好,但没有利用3 h预测后10 min的高,预报准确率为83.97%,预测曲线和真实曲线的拟合程度仍然较高,MAE为2 367.55 m。
输入的前18个时刻的LSTM模型预测后2 h的损失函数曲线、能见度实测值和预测值拟合曲线如图6所示。
图6 预测2 h后的损失函数曲线、能见度实测值和预测值拟合曲线
由图6可见该模型此次预测的效果是三者中预测效果最差的,预报准确率为80.22%,但仍然较为精准,预测曲线和真实曲线的拟合程度良好,MAE为2 421.92 m。可见随着预测时效的提高,预报效果逐渐变差,且其滞后性水平下降。
本文提出了基于LSTM的深度学习网络的低能见度客观预报方法,根据实验结果表明预报准确率为85.43%,因此可以很好地提升低能见度准确预报率,更好地保障茅台机场航班的正常运行。精细化的低能见度人工智能预报系统对推动主观预报向客观预报发展,从定性走向定量,提高预报精准性,具有重要意义。通过此次预报分析发现温度、湿度对于机场能见度的预报更重要。并且通过单步滚动预测的方案做对比实验发现,时间步长越长效果越差。下一步可以考虑利用transformer做长序列预测。