陈静杰,王 希
(1.中国民航大学 电子信息与自动化学院,天津 300300;2.中国民航大学 计算机科学与技术学院,天津 300300;3.中国民航大学 中国民航环境与可持续发展研究中心(智库),天津 300300;4.中国民航大学 综合交通大数据应用技术国家工程实验室,天津 300300)
目前,国内外很多学者运用不同的方法对飞机油耗进行了预测,主要分为基于飞机性能参数的油耗模型[1]和基于飞行数据分析的油耗模型。Baklacioglu等[2]设计了一种遗传算法优化的神经网络拓扑结构,综合巡航飞行阶段和燃油消耗对实际空速和高度变化的依赖性,利用实际飞行数据预测飞机的燃油流量;Lawrance等[3]提出了基于动力学的参数化、简单的线性、高斯过程回归和k近邻回归4种基于近期历史高频飞行数据生成的燃料模型来预测飞机燃料消耗;Singh等[4]提出了一个降低航空燃料消耗的综合框架,利用混合层次分析-过程熵方法,采用成对比较矩阵,对这些子因素相对于“航空油耗降低”目标的优先等级进行了测量;陈静杰等提出一种基于距离最大法的领域搜索聚类算法,运用标准欧氏距离和近邻搜索策略不断地迭代更新,对飞机油耗进行精准分类[5];对QAR数据进行统计,找出下降过程油耗的特征指标,并利用Pearson和K-means进行相关系数特征选取和对应油耗聚类[6];针对飞机的爬升阶段提出一种综合性的自适应GA-BP强预测模型,克服了突变数据所产生的影响[7]。
然而足够规模实测航班QAR数据表明,由于油耗数据的分散性,影响飞机油耗的众多变量之间往往存在着非线性映射关系[8],很多学者采用神经网络、支持向量机回归、高斯过程、核函数主成分分析、核偏最小二乘等非线性建模技术[9-13]。然而复杂的非线性问题难以用单一的全局模型来解决,因此,非线性建模技术局部学习方法[14]中的即时学习算法被提出,该算法能够很好地处理非线性过程,以及动态更新以适应突变的特征,利用历史数据中最相关的样本来构建在线本地模型。
针对飞机油耗数据受多种外界因素影响而存在复杂非线性的问题,为了精准地对飞机油耗进行预测,本文提出一种基于即时学习和增强自适应差分进化相关向量机的油耗预测方法,采用即时学习算法构建最相关样本,接着引入增强优化的相关向量机模型,对飞机油耗进行预测。为验证本文方法的有效性和准确性,与其它优化方法进行对比测试,验证了本文所提出动态更新数据库的即时学习算法,以及增强自适应差分进化算法相关向量机模型具有更高预测精度,提高了飞机油耗的预测准确率。
即时学习(just-in-time learning,JITL)算法是一种基于局部建模理论和数据库科学的学习方法,该方法基于相似输入产生相似输出的原理,依据某种准则设计合理的相似性度量,选择与当前工作点相似性较大的历史数据组建立一系列局部模型,从而实现对当前工作点的输出估计值,根据当前待测样本Xq和历史数据中的样本Xi, 计算它们距离和角度大小[15,16],公式如下
(1)
(2)
式中: ΔXq=Xq-Xq-1, ΔXi=Xi-Xi-1,θi为ΔXq与ΔXi的夹角,决定了建模的精度,当cos(θi)<0时,则认为Xi偏离于Xq, 可认为两个样本的相似度较低,放弃选用该样本。当cos(θi)≥0时,即Xq与Xi间的夹角较小,相似性较好,则当前待测样本Xq与数据集中的样本Xi的相似度公式如下
(3)
式中:λ∈[0,1] 为权值系数,D(Xq,Xi)∈[0,1],D(Xq,Xi) 的值越大,说明Xq与Xi越相似。针对当前的工况点Xq, 根据相似度准则选择最相近的数据建立局部模型。
即时学习算法能够很好处理非线性过程,依据每个工作点的状态在线构建若干最相关样本的局部模型,并且不断更新以适应突变动态,从而获得较好的预测精度,该算法局部建立模型时需要样本数据较少,因此选取该算法对飞机油耗预测过程中的样本数据进行预处理。算法首先对数据进行归一化处理,当一个查询样本(即历史样本)进入时,将该历史数据样本和新预测样本进行相似度量的计算,选取进行建模所需的样本集,将所得到的样本集进行建模,得到预测输出值,此时该预测过程全部结束,舍弃所建立的模型,等待下一个查询样本进入进行新的循环操作,具体流程如图1所示。
图1 即时学习建模原理
算法能够很好地解决解决飞机油耗数据受多种外界因素影响而存在复杂非线性的问题,该方法将数据进行归一化处理,考虑了输入输出样本之间的相关性,利用相似度指标对输入样本和输出样本进行相似度计算,对相似度进行综合后,最后选出与当前工作点相似性较大的历史数据组作为相关样本集,即重构样本,这样能够不断地根据每一个状态建立系统若干局部模型,并且有效剔除存在异常值的样本。
(4)
式中: Φ(xi)=[1,k(xi,x1),…,k(xi,xl)]T,k(x,xi) 为非线性基函数。
则训练样本集的似然函数式为
(5)
式中:Φ∈Rn×(n+1)是核函数矩阵,其中w和σ2的似然估计容易导致过拟合现象,所以为权值定义高斯先验概率分布
(6)
式中:α=(α0,α1,…,αn)T。
由贝叶斯准则计算连接权值后的后验概率分布为
p(w,α,σ2/t)=p(w/t,α,σ2)p(α,σ2/t)
(7)
其中
(8)
式中:后验均值μ=σ-2∑ΦTt, 协方差∑=(σ-2ΦTΦ+A)-1,A=diag(α0,α1,…,αn)。
根据概率预测公式,所求条件概率为
(9)
2.1.1 RVM中核函数的差分进化算法优化
相关向量机中,核函数参数是影响相关向量机性能的关键参数,其值的确定对整体模型的性能起着至关重要的影响。为了能够高效优化核函数参数,引入了差分进化算法(differential evolution,DE)。
该算法是一种基于随机种群的搜索方法[17],算法通过变异、交叉和选择等操作获得最优个体,具体步骤如下:
(10)
式中:j∈(1,2,…,D);i∈(1,2,…,NP);rand(0,1) 是[0,1]之间的均匀分布的随机数。
(11)
式中:随机选择整数r1,r2,r3∈{1,2,…,Np};F是缩放因子,控制搜索步长。
(12)
式中:交叉概率因子CR∈(0,1];randj,i∈[0,1];jrand∈{1,2,…,D}, 避免变异失效即产生实验个体与目标个体相同。
(4)选择操作:用贪婪选择的策略进行一对一筛选,选择子个体与父个体中适应度较优者保存到下一代
(13)
2.1.2 DE的增强自适应算法优化
DE算法仍具有易早熟,较难搜索到全局最优解等缺陷。增强自适应差分进化算法(enhanced fitness-adaptive differential evolution,EFADE)能够引入新的三角变异算子和两种自适应方案来更新控制参数,在全局搜索和局部开发之间寻求更好的平衡,并通过优化过程提高算法的收敛速度[18]。
(14)
(15)
(16)
(17)
f(xbest)=f(xmin)=min{f(xi)},i=1,2,3
(18)
(2)参数F自适应:F与种群的收敛速度密切相关,F的值由搜索空间中产生差分向量的两个随机变量之间相对位置动态地调整差分向量值的大小,以协调全局搜索和局部搜索能力。具体方法如下:
在每一代G上根据均匀分布,独立生成缩放因子F1、F2和F3
Fi=rand(0,ki),i=1,2,3
(19)
(20)
式中:rand(a,b) 是返回(a,b)之间的实数的函数;为了避免扰动函数为零,采用了小的恒定值ε=0.0001; 若ki>1, 则令ki=1。
(3)参数CR自适应:CR反应了实验个体继承和变异的程度,实际上控制着种群的多样性。一个好的搜索策略在算法的初期应该进行全面搜索,以保持种群的多样性;在算法的后期应该增强局部搜索,以加快收敛速度。在每一代G中,根据以下两个均匀分布中的一个,独立地生成每个单独目标向量的交叉概率CR:
(1)CR1∈[0.05,0.15];
(2)CR2∈[0.9,1];
在每一代中,这两个集合是根据它们在进化过程中的经验自适应地选择的
(21)
(22)
(23)
(24)
RVM模型核函数参数值的确定对整体模型的性能起着至关重要的影响,人为设置参数不当会产生预测误差。为了能够自适应地获得高效的优化核函数参数,引入差分进化算法对相关向量机进行改进,但差分进化算法仍具有易早熟,较难搜索到全局最优解等缺陷,基于此,提出了增强自适应差分进化相关向量机模型,能够在全局搜索和局部开发之间寻求更好的平衡,RVM参数可自适应获取最优值,从而提高了预测精度。基于重构样本的EFADE-RVM飞机油耗预测流程如图2所示。
图2 基于重构样本的EFADE-RVM飞机油耗预测流程
(1)对油耗数据进行归一化预处理,采用即时学习算法进行相似性度量计算,并建立局部模型选取最相关样本,对数据进行重构;
(2)初始化相关参数,并建立相关向量机的模型;
(3)采用相关向量机对油耗数据进行学习,用相对误差来判断是否达到最优;
(4)采用差分进化算法对核函数参数进行优化,并使用增强自适应算法防止差分进化算法过早结束,从而搜索全局最优解;
(5)统计飞机油耗训练误差,如误差不满足算法结束要求,则返回步骤(3);
(6)训练终止,根据最优核函数参数建立飞机油耗预测模型。
为评价所提方法的预测性能,采用均方根误差RMSE和决定系数R2作为预测精度的评价指标,计算公式如下
(25)
(26)
本文选取QAR数据中A330机型2013年各航程飞机油耗数据为样本进行飞机油耗预测研究,从中选取1000组数据,变化曲线如图3所示。
图3 数据变化曲线
从飞机油耗数据中选取800组作为训练样本,200组作为测试样本。为了进一步分析该算法的性能,分别采用RVM、DE-RVM、SADE-RVM、EFADE-RVM这4种建模方法对飞机油耗进行建模预测,预测效果如图4(a)所示,可以看出与其它4种方法相比,EFADE-RVM更接近真实值,获得了更好的预测结果,另外,从图4(b)残差图可以看出EFADE-RVM总体残差较小。4种建模方法对应的RMSE和R2见表1,可以看出相比较单一的RVM算法,基于RVM改进的后3种算法的均方根误差和决定系数都有明显的改善,其中EFADE-RVM算法获得了更高的预测精度。
图4 基于JITL和EFADE-RVM飞机油耗预测结果
表1 不同比例建模的RMSE
即时学习中,局部数据的数量选取对模型的精度起着重要的影响作用,在EFADE-RVM模型的基础上,选取原训练样本中不同比例的样本分别进行模型建立,观察在不同数据比例下,模型的预测效果。所得均方根误差变化如图5所示,可以看出当比例为40%~90%时,JITL-EFADE-RVM均比EFADE-RVM获得了更好的RMSE值,说明本文所提出的方法对预测结果的精度有所提升;当比例为10%~30%时,由于训练数据不足,JITL-EFADE-RVM的RMSE反而比EFADE-RVM低;当选取的比例为100%时,JITL-EFADE-RVM相当于普通EFADE-RVM,并且当比例为60%时,即当选取训练样本比例为60%时,RMSE值达到最小,预测精度最高,具体RMSE见表2。
图5 不同训练样本比例建模的RMSE
表2 不同比例建模的RMSE
总体看来,与比例为100%时的RMSE相比,除10%~30%外,其余比例下的样本建模所得到的均方根误差值都有所改善(100%的比例相当于未使用即时学习时的EFADE-RVM),可以看出,基于即时学习的重构样本方法能够有效利用相似度指标建立系统若干局部模型,剔除存在异常值的样本,能够很好地处理非线性过程存在的问题,从而动态地更新数据库从而获得较好的预测精度。
本文针对飞机油耗数据受多种外界因素影响而存在复杂非线性的问题,利用即时学习能够根据相似度定义指标、动态获取数据集和增强自适应差分进化算法能够自适应获得预测模型中的最优核函数,首先对油耗数据采用即时学习算法,选取最相关样本集,接着建立相关向量机模型,并采用差分进化算法来选取向量机的最优核函数,以及增强自适应算法来引入三角变异算子和两种自适应方案更全面、更快地搜索全局最优解,来对飞机油耗数据进行预测。结果表明本文提出的模型取得了更好的预测精度,对非线性飞机油耗预测问题提供了参考方法。运用其它建模和优化方法进行对比分析从而获得更好的预测结果将会是今后进一步的工作任务。