宁晨伽,王 旭,王文正,张伟伟
(1. 西北工业大学 航空学院,西安 710072;2. 电子科技大学 航空航天学院,成都 611731;3. 飞行器集群智能感知与协同控制四川省重点实验室,成都 611731)
现代航空航天飞行器设计由多学科响应和大量设计准则共同保障。就飞机设计而言,设计过程需要考虑加载特性、气动弹性、颤振临界速度与稳定性等诸多因素,并在飞行力学、空气动力学、飞行控制原理等多学科耦合下寻求最优方案,因而设计方案需反复迭代以寻求折衷。高保真度(high-fidelity, HF)数据评估飞行器性能指标可有效减少设计迭代循环与修正,大幅提高设计能力。例如20 世纪,空客公司为了实现A310 的研制约进行了18 000 h 的风洞试验[1],以保证飞行器的设计性能。
高昂的气动数据获取成本与高效的飞行器精确设计之间的矛盾迫使研究者寻求更高效的气动力获取手段。为加快高保真度数据的获取时间,缩减设计周期,构建代理模型已然成为一种行之有效的技术途径。代理模型是一类输入到输出的快速响应模型,又称为响应面模型,具有数据驱动、自上而下的特点。多项式响应面法、支持向量机回归(SVR)[2]、Kriging模型[3]、径向基函数(RBF)[4]、人工神经网络(ANN)等作为常用的代理模型被广泛应用于计算量大、成本高的黑箱问题,以减轻计算负担。针对上述问题,可通过直接构建代理模型的方法,使用一定数量的高保真度样本预测出整个设计空间的高保真度响应面,缓解了数据获取成本与建模效率之间的矛盾,但该类代理模型所需的高保真度样本数量仍然很大,计算成本对建模精度的制约仍旧亟待解决。
在气动领域,飞行、风洞试验获取的气动数据精度高但成本高、周期长。一些CFD 数值方法(雷诺平均的N-S 方法、大涡模拟法等)也是获取高保真度非线性流动气动数据的常用手段。除此之外,还有一些高效率的低保真度(low-fidelity, LF)气动求解方法,例如:速势方程、Euler 方程等。低保真度数据虽精度不及,但可反映正确的趋势信息。如何综合利用多种精度数据,实现“少投入高回报”,以低代价低成本获得高精度数据,是工程应用中关注的重点话题。2009 年,王文正等[5]针对该痛点已开展探索,提出基于数学模型的气动力数据融合方法,初步验证了数据融合的可行性。数据融合关联方法可为多精度数据建模提供技术途径。
数据融合关联方法大致分为两大类。一是直接交叉使用。该方法在工程问题中使用广泛,高保真度数据直接使用,其余部分用低保真度数据补齐,但是直接交叉使用导致的间断不连续问题极为致命。二是构建代理模型。作为预测程序的修正工具是代理模型的又一大用途,引入低保真度样本辅助代理模型建模,仅需少量高保真度样本即可实现更高的模型全局精度,从而达到数据融合的效果[6],这类代理模型又被称之为变可信度模型(VFM)。
变可信度模型,又称为“变复杂度模型”,其核心是综合高保真度与低保真度的优势,充分利用低保真度数据隐含信息,在有限的计算与时间成本下提供更为精确的预测结果,提高建模效率。目前构建VFM 的常用方法有:空间映射法、基于标度的变可信度法以及co-Kriging 方法。基于空间映射(space mapping, SM)的VFM 方法使用空间映射将高保真度数据的参数空间与低保真度数据的设计空间对应起来,通过改变低保真度的设计空间使不同保真度模型逼近。最早由Bandler 等[7]提出线性映射算法。基于标度的VFM 主要分为三类:乘法标度、加法标度和混合标度。基于乘法标度法的VFM,其高保真度模型和低保真度模型之间的比值可以用标度函数来表示[8]。基于加法标度法的VFM 具有更强的鲁棒性和全局逼近性,因而使用更广泛。基于混合标度法的VFM 融合了加法标度法与乘法标度法的优点,具有更高的预测精度。co-Kriging 模型是在Kriging 模型基础上发展起来的,起初用于地质学领域,由Kennedy 和O'Hagan[9]提出。该模型能够提供非试验样本点处的预估误差,使其成为较有前景的VFM 方法。Forrester 等[10]首次将co-Kriging 模型应用于航空航天工程设计。2014 年,Le Gratiet 等[11]提出了co-Kriging 的递归公式。国内相关研究也有较多进展。2012 年,韩忠华提出分层Kriging 模型(hierarchical Kriging, HK)[12]。Yamazaki 等[13]将梯度信息引入co-Kriging 的建模过程,提出一种梯度增强的co-Kriging模型(gradient-enhanced co-Kriging, GECK)。黄礼铿等[14]将co-Kriging 用于气动优化设计当中,证明了该方法在工程设计优化中的可行性。2019 年,韩忠华等[15]将分层 Kriging 模型进行推广,发展了一种多层Kriging 模型(multi-level hierarchical Kriging, MHK)从低到高递归式建立不同可信度的 Kriging 模型。
在有限计算成本下,VFM 的建模质量与采样方式有极为密切的关系。通常采样方法分为两大类:一次性抽样法和序贯采样法[16]。常见的一次性抽样有拉丁超立方体抽样[17]、最邻近抽样法[18]等,该类方法的缺点是采样点无法关联函数自身特性。序贯采样方法则是使用模型的迭代信息(例如最大预测误差等)顺次选择样本点位置。通过上一步模型或自身学习数据获取样本点,能更好地迎合目标函数的自身特性,从而用更少的点构建精准的全局模型,降低了建模数据的获取成本。序贯采样方法已得到广泛发展,其中基于贝叶斯抽样[19]、交叉验证[20]等理论的贯序采样方法均取得了较好的建模结果。当低保真度与高保真度数据的计算成本相近的情况下,VFM 序贯采样建模类似于单保真度建模。
在采用序贯采样的VFM 中需要依据样本细化准则获取新样本,并迭代更新VFM 直到精度达标。目前已有的样本细化准则方法有:最小化代理模型预测(MSP)[21]、改善期望(EI)[22]、改善概率(PI)[23]、均方差(MSE)和置信下界(LCB)[24]等。目前针对VFM的代理细化方法较少,通常将单可信度优化的样本细化准则直接用于VFM 中[25]。Huang 等[26]于2006 年发展了一种适用于多层可信度模型优化的期望改善加点准则(augmented EI, AEI),通过最大化与计算成本相关的增广期望改进函数,来选择下一个样本点的位置和保真度程度。Mehmani 等[27]提出了一种针对不同可信度分析模型的管理策略,其核心利用模型转换在优化过程中合理地选择不同的可信度模型。
可将衡量变可信度模型优劣的因素概括为:高可信度样本数据量、变可信度模型的全局性以及预测精度三大类。由于模型预测的精确性与高精度样本位置有强相关性,因此初始高保真度样本的选择以及序贯采样中样本细化准则的搭建尤为重要。
本文在co-Kriging 模型的基础上,提出了一种新的高保真度样本获取方案,用于获取高保真度样本的设计实验以及细化样本。该方法通过从完备的低保真度响应面中提取“信息量”大的样本作为高保真度的初始样本,将目标算例的自身特性加入高精度样本的试验设计中,从而避免了均匀性随机采样带来的随机影响,提高了代理模型的全局性以及模型精度收敛效率。针对于高保真度样本的细化,本文引入了一个距离项d,通过Kriging 基函数构造了一个距离函数D(x),与co-Kriging 模型预测误差通过线性加和的方法耦合起来构成一个样本细化的评价函数。评价函数值最大处为下一个新增高保真度样本点,迭代更新模型。在给定的计算量下,该方法可以构造出一个精确的预测模型。
co-Kriging 融合方法是一种基于Bayesian 贝叶斯理论的自回归模型,能有效考虑到多种可信度数据之间的关联作用,利用交叉协方差衡量不同保真度之间的相关程度,融合不同精度的数据。同时co-Kriging 模型继承Kriging 模型的优势,可对预测点进行不确定性评估。该方法在小样本、高非线性问题中具有明显的优势和较强的适用性。
该方法假设样本对应的响应值来自一个随机过程,将观测到的响应值表示为一组随机向量Y(x),其中x为样本设计参数,y代表样本响应值。随机向量中的随机变量之间的关联作用由式(1)表示,其中cor代表样本点之间的相关性,n表 示样本个数,k表示设计参数维度, θj代 表设计参数x第j个分量的重要程度相关,参数pj与第j个分量的光滑性相关:
若当前样本数据可分为低保真度(LF)以及高保真度(HF)两类,则可用Ze(·)和Zc(·)分别表示高保真度和低保真度当地特征的一个高斯随机过程,Zd(·)代表高低精度之间差量的高斯随机过程。高保真度、低保真度之间存在如下关系:
总结来说,式(10)可以看作对低保真度数据的回归,并使得已知的函数值ye与在高保真度样本点处的预测值一致。该模型均方误差估计如式(12)表达,样本点处的误差是由d的特性决定的:
高可信度样本数据量、变可信度的全局性与精度为衡量变可信度模型优劣的三大因素。为实现“少投入高回报”,以高效率低成本的方式获得高精度数据,本文对基于co-Kriging 的变可信度融合模型构建流程进行介绍,并针对变可信度模型初始采样以及高可信度样本的序贯采样提出了两大方法,用以提升建模效率和精度。
传统采样初始化方法难以结合样本的空间信息,主要存在如下问题:1)空间均匀化为大多数采样初始化方法的原则,该类方法的均匀性与随机性会导致采样点信息浪费。2)响应面强非线性时,局部极值信息不易捕捉,导致模型局部精度降低。因而本文提出了一种变可信度模型初始采样新方法,通过对低保真度响应面的处理得到高保真度的初始采样点,将该方法称为最优关联点选取方法。
由于各精度响应面之间大致趋势相同,该方法的核心即用低保真度响应面的极值点逼近高保真度极值点,作为高保真度数据的初始采样。由于加入自身算例特性,该方法采样效率远远大于空间填充类方法。基于该方法,如何获取低保真度响应面极值点成为问题的关键,本文提出了一种基于多目标优化的极值点获取方法。使用基函数作为源点项,根据基函数构造响应面,进而用多目标算法寻优确定未知参量。该方法一定程度上也保证了初始采样点的随机性。其中,基函数的中心即寻优获得的响应面的一个极值点:
其中n表 示低保真度样本量;k表示设计空间维度;Q(i)为第i次寻优基函数系数大小,即低保真度响应面的第i个极值大小,Q(i)正负性用来区分极大、极小值;p(i)为基函数光顺参数;x为x归 一化的值,xc表示基函数的中心坐标;Y表示i次优化后逼近的低保真度模型近似值。采用多目标算法寻优,将低保真度模型与基函数逼近模型之间的均方差(MSE)定义为目标函数进行优化。目标函数表达式如下:
如何找到“信息量”大的点是决定建模效率的又一大因素。目前最常用的加点准则是改善期望准则(EI)[22]。但是对于全局逼近代理模型而言,EI 准则适用性并不好。co-Kriging 模型可以提供基于均方差(MSE)的预测误差,但当模型用于全局逼近问题时该做法仍存在一些不足之处:
1)co-Kriging 会出现“早熟”现象,往往该类局部区域周围没有高保真度样本点的加入。
2)直接采用模型预测误差细化样本,有时会造成高保真度样本的聚集而降低建模效率。
“早熟”现象即指该区域预测模型的不确定性较低,导致建模更新过程中没有高保真度样本加入,影响模型精度的进一步提高。针对上述问题,本文提出一种空间均匀增强的高保真度序贯采样方法,通过引入距离项,在优化初采样不均匀性的同时提高算法的稳定性与建模效率。
该方法改进了仅采用预测误差作为加点准则的做法,通过构造一个距离函数D(x)表达出高保真度样本的空间分布。构建距离函数D(x)采用高斯基函数,其表达式如下:
其中,q为 高保真度样本点的总个数;xHF为高保真度样本点的坐标; θ(t)是设定的衰减系数,与设计空间各维度尺度差异相关。
定义 Score(s2(x),D(x))为样本细化方案的评价函数,其中s2(x)为co-Kriging 模型的预测误差。评价函数将距离项D(x) 与模型预测误差项s2(x)通过线性加和耦合起来,一般设定a=b=1。每次迭代建模选择设计空间中最大S core(x)点作为新高保真度样本点。
该方法通过试验设计(如LHS)获得低保真度的初始样本Ic,并采用Kriging 迭代建模完成低保真度样本预测,获得低保真度样本集Xc。根据低保真度预测响应面获得高保真度的初始样本集Ie,联合低保真度样本集Xc进行co-Kriging 建模。选择评价函数Score(s2(x),D(x))最大处作为新的高保真度样本加入Ie集合中,对模型进行迭代更新,直至模型精度达标。该方法的流程图如图1 所示,并给出详细步骤。
图1 基于co-Kriging 模型的变可信度建模流程Fig. 1 Flow chat of the VFM framework based on co-Kriging
Step 1:生成初始低保真度样本集Ic。
采用LHS 方法获得初始低保真度样本集Ic,并通过低保真度模型分析获得响应值。低保真度模型分析一般采用简化模型的数值仿真。针对初始样本的数目的确定没有具体定论。由于低保真度数据计算与时间成本低,且初始低保真度样本少会导致Kriging建模的局部特性差,所以选用Jones 等[28]给出的经验公式,其中,k为设计空间的维度,n为初始样本数量:
Step 2:建模得到低保真度预测响应面。
获得准确的低保真度预测响应面有两个目的,一是生成均匀散布的低保真度样本集Xc;二是使低保真度预测模型完备,为高保真度的初始采样提供信息支撑。将Ic进行Kriging 建模。根据预测误差式(7)得到细化的低保真度样本点加入Ic中,通过如此循环迭代更新模型,构建一个完备的低保真度预测模型。
Step 3:生成低保真度样本集Xc。
构建变精度模型需要Xc建 模得到相关参数 θc和pc等 。Xc即可通过上述低保真度预测模型获得。不同的低保真度样本集对建模稳定性以及模型收敛效率有一定影响,但该影响可忽略不计。
Step 4:获得高保真度初始样本集Ie。
根据最优关联点选取方法,使用多目标优化算法对完备的低保真度预测响应面逼近,以低保真度预测响应面的极值处作为高保真度初始样本。
Step 5:建立基于co-Kriging 的变精度模型。
对获得的Xc以 及高保真度样本集Xe进行基于co-Kriging 的VFM 建模,得出状态空间各点的预测值与预测误差。其中,Xe为 高保真度初始样本集Ie和细化高保真度样本集Ae的并集。
Step 6:求出变精度模型细化的高保真度样本。
根据式(18)选择设计空间中 Score(x)最大处作为下一个高保真度样本点,并加入细化高保真度样本集Ae中。随着高保真度样本的增加,可通过式(18)对a、b常数项进行调整。
Step 7:判断模型的收敛性。
代理模型优化和数据融合的收敛判定往往没有固定方案。依照经验,模型的收敛可划分为三个阶段:第一阶段,模型的收敛速率大,收敛精度呈指数下降;第二阶段,模型收敛速率逐渐降低,收敛精度可能会出现振荡下降;第三阶段,模型已基本收敛,该阶段模型精度变化不大,无法换来大于模型迭代成本的收敛增益。第一、第二阶段可能会混淆,之间没有清晰的分界线。
该模型的预测误差无法跨算例对比。收敛条件可综合当前迭代步的最大预测误差以及模型更新过程最大的平均预测误差得出。若模型满足收敛判定,则可输出最终预测模型。若模型此时不满足收敛判定,则用高保真度分析获得新细化的高保真度样本的真实响应,并返回Step 5 循环,直至满足收敛判定条件。
本节使用数值算例来验证该方法的有效性,将该方法与单精度序列元建模进行对比,并给出了基于采样的高效率建模设计相对于传统初采样方法的优势。最后将基于co-Kriging 模型的高效变可信度模型算法成功应用于实际气动算例当中。算例采用均方根误差(root mean square error, RMSE)作为度量精度的指标。RMSE 的表达式如下:
一维算例选用Forrester 函数数[10],是Forrester 等在2007 年重构得来,常用于多精度模型与单精度模型的对比。高保真度函数fh(x)与 低保真度函数fl(x)的数学表达式为:
其中x∈[0,1]、 NumHF=3、a=b=1。低保真度样本点与Forrester(2007)[10]中设置相同为:
图2(a)为仅用4 个高保真度样本时,Forrester 等建模结果[10]与本文建模结果的对比图。图2(b)则是两者的预测误差对比图。在其他条件不变的情况下,二者均加入了4 个高保真度样本作为修正,其中黑色正方形为文献中所给出的点,蓝色三角形为本文采样方法获取的高保真度样本。可对比看出,本文方法所得的高保真度样本可以使VFM 建模预测误差下降1~2 个数量级,大大提高了VFM 的建模精度。
图2 Forrester 函数建模结果对比Fig. 2 Comparison of the modeling results for Forrester function
3.2.1 算例介绍
高保真度与低保真度函数响应面图3(a)所示。
图3 二维数值算例不同保真度数据差异对比Fig. 3 Comparison of two-dimensional numerical cases with different fidelity data
2) Six-hump camel back 函 数。Six-hump camel back 函数又称为六驼峰背函数,其非线性程度相较于Branin 函数有所提高。该函数在有界区域内共有6 个局部极小值,其中2 个为全局极小值。其高保真度函数fh(x1,x2)与 低保真度函数fl(x1,x2)的数学表达式如下给出,其中up (x2) 和low (x2) 分别为设计变量x2的上下界:
3.2.2 建模结果与分析
上述两个数值算例的低保真度样本数相同。根据式(16),co-Kriging 建模高保真度数据初始采样个数为 N umHF=7 , 且设置参数a=b=1。
Branins 函数和Six-hump camel back 函数算例分别使用25 个、17 个高保真度样本即可满足收敛精度要求,所提出VFM 的预测值与函数真值的平均相对误差均小于2%。从图4 看出,在本文提出的高效VFM 算法始终远优于DACE 工具箱的Kriging 方法[29]。由于DACE 工具箱的寻优不太彻底,故将本文所提的高效VFM 算法与自研的单精度序列元建模的Kriging 也进行了对比,VFM 迭代前期的建模精度远大于其余两种,且优势随着高保真度样本点数的增多而逐渐消退,该点也符合VFM 建模的特点。对于Six-hump camel back 函数算例,单精度序列元建模至少需要比该算法多一倍以上的高保真度样本数,才能达到相同的建模精度效果。
图4 二维数值算例不同建模方法RMSE 对比Fig. 4 RMSE comparison among different modeling methods for two-dimensional numerical cases
3.2.3 最优关联选点方法优势性与适用性
在两个数值算例中,分别采用最优关联选点方法与拉丁超立方采样(LHS)获取初始高精度样本进行融合建模,并使用RMSE 指标进行对比。由于LHS 具有随机性,所以根据式(16)确定初始样本数后,用LHS 生成100 个初始样本集,并分别求解变可信度融合模型建模结果。变可信度融合模型的初始低精度样本集保持相同,以控制变量。用箱线图来表示出该统计性结果,如图5 所示。其中,曲线表示100 次LHS 所得初始样本集建模RMSE 的正态分布。将最优关联选点方法变可信度融合模型建模得到的RMSE 用黑色星号标出。可对比看出,两个算例最优关联选点方法RMSE 均远低于LHS 方法RMSE的均值和中位数,明显体现出该方法的优势。
图5 不同算例LHS 与最优关联选法RMSE 箱线图对比Fig. 5 Comparison of RMSE in boxplot between LHS and optimal correlation selection method for different cases
将高效采样的变可信度数据融合建模方法应用于NACA0012 翼型变马赫数变攻角的跨声速气动力系数建模。采用精度不同的CFD 数值计算方法,计算二维翼型的气动力系数:升力系数(CL)、阻力系数(CD)以 及 俯 仰 力 矩 系 数(Cm) 。在Ma∈[0.5,0.8],α∈[0,5]设计空间内,使用尽可能少的高保真度样本,得到高精度的气动模型。
3.3.1 CFD 计算方法与求解器验证
CFD 为计算流体力学的简称,是一种利用计算机求解得到流场数值模拟的技术。Euler 法能够捕捉CL的非线性特点和CD相对于攻角的多项式行为等,揭示许多现象的本质特征。N-S 方程是迄今为止描述连续介质最完备的控制方程组。在本研究中,Euler 法将提供气动力系数的趋势信息,即提供“廉价数据”,而N-S 法将作为修正数据。求解N-S 方程采用双时间推进法,实时间采用二阶精度向后差分,伪时间则采用隐式Gauss-Seidel 迭代。因为本文针对的主要是跨声速下翼型在非定常流场中的运动,因此选择了能够较好描述流动分离的S-A 模型[30]。CFD求解所用的网格如图6 所示。
图6 不同CFD 求解器所用的网格Fig. 6 Meshes for different CFD solvers
3.3.2 变可信度融合模型的建立
NACA0012 翼型在设计空间内存在抖振边界[31],如图7 所示,本算例中设置模型每个预测点都位于抖振边界以内。确定低保真度模型的设计实验样本数为20,建模时需要对三种气动力系数分别建模。由于CD、Cm的非线性程度较高,即低保真度模型收敛时Ic集 合样本较多,因此可用构建CD(或Cm)低保真度模型时的低保真度样本点构建其余两个气动力系数的低精度模型并进行收敛判定,若不满足可继续细化更新模型。该做法可有效减少建模所需的计算成本。
图7 NACA0012 翼型抖振边界[31]Fig. 7 Buffet boundary of the NACA0012 airfoil[31]
低保真度样本集Xc为设计空间抖振边界内的均匀网格点。初始采样个数 NumHF=7。图8(a~c)给出CL、CD、Cm的低保真度预测响应面以及最优关联点选取方法获取的样本信息。图8(d)给出三种气动力系数分别建模时初始高精度样本点的对比,其中虚线代表抖振边界。
图8 三种气动力系数低保真度预测响应面以及高保真度初始样本的位置信息Fig. 8 Response surface predicted by LF model and the position information of the HF initial samples for the three aerodynamic force coefficients
3.3.3 建模结果与分析
三种气动力系数的预测响应面以及建模所用的高保真度样本点位置如图9 所示。
通过LHS 采样获得30 个高保真度样本作为测试集来进行co-Kriging 变可信度融合模型精度验证。图9(d)给出测试集在设计空间内的分布情况。将测试集的样本点的高保真度响应值与求出的预测值进行对比。为减小气动力接近零值对误差统计带来的影响,定义相对平均误差为:
图9 气动力系数变可信度数据融合后的预测响应面以及高保真度样本点位置Fig. 9 Response surface and HF samples after the variablefidelity data fusion
其中,yˆ(m)为 第m个预测点的预测值,N代表验证集样本数量, M AE(yˆ)为验证集样本的平均绝对误差。
表1 给出了测试集真实值与预测值之间均方差(RMSE)、平均绝对误差(MAE)以及相对平均误差的对比。由表1 可以看出,三种气动力均达到很好的融合效果,其中CL、CD预测值与真实值之间的相对平均误差均小于3%。基于高效采样的变可信度关联融合气动力建模在实际工程问题中可以达到很好的建模效果。
表1 测试集真实值与预测值之间误差对比Table 1 Comparison between the true and predicted values of the test set
本文提出了一种用于变可信度模型的最优关联点选取方法,并对变可信度模型的加点准则进行了讨论与改进,解决了下述两个问题: 1)如何确定变可信度模型高精度初始样本点,使其建模精度与模型收敛速度优于通常采用的LHS? 2)如何确定每次迭代更新的模型细化样本?在所提出的样本初始化方法中,基于最优关联采样方法约束了高精度初始样本的分布,在保证VFM 建模效率下降低了空间均匀化采样带来的强随机性,增强了融合模型的融合效率。本文还对VFM 样本细化方法进行了分析,加入距离项D(x), 通过线性加和的方法与模型预测误差项s2(x)耦合,构建新的评价函数,提升了模型的全局性。通过三个数值算例说明了模型的优势,同时给出最优关联点选取方法与LHS 初采样对比的统计结果。主要结论如下:
1)最优关联点选取方法对于一般非线性强的响应面建模(强周期性的响应面除外),优势性明显;
2)基于co-Kriging 的VFM 的建模精度与高保真度与低保真度样本的相关程度有关,关联度越高,VFM 建模效率越高;
3)VFM 的建模优势在高保真度样本很少时体现明显,随着高保真度样本数的增加,VFM 相对于单精度序列元建模的优势逐渐变弱。