基于机器学习的飞行品质评估

2021-08-03 06:15袁伟良卢朝阳
科学技术与工程 2021年19期
关键词:权重粒子样本

袁伟良, 卢朝阳*, 卢 卫,何 庶

(1.南京航空航天大学民航学院,南京 211100;2.中国东方航空江苏有限公司飞行部,南京 211100)

在中国民用航空业迅速发展的今天,飞行安全成为行业内外人士关注的焦点,飞行品质也成为中外学者研究的热点。此外,飞行品质作为表征飞机完成指定飞行任务的准确度及飞行员的技术水平的参数,找到一种成熟有效的飞行品质评估方法,对于防范飞行事故,提升飞行人员的飞行技术,提高飞行安全具有重要意义。

近年来中外学者对飞行品质的评价做出大量的研究。肖艳平等[1]对横航向飞行品质的评价指标和研究方法做了重点分析。王越等[2]提出了将矩形起降航线分为五边四弯,筛选评估指标,并将高级飞行教员多年的飞行教学经验与实际飞行操作相结合,建立飞行学员飞行品质评估指标体系。王奔驰等[3]采用非线性映射方法提取飞行品质评估数据,然后将层次分析法与TOPSIS(technique for order preference by similarity to an ideal solution)法相结合确定综合权重对起飞阶段的飞行品质进行评估。Zhong等[4]提出了一种基于模型的方法,定义了飞行品质相关术语,形成并提出了基于模型的不同情况下的飞行品质评估方法。同年,Wang等[5]设计了比例模型飞行试验的飞行质量评价标准,在实验环境下反映飞机的飞行质量特征。Humphreys-Jennings等[6]使用工程飞行模拟器测试飞机的飞行和操纵质量,从而可为增强飞机可控制和操纵特性提供解决方案。

对于上述几种评价方法大都以主观评价或实验模拟为基础。主观评价难以避免人为主观因素对飞行品质评价的影响,而以实验仿真数据为基础的研究,缺乏可靠性和说服力。科学合理的评估方法和全面的评价体系以及有力的数据支撑才是评价飞行品质的关键。美国的Tledyne以及法国的Airbus等国外公司有效分析飞行中记录的数据[7-8],并可以通过相关数据分析软件给出飞行品质评估报告,提高运行安全和性能。赵新斌等[9]基于“风险为概率与严重度乘积”的思想,从轻、中、重、综合等4个角度度量飞行品质,并运用快速存取记录数据进行论证。但是仅从事件发生概率和事件严重度两大要素,不考虑事故征候,不够全面。万健等[10]提出一种基于快速数据存取记录器超限事件的民航飞行安全风险评价方法,但是并未考虑不安全事件和安全隐患事件对民航飞行安全的影响。汪磊等[11]基于机载快速存取记录器数据和小波分析方法,单纯的以着陆阶段驾驶杆与俯仰角参数为分析对象评价航线飞行员的飞行操作水平。

由于在整个飞行过程中,起飞爬升和进近着落阶段是最重要,也是最为危险的两个阶段。根据研究表明,65%的飞行事故发生在起飞爬升和进近着陆阶段[3],为此将研究的重点放在起飞和着陆阶段。此外,机载快速存储记录器(quick access recorder, QAR)记录了大量的飞行数据,QAR数据存储航空器在执行飞行任务时的高度、速度、航向以及飞行员各种操作量等各类重要数据信息,对飞行品质的评估提供了有力的数据支撑。

基于以上分析,为了简便有效地对民航客机的飞行品质进行准确评估,防止危险事故征候乃至事故的发生,提高飞行品质,提升飞行安全。依据QAR记录数据,提取起飞爬升阶段和进近着陆阶段的重要指标,构建主成分分析-粒子群优化算法-支持向量机(principal component analysis-particle swarm optimizatien-support vector machine, PCA-PSO-SVM)评价模型,提出机器学习的方法对飞行品质进行评估。本方法通过PCA综合评价对QAR记录数据进行综合评价,并将数据按比例分类进行标记,将标记的数据输入PSO-SVM分类模型,采用机器学习的方法对飞行品质进行评估。

1 指标选取

参考QAR数据在飞行安全领域的相关研究[12-13]以及主成分分析-粒子群优化算法-支持向量机《波音和空客系列飞机飞行品质监控项目规范》[14],选取起飞爬升阶段7个,进近着陆阶段9个共计16个评价指标,如表1所示。

表1 评价指标及范围

2 基于主成分分析法的综合评价

主成分分析(principal component analysis,PCA),是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[15]。

PCA的主要优势是能够处理高维数据,分析变量之间的相关性。通过转化变量之间的相关关系减少变量数据,实现数据压缩,同时又能保证不损失原始数据过多的信息。既能够达到高维数据降维目的,有效处理“维数灾难”问题,又能通过少量不相关的数据进行综合评价。此外,PCA综合评价能够有效克服主观评价的缺陷,评价结果更加的客观公正。

2.1 主成分分析一般步骤

设有n个样本,每个样本有p项指标,则将原始数据写成矩阵,即

X=(xij)n×p≜(x1,x2,…,xp)

(1)

(1)通过线性归一化或0均值归一化将原始数据标准化。归一化处理的目的就是消除不同量纲的影响。所谓0均值归一化,即矩阵的每一列均值为0,方差为1,公式为

(2)

(2)建立变量的相关系数阵R,也是原始数据矩阵的协方差矩阵。相关系数表明了指标之间的相关性,相关系数矩阵计算R公式为

(3)

(3)求得相关系数矩阵的特征值λj及相应的单位特征向量aj为

aj=[a1j,a2j,…,apj]T,j=1,2,…,p

(4)

式(4)中:λ1≥λ2≥…≥λp>0。

(4)写出主成分。

(5)

式(5)中:F1,F2,…,Fp分别表示第1,2,…,p主成分。

(5)计算主成分载荷矩阵。

(6)

主成分载荷矩阵用于说明了主成分与指标变量之间的相关联程度,反映了该变量在主成分中的重要度。

(6)选取k个主成分。方差贡献率表明了主成分方差在总方差中的比重,比重越大,表明这一主成分所携带的原始数据的信息越多。累积方差贡献率表示主成分包含原始数据的信息量。因此,当前k个主成分的累积方差贡献率达到85%时,表明前k个主成分基本包含了原始数据所具有的信息,能够代表原始数据。这样既减少了变量的个数又便于对问题的分析和研究。第k个主成分的方差贡献率和前k个主成分的累积方差贡献率为

(7)

(8)

式中:Var(Fk)为Fk的方差。

2.2 主成分综合评价模型

根据计算主成分的方差贡献率以及累计方差贡献率,选取k(k

F=(F1,F2,…,Fk)=X*(a1,a2,…ak)

(9)

进而,按照方差贡献率加权求得综合评价模型为

(10)

通过综合评分的高低,可以对样本数据进行比较,给出样本数据的综合评价。

2.3 主成分综合评价算例分析

提取某航空公司关于B737系列飞机一周的QAR记录数据,根据监控参数控制点提取我们的指标参数。经过数据预处理,剔除异常和无效数据后,得到统一的QAR评价指标数据337条。随机选取其中237条统计数据标准化后进行主成分分析。分析结果如表2和表3所示。

表2 特征值、方差贡献率、累积方差贡献率

表3 主成分载荷矩阵

由表2可以看出,第一主成分的方差贡献率达到37.39%,前5个主成分的累积方差贡献率已经达到89.06%,即前5个主成分已经包含了原始数据信息的89.06%,可以用前5个主成分代替原始数据。

通过表4成分载荷矩阵分析各主成分与指标变量之间的关系,前5个主成分可以充分解释原始指标变量,第一第二主成分可以解释11个指标,而第三第四第五主成分对第一第二主成分加以补充。

计算特征向量代入式(5),得到5个主成分,将16维数据降至5维。将标准化数据矩阵代入式(9)得到主成分得分矩阵,将主成分得分矩阵代入式(10),即可得各航班的综合评分。将综合评分按照从小到大的顺序进行排序,即可得到个航班的综合排名,评分越小,表明此次飞行的飞行品质越高。

2.4 算例分析结果

从剩余的100条数据中随机抽取10条数进行PCA综合评价,评价结果如表4所示。将评价结果与航评结果相比较,并与6位资深飞行员进行讨论,验证了结果的可靠性。

表4 主成分综合评价得分

3 基于PSO-SVM的飞行品质评估

为了提高评估效率,提出一种基于PCA-PSO-SVM的飞行品质评估方法。根据PCA综合评价排名,按照2∶3∶3∶2的比例将原始数据分为优、良、中、差四类,并标上标签作为SVM的输入。以上述10个航班为例,标签如表5所示。

表5 飞行品质分类标签

3.1 支持向量机

支持向量机(support vector machine,SVM)是一种二分类预测模型,可以协调降低结构风险,近似实现结构风险最小化的方法。

采用“两两分类”的方法[16]构建如图1所示的分类器实现SVM四分类问题,其中实线代表分类器认为输入样本的类别。所谓“两两分类”,即分别在两类不同的样本间构造一个分类器,将两类样本进行区分,实现两两分类。假如要将样本分为n类,那么就需要训练n(n-1)/2个分类器。

图1 SVM多分类示意图

对于线性可分的问题,SVM通过构建最优超平面,使两类样本与超平面之间的间隔最大化,从而区分两类样本。而对于非线性可分的问题,在样本空间中很难找到甚至找不到一个可以将样本分开的分类超平面。但是 “核函数”的引入,将原始样本空间映射到更高维的样本空间中就能找到这样一个分类超平面。

假设给定一组n个样本的训练样本集,S={xi,yi},yi={-1,1}(i=1,2,…,n),xi为训练样本,yi为样本的类标签。目标就是寻找一个最优超平面,即

ωTx+b=0

(11)

式(11)中:ω=(ω1,ω2,…,ωd)为法向量;b为位移项。引入核函数之后,SVM模型为

(12)

式(12)中:αi为拉格朗日乘子,解出α即可求出ω和b,得到最优分类超平面;K(xi,xj)为核函数;c为惩罚因子。

常见的核函数有线性核、多项式核、高斯核、拉普拉斯核以及Sigmoid核。根据以往的经验,本文选取高斯核,核函数为

(13)

选定核函数后,对参数c(惩罚系数)和σ的优化直接影响分类效果,σ的大小决定支持向量的多少;c的大小决定着拟合程度。对于参数的优化通常采用网格搜索法、交叉验证法等。本文通过确定参数范围,以分类准确率为目标,采用随机权重粒子群算法(random weight_particle swarm optimization, RW_PSO)进行参数寻优,并通过与其他改进粒子群算法相比较,验证了随机权重粒子群优化算法的优越性。

3.2 粒子群优化算法

粒子群优化算法(panicle swarm optimization,PSO)是一种模拟鸟类觅食的智能优化算法[17],通过初始化最优解,不断迭代更新逐步找到解空间中的最优位置。

考虑到随机权重粒子群算法(RW_PSO)的优点,选用随机权重粒子群算法优化的SVM分类器参数,并将优化结果与权重递减、自适应权重、异步收缩因子以及原始粒子群四种算法相比较,最终验证了随机权重粒子群算法的优越性能。

3.2.1 粒子群算法模型

在D维空间中,存在粒子群X=(X1,X2,…,Xn),n为粒子的个数,初始化粒子的速度和位置分别为Xi=(xi1,xi2,…,xiD)T和Vi=(vi1,vi2,…,viD)T,i=1,2,…,n,i代表第i个粒子。此时,根据目标适应度函数计算出每个粒子的适应度值Pi以及群体的最佳适应度值Pg。

迭代过程中粒子之间通过信息的传递和粒子自身的学习,不断更新粒子的速度和位置,最终得到群体的最优位置。在第k+1次迭代中,粒子速度和位置更新公式为

(14)

(15)

式(14)中:d=1,2,…,D表示维度;ω为惯性权重,在一般的粒子群算法中取值为1;k为迭代次数;c1和c2为学习因子,决定着粒子的自身学习能力和群体学习能力;r1和r2为0~1之间的随机数。

3.2.2 随机权重粒子群算法

惯性权重ω的大小决定着PSO算法的全局和局部搜索性能。当粒子接近最优位置时,减小惯性权重ω,防止粒子越过最优位置;当粒子远离最优位置时,增大粒子的惯性权重ω,加速粒子找到最优位置,而避免陷入局部最优。

随机权重粒子群算法[18]就恰好可能使得在接近最优位置的粒子获得小的惯性权重,也能使陷入局部最优的粒子获得较大的惯性权重而跳出局部最优。相较于其他粒子群算法,随机权重更有利于跳出局部最优,找到全局最优。

在随机权重粒子群算法中,ω计算公式为

ω=ω′+sN(0,1)

(16)

ω′=ωmin+r3(ωmax-ωmin)

(17)

式(17)中:ωmax和ωmin分别为惯性权重的最大值和最小值;s为惯性权重的方差;N(0,1)为服从正态分布的随机数;r3为0~1的随机数。

3.3 PCA-PSO-SVM流程

以PCA综合评价的样本数据为训练集和测试集,选取平均分类准确率作为适应度函数,即

(18)

式(18)中:ni表示第i类样本的准确测试个数;Ni表示第i类样本的个数。适应度函数表示在(c,σ)参数下的平均分类准确率。

PCA-PSO-SVM模型的一般流程如下。

(1)PCA综合评价,标记样本数据。

(2)选取SVM核函数,确定参数范围。

(3)初始化种群,设置惯性权重 和学习因子 和,设置种群规模和迭代次数。

(4)进行SVM训练,选取适应度函数,计算粒子的初始适应度值和种群最佳适应度值。

(5)根据最佳适应度值更新粒子速度和位置。

(6)判断是否达到迭代上限,达到则停止迭代,否则返回(4)继续寻优。

PCA-PSO-SVM流程图如图2所示。

图2 PCA-PSO-SVM流程图

4 实验结果与分析

采集某航空公司2019年12月份一周的关于波音737系列飞机的QAR记录数据,使用MATLAB2020a软件进行建模分析,分析过程和结果如下。

选取237条PCA综合评价数据用于PSO-SVM模型,并将170条数据用于训练,67条数据用于测试。确定SVM参数范围均为1~4。初始化PSO参数,设置种群数量为30,迭代次数为200,设置最大惯性权重为1,最小惯性权重为0.4,学习因子c1和c2分别为1.6和1.8。经过多次实验,得到各粒子群优化算法对参数的优化结果。为比较RW_PSO-SVM与各改进PSO-SVM的分类性能,本文采用十折交叉验证方法,对237条综合评价数据进行SVM模型训练,求得各模型的平均分类准确率。实验结果如表6所示,适应度变化曲线如图3所示。

表6 实验结果

图3 适应度变化曲线图

多次实验表明,随机权重粒子群算法(RW_PSO)在寻优效率及寻优能力方面相比于其他4种算法优势较大。

为进一步验证各改进PSO-SVM的分类性能,采用十折交叉验证,对237条综合评价数据进行SVM模型训练,得到各模型的分类准确率如图4所示。通过十折交叉验证可以看出,随机权重粒子群优化算法(RW_PSO)优化的SVM分类模型的分类准确率高于其他PSO-SVM模型。尽管权重递减粒子群算法在优化速度是最为优越,但其优化的参数对于SVM分类效果具有很大的波动性,且平均分类准确率也远不如随机权重粒子群优化的SVM分类器。

图4 十折交叉验证准确率分布图

综合考虑到模型的分类准度和模型的收敛速度,选用随机权重粒子群优化算法优化的SVM模型对100条QAR数据进行分类预测,评估结果如图5所示。

图5 样本分类评估图

根据对100条数据的评估,得出评估准确率为90%。对于第四类样本数据的预测准确率为94.1%,而本文中的主要分类目的就是将第四类样本分类出来。

综上所述,基于随机权重粒子群算法对SVM参数优化具有良好的需有能力,PCA-RW_PSO-SVM评价模型,对于飞行品质的分类具有良好的分类性能,可以有效提高飞行品质评估效率。

5 结论

结合起飞爬升和进近着陆阶段的飞行特点,提取共计16个评价指标,提出了一种客观的基于PCA-RW_PSO-SVM的飞行品质评价模型。通过实验分析和验证得出如下结论。

(1)采用PCA综合评价方法,依据QAR记录数据对飞行品质进行评估,克服了以往人为主观因素所带来的影响,能够客观有效地对飞行品质进行评估,评估结果准确。

(2)随机权重粒子群优化算法在非线性支持向量机参数寻优方面性能优越,全局寻有能力较强,通过随机权重粒子群优化的SVM分类准确率更高。

(3)基于PCA-RW_PSO-SVM的飞行品质评价模型能够高效准确地对飞行品质进行分类评估,提高了评估效率,可为飞行讲评提供便利和参考。

尽管记录数据都是在飞行安全的基础上所采集的,但是此方法能够有效识别出飞行品质较差的飞行任务,对防止“海因里希事故法则”,预防飞行事故的发生具有重要意义。由于只针对起飞和着陆阶段进行评估,研究还有待进一步深入,在今后的研究中将考虑更多的影响因素,丰富评价指标体系,提高评估的可靠性和全面性。

猜你喜欢
权重粒子样本
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
用样本估计总体复习点拨
权重常思“浮名轻”
基于膜计算粒子群优化的FastSLAM算法改进
Conduit necrosis following esophagectomy:An up-to-date literature review
规划·样本
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
随机微分方程的样本Lyapunov二次型估计