冯蕴雯,潘维煌,*,刘佳奇,路成,薛小锋,冷佳醒
1. 西北工业大学 航空学院,西安 710072 2.上海微小卫星工程中心 导航技术研究所,上海 201203
随着人工智能的相关算法与分析方法的深入发展,引领各领域的相关衍生理论的不断探索,促进相关工业应用的不断实现。人工智能在航空领域的相关实际工程应用有发动机叶片损伤的自动检测技术、航空公司的基于大数据的飞行数据分析与应用平台、基于飞行轨迹的智慧空管系统等。
国内外在理论探索方面,人工智能及其相关理论在航空领域内已进行了广泛的探索。叶博嘉等[1]采集飞机实际进近的飞行时间,考虑航司、航空器、进场状态、空域繁忙程度与航班运行模式,应用机器学习的相关方法对飞机的进近飞行时间进行预测分析,并分析各影响因素的特征重要程度。Sun等[2]采用飞机空调监测系统的运行数据,考虑飞机的飞行高度、飞行马赫数、舱压,结合飞机是否使用发动机以及机翼防冰的运行条件,通过大数据拟合正常与异常的空调运行数据,建立了识别空调系统异常的方法,并分析方法的适用性与有效性。Bryan等[3]通过采用数据挖掘技术,结合数据的时间序列分析,考虑飞机的运行环境、飞机部件的状态、机组人为因素,对多维的飞行数据进行研究分析,检测典型的未知不安全事件。Oehling和Barry[4]基于飞机运行的航班数据,采用机器学习的方法对航班各类安全相关的事件进行研究分析,摆脱了以往仅能依靠相关领域的专家才能对相关的不安全事件的评判的局限。此外,基于机器学习的无监督学习的方法还能发现当下飞机安全监视系统无法发现的不安全事件,拓宽这些方法在飞机的飞行安全监视领域的应用。Abrar和Rashid[5]采用人工智能的机器学习与深度学习的方法,采用民航安全报告系统的相关数据进行研究模型的学习与训练,并基于构建的模型进行航空系统的风险预测。这些研究方法对大规模、多维异构的复杂数据有较强的预测性能。Beulen等[6]通过建立神经网络,对航司的机组人员的工作要求进行模型分析,辅助航司进行机组人员的安排决策。Lhéritier等[7]结合民航旅客的行程需求、市场条件,采用机器学习方法,针对传统的多项式逻辑方法缺乏灵活性与不能处理非线性问题的局限性,对存在旅客替代方案、影响因素的非线性问题进行建模分析,与传统的多项式逻辑方法相比,采用机器学习的方法所用时间少、建模工作量小。Zhou等[8]采用飞机通信寻址与报告系统与地面相关设施的报告数据,采用机器学习的支持向量机、支持向量机与粒子群算法结合的方法、长短时记忆神经网络建模分析,预测飞机飞行的不安全事件。机器学习作为实现人工智能的一种方法,在民用航空领域的广泛应用,主要因为机器学习采用海量数据来训练模型,然后通过相关算法在数据中学习如何实现规定任务。因此机器学习的方法在处理分析非线性多维数据、对特征耦合的研究对象进行建模具有明显的优势。随着相关算法的不断发展与计算科学的进步,人工智能的相关方法必将愈发拥有广阔的应用前景。
飞机的可靠性的相关研究在理论与实际工程中都有重要意义。安全是民航永恒的主题,飞机的可靠性是实现飞机安全的保障。可靠性是产品在规定条件下和规定时间内,完成规定功能的能力[9]。长期以来,对飞机各部件、机构等进行使用及试验的失效数据统计分析,计算部件、系统的失效率与可靠度来指导飞机的可靠性设计与安全运行。常规可靠性评估存在以下问题。常规的可靠性评估的是研究对象的长期运行可靠性,以长期统计的数值计算的可靠性指标不能反映在外部特殊运行条件、不同工作参数等状态下的可靠性规律,也不能反映研究对象的真实的可靠性水平[10];常规的可靠性研究时间周期较长(一般以年、月为研究周期),以同种型号的飞机部件在全球所有用户的使用故障次数为分子、同种型号的飞机部件在全球所有用户的使用总时间为分母的故障率反映的研究对象的可靠性,时间尺度与统计范围过于大,对相关设计单位或使用单位进行针对性的可靠性管理工作带来挑战;以可靠度、故障率为可靠性指标反映了该研究对象在统计范围内的使用水平,但缺乏研究对象的运行条件、工作工况与安全裕度等其他方面的可靠性信息[11]。常规的可靠性评估工作不进行运行条件、工作工况或安全裕度等相关工作一方面是可靠性在这些方面的理论研究工作仍需完善,另一方面这些工作所涵盖的数据的类型多、数量大,并且获取难度较大,依靠常规人工统计的方法难以实现。近年来,随着飞机运行数据的记录与获取日渐规范,可用于研究分析的数据在类型与数据量上都有很大的改善。本文基于飞机的QAR(Quick Access Recorder)数据进行飞机动力装置运行可靠性的研究分析。一般来说,飞机的飞行数据记录器的数据主要用于事故调查而QAR数据用于日常运行监控。动力装置的运行可靠性为考虑飞机的动力装置的具体型号及其参数性能,结合动力装置的工作状态、飞机的运行外界条件、飞机的飞行状态下,动力装置工作状态特性与当前性能裕度的度量。
DEA(Data Envelopment Andysis)分析方法源于运筹学,在众多领域的指标评价与分析中都有广泛应用。作为一种客观的多投入多输出系统的评价方法,DEA不需要对评价对象的函数形式进行预习估计或假定,进而避免了评价过程中的主观因素的干扰,在对评价对象的各因素的有效性与冗余性的较大优势[12]。Nahangi等[13]将DEA应用在建筑业的安全评价与分析中,以建筑的工地的安全事件为输出,考虑影响施工的各种作用因素,在结合工作效率的基础上实现对建筑工地的安全性评价。Telles等[14]采用DEA对航空制造商的按订单生产系统的生产线的效率进行评价分析,对各影响因素对生产效率的正向或负向的影响进行定量的分析。DEA的优势是在分析研究对象的各影响因素对评价结果的正负向作用时,并不需要明确影响因素与评价指标的具体函数关系,这对DEA的广泛应用具有较大优势。
本文首先结合动力装置的工作状态、飞机的运行外界条件、飞机的飞行状态3类因素,采用DEA对飞机动力装置的运行可靠性(包括工作状态特性与性能裕度)进行评价分析;接着采用机器学习随机森林、多变量神经网络回归分析的方法,对3类因素的具体特征与DEA的分析结果进行模型的训练、验证与测试,对动力装置运行可靠性的特征重要性与模型的性能指标进行分析;最后根据DEA与机器学习模型的分析结果,梳理各特征对动力装置工作状态特性与性能裕度影响的敏感性以及飞行任务过程中动力装置工作状态特性与性能裕度的时变规律,总结研究成果对飞机动力装置的日常运营与其他管理工作的借鉴意义。
DEA分析方法由美国运筹学学者Charnes等[15]提出,是一种非参数、评价研究对象的多指标输入输出及衡量系统有效性的方法。在采用DEA进行评价的过程中,将评价对象属性划分为投入项、产出项,对各属性不预先设定权重,重点分析评价对象的总产出与总投入,以其比率作为相对效率。DEA有多种模型,包括CCR(由Charnes, Cooper和Rhodes等提出,被学界命名为CCR)模型、BCC(由Banker, Charnes和Cooper提出,被命名为BCC)模型、交叉模型、A&P模型。本文将简要介绍CCR模型与BCC模型。
将评价对象定义为决策单元(Decision Making Unit, DMU)。将n个决策单元的m1种投入与m2种产出的生产活动构成的集合T称为生产可能集(Production Possibility Set, PPS),其中T表示方法为[12]
T={(X,Y):投入X可产出Y}
(1)
式中:Xa=[x1a,x2a,…,xm1a]T和Ya=[y1a,y2a,…,ym2a]T分别为DMUa(a=1,2,…,n)的投入向量与产出向量,Xa≥0,Ya≥0。
1.1.1 DEA的CCR模型
DEA的CCR模型由美国学者Charnes等[15]提出,假设有n个被评价的决策单元,每个DMU处于同种投入产出类型环境,m1种投入和m2种产出,xij(i=1,2,…,n;j=1,2,…,m1)表示第i个决策单元的第j项投入,yij(i=1,2,…,n;j=1,2,…,m2)表示第i个决策单元的第j项产出,u=[u1,u2…,um1]、v=[v1,v2,…,vm2]分别表示投入、产出权值向量。
建立DEA的CCR模型效率评价模式。决策单元k的效益评价指数ek为[16]
(2)
CCR 模式线性规划表示为[16]
min OEk
(3)
式中:λi为大于0的系数 OEk为综合技术效益。
CCR模型将决策单元k的投入与产出表示为决策单元k与其他决策单元的线性组合。
(4)
1.1.2 DEA的BCC模型
DEA的BCC模型在决策单元的投入水准等同的条件下,从决策单元的产出角度探讨决策单元的投入效率。
BCC模型的决策单元k的效益评价指数e′k为[16]
(5)
BCC模型的数学表示为[16]
min TEk
式中:TEk为技术效益。
1.1.3 DEA模型的结果分析
DEA结果分析是根据决策单元的投入与产出的计算结果,对各指标进行实际含义的研究与分析。本文涉及的DEA分析指标包括效益分析与差额变数分析[17-19]。
1) 效益分析。DEA的效益分析包括综合技术效益、技术效益、规模效益。
综合技术效益(Overall Efficiency, OE)、技术效益(Technical Efficiency, TE)、规模效益(Scale Efficiency, SE)满足下列关系式:
OE=TE×SE
(7)
2) 差额变数分析。DEA的差额变数分析包括投入冗余率与产出不足率,本文仅介绍投入冗余率。
决策单元k的第i种资源的投入冗余率ηki的计算式子为
(8)
采用DEA对动力装置的运行可靠性进行分析,首先对动力装置在运行过程中的3类因素及其各种特征进行提取,接着依据特征对动力装置的运行可靠性进行综合技术效益、各特征的冗余率。以上述2个指标分析结果探索飞机的动力装置运行可靠性。
1.2.1 动力装置运行可靠性影响特征提取
依据前文分析,动力装置的运行可靠性的分析需要考虑动力装置的工作状态、飞机的运行外界条件、飞机的飞行状态3类因素,现对3类因素的具体特征进行提取,如表1所示,表中的N1表示发动机低压转子转速,N2表示发动机高压转子转速。
表1 3类因素及其特征Table 1 Three types of factors and characteristics
1.2.2 动力装置运行可靠性DEA分析
飞机的运行过程定义为飞机在起飞机场进跑道开始,直至飞机在目的机场跑道着陆并减速至60节时结束。动力装置的运行可靠性分析包括工作状态特性与性能裕度2个方面,整理的16个特征均可能影响动力装置的工作状态特性与性能裕度,并且影响关系复杂,各特征间对工作状态特性与性能裕度影响的正向、负向关系亦有可能相互抵消,造成评价分析上的困难。因此,采用DEA各特征要素的综合技术效益来反映动力装置运行可靠性的工作状态特性,采用各特征要素的差额变数分析的投入冗余率之和作为动力装置运行可靠性的性能裕度。
采用DEA的动力装置运行可靠性分析结果可以反映不同时间点下动力装置的工作状态特性与性能裕度,并基于数值的大小与趋势分析动力装置的运行可靠性水平与变化趋势。但无法判断3类因素中各种特征对动力装置的工作状态特性与性能裕度影响程度,也不能判断各特征对动力装置的工作状态特性与性能裕度影响的正负方向。因此本节拟采用机器学习有监督学习的方法,在3类因素中各种特征的作用下,结合DEA的分析结果,建立飞机动力装置的运行可靠性研究分析模型,计算各模型的计算精度,分析各特征的重要性。
将提取的16个特征的航班QAR数据与DEA分析的动力装置的工作状态特性与性能裕度的计算值进行机器学习模型相关算法建模,采用随机森林、多变量神经网络回归分析,进行特征重要性与影响程度的分析。
随机森林为2001年美国学者Leo Breiman提出一种基于决策树的机器学习算法[20]。随机森林作为一种集成学习的方法,具有性能优越、结构简单、可解释性强的特点;通过训练样本的booststrap重采样与每个节点的特征子集的随机选取2个步骤降低方差与偏差。随机森林的具体步骤如下[21]
1) 给定一个训练集Xxl={x1,x2,…,xS},类别标签为Lbq={l1,l2,…,lS}。其中,x∈RQ,S为训练集的样本数,Q是训练集Xxl的样本类别数。然后有放回进行对原训练集重新抽样产生S个新的训练集{Xxl1,Xxl2,…,XxlS},对应的标签集为{Lbq1,Lbq2,…,LbqS}。
2) 基于{Xxl1,Xxl2,…,XxlS},{Lbq1,Lbq2,…,LbqS}生S棵完整决策树{t1,t2,…,tS},每棵决策树的构建过程中,每个节点均进行一次特征子集的随机选取。
3) 最后通过多数投票法得到测试样本的决策结果。
此外,为了衡量随机森林在回归分析过程中的结果好坏,对指标平方平均误差(Mean Square Error, MSE)、均方根误差(Root Mean Square Error, RMSE),绝对平均误差(Mean Absolute Error, MAE)进行计算分析。计算公式为
(9)
(10)
(11)
为了衡量随机森林的回归效果是否显著,采用决定系数γ2用于评估回归拟合效果。γ2的值越接近1,模型的拟合效果越好,一般认为超过0.8的模型拟合拟合度较高。其计算公式如下
(12)
神经网络在多变量回归分析中具有广泛应用。神经网络以其强大的参数学习能力,通过降低预测值与实际值的偏差实现对实际值的拟合,通过建立的神经网络模型达到研究分析的目的。
假设基于神经网络预测模型为[22]
F(Xnn,W,b)=Xnn·WT+b
(13)
式中:Xnn为输入变量;W为权重参数矩阵;b为偏置。神经网络的模型如图1所示。
图1 神经网络模型Fig.1 Neural network model
模型的损失误差为
(14)
式中:Yi为神经网络的预测值。
本文以B737-800机型为例,以某航司一次北京至珠海飞行任务的航班QAR数据为例分析其动力装置的运行可靠性。将3类因素16个特征的QAR数据按飞机运行阶段提取,若QAR某些特征有缺失值,以缺失值的前一个值填充。算例的B737-800的动力装置装配2台CFM56-7B发动机,该型号发动机具有优良的性能参数,发动机停车率较低,具有出色的可靠性。依据前文的方法,先采用DEA对飞机动力装置的运行可靠性进行评价分析;然后依据分析结果,采用机器学习的监督学习方法分析模型的拟合情况以及各特征的重要度,并基于分析结果总结飞机动力装置运行可靠性规律。
假设动力装置工作状态特性以R表示,动力装置的当前性能裕度以M表示,表1的16个特征以集合A表示,则可以表示R、M与A的关系为
R=f1(A)
(15)
M=f2(A,f1(A))
(16)
式中:f1(·)和f2(·)分别表示R与集合A和M与集合A、f1(A)的函数关系,也是本文通过DEA与机器学习模型在大量数据训练、完成模型参数学习后可以拟合的函数关系式。
依据前文的分析,DEA的CCR与BCC模型分析动力装置的运行可靠性,结果如表2所示。
表2截取飞机起飞前油门推至最大起飞/复飞位后7 s的部分QAR数据以及R值、M值计算结果进行展示。由表中数据可知,DEA分析的动力装置运行可靠性的R值——动力装置工作状态特性非常接近1,表明动力装置系统的工作状态特性接近满负荷状态,而运行可靠性的M值——当前性能裕度则接近于0,说明此时状态下动力装置的裕度非常少,冗余非常低。
表2 QAR数据与DEA分析结果Table 2 Analysis results of DEA and QAR data
DEA分析仅能从数值上简单判断当前的动力装置的工作状态特性与当前性能裕度,无法分析16个特征的变化对R、M的变化关系。因此需要进一步通过采用机器学习的监督学习方法分析研究特征与R、M的关联关系。
算例数据包括的飞行阶段11 557条QAR记录数据,共计16个特征,加上DEA分析的R、M的值,共同构成随机森林模型的训练集。
依据前文的随机森林模型分析流程,将分别进行动力装置的R、M的随机森林建模分析。
3.2.1R值随机森林算法分析
依据构建的随机森林模型,对动力装置运行可靠性R值进行分析。首先对16个特征的重要性进行排序分析,结果如图2所示。
图2 R的各特征重要性Fig.2 Importance of each characteristic of R
由图2可知,对动力装置的运行可靠性R值影响最大的前3个特征分别为飞机的运行外界条件的计算空速、飞行时间、飞行高度。即动力装置的工作状态特性与飞机的计算空速及其飞机的时空位置关联最大。飞机依靠空气动力实现飞行与操纵,飞机飞行管理计算机通过调整不同飞行姿态与飞行阶段的速度使飞机处在安全的飞行包线内,而控制速度的直接有效方式是控制动力装置的推力。在民航飞机飞行过程中,按照计划航路与高度飞行,因此飞行时间与飞行高度具有密切关系。综上分析,动力装置的R值影响最大的3个特征为计算空速、飞行时间、飞行高度是合理的,这也表明DEA对动力装置的R分析具有一定的参考价值。此外,对动力装置的R值影响最小的特征分别为机载雷达记录的气象、风向、发动机的N1及其燃油流率。
采用随机森林模型对动力装置运行可靠性的R值进行回归预测,结果如图3所示。
图3 R的回归预测Fig.3 Regression prediction of R
由图3首先分析R的DEA计算值。飞机在起飞阶段的R值快速达到1,并且有区间的波动,然后R值再次达到1附近。该阶段为飞机的初始爬升与改平加速后的连续爬升,动力装置接近满负荷工作。后续有较大区间的R值维持在0.95左右,该阶段是飞机的巡航阶段,动力装置的工作状态是维持飞行所需推力,未到达最大工作状态;后续区间的R值又呈现较大范围的波动,此时飞机在下降与进近阶段,在终端进行梯度下降飞行,动力装置工作依据速度与高度的需要进行调整,变动范围较大,加之该阶段飞机的外界运行条件变化较大,舱外温度、风速等影响,使R值波动。最后着陆的过程中,动力装置进入反推工作状态,R值又快速达到1。从整体来看,随机森林的预测值在飞机巡航阶段对R值拟合较好,在起飞与下降阶段对R值拟合稍差。
采用随机森林对R值分析结果说明在提取动力装置的工作状态特性影响因素时应当考虑更多飞机在起飞、爬升、下降、进近与着落阶段的其他相关特征。
3.2.2M值随机森林算法分析
同理,依据构建的随机森林模型,对动力装置运行可靠性M值进行分析。结合式(16),研究动力装置的性能裕度应该结合动力装置的工作状态特性分析。因此在分析M值时应当结合R值与16个特征共同分析影响M值的重要性进行排序分析,结果如图4所示。
图4 M的各特征重要性Fig.4 Importance of each characteristic of M
由图4可知,对动力装置的运行可靠性M值影响最大的前3个特征依次为飞机动力装置的R值、雷达气象、飞行时间。动力装置R值的是影响动力装置运行可靠性M值最重要因素,重要程度明显比其他特征突出。左右迎角、发动机N1、以及风向对M值影响较小。通过与R值的各特征敏感性分析,雷达气象是已梳理的特征中对动力装置M值影响最大,但对R值影响最小。即在飞行过程中的雷达探测不利天气(雷雨、冰雹等)对M值影响很大。由图4分析结果,动力装置的运行可靠性的性能裕度较大程度取决于动力装置工作状态特性与飞机的运行外界条件。
采用随机森林模型对动力装置运行可靠性的M值进行回归预测,结果如图5。
图5 M的回归预测Fig.5 Regression prediction of M
由图5首先分析M的DEA计算值。飞机在起飞阶段的M值快速在0左右波动,改平后M值有段区间上升,在飞机的连续爬升阶段M值再次在0左右波动。随着飞机达到巡航高度,M值也平稳维持在1.2附近。在飞机下降与进近阶段,M值有多次较大范围的波动,此时飞机在R值、16个特征与动力装置的M值的关系随时间与飞行阶段的变化较为复杂。从整体来看,随机森林的预测值在飞机巡航阶段对M值拟合较好,在起飞、爬升、下降与进近阶段对M值拟合较差。
为了分析随机森林模型在对R值、M值的回归分析效果,计算相关评价指标,如表3所示。由表3可知,随机森林模型在对动力装置运行可靠性的R值建模过程中,与M值比较,MSE、RMSE、MAE都比较小,说明随机森林模型回归分析中,对R值建模分析优于对M值的分析。此外,对R值与M值的回归效果较好,调整决定系数分别为0.970 3与0.975 1。
表3 随机森林模型指标分析Table 3 Index analysis of stochastic forest model
依据神经网络的构建方法,结合本文的QAR与DEA分析结果的数据类型与数量,通过构建两层、隐藏层16个神经元的神经网络进行动力装置的运行可靠性的R、M的回归分析。
将神经网络的学习率设为0.01,设置每次训练后重新打乱训练集数据的顺序,进行5 000次迭代训练后,网络的Loss值如图6所示。
图6 R与M的多变量神经网络模型损失Fig.6 Loss of multivariable neural network model of R and M
由图6可知,动力装置运行可靠性的R值的Loss值波动非常小,最终训练结束后的值为0.000 9, 处于非常低的水平,说明构建的神经网络对16个特征与R值的拟合程度很高,也反映了飞机的动力装置的工作状态特性与16个特征的关联关系非常强,即选取的16个特征也很好地反映动力装置的工作状态特性。同理,图中动力装置的M值的Loss值一直处于比较高的水平,最终训练结束后的值为0.095 6,经过多次训练后,Loss值也没有下降,说明构建的两层神经网络对动力装置运行可靠性的性能裕度拟合效果一般,无法通过参数修正来降低模型的Loss值。与R值和16个特性的线性关系相比,M值和16个特征的关联关系稍弱。从侧面也反应了选取的16个特征对研究动力装置的运行可靠性的性能还有所欠缺,动力装置运行可靠性的性能裕度分析还需要更多的特征来反映。
此外,依据构建的神经网络也可以对给定的16个特征数值计算动力装置运行可靠性的R值与M值,这给出现特殊运行情形或飞机动力装置出现故障时快速评估分析动力装置的运行可靠性,找到风险最小、可行的解决方法提供一个全新的思路,这是基于机器学习构建的动力装置运行可靠性分析模型的一个重要应用。
结合DEA、随机森林与神经网络对动力装置的运行可靠性的分析,表明动力装置在飞机起飞、爬升、下降与进近阶段的工作状态特性较为复杂,性能裕度较小;飞机在巡航阶段工作状态特性较为稳定,性能裕度较大。
1) 研究飞机动力装置实时运行状态下时变可靠性规律,提出考虑动力装置的工作状态、飞机的运行外界条件、飞机的飞行状态3类因素共计16个特征分析动力装置的运行可靠性。与常规的计算对象故障率、可靠度的可靠性分析方法相比,考虑动力装置在特定工作状态、飞行状态与外界条件环境下的实时运行可靠性分析方法能反映动力装置短期工作状态特性与性能裕度,具有复杂性与理论探索的意义。
2) 基于提出的16个特征,结合DEA计算结果,采用机器学习的随机森林与神经网络算法,分别建立动力装置的工作状态特性与性能裕度回归分析模型,能较好拟合各特征与动力装置的工作状态特性、性能裕度的关系。
3) 以B737-800机型一次北京至珠海飞行任务的QAR数据为例,对构建的机器学习模型进行训练与分析,对16个特征的重要性、模型的性能指标进行深入研究,完成各特征的R值与M值影响敏感性分析;构建的飞机动力装置运行可靠性分析模型可为飞机动力装置的日常运行、特殊情形的处理预案提供参考与支持。