基于DDPG的航天器性能-故障关系图谱推理方法研究

2023-08-31 06:25王淑一邢晓宇刘文静

空间控制技术与应用 2023年4期

关键词：航天器图谱故障诊断

王淑一, 邢晓宇*, 刘磊, 刘文静

1. 北京控制工程研究所, 北京 100094

2. 空间智能控制技术全国重点实验室, 北京 100094

0 引言

由于太空环境的极端恶劣和航天器长期运行的复杂性,航天器在运行中难免会出现各种故障.如果这些故障不能及时有效地得到解决,将会导致任务失败、财产损失甚至人员伤亡.因此,航天器故障诊断是确保航天器安全稳定运行的一项重要技术.

航天器故障诊断的方法主要有基于知识的方法、基于模型的方法和基于数据的方法3种:1)基于模型的方法[1-3]是指根据航天器系统的物理模型或数学模型,利用模型仿真和优化等技术,对故障进行诊断和推理.这种方法适用于复杂系统和多变量系统,可以对不同系统的故障进行研究和分析,但对模型精度的要求较高.2)基于数据的方法[4-7]是指通过采集和分析航天器运行数据,利用机器学习和数据挖掘等技术,对故障进行诊断和推理.这种方法适用于实时处理和大规模数据分析,可以快速有效地诊断故障,但需要大量的数据和较高的算力支持.3)基于知识的方法[8-9]是指根据航天器系统的结构、设计规范、运行参数等相关知识,利用专家系统或规则库等人工智能技术,对故障进行诊断和推理.这种方法优点在于可靠性高、解释性强,但需要建立完备的知识库,对知识的获取和维护成本较高.

传统的航天器故障诊断方法,虽然在一定程度上可以快速准确地确定故障位置和原因,但存在许多缺陷,比如对隐蔽故障的诊断能力较弱,需要大量的历史数据支持,无法适应复杂系统和大规模数据等.知识图谱作为知识的图形化表示方法在人工智能领域发展迅速,为故障诊断技术提供了新思路,基于知识图谱的故障诊断方法拥有简洁直观、准确高效、可解释性强和易于实现复杂推理等优点,目前基于知识图谱的故障诊断研究取得较大进展.郭榕等[10]利用知识图谱技术构建了电网故障处置知识图谱,利用多个深度学习模型对知识图谱进行文本分类、知识抽取,实现故障知识的可视化以及辅助故障诊断的功能.聂同攀等[11]提出的知识图谱构建方法能够实现自主化的知识提取,针对飞机电源系统构建了故障知识图谱,并在此基础上实现了面向飞机电源系统故障诊断的智能问答与智慧搜索功能设计及软件平台开发.乔骥等[12]等提出了电网调度故障处理领域的知识图谱框架,将其分为5个层次4种类别,并针对不同层次不同类别的知识图谱提出了多种构建方式,为后续智能故障诊断提供支持.曹明等[13]针对各个于民用航空发动机健康管理功能模块的需求、差距和解决方案进行了深入论证分析,重点讨论了民用发动机地面综合诊断、寿命管理和智能视情维护维修决策的需求、必要性、现状及未来发展趋势和热点技术.卞嘉楠等[14]将知识图谱与推荐算法结合,应用于工业生产关键设备故障诊断领域, 能够有效解决领域内故障数据稀疏的问题.

上述文献为知识图谱技术在故障诊断领域的实际应用提供了有力支撑,但主要采用深度学习模型辅助专业人员进行故障诊断,诊断准确率不高,缺乏可解释性,难以直接应用于航天器故障知识图谱实现自主化故障诊断.本文基于航天器故障知识图谱进行故障推理方法研究,实现航天器的故障诊断和故障定位.针对传统故障诊断方法的问题,本文将基于知识的航天器故障诊断方法与人工智能方法结合,提出利用图注意力机制进行深度强化学习故障推理的航天器故障推理模型(graph attention deep deterministic policy gradient, GADDPG),在构建航天器故障知识图谱的基础上采用深度强化学习算法(deep deterministic policy gradient, DDPG)与图注意力网络(graph attention network, GAT)对其进行故障推理.首先,根据潜在失效模式及影响分析报告 (potential failure mode and effects analysis, FMEA)、归零报告和故障树等非结构化知识构建用于故障诊断的航天器知识图谱,本文称之为航天器性能-故障关系图谱;其次,将航天器性能-故障关系图谱作为DDPG算法的环境,实体作为状态,关系作为动作,根据不同实体的物理意义设置相应的奖励;最后,构建GAT网络作为DDPG算法的策略网络,构建多层感知机模型(multilayer perceptron,MLP)作为价值网络,采用表示学习将航天器性能-故障关系图谱中的实体与关系转换为语义向量,将其作为神经网络模型的输入,输出动作预测向量与动作价值,供GADDPG模型进行故障推理.模拟CMG故障发生时的测点特征,对GADDPG模型进行实验验证,实验结果表明该模型能实现清晰简洁、高效准确和可视化的航天器故障诊断.

1 结合图注意力机制的深度强化学习故障诊断模型

GADDPG模型是在已有的关系推理模型SPMLP模型[15]与SPDDPG模型[16]的基础上,加入图注意力网络替代SPDDPG模型的策略网络.故障推理相对关系推理有很多模型、知识和数据等先验知识,而直接采用SPDDPG等模型进行故障推理会丢失这些知识,导致其推理的准确性受到限制,因此本文提出GADDPG模型进行基于性能-故障关系图谱的故障推理.关于航天器性能-故障关系图谱的构建、实体关系的语义位置关系提取可参考文献[15],应用于航天器性能故障关系图谱推理的DDPG算法流程可参考文献[16],本文对这两部分作简要介绍,着重介绍将GAT网络应用于DDPG算法的过程.

1.1 GADDPG模型及流程

利用GADDPG模型在航天器性能-故障关系图谱上进行故障诊断的过程如下:1)构建用于航天器性能-故障关系图谱故障诊断的GADDPG框架.提取性能-故障关系图谱中各实体与关系的位置与语义信息,配置DDPG算法的环境、状态、动作、奖励.2)由策略网络预测选择最优动作.选择GAT网络作为策略网络,将当前状态的实体向量输入GAT网络,GAT聚合全图信息后输出最优的动作预测向量,达到下一状态.3)由价值网络拟合价值函数.选择SPMLP模型作为价值网络,根据当前动作与状态的向量信息进行动作价值计算,由输出的动作价值进行神经网络参数的反向更新.GADDPG模型的故障诊断流程如图1所示,DDPG算法的过程如图2所示.

1.2 GADDPG框架构建

本文采用DDPG算法进行故障诊断,首先要搭建深度强化学习算法的框架.根据航天器性能-故障关系图谱的实体关系与物理意义等内容设置框架的基本元素,包括环境、状态、动作和奖励.

(1)环境设置

将航天器性能-故障关系图谱作为环境与智能体交互,根据实体与关系为智能体提供状态与动作.本文将性能-故障关系图谱转换为n×n维的环境矩阵E,n为实体个数,将n个实体与u种关系按顺序排列,若实体i与实体j间存在关系q∈(0,u),则将Eij置为q,实体间无关系则置0,由此得到环境矩阵E.

(2)状态与动作设置

h+r=t

(1)

因此根据h+r与t的欧氏距离或曼哈顿距离设置得分函数

(2)

式中,‖·‖L1/L2表示L1范数或L2范数,本文采用L1范数.根据transE模型的训练目标,要保证正样本的得分函数尽量小,负样本的得分函数尽量大,损失函数设置为

(3)

其中,S为正样本集合,(h′,r,t′)为正样本(h,r,t)对应的负样本,γ是一个需要设置大于零的超参数,表示损失函数中的间隔.通过基于梯度的优化算法不断更新实体与关系的向量元素,直至训练收敛,使其满足式(1),得到实体与关系的m维包含语义信息的嵌入向量.

然后使用主成分分析法(principal component analysis, PCA)[18]对n个实体的m维嵌入向量进行主成分提取,得到降成k维后的语义向量.

首先将n个实体的m维嵌入向量排列组成m行n列的嵌入向量矩阵Z.对Z的每一行进行去中心化处理得到Zc

(4)

zcij为矩阵Zc的第i行j列元素,zij为矩阵Z的第i行j列元素.

计算协方差矩阵C

(5)

用特征值分解法求出矩阵C的特征值及对应的特征向量.将特征向量按对应特征值由大到小的顺序进行排列并将其转换为单位特征向量,取前k列组成转换矩阵P∈Rm×k.利用转换矩阵P将嵌入向量矩阵Z转换到k个特征向量构成的新空间

Y=PTZ

(6)

得到降维矩阵Y∈Rk×n,按列分离即可得到n个实体的k维语义向量.

将环境矩阵E中实体i对应第i行Ei的转置向量作为位置向量.将实体的语义向量S与位置向量P拼接作为状态向量,将关系的语义向量作为动作向量.对于状态和动作的后续推理转换为向量形式的计算,便于智能体进行高效计算.

(3)奖励设置

奖励是判断当前状态是否处于最优路径的依据,需根据当前状态与终止状态间的路径距离、路径种类进行人为设置.本文采用的GADDPG方法后续采用价值网络拟合复杂的动作价值函数,因此状态奖励的设置可遵循简单有效的原则.将状态分为普通状态与终止状态与临终止状态,临终止状态是指与终止状态一阶相邻的状态,当智能体达到终止状态时即完成关系推理寻径.将普通状态奖励置0,临终止状态奖励置1,终止状态奖励置2,公式如下:

(7)

其中t为智能体寻径的步数,St为当前状态,Rt为当前状态对应的奖励,END为终止状态,N1(END)为终止状态的一阶邻域.

本文独特设置的临终止状态奖励能够帮助智能体从复杂众多的路径中快速接近终止状态,增强训练效果.

1.3 基于GAT网络的动作选择

本文对于DDPG算法的改进之一是采用更适合处理图数据类型的GAT网络作为策略网络,接下来阐述GAT网络的原理以及将其嵌入DDPG算法的方式.

图注意力网络由多个注意力层构成,假设当前状态S对应航天性能-故障关系图谱的故障模式实体向量h1,奖励为R,图注意力层如图3所示.

图3 图注意力层的结构Fig.3 Graph attention layer structure

图中α1i表示实体向量h1与hi之间的注意力系数,代表了该注意力层不同实体对h1特征聚合的影响力大小,α11表示自注意力机制,使h1保留一定自身特征.αij计算公式如下:

αij=softmax(σ(a([Whi‖Whj])))

(8)

(9)

式中,N1为实体h1的邻接实体.经过t个图注意力层的信息聚合,最后一层图注意力层的输出为ht,权重为θy,偏置值为by,输出层的激活函数fo选用softmax函数,可得到最后的输出动作预测向量A

A=fo(θyht+by)

(10)

动作预测向量A的元素位置与故障知识图谱中的关系一一对应,A中概率最大的元素Ai即为选择的最优动作a.从环境矩阵E中找到最优动作对应的下一状态S′,将S′作为当前状态,重复运用策略网络进行动作预测到达下一状态,直至达到终止状态,得到故障原因,并输出故障判断路径.

1.4 基于价值网络的参数更新

采用多层感知机模型作为价值网络,输入层是当前状态对应的状态向量与当前动作对应的动作向量,输出动作价值,模型的隐含层结构与SPMLP相同,如图4所示,输出的动作价值是一个实数.

将状态向量S与动作向量a拼接得到输入层的输入向量X.X的每个元素与第一个隐含层的权重W1分别相乘后求和,加上偏置值b1后经过激活函数得到该层的输出h1,激活函数f1选用便于前向传输的sigmoid函数,公式如下:

h1=f1(W1X+b1)

(11)

将隐含层1的输出作为下个隐含层2的输入,重复式(11),可得到最后一层隐含层的输出向量为ht,权重为Wy,偏置值为by,输出层的激活函数fo选用训练速度快的Relu函数,可得到当前状态的动作价值Q(S,a,w)

Q(S,a,w)=fo(Wyht+by)

(12)

(13)

γ为折扣因子,取值范围为(0,1),本文取0.9.

通过神经网络的梯度反向传播来更新当前价值网络的所有参数w,价值网络的损失函数使用均方差误差MSE

(14)

通过神经网络的梯度反向传播来更新当前策略网络的所有参数θ,策略网络的损失函数为

(15)

设定目标网络的更新频率C,每第C次循环软更新目标策略网络与目标价值网络的参数

w′←τw+(1-τ)w′

(16)

θ′←τθ+(1-τ)θ′

(17)

τ为更新系数,一般取值较小,为0.1.

2 航天器典型部件级性能-故障关系图谱的故障推理

本文选择基于专家知识构建的CMG性能-故障关系图谱作为实验对象,验证GADDPG模型对基于知识的性能-故障关系图谱的故障推理效果.文献[15]按照“CMG-功能模块-故障模式”的实体层次构建的CMG性能-故障关系图谱如图5所示,含148个实体,10种关系,339个三元组.

图5 CMG性能-故障关系图谱Fig.5 CMG Performance-Fault Relationship Graph

图6 平均寻径步数曲线Fig.6 Average pathfinding step curve

GADDPG模型的参数设置如下.TransE模型的向量维数设置为100,PCA降维后的语义向量维数设置为20.GAT网络的输入状态向量为42维,输出预测动作向量为7维,设置四层图注意力层,图注意力机制K=3,学习率lr=0.000 5,每层的全连接神经元个数为200.价值网络的输入向量为40维,输出动作价值为一维,设置四层隐含层,神经元个数(60,200,200,200),学习率lr=0.000 5.训练次数设置为60 000,由于部件级故障知识图谱最长故障寻径步数为4,因此当每百次的平均寻径步数小于4或达到最大训练次数即训练结束.实际训练在7 642次达到终止条件,平均故障寻径步数为3.63,寻径成功率为100%,智能体平均寻径步数训练曲线如下:

将GADDPG模型训练好后,进行模拟故障寻径.假设故障发生的功能模块为导电环,将实体“测点”作为GADDPG模型的初始状态,由GADDPG模型自主进行故障推理,实验结果证明GADDPG模型能够按“测点-测点特征-故障模式-故障模块-CMG”的路径反向故障推理进行准确故障定位.为了清楚直白地展示实验效果,本文取CMG局部故障知识图谱,展示GADDPG具体故障推理寻径过程,程序可视化过程如图7所示,故障寻径可视化过程如图8所示.导电环有多个故障模式,当给出故障测点为串口框架角度时,GADDPG模型能够以“串口框架角度(测点)→数据异常(测点特征)→轴承摩擦力矩增大或卡死(故障模式)→导电环(功能模块)→CMG(部件)”的物理路径反向推理得到具体的故障发生模块为导电环,故障模式为轴承摩擦力矩增大或卡死.使用计算机的CPU运行此程序,计算机的CPU为英特尔i5处理器,其单次寻径计算时间为0.15 s,本次实验证明该模型能实现快速准确的故障推理寻径.

图7 GADDPG模型故障推理程序可视化过程Fig.7 Visualization of GADDPG fault inference

图8 GADDPG模型故障推理寻径可视化过程Fig.8 GADDPG fault inference pathfinding visualization

实验结果表明,本文提出的GADDPG模型能够针对不同测点与测点特征快速准确地在部件级故障知识图谱上推理故障路径,得到具体故障模块、故障模式等故障发生的相关内容,在基于知识的航天器故障知识图谱上实现清晰简洁、高效准确、可视化的航天器故障推理和定位.

3 结论

本文针对航天器性能-故障关系图谱存在的物理意义复杂、实体关系众多、故障数据少且分布不平衡的问题,提出一种结合图注意力网络与DDPG算法的航天器故障推理模型 GADDPG,优点如下:

1)采用DDPG算法进行故障路径推理.针对航天器故障数据少、状态动作空间庞大的问题,采用DDPG算法拟合复杂的价值函数与动作函数,以较少数据达到很好的训练效果,进行精准的故障路径推理.

2)将GAT网络嵌入GADDPG模型进行动作预测.由于航天器性能-故障关系图谱是非欧氏空间的图结构数据,传统的神经网络难以对其进行准确计算预测,而GAT网络适合处理图结构数据,聚合图谱信息,嵌入GADDPG模型能够提高故障诊断效率与准确率.

未来计划对多个系统级与部件级性能-故障关系图谱进行重构整合,提升GADDPG模型的泛化性,构建完整、规范、富有层次的大规模航天器故障诊断系统.