(北京空间飞行器总体设计部,北京 100094)
目前航天器普遍存在长寿命设计要求,除了硬件冗余、功能冗余、空间环境防护等设计外,在轨自主健康管理及控制、故障诊断技术是航天器稳定且长寿命运行的重要因素,是确保航天器故障情况下不失效、可修复、提高航天器使用效能的重要手段。
航天器自主健康管理是指航天器能够对自身状态进行监控和感应,对出现的故障能够自主进行检测、隔离和恢复[1]。有效、及时、准确地执行在轨自主健康管理是确保航天器在轨安全稳定运行的有力保障。航天器特定的工作环境决定了航天器自身健康的重要性。传统的地面干预型航天器健康管理主要依靠地面测控站,通过人工判读大量遥测信息以获取航天器运行状态进行管理。航天器数据量大、数据类型多、变化复杂,地面操作人员需全面了解航天器故障预案与故障处置方式,航天器异常诊断、确定处理措施、实施操作、观察效果、故障排除等一系列动作常需多轨完成,健康管理效率低,时效性差,且在执行处置策略时极易出现空间链路不安全、人为操作失误等问题,降低了航天器的可靠性和安全性设计系数。而对于航天器在轨运行期间的一些不威胁整星安全的轻度故障,仍需要地面干预恢复,影响了用户使用满意度,违背了用户对航天器“好用性”、“易用性”的要求。 特别对于低轨道运行的航天器及远距离的深空探测器,航天器处于长时间不可见弧段,不具备器上自主健康管理,在故障发生时及时进行自主安全处置,将会使故障进一步扩散,造成不可挽回的重大损失。
随着我国航天技术的快速发展,航天器的在轨任务越来越复杂,多数航天器已形成初步的在轨自主管理的概念,航天器自主健康管理技术已逐渐提升为系统级关键项目。国内现有航天器的自主管理主要采用安全性导向性设计,例如常见的自主能源管理、自主热控、测控组件管理等。然而,不同航天器间工作任务差别迥异,使用方式千差万别,有限的在轨数据量和多学科知识融合技术人才的不足,使故障模型的建立变得异常困难,严重制约了航天器自主健康管理技术的发展速度,无法形成一套标准化解决方案,通用化水平低。型号的差异性需求与航天器健康管理项目的指数级增长,给航天器的存储能力、处理能力都提出了更高的要求,为系统设计和测试带来了更大的挑战。
针对上述存在的问题,本文提出了一种多维动态可配置的航天器自主健康管理系统设计与实现方法,将已有的大量的人工管理方法和策略转换为故障模型,植入航天器形成支持动态配置的规则库,以实满足日益增多的航天器自主健康管理需求,实现自主健康管理功能设计的快速迭代与不同航天器的定制化服务,提高航天器在轨运行的故障监测与处置能力,确保航天器业务的连续。本方案经过实际工程项目整器级测试验证,可作为其他工程项目设计参考。
航天器自主健康管理,需实现故障的识别、诊断与处置。基于目前国内普遍应用的安全性导向性设计进行设计,涵盖故障识别方式、诊断策略、故障处置3个方面。
故障的识别,是指找出与该故障最有关联的观测变量。在航天器系统中,最能够直观反应状态的就是遥测。遥测是航天器健康状态的直接映射反应源,利用数据系统生成的大量遥测数据实行自主健康管理,能够保证航天器健康状态输入条件的客观、完备、有效。本系统故障识别则基于遥测数据实现,同时遥测数据也作为故障模型的建模依据。
故障诊断过程是确定故障的类型、故障的量级、故障发生的位置和时间的过程。其策略的建立,即是故障模型的建立。针对航天器系统安全性导向性设计,将故障模型的建立分成对整星各分系统安全状态信息的收集,根据预设的控制策略对影响整星安全的关键设备进行控制管理,保证整星的安全。具体方法是:对某些重点遥测参数设计安全门限,软件对通过采集回来的遥测参数进行分析,与相应门限值进行比较,若超出门限限制,则认为故障发生。
完成故障识别与诊断后,可通过自主执行预定的安全指令序列进行故障恢复,即完成故障处置。
航天器自主健康管理的工作流程包括数据集成、故障诊断与恢复,健康状态生成与下传三部分,如图1所示。
图1 航天器自主健康管理工作流程图
以往,星上不能自主识别、处理更多的故障,是由于不能及时获取足以支撑进行故障定位和处理的足够的有效信息。数据集成的输入即为原始采集遥测,该环节采用数据的多维动态可配置的方式,使设计出的通用参数匹配构件能够满足不同航天器的需求。难点在于参数匹配模型的抽象与建立。模型建立的过程需要多判据间形成可扩展的拟合关系,关键遥测采用备份设计,判决异常时经过拟合过程确保数据的有效性。
依据健康遥测自主判读结果进行故障的识别、诊断,对明确处置措施、且处置措施无风险的故障进行自主处理,并形成对应的事件报告和异常计数遥测,结合健康状态生成与下传模块完成遥测的下传。该过程的难点在于选用合适的方法完成故障的识别。
航天器自主健康管理的核心是对自身健康状态进行监控和判读,自主完成故障识别,并采取隔离、恢复等处置措施[2]。根据航天器自主健康管理的核心任务,将整个系统设计划分为4大模块,各模块组成见图2。原始采集数据通过健康管理规则库生成健康状态字,将由多通道采集数据通过数据拟合器综合生成健康状态字,能够保证数据源的可信性和有效性;由故障诊断与处置模块进行健康状态判决,对故障状态执行事件的记录、故障数据的记录及采取恢复措施;最后通过健康数据收集与下传模块汇总健康数据,将事件记录、故障数据和健康状态信息下传。
图2 自主健康管理系统设计模块构成
1)构建健康管理规则库,用链入码串联数据流,灵活设置健康检测规则。
典型的监视系统状态的方法有两种,分别是极限检查和基于模型的检测[3]。
极限检查:一种跟踪系统关键参数是否处于正常工作范围的方法。存在参数范围可能随着系统寿命或不同操作状况而发生改变的问题。
基于模型的检测:它将系统当前状态同模型相比对,如果当前行为偏离模型的预期,则认为系统处于故障状态。这种方法受系统模型好坏的制约,当前阶段在轨获得的有效建模数据量有限,影响系统模型的构建。
针对两种常用手段的可实现程度,提出并实现一种扩展型极限检查方法,构建健康管理规则库,支持灵活修改系统关键参数范围与检测规则。自主健康管理规则库是航天器自主健康管理的依据,负责引导完成自主健康管理。它的建立过程是将以往人工健康管理手段和管理策略代码化[4-6]。规则库由三部分组成:规则链入模块、规则元语、规则提取器。
(1)规则链入模块:读取文本文件中的关键参数的定量值,将其转化成软件代码嵌入系统中。
该模块涉及关键参数的选取、阈值关系和阈值范围的设置。建立规范化的链入表格设计规则,通过工具软件生成规则元语,降低人工开发引入的错误,提高开发效率和正确率。文本示例如表1、表2所示,表1生成规则元语,表2定义规则提取方式,生成规则提取器。
表1 规则链入文本示例1
表2 规则链入文本示例2
(2)规则元语:是健康管理规则库的基本单元,由规则链入模块自动生成,具有唯一性。将一条包含关键参数与正常范围信息的语句设定为基础判断元语,故障诊断过程中需要依据的所有规则都由基础元语组合生成。为每一条规则元语自动设置专属链入码,便于规则提取器快速提取。有效规则元语在使用时,具有特定性,即每一个规则元语只服务于一个故障识别模式,多个故障识别模式中出现相同的判决条件时,对应的规则元语拥有不同的专属链入码。
(3)规则提取器:通过规则链入模块,将规则元语按一定规则进行组合,建立故障诊断的方案。为了实现航天器自主高效地故障诊断。该模块实现过程,采用图形化选择的方式,避免人为检入链入码带来的错误,规避操作风险。
健康管理规则库构建的过程,以其核心的链入码将数据流串联,实现高定位,高灵活性的规则设置,支持在轨参数的修改,可修改规则链入文本中的各项内容。并能够通过状态下载的方式,支持设置的校验。
(4)多维动态配置库:基于规则链入模块、规则元语、规则提取器实现。分为两个操作层级:
针对开发阶段:通过规则链入表格的升级实现。
针对应用阶段:通过上注指令的方式,修改规则元语与规则库。
达到的效果是,支持故障识别的全更新,能有效提高系统的使用效能。
2)执行多通道采集数据拟合,实现双流程的健康数据生成,提高数据有效性。
航天器的数据采集由数据采集终端和智能终端联合实现。通常由数据采集终端完成对硬通道遥测数据的采集,由智能终端实现软通道遥测数据的采集,出于安全性考虑,将硬通道采集设计成双备份形式,即通过主备两个通道对同一数据源的数据进行采集,可规避在一台数据采集终端出现问题时导致重要数据采集数据无法获取的问题[7]。同时,软遥测与硬通道遥测相结合的故障判决方式能够进一步加强故障识别能力。而针对无硬件遥测的状态,支持全软遥测的故障判决。
针对上述特点,根据不同的数据源类型设计两种数据拟合方案,以提高故障识别的准确度。
方案1:适用于数据采集终端采集的硬通道遥测数据与智能终端采集的软通道遥测数据有冗余备份关系的情况,例如电源分系统。由数据采集终端的主备硬通道遥测数据和由智能终端采集的软通道遥测数据发送给中央处理单元,在中央处理单元数据管理系统中依据规则库中的规则,分别生成健康状态字a、b、c。对健康状态字a、b、c进行数据拟合,综合生成健康状态字。同时在健康状态字变化时刻记录事件数据与故障数据信息[8]。冗余备份的遥测设计能够对故障的发生起到增强识别的作用,在软遥测异常时,只要硬通道遥测其一发生异常,则可将识别出异常状态。同时,该方案支持故障的加严判决,即也可设定必须a、b、c三者均为异常特征时,才做为故障。数据拟合方式如图3所示,任一数据拟合器有3个数据源。
图3 健康数据拟合-方案1
方案2:适用于数据采集终端采集的硬通道遥测数据与智能终端采集的软通道遥测数据没有冗余备份关系的情况。由数据采集终端的主备硬通道遥测数据分别生成健康状态字a、b,由软遥测通道生成健康状态字c。ac,bc,ab,cc,通过abc三种数据源两两组合的方式,通过数据拟合器生成健康状态字。特别的是,该方案中允许cc作为数据拟合器的数据源,由全软遥测执行故障识别操作。同时,在健康状态字变化时,记录事件信息及故障信息[9]。由智能终端采集的软通道遥测数据通过数据拟合器生成分系统/单机健康状态字,并在健康状态字变化时刻记录事件数据与故障数据信息,如图4所示。任一拟合器有两个输入源。
图4 健康数据拟合-方案2
综上,两种方案的选用策略,与硬件设计相关,原则为:重要安全相关遥测设计硬通道备份遥测,执行故障识别时,选用方案1;无硬通道备份的遥测,执行故障识别时选用方案2;无硬通道遥测的终端故障状态,执行故障识别时选用方案2。
为每一个故障识别条目设定一个健康状态字,默认为健康状态。在选用数据执行故障识别判决时,应关注数据有效性,数据的有效性应作为判决的前提。设置异常计时器,在满足异常条件时计时加1,不满足条件时及时清0。在异常计时器达到异常门限后,对应健康状态字变为异常,发生健康状态跳变,生成故障事件,保存故障前后一段时间的相关数据,以备后用。
3)故障诊断与处置模块,执行自主健康分级分类管理,提高安全性设计。
该模块输入为健康状态字,输出为故障事件、健康状态、故障数据。以生成的健康数据为基础,采用分级管理分类处理的原则执行自主故障处置。
分级管理原则:设备的自检、健康遥测数据的自主判读、故障的诊断与处置都遵循分级管理的原则,分为单机级、分系统级和系统级分别管理。不同层级的故障处理机制,使每一层级均对下一级的数据进行预处理,剔除或压缩无效数据,提取有效数据并生成更有效信息(健康状态数据)向上传递,改变了现有航天器遥测数据从源到地面的状态,数据有效性大大提升。为了防止航天器自主故障处理带来风险,设置自主故障处理功能使能禁止开关,只有定位清晰、处置措施无风险的故障,才使能由航天器自主处理。
分类处理原则:将航天器上设备分为长期工作设备、短期工作设备两类,不同类别设备采取不同手段的故障处置。对于长期工作设备,检测并记录其健康状态后,对有时效性要求的故障及时进行航天器自主处理措施。对于短期工作设备,故障后仅自主进行重新加断电操作,不进行自主切机动作。该手段有效确保了航天器运行的安全性[10]。
4)健康数据收集与下传模块,接收故障结果相关信息,包括故障事件、健康状态、故障数据,完成相关数据的组织与下传。
作为健康管理系统全数据流的最后一道关口,健康数据收集与下传模块主要执行两方面工作:数据收集、数据下传。
对于数据收集,应区分数据类别,不同类别数据形成专用数据包,设计健康事件包、健康状态包、故障数据记录包。健康事件包为突发包,在生成时可立即下传,确保故障状态在第一时间下传给地面。同时应进行事件个数累加操作,并作为遥测下传,作为辅助故障排查的依据。健康状态包,能够实时反应健康状态即可,按一定周期进行数据的存储,在执行故障排查时可作为辅助的依据。故障数据记录包,将故障发生前后一定时长范围内的数据记录下来,在发生故障时,可通过发指令的方式将该包下传,辅助排查。
数据的下传,针对故障事件、健康状态、故障数据三类数据采用不同策略,已在上文中简述,分别为:突发、存储回放、指令触发的方式。
该设计方案已在多个航天器得到整器级测试验证,对恢复航天器正常工作状态起到了关键性作用。在工程实用性上具有明显优势,提炼总结10余项功能和算法,形成通用化构件,多维动态可配置的设计,使软件代码复用率达90%以上,研制效率有效提高3倍,型号间通用化程度有效提升。该设计方案对提高航天器自主健康管理的具有较高的通用性设计意义。
后续需深入研究基于大数据分析的航天器故障诊断、预测、健康状态评估技术,为航天器任务管理和运行维护提供更高水平的系统健康状态分析能力。