肖雪迪, 杨海峰, 尹骁阳, 俞 进
(北京空间飞行器总体设计部, 北京 100094)
单点故障模式指引起单机、分系统、系统功能丧失,且没有冗余或替代产品作为补救的产品故障。对于承担天地往返运输任务的载人航天器来说,系统级单点故障模式可能导致交会对接任务失败或严重降级,甚至导致航天器无法返回、危及航天员健康和生命。因此,全面识别系统级单点故障模式,并采取相应的控制措施对于预防风险、确保载人飞行任务成功和航天员安全非常关键。
目前,国际通用的单点故障模式识别方法是故障模式影响分析技术(Failure Mode and Effect Analysis,FMEA),该方法自底向上进行分析,以工作表的形式逐级列举故障模式、对上一层级的影响以及对最终层级的影响,从而完成系统内部单点故障模式的识别[1-3]。对于载人航天器、运载火箭等复杂系统,由于系统复杂程度高,已有认知模式有限,仅靠FMEA 难以全面识别单点故障模式[4]。
目前,国内航天器在FMEA 工作的基础上,将严酷度I、II 类的不期望事件作为顶事件,对其进一步开展故障树分析(Fault Tree Analysis,FTA),计算出一阶最小割集,从而识别出单点故障模式[5-6]。FTA 自顶向下分析,得到的结果与FMEA 相互补充,但FTA 顶事件很难全面确定,且与设计师主观理解相关[7-9]。杨海峰等[10]提出了基于关键事件的单点故障模式识别方法,首先制定影响任务成败的关键事件识别原则,并识别出一系列关键事件,再将关键事件作为故障树的顶事件进行分析,从而识别出系统级单点故障模式。
基于FMEA 和FTA 进行单点故障模式识别,可有效识别出单机内部的故障模式,但较难识别出具有冗余备份的单机存在的“假冗余、真单点”。例如某单机具有A、B 机冗余备份,但A、B机共用电源和切换模块。当共用电源失效时,A、B 机均无法工作;当A 机故障、需要切换到B 机工作时,若切换模块故障导致切换不成功,A、B机均无法工作。上述2 种情况下,虽然采取了冗余备份措施,但实际上仍然存在单点故障模式,即“假冗余、真单点”,冗余措施失效。而在进行FMEA 和FTA 分析时,通常容易识别出该单机内部故障模式,但难以涉及共用电源故障和切换模块故障模式,即难以识别出“假冗余、真单点”,无法保证单点故障模式识别的全面性。
本文提出基于冗余有效性分析的航天器系统级单点故障模式识别方法。在FMEA、FTA 工作的基础上,对存在冗余备份的单机进行冗余有效性分析,识别冗余备份产品之间的共用环节和切换环节,并分析导致冗余备份产品全部失效的共用环节故障模式和切换环节故障模式,从而识别出“假冗余、真单点”,将冗余有效性分析与FMEA和FTA 结合,最终全面识别系统级单点故障模式。
本文基于冗余有效性分析的系统级单点故障模式识别方法主要流程如图1 所示。
图1 基于冗余有效性分析的系统级单点故障模式识别方法Fig.1 Single point failure identification method based on effectiveness analysis of redundancy measures
1)确定分析对象。冗余有效性分析的对象是具有冗余备份设计的产品。在识别系统级单点故障模式时,仅需对影响系统级任务且具有冗余备份设计的关键单机产品进行分析。为识别关键单机,需要自顶向下进行分析。首先进行任务/目标分析,明确系统级任务和目标,例如对于载人航天器,系统级任务和目标是确保交会对接任务成功和航天员安全返回;其次,分析影响系统级任务完成的关键功能;最后,分析影响关键功能的关键单机,这些关键单机中具有冗余备份设计的即为系统级单点故障模式识别中冗余有效性分析的对象。
2)故障隔离分析。进行故障隔离分析时,对冗余备份设计中的一个备份开展FMEA,并逐一分析这些故障模式是否会导致其他备份失效,即各冗余备份的故障是否可以相互隔离。若某故障模式会导致其他备份失效,则该故障模式对于该单机功能层级即为单点故障模式。为确定该单点故障模式是否为系统级单点故障模式,需进一步分析分系统层级对该单机功能是否有冗余备份措施、系统层级对分系统功能是否有冗余备份措施。若分系统、系统层级均无有效的冗余备份措施,该故障模式即为系统级单点故障模式,需制定控制措施以降低风险。根据上述分析结果,记录产品名称、故障模式影响分析、分系统级冗余措施、系统级冗余措施、控制措施,形成故障隔离分析结果表。
3)共用环节分析。进行共用环节分析时,首先结合原理图、印制板设计图等,识别出主备份产品之间的共用电源、共用接口、共用晶振、共用表决单元等共用环节。对存在的共用环节进一步开展FMEA,识别出导致主备份产品全部失效的共用环节故障模式,该故障模式对于该单机功能层级即为单点故障模式。利用2)中提到的方法进一步分析该故障模式是否为系统级单点故障模式,根据上述分析结果,记录产品名称、共用环节、工作状态、故障模式影响分析、分系统级冗余措施、系统级冗余措施、控制措施,形成共用环节分析结果表。
4)切换环节分析。对于有冗余备份设计的单机产品,有2 种冗余备份形式:热备份设计和冷备份设计。热备份设计指主备份产品同时加电工作,互为热备份;冷备份设计指正常情况下只有主份产品工作,主份产品故障时,切换至备份产品工作。因此主备份产品切换环节的可靠性直接影响了冗余备份的有效性。进行切换环节分析时,首先识别主份产品失效时切换到备份产品的切换环节,之后对切换环节开展FMEA,识别出导致切换环节失效的故障模式。该故障模式发生时,主份产品失效情况下无法切换到备份产品工作,主备份产品同时失效。对于该单机功能层级同样为单点故障模式,再利用前述方法进一步分析该故障模式是否为系统级单点故障模式,若为系统级单点故障模式,需采取控制措施降低风险。根据上述分析结果,记录产品名称、冗余备份形式、切换环节说明、故障模式影响分析、分系统级冗余措施、系统级冗余措施、控制措施,形成切换环节分析结果表。
通过上述冗余有效性分析,可有效识别“假冗余、真单点”,全面识别系统级单点故障模式。
目前,载人飞船系统已将上述单点故障模式识别方法应用于系统级单点故障模式识别工作中。
载人飞船系统级任务是确保交会对接任务成功和航天员安全返回。围绕以上任务,分析姿态与轨道控制、遥控遥测、载人环境控制等关键功能,进而识别出与关键功能相关的译码单元、控制器等关键单机,这些关键单机均具有冗余备份设计,本文从故障隔离分析、共用环节分析和切换环节分析3 个方面开展冗余有效性分析。
以某译码单元为例说明故障隔离分析方法。译码单元是实现载人飞船系统上行遥控功能的关键单机,接收地面上行指令,译码后发送给各设备,其原理如图2 所示。译码单元由热冗余备份的A 机和B 机组成,A 机和B 机供电独立、输入信号独立,输出信号经过各自的三极管后合并输出。经分析可知,译码单元A 机或B 机有以下故障模式:①译码模块故障;②三极管开路故障;③三极管短路故障。当某机出现译码模块故障或三极管开路故障时,另一机仍可正常输出译码信号;某机出现三极管短路故障会导致双机均不能正常工作,因此该故障模式对于单机功能层级为单点故障模式。
图2 某译码单元原理图Fig.2 Schematic diagram of a decoding unit
在系统层级,另一分系统设计了另一种原理的译码设备,与该译码单元互为异构备份,因此该译码单元某机三极管短路故障不是系统级单点故障模式。为了降低故障发生的概率,需加强对三极管的筛选,对集电极导通电压等参数严格测试,确保在指标要求范围内。
经过上述分析,汇总得到表1。
表1 某译码单元故障隔离分析结果Table 1 Failure isolation analysis results of a decoding unit
以某控制器为例说明共用环节分析方法。该控制器是实现载人飞船系统对接功能的关键单机,控制器收到动作指令信号后,自动产生控制信号送给驱动器,驱动器收到控制信号后驱动执行机构运动,从而完成目标动作。控制器由二次电源模块、CPU 模块、表决模块和控制信号输出模块组成,原理如图3 所示。一次电源输入后分成3 路,分别送给3 个二次电源模块,经过电压转换后产生+5 V 电压分别给3 个CPU 供电;此外,3 个二次电源模块合并产生+5 V 公共电源,再分成2 路,分别给2 个表决模块供电。3 个CPU 输出信号均送给2 个同时工作的表决模块,表决模块对3 个CPU 输出信号进行表决后,驱动控制信号输出模块产生控制信号。
图3 某控制器原理图Fig.3 Schematic diagram of a controller
由图3 可知,该控制器内部采取冗余备份设计的模块为二次电源模块三机热冗余、CPU 模块三机热冗余、表决模块双机热冗余、控制信号输出模块双机热冗余。经分析,3 个二次电源模块不存在共用环节,3 个CPU 模块不存在共用环节,2个控制信号输出模块不存在共用环节,而2 个表决模块共用+5 V 公共电源。
+5 V 公共电源的产生原理如图4 所示,3 个二次电源模块分别输出+5 V 电源,经过隔离二极管输出后合并为一路,形成+5 V 公共电源,再分成2 路,分别给2 个表决模块供电。对+5 V 公共电源产生模块进行分析,有以下故障模式:①单个二次电源模块短路故障;②单个二次电源模块开路故障;③电路公共段(AB 节点间印制线)对地短路故障;④电路公共段(AB 节点间印制线)开路故障。当发生单个二次电源模块短路故障时,该路的熔断器会熔断,不会影响其他2 个二次电源模块工作,+5 V 公共电源仍可正常输出,不影响表决模块工作;当发生单个二次电源模块开路故障时,其他2 个二次电源模块仍能正常工作,+5 V 公共电源仍可正常输出,不影响表决模块工作;当发生电路公共段对地短路故障或开路故障时,+5 V 公共电源失效,2 个表决模块均不能正常工作,最终导致该控制器失效。因此,电路公共段对地短路故障和开路故障对于单机级功能是单点故障模式。
图4 +5 V 公共电源产生原理图Fig.4 Schematic diagram of the +5 V public power
而对于分系统层级,若控制器功能失效,可退出自动控制,采用地面发指令的方式直接控制驱动器,实现目标动作。通过上述分系统功能层级的冗余备份措施,+5 V 公共电源电路公共段对地短路故障和开路故障对于分系统级和系统级功能都不是单点故障模式。但为了降低故障发生的概率,仍然要对电路公共段采取控制措施,通过印制板涂三防、间距控制等措施防止电路公共段对地短路;通过加强印制板筛选、导通测试等措施防止电路公共段开路。
经过上述分析,汇总得到表2。
表2 某控制器共用环节分析结果Table 2 Common link analysis results of a controller
以采用双机冷备份设计的某转换器为例说明切换环节分析方法。该转换器是实现载人飞船系统下行遥测功能的关键单机,对采集的数据流进行格式转换后下传到地面,原理如图5 所示,通过一个继电器实现主份和备份转换器的切换。正常情况下,K1 线圈接通,吸合继电器开关与触点A接通,主份转换器(转换器A 机)正常工作;当主份转换器故障时,需要将K2 线圈接通,从而吸合继电器开关与触点B 接通,切换至备份转换器(转换器B 机)工作。
图5 转换器原理图Fig.5 Schematic diagram of the converter
对切换继电器进行故障模式影响分析,有以下故障模式:①继电器开关粘连;②K2 线圈开路;③K2 线圈短路。当主份转换器出现故障需要切换至备份转换器时,若切换继电器发生上述故障模式,继电器开关均不能与触点B 接通,即转换器不能从主份切换至备份,主份和备份转换器均不能正常工作,航天器采集的数据流不能下传。因此,对于单机功能层级,切换继电器存在单点故障模式。又由于分系统层级和系统层级均没有冗余备份措施,因此,转换器切换继电器故障是系统级单点故障模式。
为了降低故障发生的概率,对切换继电器从元器件选型、总装、测试、在轨飞行等环节制定控制措施,详见表3。
表3 转换器切换环节分析结果Table 3 Change-over link analysis results of the a converter
按照上述分析方法对所有采取冗余备份设计的关键产品进行冗余有效性分析,识别出共用环节和切换环节,分析其故障模式和对系统功能的影响,识别出“假冗余、真单点”,有助于全面识别系统级单点故障模式。
1)提出了基于冗余有效性分析的航天器系统级单点故障模式识别方法,并在载人航天器中成功应用,解决了基于故障模式影响分析和故障树分析的单点故障模式识别方法难以识别单机假冗余的问题,有助于全面识别系统级单点故障模式;
2)基于冗余有效性分析识别出的故障模式,即使最终不是系统级单点故障模式,也是系统中的薄弱环节,应采取相应的控制措施,降低故障发生的概率;
3)对识别出的系统级单点故障模式,应从单机生产、总装、测试、在轨飞行等环节制定控制措施,保证航天器产品质量,降低飞行任务风险。