程 卓 遇 今 郭泾平 郭振伟
(1 北京空间飞行器总体设计部,北京100094)
(2 中国空间技术研究院,北京100094)
(3 航天恒星科技有限公司,北京100086)
共因失效表现为多个冗余部件由于共同的原因在同时或在一段短时间间隔内相继发生失效。共因失效分析(CCFA)是对共因失效进行定性和定量分析,用于检验系统、部件之间是否满足独立性要求,分析共因失效条件下系统失效的概率。共因失效定性分析方法可通过典型共因失效检查单等方式识别系统中的共因事件薄弱环节,定量分析以定性分析为基础,通过逻辑建模、参数模型和数据分析等方法计算共因失效导致的系统失效概率。
国际上各工业领域对共因失效的认识逐步加深,美国国家航空航天局(NASA)在开展概率风险评价(PRA)的程序文件[1]中明确要求要考虑共因失效,包括定性和定量分析要求,防止低估风险。核电领域一直重视共因失效的处理,已形成了相应的标准规范[2]。欧洲空间标准化合作组织发布的标准ECSS-S-ST-00-01《术语》[3]也对共因失效进行了定义,并在可信性要求中给出了共因检查单。
国内目前在分析与预防共因失效方面开展的相应研究,如:清华大学等结合核电站的需求开展过共因失效相关技术研究,并出版了著作[4]来论述如何计算共因失效的概率;上海核工程研究设计院仇永萍等[5]介绍了在核电厂系统可靠性分析和概率安全评价中应用整合部分法(UPM)等共因失效分析方法。但是,在航天器领域关于共因失效的标准定义和分析的程序方法并没有建立起来,仅在目前应用的GJB 451A-2005《可靠性维修性保障性术语》[6]中对共因失效进行了定义,但在GB/T 3187-94《可靠性、维修性术语》[7]和其他行业标准中均未对共因失效进行定义。但实际上,在冗余结构中使用相同的单元已经成为提高航天器可靠性常见的策略,冗余单元的相似性造成的耦合因素经常出现在这种冗余结构中,容易导致共因失效事件。
共因失效广泛存在于航天器、核电站和飞机等复杂系统中。下文是美国在航空、航天及核工业领域发生的典型共因失效事件案例[1]:
1)航天领域
(1)无水肼泄露导致航天飞机第9次飞行任务(STS-9)上的两个辅助动力系统爆炸;
(2)当一根电缆发生短路后,在两个独立的发动机上的两个航天飞机主发动机的控制器均失效;
(3)两个O 形圈失效,导致航天飞机第25次飞行任务(STS-51-L)的一个固体火箭助推器中高温气体渗漏。
2)航空领域
(1)飞机多个引擎故障(如1988年福克(Fokker)F27;1992年波音(Boeing)747);
(2)美国道格拉斯公司的DC-10 飞机的2 号引擎失效导致3个液压系统均失效(1989年)。
3)核电领域
(1)三哩岛核电厂三个冗余的辅助水回路泵均失效;
(2)两个冗余电路板由于技术人员更换邻近的部件产生静电冲击造成失效;
(3)工人在核电厂内泵电机附近放置梯子粉刷天花板时突然切断两个冗余的泵;
(4)维修人员错误地将润滑剂加入几个冗余阀的电机绕组中,导致所有阀都不能工作;
(5)从新的供货方购买的小电机导致4个冗余的冷却风扇失效;
(6)单向阀被装反,阻断2个冗余回路的流动。
我国航天器在轨发生的共因失效案例:如某航天器控制计算机主份在轨失效,切到备份也同样失效,导致航天器最终失去控制;某航天器冗余电子设备主份和备份之间供电电源不独立,电源失效后导致冗余系统共因失效。
综上表明,不能及时、全面地识别出共因失效,会低估系统中存在的风险,可能导致严重后果。
航天器中冗余策略一般有两种:一种是利用相同设备进行冗余,另一种是利用不同的方式实现同一功能。第二种能有效防止共因失效事件的发生,而第一种则容易发生共因失效。
航天器共因失效定性分析的有效途径是按工作指南或检查单逐一分析、筛选,得出共因失效单元组(CCCG s),据此建立至单元层次的系统故障树(FT),再进一步分析得出共因基本事件(CCBEs),并引入到扩展的故障树中[1]。共因失效的原因一般与单个独立失效的原因没有区别,耦合因素是区分单个和多重失效事件的真正因素,可从以下几个方面进行分析:
1)相同的设计;
2)相同的硬件;
3)相同的功能;
4)相同的安装、维护和操作人员;
5)相同的程序;
6)相同的系统/部件接口;
7)相同的位置;
8)相同的环境。
按上述因素进行分析后可得到共因失效单元组,这个过程一般可以通过工作指南或检查单等形式完成。设计过程中可参照航天器预防共因失效设计指南(见表1[8]),防止将共因失效引入系统中,确保风险或代价最小。设计过程中或设计初步完成后,还可以利用共因失效检查单(见表2[9])进行复查,便于及早识别共因失效薄弱环节并控制风险。
表1 航天器系统预防共因失效设计指南Table1 Guide to prevent spacecraft system common cause failure
共因失效定量分析主要计算共因失效的概率,共因失效的概率计算是比较复杂的,有一种分类方法将其分为显式直接计算法和隐式间接计算法,前者目前国内外比较多采用的方法有β 因子法、双因子法、希腊字母法(MGL 法)、UPM 法等;后者是利用马尔可夫理论来处理事件之间的关联关系,其中β 因子法最为常用。文献[1]详细阐述了航天器实施PRA过程中对于共因失效事件的定量分析内容,包括初步定量分析和详细定量分析两个阶段,简要介绍如下。
初步定量分析采用相对保守的分析方法,首先修订单元层次的故障树模型,明确表示出每个共因失效单元组中每个单元内最多的共因失效事件。然后计算故障树的最小割集,一般在大型系统模型和事件序列中要对割集失效概率进行截断,独立失效事件往往因其概率值小而被截断,而共因失效事件保留下来。这时共因基本事件的失效概率数值通过能值“g”与单元的总失效概率来表示,如由A、B、C 3个单元组成的共因失效单元组,共因基本事件的概率用简单全参数模型表示:
其中P(A)是单元总失效概率。典型的能值g的取值范围在0.05~0.10 之间。
详细的定量分析方法推荐采用α因素模型法,该方法具有如下优点:
1)是一个多参数模型,可以处理任何冗余层次;
2)是基于失效率比值的,当无统计数据可用时使其参数评估更容易;
3)有一个简单的统计模型;
4)相比其他拥有上述特点的参数模型,能给出更准确的点估计值和不确定性分布。
α因素模型用到的参数有:
Qt—每个单元由于所有独立的和共因事件导致的总失效频率;
αk—在系统中发生由于一个共同原因导致k个单元失效的总频率的分量;
αt—在系统中发生由于一个共同原因导致所有单元失效的总频率的分量。
利用这些参数,依据有关系统冗余检测方式的假设,由m个单元构成的系统中涉及k个单元失效的共因基本事件的频率如下:
对于交错检测方案
对于同时检测方案
其中
文献[1]给出了3 取2表决模型按上述方法进行计算的例子以及参数估计方法,本文不再详述。
本文对航天器共因失效分析和预防方法进行了初步探讨,通过研究国内外航天器和核电站领域对共因失效的认识和控制,我国航天器在共因失效的分析和预防方面还需深入。航天器设计师在设计过程中应考虑常见的共因失效耦合因素,有效防止共因失效事件的发生,同时应加强对共因失效分析与预防技术的研究。
References)
[1]Michael Stamatelatos.Probabilistic risk assessment procedures guide for NASAmanagers and practictioners[Z].NASA.Version1.1.2002,8
[2]Mosleh A.Procedures for treating common cause failures in safety and reliability studies[C]// U.S.Nuclear Regulatory Commission and Electric Power Research Institute,NUREG-CR-4780,and EPRI NP-5613.Volumes 1 and 2,1988
[3]ECSS.ECSSS-ST0001 Glossary of terms[S].The Netherlands:ECSS Secretariat,ESA-ESTEC Requirements &S tandards Division,Noordwijk,2008
[4]黄祥瑞.可靠性工程[M].清华大学出版社,1990:173-189
[5]仇永萍,宋明海.UPM 共因失效分析方法在系统可靠性分析中的应用[J].可靠性论文,2004(S0):32-39
[6]宋太亮.GJB 451A-2005可靠性维修性保障性术语[S].总装备部军标出版发行部出版,2005,9
[7]机械电子工业部第五研究所.GB/T 3187-94可靠性、维修性术语[S].国家技术监督局,1994
[8]Peter J,Ali M.Dependent-failures in spacecraft:root cause,coupling factors,defenses,and design implications[C]// Proceeding Annual Reliability and Maintainbility Symposium,1995
[9]ECSS.ECSS-Q-S T-30C Space product assurance-Dependability[S].The Netherlands:ECSS Secretariat,ESA-EST EC Requirements & Standards Division,Noordwijk,2009,3