北京广利核系统工程有限公司 李熊,程康,张春雷,金成日
可靠性工程学是一门成熟的专业学科,从可靠性数学基础到可靠性设计、可靠性管理、可靠性试验与评估,可靠性分析等,已经逐步形成了可靠性工程学中的专业学科。可靠性是产品的基本属性,在产品诞生之时就伴随而生,并不因是否开展研究而存在。
安全性是广义的概念,最早引起关注的是产品本身的安全性,即所谓的本质安全。发展到现代,还需要考虑设备对环境的安全性,设备对人的安全性等,近年来功能安全方面的研究更是取得了丰硕的成果。
仪控系统作为整个核电站的中枢神经系统,对确保核电站的安全、经济运行起着至关重要的作用,对其可靠性与安全性有着全面的要求。虽然可靠性和安全性有一定的关联性,但有不同的概念,研究的核心和重点也不同,不能相互混淆,更不能相互替代。本文从核电仪控系统研发过程入手,从概念理论和应用角度分析它们的关系与区别。
可靠性定义是产品在规定的条件下,在规定的时间内完成规定功能的能力。可靠性概念包含三层含义。首先,产品的可靠性是以规定的条件为前提。所谓规定的条件是指在规定的时间内产品使用的应力条件、环境条件和储存条件等。规定的条件不同,产品的可靠性也不同。其次,产品的可靠性与规定的时间密切相关。一般来说,电子产品经过老化时间后,有较长的稳定使用期。之后,随着时间的推移,稳定性逐渐下降,可靠性降低。时间越长,可靠性越低。最后,产品的可靠性是用完成规定的功能来衡量的。这里所谓的功能是指产品的全部功能,而不仅指其中一部分。产品只有完成规定的的全部功能,才被认为是可靠的。系统或系统中一部分不能完成预定功能的事件或状态称为故障或失效。
在可靠性理论中,描述可靠性的指标有很多种,这里给出最基本的几个可靠性指标。
(1)可靠度函数
可靠度是指产品在规定条件下和规定时间内完成规定功能的概率。显然,可靠度是可靠性的定量表示,通常用R(t)表示:
式中:R(t)—产品在时间t内正常工作的概率;N—总样品数;
n—规定时间t内的故障数。
(2)故障率
故障率是指产品工作到t时刻后的单位时间内的失效数与在t时刻尚能正常工作的产品数之比。
(3)平均寿命
平均寿命是指产品正常工作的平均时间,对不可修复产品,是指产品失效前的平均工作或储存时间,记为MTTF(Mean Time To Failure);对可修复产品,平均寿命是指相邻两次故障间的平均时间,称为平均无故障工作时间或平均故障间隔时间,记作MTBF(Mean Time Between Failure)。
(4)可用性
可用率是在任何一个时刻,系统正常工作的可能性。可用性表达了一个设备能够正工作的百分数。常用的可用率计算公式如下:
式中:MTBF为Mean Time Between Failure;
MTTR为Mean Time To Repair平均故障修复时间。
安全性是指不发生事故的能力,是判断、评价系统性能的一个重要指标。它表明系统在规定的条件下,在规定的时间内不发生事故的情况下,完成规定功能的性能。其中事故指的是使一项正常进行的活动中断,并造成人员伤亡、职业病、财产损失或损害环境的意外事件。
分析核电控制系统安全性时,必须考虑两种重要的失效模式:安全失效与危险失效。安全失效是不会使系统处于潜在的危险状态或功能故障状态的失效,核电控制系统安全失效一般为误动。危险失效是可能使系统潜在的处于某种危险或功能丧失状态的失效,核电控制系统危险失效一般为拒动。
描述安全性的指标有很多种,这里给出最基本的几个安全性指标。
(1)拒动概率
保护系统不能按命令(信号)执行规定动作的概率。
(2)诊断覆盖率
诊断覆盖率定义为进行自动诊断测试而导致的硬件危险失效概率的降低部分。诊断覆盖率可以通过将检测到的失效率相加,并除以总的失效率来得到。具有失效检测能力是任何控制系统或者安全系统的重要特征,这一特征可以减少维修时间,并控制一些容错结构的运行。
式中:DC—诊断覆盖率;
DD—检测到的危险失效率;
total—总的危险失效率。
广利核公司设计开发核电控制系统时,将可靠性分析和设计方法贯穿于产品的全寿命周期,在概念、设计研制、制造、使用和维修全寿命周期内开展可靠性工作。在每个阶段都充分利用可靠性设计和分析方法,力求将产品的故障率控制到最低,分析流程如图1所示。
图1 可靠性设计分析流程
(1)概念阶段
对系统全寿命周期历程进行分析,提出各个阶段的使用条件定义,明确系统可靠性要求和指标。
(2)研制阶段
为使系统的设计可靠,将可靠性设计和分析方法融入贯穿到研发流程中,使之得到有效利用。其中包括可靠性分配、零部件及材料管理和优选、元器件降额、冗余设计、环境适应性设计、热设计、EMC设计、FMEA、FTA、机械有限元分析、可测试性设计、容差分析、维修性设计、故障诊断设计、可靠性预计等。
(3)生产调试阶段
对系统进行有效的试验,包括可靠性鉴定试验、可靠性测定试验、可靠性验证试验、可靠性增长试验、加速寿命试验、数据分析等。通过试验分析确定系统是否满足可靠性要求,并将实验数据反馈给可靠性设计分析。
(4)现场应用阶段
对失效现象进行详细的失效分析,并将失效分析结果反馈给可靠性设计分析。对现场应用数据进行收集,并将数据反馈给可靠性设计分析。
广利核公司设计开发核电控制系统时,将安全性设计与分析贯穿整个研发和验证流程,从系统研制初期的论证阶段开始进行,并贯穿于工程研制、生产阶段的系统性检查、研究和分析危险。充分分析系统或设备在使用模型中的工作状态,确定潜在的危险,预计这些危险对人员伤害或对设备损坏的可能性,并确定消除或减少危险的方法,以便能够在事故发生之前消除或尽量减少事故发生的可能性,降低事故有害影响的程度。
(1)安全性分析方法
在核电领域得到广泛应用的安全分析方法有确定论评价方法与概率分析评价方法,如图2所示。前者从定性的角度评价核电仪控系统安全性,通过分析各类故障及其影响,发现产品薄弱环节,提出改进建议,且对每种故障逐一提出诊断和控制方法,为产品整体安全设计提供设计准则,为安全管理决策提供依据。该方法主要从单故障分析和多故障分析两个方面进行,单故障分析主要的分析方法为FMEA(失效模式与影响分析)、PHA(过程危险分析)、SHA、HAZOP等,多故障分析主要分析方法为共因故障分析、FTA、ETA等。
概率安全评价方法从定量的角度评价数字化仪控系统,通过计算各项安全性指标、分析系统敏感性和重要度,从而达到对系统的安全性进行评价和发现产品薄弱环节的目的。该方法主要从静态分析和动态分析两方面进行,静态分析主要分析方法为RBD、FTA、ETA等,动态分析主要分析方法为Markov和DFM。
图2 安全分析方法
(2)安全性设计方法
安全性设计是在系统安全性分析的基础上,通过各种设计活动消除或控制危险,防止所设计的系统在研制、生产、使用和保障过程中发生导致人员伤亡和设备损坏的各种意外事故。
安全性设计需要解决下列问题:
如何设计才能使系统准确地完成其既定功能?
如果系统功能已经出现异常或失效,如何能将其造成的危害降到最低?
第一个问题可以理解为如何避免系统故障,这个角度跟可靠性设计目的是一致的。
第二个问题可以理解为系统故障后的控制。对于系统自身能控制的故障主要通过自诊断设计使故障能被诊断出来,并且将故障导向安全。对于系统自身不能控制的故障主要通过多重冗余表决架构和纵深防御后备系统进行控制。
分析核电仪控系统中安全性与可靠性的关系及区别,可以从以下几点加以讨论。
(1)概念上来讲,可靠性概念关注的核心是寿命,旨在分析、控制和预防系统的故障,分析对象是故障,安全性关注的核心是安全与危险,旨在识别、评价、消除或控制中的危险,分析对象是危险和风险。
对于整个系统来说,系统故障集和危险集部分相互覆盖。有些时候故障是安全的,即系统故障造成不可靠性,但不导致安全性丧失(如图3中FS区域),例如:核电安全控制系统的模拟量输入端出现错误,但是控制系统通过诊断控制设计将失效导向安全输出。
有些时候故障等于危险,不可靠性就是不安全(如图3中FH区域)。例如:当核电安全控制系统的输出控制端失效,导致系统拒绝本该进行的停堆动作。
有些时候危险因素造成不安全,但不导致系统故障(如图3中H区域)。例如:远低于安全阀值的模拟量偏差。
图3 故障与危险关系图
(2)从设计目的上来说,可靠性的目的是将系统的失效率控制到最小,安全性在控制系统失效率的同时,重点研究失效发生后不会发生安全事故,将危害减到最小。因此,在防止故障方面,可靠性和安全性的利害关系是一致的。可以说可靠性是安全性的前提和基础,产品只有在保证可靠性的前提下,考虑安全性才有意义。不可靠的产品,安全性无从谈起。
但在实际设计时,安全性和可靠性有时是矛盾的。按照安全性设计理念,希望故障被诊断发现,并能通过设计导向安全。这样必然使设计更为复杂,在一定程度上增加了系统的故障率,降低了系统的可用性。但若只考虑可靠性,那么安全性也无法保证。
(3)从分析方法上来说,安全性分析方法中的确定论评价方法和概率分析评价方法无论是所依据的理论基础,还是技术方法,都与可靠性分析有着密不可分的关系。在安全性分析中统治地位的FTA、ETA和FMEA,同样在可靠性分析中不可缺少。这些分析方法在系统可靠性、安全性分析中是相互补充、相辅相成的关系,需要根据可靠性分析与安全性分析各自的结果采取改进措施,以满足系统可靠性、安全性的全面要求。
同时,在分析系统可靠性时,必须关心不同故障模式的潜在后果。对于那些会引起安全问题的故障,需要作出安全评价,这时可靠性与安全性分析将结合在一起。
(4)核电仪控系统对可靠性和安全性有着不同的定量要求,安全性的度量是危险概率或风险值,涉及事件的发生概率与后果。可靠性是按照系统执行其预定功能能力来确切度量的,度量一般为MTBF值和可用性等。两者的定量要求计算分析方法不同,但都是以失效概率为出发点进行的。
(5)可靠性高的产品未必就是安全性高的产品,以核电控制系统中常用的冗余系统设计为例,当采用3重并联冗余设计时,其可靠度数学表达式为,而当采用3取2表决冗余设计时,其可靠度数学表达式为(假设表决器可靠)。可以看出3重并联冗余设计可靠性要优于3取2表决冗余设计,其逻辑图如图4、图5所示。但3取2表决冗余设计增加了表决器,在表决单元完好地进行数据判断,降低故障误报率,安全性比3重并联冗余设计高。
图4 3重并联冗余逻辑图
图5 3取2冗余逻辑图
从概念、设计目的、分析方法、定量要求等方面可以看出,安全性和可靠性不等同,也不能混淆,但实际上又有着非常紧密的联系。在进行核电仪控开发时需要将安全性和可靠性工作同时开展,区别对待的同时紧密联合。
[1]孙怀义, 刘斌, 曹晓莉. 表决冗余系统可靠性与安全性研究[J]. 电子测量与仪器学报, 2011 (7).
[2]蔡琦. 船用核动力装置可靠性与安全性分析的关系探讨[J]. 海军工程学院学报, 1997(4).
[3]威廉•戈布尔. 控制系统的安全评估与可靠性[M]. 中国电力出版社, 2008.
[4]IEC 61508 Functional safety of electrical/electronic/programmable electronic safety-related systems[S].