戴立操,高 山,刘 永
(南华大学人因研究所,衡阳 421001)
核电厂是技术和资金密集,能量积蓄巨大的复杂工业系统。复杂工业系统的英文complex 来自于com,意指共同的,plex,意指交织在一起。类似核电厂的复杂工业系统最重要的特点是系统的复杂性[1,2],具有系统与环境、系统与人以及系统、子系统之间复杂的交互作用。首先,复杂性来源于核电厂系统以及子系统功能的多目标特征,即系统在设计和运行时需同时考虑系统的效率、安全性和运行人员的福祉。其次,复杂性来源于结合精密的系统部件、复杂的技术和外部运行环境以及人员与系统之间的复杂交互。再次,复杂工业系统日常运行存在大量的动态变化,其层级特征在组织与运行设备之间的扁平化趋势中不断遭到削弱和侵蚀,人以及由人构成的组织对系统的运行和控制变得更加困难。
核电厂系统交互过程中大规模能量流动和转换对人员和环境具有潜在的风险。技术进步使得系统越来越复杂,潜在风险越来越高。如何提高核电厂类似的复杂工业系统运行安全性已经成为安全科学研究领域重要的课题之一。
核电厂安全研究开始于设备系统的可靠性研究。20世纪50年代,故障模式(FM)、影响及危害性分析方法(FMECA)广泛用于核电厂控制系统可靠性研究。随着核电厂建造的越来越多,1974年美国能源局研究发布了核电厂“WASH1400 报告”[3],该报告采用概率安全评价方法(Probabilis⁃tic Safety Assessment,PSA)评价系统整体安全状况。
研究人员发现核电厂事故是由设计和运行管理中一系列失误叠加导致的。INSAG报告[4]表明:安全文化缺失是切尔诺贝利事故发生的根本原因。安全文化是指存在于核电厂组织中单位和个人素质、态度的总和。随后的研究报告[5]提出“组织需对安全做出持续改进”。Davis Besse核电厂压力容器严重降级、切尔诺贝利等一系列核事故让人们开始意识到个体的人因失误及失误的预防对策均是在组织的综合管理下实现的。由人和人之间的协作关系形成的组织及其组织文化、组织结构和组织行为过程在复杂工业系统的设计、运行、维护和退役过程中起着至关重要的作用,人因失误研究开始从个体发展到组织。
随后,研究者对组织因素如何影响核安全做了一系列的研究。1990年,Reason提出瑞士奶酪模型[6]。Reason 认为,人因失误的产生是由其上游的因素——工作环境和组织因素引起的,系统缺陷穿过组织屏障引起事故。Reason[7]在其组织事故模型中提出三种基本元素、组织过程、任务和环境条件以及可能的不安全行为。Woods[8]发展了Reason 的理论,认为核运行组织风险中组织尖端(组织与系统的人机接口)起着非常重要的作用,组织风险通过组织尖端传递给系统。Coo⁃per等[9]研究了复杂系统人机接口的人员行为,将组织管理因素作为“迫使失误情景因子”。Holl⁃nagel[10]采用四种组织因素(混乱的、机会的、战术的和战略的)的控制模式来描述人员在复杂工业系统中的行为。Oien[11]建立了组织风险形成因素的概念框架。上述研究中,无论是迫使失误情景因子、组织控制模式,还是组织风险的形成因子,都集中于核运行组织各因素对组织尖端中个体和班组人员行为的影响。组织因素决定了核运行组织尖端人机接口中的人员行为,从而决定了核电厂系统的安全性。组织失效会导致人员行为失效从而给系统带来风险。安全分析的目标是辨识组织失效,预防事故的发生。
2011 年,福岛核事故发生,地震和海啸导致全厂失电,堆芯损伤,放射性物质严重外泄。福岛事故由于外部事件叠加应急缺陷导致严重后果。事故证明,系统风险不仅可能来自系统内部运行不确定性,也可能来自系统外部环境。组织不仅需要采用控制-适应策略管理系统内部的动态变化,而且需要管理系统外部环境冲击。工业组织安全理论研究自20世纪50年代以来不断发展,研究对象从系统部件到人,再到运行组织。研究方法从系统部件可靠性方法发展到综合考虑人-机-环的PSA 方法。但无论是单个部件的“失效模式”分析,还是PSA 的“假想系统事故发生的可能性”,安全研究始终处于一种“事后”的角度,即预先演绎系统失效模式,分析和研究这些失效模式的根本原因。核电厂系统事故是由于多种因素的共同(同时)作用发生的,是未知风险,是已知风险的未知组合。系统层次的复杂性、系统元素间复杂的作用方式等使得风险的产生过程与Reason 的线性分析模型并不一致。组织定向的原因分析法越来越无法满足安全研究发展的需要。安全研究需定位于无论系统如何失效,核电厂运行组织都需维持系统的安全裕度。安全研究需要从“事前”“主动”的角度,研究组织的本质能力,即组织弹性[12-15]。
传统的安全分析方法采用事后因果关系分析观点,即分析事故发生的原因。这些原因有可能是人因,有可能是系统设备失效,有可能是人机交互失效。传统的安全分析方法试图消除失效的原因从而改善系统安全。事后分析方法的最大困难是无法掌握系统与人、环境以及子系统之间的运行动态变化关系,定义完整的系统失效模式。为解决这个问题,必须从事前主动的角度来进行安全分析。其分析方式从失效模式分析转换为成功模式分析,也就是研究运行系统的组织弹性。其基本假设是,如果运行组织能够适应系统的动态变化,在核电厂系统运行过程中即使发生了人因失效,系统失效和人-系统交互失效,组织具备缓冲、吸收和恢复的能力,事故不会发生。系统的成功准则是组织能够有效地监视系统的动态变化,适时采取有效措施防止失效的发生。系统失效因此被定义为组织弹性能力的缺失。
组织弹性能力的缺失来自于组织运行系统时的外部扰动和内部扰动。扰动是指干扰和中断正常运行的状态或者事件。扰动事件有多种形式。主要扰动事件包括运行失调[16]、自然灾害[17]、政治动荡[18]和财务压力[19]。下面从系统内部和外部两个角度讨论扰动的来源。
2.1.1 系统内部扰动
任何复杂工业系统内部扰动的主要原因是组织目标(生产目标和安全目标)冲突[20,21]。系统复杂性使得各部分之间的交互方式更加复杂,在日常运行过程中自动产生新的系统关联状态[22],从而导致系统在运行过程中可能处于未能预知的运行状态[23],主要情形是非预期子系统耦合状态下功能目标冲突[24]。内部扰动因素主要包括日常运行维修、维护、标定等活动。组织目标冲突会降低组织各层级之间人员日常工作的合作水平和安全责任意识[25],阻碍组织各层级之间的交流和信息传递[26],同时使得组织尖端人员的决策偏向于生产目标[27]。由于组织目标冲突,系统对于风险的缓冲能力不断下降,系统安全边界不断被压缩和侵蚀[28-30]。与此同时,系统复杂性导致的未知运行状态使组织不能利用资源和控制手段建立安全屏障来抵御这种压缩和侵蚀[31]。事故分析表明,系统正常运行时所发生的内部扰动是复杂工业系统组织弹性缺失的主要来源,而内部扰动主要产生于复杂工业系统的组织目标冲突。
2.1.2 系统外部扰动
系统外部扰动主要来自于自然灾害,比如台风、地震、洪水等。复杂工业系统在设计时需要考虑应对系统外部扰动的措施。如果系统未能预期可能发生的外部扰动,那么外部扰动一旦发生,风险产生的可能性会变得很大。与此同时,从组织角度而言,组织应该设计对应的法律、法规和技术文件,一旦外部扰动发生,应设法减轻风险可能造成的后果。
具体生产活动中,组织中人员绩效应该不断保持对内部扰动和外部扰动应对的能力。失效是指组织失去应对扰动的能力。很明显,由于经济资源的稀缺性,竞争压力一直存在,组织目标冲突会一直存在。生产目标是系统存在的基础,生产目标往往会对安全目标形成压力。由于生产目标压力的存在,组织行为会发生漂移,侵蚀核电厂系统的安全边界。核电厂运行组织需持续对技术、人员和组织风险各因素进行监视和干预,以维持生产效率目标和安全目标之间的平衡[31]。
跟传统的失效理论不同,从复杂性角度而言,安全是系统的一种“自发性特征”(emergent property)。这种属性是子系统、软件、组织和人员之间交互行为的自然结果。传统的安全分析方法,比如概率安全评价(probabilistic safety assess⁃ment,PSA)方法,采用的是因果关系链方法,从核电厂系统的各个构成部分出发,分析其失效模式,进而预测风险。然而,事实上这种方法未能有效预测到复杂核电厂系统中所有可能发生的失效模式。福岛核电厂PSA 模型中没有考虑极端外部事件导致的共因失效。安全是系统行为的动态变化过程,而不是系统的一种静止状态属性。安全更多的是一个控制问题,而不完全是一个系统可靠性问题。系统设计和运行时不应只是提高其部件的可靠性,还要保持运行组织维持这种动态变化的能力,这种能力是组织控制内部和外部扰动的能力。
组织弹性是从核电厂复杂性角度研究核安全。研究系统复杂性的传统理论途径有两条:解析还原理论和系统理论。
解析还原理论可以采用以下几种方法来设计和分析复杂系统:(1)把系统分解成子系统来进行分析;(2)对子系统进行分析,然后把子系统的分析结果合并构成系统整体。在时间轴上,系统的物理部件、功能部件和系统行为被解析为独立的系统事件。
传统的安全工程观点就是在上述基础上发展演绎的。事故的发生是由于子系统或者系统部件的失效导致的。失效事件随机发生,失效概率呈指数分布,风险发生的概率可以通过计算得出。在辨识子系统或者系统部件的失效场景的基础上,设计者或者工程师采用容错设计的方法来防止事故场景中的子系统或者系统部件的失效事件的发生。
随着系统愈来愈复杂,情况发生了变化。在现代复杂工业系统中,设计者并不能够充分辨识所有的子系统或者系统部件之间的潜在交互行为。因此,设计者无法预测和防范这些潜在的交互行为所带来的风险。部件交互事故的发生是由于系统设计时未能考虑子系统或者系统部件之间的不安全交互行为,子系统或者系统部件的功能目标发生冲突。发生的原因是由于模式混淆或者功能目标完整性缺陷。若子系统或者系统部件没有发生失效,则问题产生于没有失效的子系统或者系统部件之间的功能冲突,比如SGTR 事故后主泵的停运问题,停运有可能减少一回路的热量,但是同时减少一回路的散热能力;不停运有可能导致对SG的U型管产生冲击。
系统理论是作为解析还原理论的替代方法出现的。该理论把系统作为一个整体来看待,而不是单独分析子系统或者系统部件。系统理论假设系统的某些特征只能整体分析,分析系统的方方面面,并把社会因素与技术因素相关联。这些系统特征产生于子系统或者系统部件之间的交互作用。系统论观点强调系统的整体性,而不是系统的部分或者部件。简单地防止部件失效并不能消灭事故。组织在运行系统的过程中,系统本身的单个子系统是正常的,事故的发生可能是由于子系统交互作用时功能冲突而发生的,是组织运行系统过程中自发产生的一种偏离系统功能目标的状态。
为使得系统安全,我们对部件的交互作用必须进行限制。系统必须具备某种“控制器”来限制和处理单个的系统部件行为(包括失效)以及部件之间的交互。安全的限制性状态和系统危害与系统风险不一样。限制性状态是指那些系统层级的行为或者状态是不可接受的。
对系统某些行为进行限制性控制并不意味着一定会有人或者自动控制部件来实施这些限制性行为,这种控制是广义的。比如可以通过设计(冗余、闭锁和失效-安全设计)或者过程控制(生产或者维护过程和行动)或者通过法律、法规、保险以及其他社会控制方法来控制部件失效以及不安全的交互。这种控制也受到社会和组织文化因素的影响。社会和组织情景包括政策、程序、共同的价值观(文化)、激励结构和个体兴趣等影响和“控制”这些行为。对这些情景进行分析、设定可以创造和改变组织中的人员行为,从而提高系统安全性。
基于核电厂系统复杂性的核安全理论认为安全是系统行为的动态变化过程,而不是系统的一种静止状态属性。组织目标是维持系统适应这种动态变化的能力,即运行组织控制内部和外部扰动的能力。面对越来越复杂的系统,安全研究需要从过去着眼于“采用提高系统或子系统可靠性的方法”转变为“系统应在扰动发生时,维持和恢复系统功能”。Hollnagel等[32]认为,组织应对内部和外部扰动的能力包括:组织对外部组织的吸收能力或者缓冲能力,指组织能够应对扰动的数量和种类;恢复能力,指组织在面对内部和外部扰动时自我恢复和重构的能力;适应能力,指系统恢复后,往往是在受到内部和外部干扰以后,重新建构正常系统安全边界的能力。
安全科学的最终目标要求建立合适的模型对核电厂运行组织进行定量化分析,从而评价系统的安全状态并做出改进。为此,在上述三种基本能力的基础上,建立考虑上述三种能力的概念模型。概念模型包括四个部分:缓冲能力模型、恢复能力模型、适应能力模型和组织弹性计算。
3.2.1 缓冲能力模型
组织缓冲能力定义为组织在内部和外部扰动条件下满足系统正常功能目标的能力。因此,这个模型由两个部分组成:系统功能状态子模型、内部和外部扰动事件分析。组织缓冲模型对于核电厂而言,组织钝端更多的作用是建立电厂行政缓冲屏障,而组织尖端主要作用是形成操纵员对于事故的缓解能力。
系统功能状态子模型是一个以时间为变量的系统绩效测量模型,测量在t 时刻系统的功能目标满足程度。由于组织缓解能力模型是测量系统在应对内部和外部事件扰动时的绩效,所以该模型必须对内部和外部扰动事件进行分析。与传统的确定论和概率论安全分析模型不一样,该模型的数据对象并不是“可信”或者“不可信”的事故,而是人与系统、系统中子系统、系统与环境可能的交互过程和交互过程中自发形成的新的功能状态。
3.2.2 恢复能力模型
恢复能力模型建立在缓冲能力模型的基础上,其主要目标是辨识组织在应对内部和外部扰动事件时潜在的恢复行为。组织在应对内部和外部扰动事件过程中会消耗工业系统中的可利用资源,从而降低t+1 时刻组织应对扰动事件的缓冲能力。这些潜在的恢复行为包括:修复核电厂受损的设备、加强核电厂经验反馈、加强培训、从已发生事件中学习等。
3.2.3 适应能力模型
适应能力模型的目标是分析研究组织在运行系统应对扰动事件后的适应能力,通过计算组织应对扰动事件后的组织绩效来测量。组织调动资源对核电厂系统进行恢复后,采用等距离时间分布对系统绩效进行测量。
假定系统原来的组织弹性处于一定的状态,适应能力模型是通过测量系统弹性的变化来监测组织遭遇破坏性事件后的适应能力,表达式为式(1)。
式中:T——系统恢复到正常状态的时间,s;
T*——系统恢复到原始状态的时间,s;
X——比率,R(X,T)是破坏性事件起始到系统恢复并保持稳定状态的时间段内,系统实际的弹性与无破坏性事件发生时系统的弹性的比率。R(X,T)越大,表明系统的适应能力就越大。
3.2.4 组织弹性计算模型
定义某一特定的复杂工业组织的弹性为Res.,
式中,δ——组织缓冲能力;
ρ——组织适应能力;
ϑ——组织恢复能力;
τ——等距时间因子,当所能恢复的组织绩效能力降低(组织适应能力与组织缓冲能力之差),τ的影响能力随之降低。组织如果能够快速恢复系统稳定状态,也就是τ较小,核电厂组织的整体能力会变得更强。
随着一系列核电厂系统事故的发生,核安全已经成为安全研究的一个重要课题。本文对于核安全研究做了文献回顾,在此基础上,根据系统论的安全研究方法,提出组织弹性的基本研究思路和概念模型。