李莎莎,崔铁军
(1.辽宁工程技术大学 工商管理学院,辽宁 葫芦岛 125105;2.辽宁工程技术大学 安全科学与工程学院,辽宁 葫芦岛 125105)
在研究系统故障的过程中,往往面临很多问题,一般情况下系统故障不是一蹴而就的,而是1种演化过程。在该演化过程中涉及众多事件,这些事件的发生发展规律及其之间的关系都不相同;同时由于系统运行环境的变化会导致事件故障特征的改变,进而导致系统故障特征改变,最终使系统故障过程出现多样性,上述过程即为系统故障演化过程。实际上预测、预防和治理系统故障演化过程是从演化过程中的事件、关系和影响因素入手的,针对演化过程的特征有的放矢地制定预防措施,但这些工作的前提是实际系统故障演化过程与系统设计期间设想的演化过程相同,这样才能根据演化特征、故障程度、演化方式来提前制定措施阻碍故障发生。但实际上,在设计期间由于对系统内部不同元件的意外能量、物质和信息交互情况不清,对系统运行期间因素作用情况不了解等问题会导致预防措施不能阻碍故障演化,最终导致系统故障。那么导致上述现象的根本原因是在某个事件上预想的系统故障演化过程与实际的演化过程出现不同,即系统故障演化过程的不连续现象。当演化出现不连续时,原有措施将不适应之后的演化过程,这时必将发生故障。因此如何发现演化不连续原因,并提出消除演化不连续方法成为减少系统安全阻碍故障发生的关键。
关于系统故障演化及其预防措施的研究逐渐增加,主要包括机械系统、电器系统、电力系统、岩体系统、控制系统等的故障预测、预防和治理[1-15]。上述研究一般针对各自领域发挥作用,究其原因是提出的阻碍演化的方法缺乏通用性,没有站在系统故障演化过程的系统层面上进行分析,缺乏从演化结构角度确定演化不连续原因的方法。
为保障系统功能可靠性,阻止系统故障演化过程的发生发展,必须确保设计的系统故障演化过程与实际发生的故障演化过程一致,从而发现演化不连续的原因进而制定消除方法。作者在2018年首次提出空间故障网络理论[16],该理论主要用于描述和分析系统故障演化过程,通过对演化过程的结构分析,给出3个层次的演化不连续原因,并针对这些原因提出消除不连续的方法,所提出的部分方法能够在定性层面上消除演化的不连续,也能在一般情况下消除定量层面的不连续。
任何系统的存在都是为了完成预定的功能,系统能保持其完成功能的能力称为可靠性,而完成功能能力的下降和丧失称为失效。系统的功能状态从可靠状态必将向着失效状态发展,而该发展过程就是系统故障演化过程。在没有人的作用的情况下,系统故障演化过程一般是单向的,由可靠到不可靠。人的作用就是为了保证系统功能而阻碍系统故障演化过程,甚至采取特定措施逆转演化过程。针对人工系统而言,人存在意义是在规定条件下和规定时间内必须完成预定功能,即保持系统可靠性,从而阻碍系统故障演化过程;与之对应的自然系统则是按照自然规律形成的系统,该系统也是不断演化的,其唯一目的是使系统熵增加。无论是自然系统还是人工系统,当需要时人必定采取措施维持系统可靠状态,一般通过维持系统结构、影响因素和逻辑关系稳定来实现。因此人的作用必定使系统熵减少,使系统变得有一定规则性;而自然的作用则是使系统熵不断增加,使系统变得混乱失去功能,因此实际中将人、系统和自然组成大系统,其中人与自然是博弈关系,博弈的对象是系统,博弈的目的是系统功能。
上述博弈过程是人与自然之间对系统作用的过程,该过程体现于系统可靠性的变化或是失效性的变化,本文将该过程定义为系统故障演化过程,其是对系统功能状态变化的描述概念。基于目前研究,系统故障演化过程的基本描述要素包括事件、因素和逻辑关系。事件是系统故障演化过程各阶段的定性描述;因素是影响事件特征变化的动力;逻辑关系代表事件之间的因果关系。作者为研究系统故障特征提出空间故障树理论体系[16-19],该体系的第3阶段为空间故障网络理论,适合于研究系统故障演化过程。对应于系统故障演化过程中的事件、因素和逻辑关系,空间故障网络中使用节点表示事件;事件发生概率分布表示因素的作用;因果逻辑关系表示事件间关系;有向线段表示演化过程各环节的演化方向,并蕴含传递概率。其中事件包括边缘事件(基本原因事件)、过程事件和最终事件(系统最终故障)。事件发生概率分布是多因素情况下各因素的特征函数叠加得到的;传递概率表示原因事件引起结果事件的概率。图1为文献[20]给出的空气压缩机的系统故障演化过程实例。
图1 空气压缩机系统故障演化过程Fig.1 System fault evolution process of an air compressor
图1中V代表事件;→代表传递由原因事件指向结果事件,蕴含传递概率;结果事件右下角标为原因事件以何种逻辑关系导致结果事件,“+”表示或关系。空间故障网络能完整表示系统故障演化过程。
假设在系统故障演化过程中,对于单一故障链,某1个事件之前的原因事件发生概率和传递概率都是正确的,可得到该事件发生概率;同时通过其他手段测量也可得到该事件发生概率,而当该事件的这2个发生概率不同时,即出现故障演化过程的不连续现象。造成这种不连续现象的原因很多,但其结果一般都会造成系统故障演化过程的错误。如果原因事件发生概率和传递概率都正确,那么得到的结果事件发生概率必将大于通过其他方式得到的该结果事件发生概率。正如美国科学院院士南希埃文森指出[21],通过系统分析整理计算得到的系统故障发生概率远小于实际系统故障的发生概率,究其原因是由于系统之中各元件间意外的能量、物质和信息传递造成系统故障,而这些意外传递在系统设计期间难以发现,导致设计时计算的故障概率小于实际故障概率。对于由多个故障链组成的系统故障演化过程中的演化不连续现象更为普遍,任何不连续现象都表明系统故障演化过程在空间故障网络中可能存在错误,其来源于计算、结果或是因素影响。图2为单一故障链的系统故障演化过程,对其进行不连续原因的详细分析。
图2 单一故障链的系统故障演化过程Fig.2 System fault evolution process of single fault chain
其中:q表示事件的发生概率,tp表示传递概率,q′和tp′是q和tp的同级表示。由图2中可知,如设V3之前的所有故障概率都正确,那么q3是正确的,同时如果tp3正确,则代表V4发生概率q4=q3×tp3是正确的。但如果通过其他手段得到的q4′≠q4,则出现了故障演化过程不连续现象,不连续事件为V4。
第1层原因,从q4=q3×tp3中可以得到最直接的故障演化不连续原因,即q3不正确、tp3不正确或q4不正确。q3不正确是由于V3作为结果事件时确定的发生概率错误,这与q2和tp2的正确性相关,具体分析过程与V4的不连续原因相同,这里不赘述;tp3不正确可能是由于传递条件判断错误或者传递概率计算错误;q4不正确的原因是通过其他方法确定的V4发生概率错误。当然有可能是q4>q3×tp3或q4
第2层原因是由于因素的作用导致q4≠q3×tp3。因为系统由各种元件组成,元件由于自身的特性可能对不同因素的响应不同,即使2个元件的影响因素相同,也会由于因素的不同值导致元件的故障概率不同。例如通过经典故障树分析得到甲、乙事件同时发生时导致丙事件发生,但甲事件发生需要零下温度,乙事件发生需要零上温度,这时丙事件根本不发生。因此进行系统故障分析时,其故障概率数据必须反映各元件在各因素影响下,因素数值相同时的故障概率特征,即只有在各因素数值相同时,各元件故障概率结合形成系统故障概率才是有效的。当各因素数值不同时,各元件故障概率的值可能对应于不同的因素值,而实际过程中同一时刻因素只可能有1个值,这导致因素不同值时的各元件故障概率叠加没有意义,因为缺乏存在条件。因此,作者在研究空间故障树理论时提出以单一因素变化与元件可靠性变化关系构建特征函数,再以该元件所有因素的特征函数叠加形成故障概率分布的方法,由元件因素作为坐标轴构建的空间坐标系,元件的故障概率变化是坐标系统中的曲面分布,这保证了在同一坐标系中系统的所有元件可根据因素变化范围进行合理叠加,得到具有实际意义的系统故障概率分布。这是空间故障树优于经典故障树的最重要方面,因为经典故障树并不考虑因素的作用,所得结果一般情况下难以准确。
第3层原因是导致结果事件V4发生的原因事件不是V3或有其他事件与V3共同作用导致V4发生。第1种情况如图3所示,当tp3不存在,V3不是直接原因事件,则故障演化过程变为V3→Vx→V4,当然Vx可能是众多事件演化的集合体。此时q4≠q3×tp3,而是q4=qx×tpx,qx=q3×tp3′,因此这时q4=q3×tp3′×tpx。第2种情况是V4的原因事件不唯一,且这些原因事件之间存在逻辑关系。如图3中Vx是与V3同级的原因事件,这时tp3′不存在,导致q4的不准确原因除了q3和tp3不正确外,还有qx、tpx和逻辑关系LS。qx和tpx的不精确原因与q3和tp3的不精确原因相同,这里不再赘述,但需要注意的是Vx代表众多事件及其逻辑关系的综合。逻辑关系LS代表原因事件以何种逻辑关系导致的结果事件,逻辑关系的不确定导致结果事件本身和发生概率的不确定。
图3 存在复杂演化结构的情况Fig.3 Situation with complex evolution structure
将上述3层原因总结,得到q4≠q3×tp3,即结果事件V4的发生概率与原因事件V3传递的发生概率不等的原因,也就是系统故障演化过程不连续的原因,具体如图4所示。
图4 系统故障演化过程不连续原因Fig.4 Causes of discontinuity in system fault evolution process
图4展示了通过推导得到的结果事件发生概率与其他方式(试验统计)得到的结果事件发生概率不相等的基本原因。更为一般地说,通过推导得到的结果事件可理解为设计阶段得到的结果,而其他方式可看作是实际数据得到的结果事件发生情况。从这个角度看,二者得到的结果事件发生概率一般都不相等,实际结果往往大于推导结果,这主要是由于设计期间不可能确定实际运行时所有的原因事件、作用因素和事件间逻辑关系,这导致系统故障演化过程的分析错误,从而导致结果事件发生概率错误。另外,通过实际数据确定的结果事件发生概率往往蕴含更多的系统故障演化信息,但这些信息也受到随机事件影响。因此,如果通过计算得到的系统故障概率与实际得到的系统故障概率不一致,可从图4中给出的3层不连续原因进行逐层分析渐进深入,因为原则上2个概率结果应该是相同的,不相同必定是由于图4中的原因造成的。
上述分析表明系统故障演化过程中的不连续现象一般是由图4中分析的原因造成的。对于第1层次的原因,即q4、q3和tp3的不正确,主要是确定事件发生概率分布和传递概率分布,或是事件发生概率和传递概率。概率与概率分布的区别在于概率不考虑因素影响,是单一数值,精确性较差;概率分布是基于影响因素构建的空间曲面,对因素变化敏感,更为精确。在不考虑因素情况下,事件概率和传递概率可使用试验法、结构分析法和逻辑推理法获得。
试验法最为简单,通过多次尝试研究原因事件发生概率、结果事件发生概率,从而确定原因事件导致结果事件的概率,即传递概率。原因事件通过元件故障数量的统计可得到发生概率,同样结果事件也可以通过实际故障数量统计发生概率,这时确定的传递概率最为准确,是消除不连续现象的最有效方法。同时由于需要对实际元件及其事件反复试验,所需成本也最高。
结构分析法需要确定原因事件发生概率,即元件的故障概率,然后确定元件组成系统的结构,进而结合元件故障概率和系统结构确定系统故障概率。这样获得的系统故障概率一般不等于从实际中得到的系统故障概率,前者小于后者。其原因在于元件故障概率错误,即原因事件发生概率错误;元件之间联系及其组成系统的结构错误。消除演化过程不连续,必须通过更为精确的方法获得原因事件故障概率,比如试验法;或者重新理解系统结构,调整元件之间关系,可通过系统功能结构分析方法实现[22],这里不做赘述。
逻辑推理法主要是根据原因事件发生概率变化与结果事件发生概率变化来分析和推理原因事件与结果事件的逻辑关系。该方法使用最为广泛,但也最为不精确,只能确定定性关系。可通过因素空间的因素分析法进行确定逻辑关系,但一般这种情况伴随着因素变化。因为只有因素变化,原因事件概率和结果事件概率才能发生变化,进而同步传递概率变化,最终消除系统故障演化不连续现象。
基本上第1层的3个不连续原因使用上述试验法、结构分析法和逻辑推理法都可解决。第2层原因主要是因素不对应造成的事件发生概率分布和传递概率分布错误。首先构建特征函数,对于事件而言是元件发生故障,因此通过确定各因素单独变化时与元件故障概率变化的关系,形成该因素的特征函数。使用特征函数对不同因素变化下的元件故障概率进行叠加形成元件故障概率分布,即原因事件发生概率分布,该分布在以因素为坐标轴的因素空间中。同理得到结果事件发生概率分布,与原因事件发生概率分布对应于每个因素的相应点,从而可求得传递概率在该因素空间中的概率分布,进而消除系统故障演化过程的不连续现象。当然其困难在于特征函数的确定,在空间故障树基础理论中已给出几种特征函数的构建方法,比如拟合法、因素投影拟合法、模糊结构元法、云模型法等。在第2层次中消除系统故障演化不连续的核心任务是建立因素空间,确定原因事件发生概率分布、结果事件发生概率分布和传递概率分布的对应关系。
第3层次原因在于系统故障演化结构不清,因此需从系统故障演化过程的结构方面进行分析。对于原因事件和结果事件而言,最简单的情况有2种,一是链式结构,二是网络结构。链式结构的系统故障演化过程不连续一般是不连续位置的原因事件和结果事件之间存在1个或多个过程事件。这时可使用反推理论进行分析,假设原因事件和结果事件中间存在1个过程事件(Vx),由于q4=q3×tp3′×tpx。借助原因事件发生概率和结果事件发生概率确定tp3′×tpx,进一步借助因素空间中曲面变化虚拟设定过程事件发生概率分布。分析概率分布随不同因素变化规律,从而确定该事件的定性特征,进而选择出实际存在的具有相同特征的过程事件。再构建该过程事件的发生概率分布qx,最终确定tp3′和tpx,消除演化中的不连续现象。
另一情况是原因事件不唯一,这是较复杂的情况,不但要解决上述所有问题,还要解决原因事件之间的逻辑关系问题。确定逻辑关系可使用作者在文献[23]中提出的基于三值逻辑和因素空间耦合的空间故障网络化简方法。首先假设存在事件Vx,通过试验法等确定已有原因事件V3的q3和tp3,及结果事件V4的q4和tp4。根据该文献中提出的结构法和概率法得到的逻辑关系特征,来判断Vx和V3导致V4的逻辑关系。结构法使用结构化的网络表示,概率法使用发生可能性的传递概率表示,它们都代表1种等效形式,前者强调边缘事件以何种逻辑关系导致最终事件;后者强调边缘事件以何种可能性导致最终事件。
以图1为例进行分析,表1、表2和图5为该方法的主要基础数据和所得结果。表1是基础数据包括事件和状态;表2是经过计算的数据;图5是形成的等效结构,可判断事件间逻辑关系,其中PE表示过程事件,“+”表示或关系,“·”表示与关系。
表1 状态数量统计矩阵MTable 1 Statistical matrix M of state quantity
表2 决定度矩阵DTable 2 Determination matrix D
图5 SFN的化简图Fig.5 Simplified SFN
使用结构法分析实例说明各状态的分析结果。该例中有5个原因事件(A,B,C,D,E),共同作用于1个结果事件V,0状态表示失效、1状态表示成功、#状态表示未知。表2中的0状态,eA=eB=1,说明A和B事件可直接导致V发生,它们是传递关系;事件C、F和K的决定度之和约等于1,因此它们以或关系导致V发生。表2中的1状态,A和B自身的决定度小于1,但总和大于1,它们之间是与关系导致V发生;C、F和K总和为1,是或关系导致V发生。表2中的#状态,A和B自身的决定度小于1,但总和大于1,它们之间是与关系导致V发生;C、F和K总和为1,是或关系导致V发生。因此该系统故障演化过程对于0、1和#的3种状态的结构化简图如图5(a)和5(b)所示。
同样通过概率法得到与结构法相似的系统结构,即原因事件以何种逻辑关系导致结果事件。如图5(c)代表概率法0状态,C、F和K事件的概率为0.333 3,表明它们在系统中层次相同,3个事件概率之和为1说明它们是或关系;同时A和B事件的概率为1,说明两者可直接导致结果发生,是在系统中层次相同的传递关系。如图5(d)代表概率法1状态,C、F和K事件的概率为0.333 3,表明它们在系统中层次相同,事件概率之和为1说明它们是或关系;同时A和B事件的概率为0.6,说明两者共同导致结果发生,在系统中为同层次与关系。如图5(e)代表概率法#状态,C、F和K事件的概率为0.333 3,表明它们在系统中层次相同,事件概率之和为1说明它们是或关系;同时A和B事件的概率为0.666 7,说明两者共同导致结果发生,在系统中为同层次与关系。
本文主要对系统故障演化的不连续现象及产生原因进行论述,针对相关原因提出不连续现象的消除方法。由于原因按照不同深度由浅入深划分为3层,对应的不连续消除方法也划分为3层。这些原因是系统结构性原因,消除方法只给出一般方法、因素空间、空间故障树及空间故障网络中的已有方法,这些方法受到数据、因素等要素的制约,其结果目前仍难以精确。但随着相关理论的发展,针对3层次的系统故障演化不连续原因必将有更多的方法出现,而这些结构性原因对于演化过程而言一般保持不变。
1)论述系统故障演化过程中的不连续现象。由于演化中结果事件发生概率分布应等于原因事件发生概率分布和传递概率分布的乘积,但实际中由于各种原因导致得到的结果事件发生概率与上述乘积不同,即形成演化过程的不连续现象。
2)研究导致不连续现象的可能原因。针对演化过程结构,第1层次原因是原因事件、结果事件或传递的概率错误;第2层是在确定原因事件、结果事件或传递的概率时,对应的因素错误导致概率没有实际意义;第3层是演化过程结构不确定,分为存在非直接原因和原因事件不唯一2种情况,前者是过程事件确定错误,后者是逻辑关系确定错误。
3)研究消除不连续现象的方法。最基本的消除方法是试验法、结构分析法和逻辑推理法,它们能处理第1层原因。第2层是由于因素造成的不连续,使用空间故障树和因素空间相关理论配合基本方法可以消除。第3层是由于系统结构不清造成的,前者通过过程事件假设调整原因及结果事件发生概率分布解决;后者通过更为复杂的三值逻辑和因素空间等方法解决。