孙晨峰, 吕卫民, 丛林虎, 徐鹏博
(海军航空大学, 山东 烟台 264000)
冗余是指在实现装备基本性能指标之外,重复增加功能单元或全部设备,以在局部发生故障时保持系统正常工作的一种控制方式。冗余技术作为提高系统可靠性的有效手段,与可靠性理论发展以及装备质量水平紧密相关,并在计算机网络技术、导弹武器系统以及航空航天测发控等诸多重要领域应用广泛。
冗余控制方式虽然能够有效提高系统的故障容错能力,但单元及子系统的失效组合及失效顺序仍对整机可靠性有很大影响,在使用期间也可能因人员操作不当、维护保养不善或工作环境欠佳引起系统共因失效或元件差异性失效,进而造成系统可靠性下降。尤其对于一些贮存周期长而在短时间窗内需要高可靠性的装备(导弹发控设备、机载电源系统等)而言,必须定期进行系统状态评估,并通过针对性维修措施提高装备的可靠性。
目前,对冗余系统的可靠性建模与分析工作,很多还是构建系统可靠性框图或故障树模型,静态描述系统故障逻辑、基于当前状态演绎分析某事件的发生概率,从而评估系统的可靠性水平;或是利用马尔可夫的分析方法,基于系统各单元故障概率建立系统状态转移机制,最终通过马尔可夫方程求解系统状态概率。但随着装备对控制能力要求的提高,系统结构愈趋复杂,动态和多态性能愈发明显,传统的静态分析方法难以刻画状态转移随故障传播的时序关系,不易描述其中基于概率传播的不确定性故障;而马尔可夫模型又在系统冗余结构较为复杂时,难以避免爆炸增长的状态空间描述和繁琐的马尔可夫方程组求解,因此在系统状态评估与分析中存在不足。
1962年,数学家Petri提出了用于计算机异步通讯的Petri网模型,因其在动态建模及表达形式上的独特优势,很快应用于可靠性工程相关问题分析。林闯较早阐述了利用SPN网络描述离散动态系统,并同构于连续时间马尔可夫链模型的方法,实现了系统建模的简化。原菊梅等结合模糊集思想,通过提出可修系统可用性建模与分析方法,简化了可修系统的可靠度求解;后又从部队作战角度出发,逐层拆解任务、分配资源,利用有色Petri网络模型实现了对复杂武器系统任务可靠性的建模及估计。江式伟等针对现役装备结构体系特点,借鉴DoDAF体系结构框架,提出了基于时间Petri网流程分析的可靠性建模与分析方法,为部队装备体系设计及改进提供了支撑。陆中等基于Petri网络拓展了维修性建模方法,用库所、变迁等基本元素描述各种维修实体及状态,并利用蒙特卡洛仿真简单、快速的优势,计算装备维修时间及所需的维修资源,实现了对维修保障活动的有效评估。综上,许多学者对可修/不可修系统的Petri动态建模方法做了许多有益的探索,但没有考虑到外部冲击可能导致的共因失效作用,也较少对包括各种冗余形式的混合冗余系统进行建模分析。共因失效的发生在一定程度上抵消了冗余结构对于系统可靠性的提升,混合冗余系统在实际工程中广泛存在,在建模过程中应给予充分考虑。
鉴于该理论模型在时序逻辑和动态建模上的强大优势,本文提出了一种考虑共因失效的冗余系统广义随机Petri网建模方法。在典型冗余结构GSPN建模过程中引入冲击库所/变迁的概念,拓展Petri网表示方法,在此基础上从系统层级构建了PLC控制器的模型,实现了单元、子系统和系统的信息保持,最后通过蒙特卡洛仿真生成系统寿命数据,完成系统可靠性计算与评估。
广义随机Petri网在变迁的使能与激活状态之间引入延迟特性,从而为资源转移赋予时间属性。该属性可以描述事件发生所需要的时间(如元件失效、单元维修),实现对系统行为的有效描述。
存在一个七元组:=(,,,,,,),其构成广义随机Petri网络系统的条件是:
1)∩=∅,是的位置集,={P0,P1,P2,…,P},其中的元素称为库所,是的转移集,={T0,T1,T2,…,T},其中的元素称为变迁。位置集和转移集是模型中的基本组成部分,流关系则表征资源从位置进行转移的有序集合。
2)∪≠∅。
3)为弧集或流关系,⊆×∪×,“×”为笛卡尔乘积。
4):→{1,2,3,…}称为的容量函数。
5):→{1,2,3,…}称为上的权函数,规定了每次变迁所引起的资源变化。
6):→{0,1,2,3,…}称为上的初始标识,指明资源的初始分布。
7)称为转移点火速率集,={,,,…},表示第次(=1,2,3,…)变迁的速率。
11节介绍了GSPN模型从网络结构到资源分布的静态特征,本节给出系统状态转移的动态规律,并对文献[14]中较为繁琐的前置集后置集描述进行简化。
设=(,,,,,,)是一个GSPN网络,是的标识,则有:
1)变迁∈在下使能的充要条件是
(1)
此处的变迁为库所任意存在的前后转移集。
2)当变迁具备资源转移的使能条件时,需经过由该变迁对应的分布生成的时间方可激活,该时间称为转移点火时间,分布对应的函数称为转移点火速率函数。若所有的转移点火时间均满足指数分布,则变迁的转移点火速率函数为
→(,T)
(2)
3)当该变迁转移点火时间完成后,变迁T处点火并在原标识处产生一个新标识′,计算处于转移前或转移后某时刻的标识′的规则为
(3)
在工程领域,冗余系统常含有混联系统、()表决系统、共载冗余等典型结构。大量可靠性与安全性分析结果表明,单元共因失效是除独立失效外系统失效的重要原因之一,这一结论在核电厂、美国航天飞机的概率安全评估及锂离子电池组失效分析中已经得到证明。本节将在对冗余结构进行可视化建模的基础上,进一步拓展共因失效模式下Petri网建模表示方法,实现故障单元状态信息保持,并利用可达图对系统状态的可达性、覆盖性和有界性等行为特性进行分析,验证模型的可用性。
共因失效是指两个或两个以上的单元,在同一时间或相隔较短时间内受到某种相同的作用,所导致的单元级甚至是系统级失效。在该失效模式中,受相同原因影响的各单元组成共因失效组。外部环境的作用如振动冲击、湿度或盐雾腐蚀是导致共因失效的主要原因。
(4)
由串联系统和并联系统按照冗余设计的理念混合组成的系统称为混联冗余系统,混联冗余系统按照系统对单元的容错配置方式进一步分为串- 并联冗余结构和并- 串联冗余结构,两种结构在提高系统可靠性的同时,为系统元件开路或短路提供有效保护。本文以串- 并联冗余系统为例进行建模,其考虑共因失效的GSPN可靠性模型如图1所示。
图1 串- 并联冗余系统可靠性模型Fig.1 Reliability model of series-parallel redundancy system
在各子系统Psys中,只有当冗余单元均失效时,子系统才会完全失效;在串联结构中,任一子系统失效,整机系统Psys立即失效。因此在图示结构下,设定单元故障库所Pdown、子系统Psys及整机系统Psys的容量函数均为1,即
(5)
对建立的串- 并联冗余模型,搜索GSPN存在的状态空间,构建包括消失状态(瞬时变迁的标记,也称为零标识)和实存状态(延时变迁的标记)的可达图如图2所示,其中S表示模型所处的第个状态,T表示经历的第个变迁,红色椭圆为实存状态,蓝色椭圆为消失状态,蓝色方形为消失状态的起始态。从上述模型建立过程可知,模型所有位置上的标识均是有界的,因此整个网络模型是有界的;从可达图可知,图中存在的终止节点是整机系统的故障状态,除此之外不存在导致系统死锁的结点,符合可靠性模型的物理意义,且对于任何一个给定的标识′,都能在图中搜索到等价或包含该标识的结点,因此网络具备可达性。
图2 串- 并联冗余系统可达图Fig.2 Reachability graph of series-parallel redundancy system
同时应该注意到,混联系统虽然能够有效提高系统的可靠性,但是其中的热备冗余结构可能因单元故障对输出结果存在争议而影响系统正常运行。
基于多个单元的表决冗余系统能够有效解决上述问题,从而保证结果的准确性。
在冗余表决系统中单元数为,表决数为,输出经表决器表决得到。当单元表决系统中有至少个单元完好时,就能实现预定功能;当系统中故障单元数超过-个时,表决器失效。考虑共因失效时,外部冲击直接作用于表决器表决结果的输出库所,考虑共因失效的()表决系统的GSPN可靠性模型如图3所示。
图3 3取2表决冗余系统可靠性模型Fig.3 Reliability model of triple-module redundancy system
在图3中,P表示各个单元的输出状态,Pvote表示表决器单元的工作状态,Pdown为冗余单元输出的表决结果,Pshock是可能对表决器造成故障的冲击库所,该库所的不同状态转移方式可表示随机冲击下不同数量单元的失效形式。
在该模型中,同样有Pvote、Pdown、Psys的库所容量函数:
(6)
同样对该模型构建可达图如图4所示,网络模型是有界的,且终止结点符合系统故障模式;对于一个给定的状态,网络能够寻找到该结点,因此网络模型也是可达的。
图4 串- 并联冗余系统可达图Fig.4 Reachability graph of series-parallel redundancy system
在共载冗余系统中,各单元在系统载荷下存在共同承担关系,从而使得每个单元的实际功率低于额定功率。当某一单元存在故障时,系统载荷在其余单元间分配,载荷的改变增大了其余单元的实际功率,导致单元寿命分布发生变化,使得系统失效率增加。参考文献[14]中的系统模型,考虑外部冲击作用的三单元共载冗余系统可靠性模型如图5所示。
图5 共载冗余系统可靠性模型Fig.5 Reliability model of load-sharing redundancy system
在图5中,同一单元不同的工作库所Pup、P′up、P″up代表不同数量失效单元下的单元工作状态,T则对应不同的失效概率。当结构中的所有单元均失效时,系统才完全失效,则有
(P0down)=3
(7)
共载冗余系统可达图如图6所示。通过构建模型可达图,同样可知网络是有界的、可达的,模型具备可用性。
图6 共载冗余系统可达图Fig.6 Reachability graph of load-sharing redundancy system
为了避免系统在状态转移动态描述中可能出现的状态空间爆炸问题,实现模型的快速计算,本节运用蒙特卡洛仿真分析方法,基于单元间的逻辑关系生成寿命数据,评估系统的状态及可靠性水平。
系统寿命蒙特卡洛仿真的具体步骤如下:
1)仿真条件设定。设定仿真初始时刻,确定仿真循环次数(即选择用于寿命仿真的系统数量),并令此次仿真序次为1。
2)网络模型初始化。根据实际问题对库所中的资源(托肯)进行初始分配,产生GSPN网络中的初始标识;依据各单元故障产生或外部冲击发生服从的分布,产生相应的随机数,作为变迁的点火转移时间。
3)系统步进仿真运行。根据模型中托肯转移的时序逻辑关系和使能点火规则,以生成的变迁点火转移时间为步长进行系统运行仿真,并即时更新系统标识。
4)系统寿命样本求解。当系统满足条件(Psys)=(Psys)=,即故障库所中的托肯数量达到容量函数时,系统失效,仿真停止。此时基于变迁点火转移时间的仿真时间即为系统的一次寿命样本。
5)循环条件确定。如果运行次数<,则′=+1,转步骤2进入下一次仿真;当=时,系统仿真结束。
PLC系统在导弹武器系统、装备航空航天等诸多国防关键领域具有广泛应用。这些领域对PLC控制系统的可靠性有极高要求,本节以某型PLC控制器为例说明模型的有效性。
PLC采用3个不同的信道处理信号,通过表决器收集各信道的结果,并按2/3表决方式产生信号输出。每个信道(信道标识为CH,=A, B, C)由一个输入单元DI、一个处理单元CPU和一个输出单元DO构成。信号通过总线IObus在该信道的单元间传输。在CPU层次也采用了冗余技术,每个CPU接收数据输入单元信号的同时,通过总线Tribus接收其他信道信号的拷贝,同时每个CPU使用一个2/3表决器来确定输入信号。系统电源模块可认为满足共载冗余结构,即由两个独立的能量供应单元PS1和PS2共同承担系统供电任务(V1,V2),考虑到常用锂离子电池组的失效机理,本文对电源系统考虑共因失效作用。PLC系统结构如图7所示,其中VOTER为表决器,OUTPUT为输出。
图7 PLC控制器结构图Fig.7 Structure diagram of PLC controller
在本例中,电源模块是二单元共载冗余模型,为两个单元正常工作时的失效率,当其中一个能量供应单元失效时,另外一个单元的失效率增加为。参考文献[18]中的分析结论、文献[19]中的数据及案例中PLC可靠性参数,设定电源模块共因失效率为。冗余系统各单元的失效率水平见表1。
表1 故障部件失效率
本例基于第2节中典型冗余结构的GSPN可靠性模型实现PLC子系统到整系统的组合建模,在描述系统状态转移的同时,通过增加辅助变迁及禁止弧、设计网络结构、设定瞬时变迁优先级等方式,实现部件故障状态信息保持,更加准确地描述系统动态行为。
1)以CHA信道信号传输处理过程为例说明系统状态转移过程,考虑到信号接收过程中的部件交联特点,将各信道输入单元DI、总线IObus和Tribus作为网络底层库所,以其不同故障状态转移组合PinA的表决结果PinA作为CPUA信号输入的瞬时状态,在逐级考虑CPUA和输出单元DOA的状态后得到该信道故障状态信息PchA。
2)以CHA信道信号传输处理过程说明网络具备的部件故障状态信息保持性。通过信号输入状态子库所PinA′变迁对状态组合库所PinA的托肯转移和反向禁止,限制其在故障信息保持状态下的变迁点火转移次数,实现借用Petri语义描述系统可靠性特性,弥补故障库所在状态转移过程中造成的自身信息描述缺失问题。
3)在系统层,通过瞬时变迁优先级按层级设置,确保子系统、整机系统状态转移顺序正确,部件故障信息保持完整。
4)连接各部件、各子系统,形成整个系统,完成系统整的体故障传播关系,得到导弹PLC系统完整的GSPN模型如图8所示。
图8 PLC系统GSPN可靠性模型Fig.8 GSPN Reliability model of PLC redundancy system
由第3节方法,取仿真循环次数为10 000,得到该PLC系统的10 000个寿命数据。通过设定进行系统随机抽样的次数、抽样时点的跨度,基于定义可计算其可靠性(抽样总时间应覆盖系统寿命周期)。考虑到经典的特征寿命难以满足导弹等飞行器对于PLC控制系统的可靠性要求,因此设定PLC系统任务可靠度不得小于0.9,最后通过对寿命数据的统计分析可知,在外部环境良好、电源电压和负载稳定的情况下,PLC系统寿命约为150 000 h。考虑共因失效的PLC系统广义随机Petri网可靠性分析结果如图9所示。
图9 PLC冗余系统可靠性曲线Fig.9 Reliability Graph of PLC redundancy system
(8)
由此可进行整个系统的可靠性概率计算,得到考虑共因失效的解析法可靠性曲线如图9所示。显然,本文方法与考虑共因失效的解析法分析结果较为吻合。
从图9中可以看出,若忽略共因失效影响,会使得PLC系统的可靠性预估结果在寿命全周期偏向乐观,且这种偏差会随着系统工作时间的推移而增大,说明共因失效在系统寿命周期后半段发生时造成的影响更显著,这一结果符合失效物理分析与工程实践认知,这也与本文在分析中提到的共因失效故障模式能够抵消冗余设计对系统可靠性的提升是一致的。
从可靠性计算结果来看,本文建立的模型具有较好的预计效果。图10为GSPN模型的蒙特卡洛仿真方法求得的结果与基于解析法求得结果之间的误差变化曲线,误差最大值为0.018 85,与基于因子模型的概率模型结果比较接近。误差最大值出现在PLC运行时间约120 000 h,从所要求的任务可靠性水平来看可以接受。同时本文在描述系统动态特性基础上,通过抽样估计、大量仿真考虑了不同元件寿命的不确定性,相对精度更高。
图10 解析法与GSPN模型的可靠性差值Fig.10 Reliability difference of the analytical method and GSPN model
表2所示为两种方法的结果对比。由表2可知,利用GSPN模型进行系统可靠性估计具有较好的运算速度,可以根据精度需要灵活调整仿真次数,实现更高精度的仿真。
表2 模型方法比较
本文针对混合冗余系统,提出了拓展共因失效影响的广义随机Pertri网络模型。首先对典型冗余结构进行GSPN可靠性建模,拓展了Petri网建模表示方法,进而利用系统可达图验证了模型的合理性;运用蒙特卡洛仿真分析方法计算系统的可靠性。得到以下主要结论:
1)相比于传统可靠性建模工具,本文提出的基于GSPN的建模方法能够动态描述系统行为,刻画单元、子系统与整机系统之间的故障时序传播关系;同时基于典型结构的模型简化了系统的建模过程,运用蒙特卡洛仿真抽样模拟的计算优势,避免了繁琐的马尔可夫建模及求解,实现了快速计算。
2)相比于文献[14]的Petri网可靠性评价模型,本文在完成可靠性建模的同时,聚焦共因失效对模型的影响,从混合系统而非某类结构层面对系统进行分析评价,模型更具一般性,也为后续系统可靠性设计提供了新思路。
3)利用本文所提模型对PLC系统进行分析计算,并运用概率解析方法进行对比验证,在允许的误差下得到了较准确的可靠性评价结果,验证了模型的有效性。
4)考虑故障覆盖因子和控制装置的复杂装备冗余系统可靠性评价及优化设计是今后的研究方向。