三模冗余演化自修复系统可靠性及状态规律分析✴

2012-03-31 19:46巨政权郑见灵满梦华常小龙军械工程学院静电与电磁防护研究所石家庄050003军械工程学院计算机工程系石家庄050003
电讯技术 2012年2期
关键词:系统可靠性功能模块极值

巨政权,郑见灵,满梦华,常小龙(.军械工程学院静电与电磁防护研究所,石家庄050003;.军械工程学院计算机工程系,石家庄050003)

三模冗余演化自修复系统可靠性及状态规律分析✴

巨政权1,郑见灵2,满梦华1,常小龙1
(1.军械工程学院静电与电磁防护研究所,石家庄050003;2.军械工程学院计算机工程系,石家庄050003)

为研究三模冗余演化自修复系统可靠性及状态规律,首先给出了系统架构及其工作流程,继而以马尔科夫(Markov)过程理论为基础对其进行了可靠性建模,最后基于此模型对系统可靠性及状态规律进行了仿真研究。结果表明:修复率与故障率比值是影响系统可靠性的主要因素;系统运作区间以可用度与可靠度差值的极值分为两大部分,极值点前,系统主要处于状态0、1,演化修复作用对系统可靠性贡献不大;极值点后,系统在状态1、2间转换概率提高,演化修复作用成为提高系统可靠性主要因素。所得结论对特定环境中系统的设计、应用、评估具有一定的理论指导意义。

电子系统;容错技术;三模冗余;演化硬件;自修复;马尔科夫模型;可靠性

1 引言

集成电路工艺的演进和技术革新,不断提高电子系统性能的同时也导致其电磁敏感度不断增高,在战场复杂电磁环境[1-2]中经常出现元部件受损、功能出错等故障现象,使得电子系统的容错抗扰问题显得更加突出[3]。传统的电子系统容错技术多采用器件备份冗余方案,可在一定程度上提高系统的可靠性,却存在资源利用率不高、容错能力不强等诸多弱点。演化硬件(Evolvable Hardware,EHW)是一种具有自组织、自适应、自修复特性的新型智能硬件,它以演化算法作为组合优化和全局搜索的主要工具,以可编程器件作为硬件电路实现载体与评估手段,在不依赖先验知识和外力的推动下,通过进化获得满足给定要求的电路和系统结构,使得系统能够在线自适应调整其内部结构,以适应内部状态和外部工作环境的变化[4]。近年来,相关学者将演化硬件用于系统容错领域[5-6],并结合传统三模冗余(Triple module Redundancy,TMR)技术,提出了一种具有演化自修复能力的TMR系统[7],即三模冗余演化自修复系统(简称ETMR系统)。

文献[7]及作者所在团队,分别从不同层面实现了一种ETMR系统,可靠性分析及实验证明其较之传统TMR系统以及单纯以演化硬件为基础的可修复系统,具有较强的容错抗扰特性。文献[7]从系统整体所处状态(正常、修复、失效)出发建立了ETMR系统可靠性模型,较好地对系统可靠度进行了分析和评估,但对系统可用度及系统运作期间内部功能模块状态变化规律揭示略显不够。为此,本文首先给出了ETMR系统的一般架构及工作流程,以马尔科夫(Markov)过程理论为基础,从系统功能模块不同状态出发构建系统可靠性模型,对系统可靠性及系统内部状态运作规律进行研究。

2 ETMR系统架构及工作流程

传统TMR系统不具备模块修复功能,仅容忍一个模块发生故障的情况,当两个及以上模块发生故障时,系统功能失效。ETMR系统引入演化硬件自修复功能,当某个功能模块出现故障,系统触发相应机制对故障模块进行在线演化修复。待修复成功后,系统恢复到一个新的“初始状态”,从而大幅提高系统可靠性。系统架构如图1所示。

ETMR系统较之传统TMR系统增加了故障监测、演化修复模块以及其他相应控制、选择机制。系统上电后,演化修复模块根据各功能模块状况逐个进行初始演化配置,使其具有完整的系统功能。其后,系统进入工作状态,演化修复模块进入故障等待状态。同时故障监测模块对各功能模块进行实时监测,当检测到某个功能模块发生故障,便通过故障向量报告给演化修复模块。演化修复模块根据故障向量进行故障编码,闭锁故障报告,触发演化修复机制。同时,各模块根据故障编码完成相应信号控制。此时,演化修复模块与故障功能模块形成一个独立的闭环系统,在不影响其他模块正常工作的同时实现故障模块在线演化修复。演化修复完毕,演化修复模块解锁故障报告,同时故障编码置0,系统恢复到ETMR状态。其工作流程如图2所示。

3 系统可靠性建模

3.1 系统状态分析

ETMR系统一旦检测到故障,即刻进入演化修复状态,此为瞬时状态。若对系统功能模块关联状态不加限制,从各功能模块状态考虑,系统具有以下5种状态。

状态0:3个功能模块全部正常,系统处于完好状态;

状态1:两个功能模块正常,一个功能模块修复,表决后系统输出正常,处于可靠状态;

状态2:一个功能模块正常,一个功能模块故障,一个功能模块修复。由于在修功能模块输出不确定,致使表决后系统输出结果不确定(有时正确有时错误),属于故障状态。但修复后系统转至状态1,为可靠状态。

状态3:两个功能模块故障,一个功能模块修复。由于两故障功能模块输出相同,表决结果为错误输出。在修模块修复后,其输出与两故障模块输出不同,再次被判定为“故障”模块,系统陷入对此模块无限循环修复的故障状态。

状态4:三个模块故障,表决后系统输出错误,且检测不出故障模块,系统进入一个稳定的故障状态。

3.2 系统可用度模型

初始时刻t=0,系统所有功能模块完好,微分方程组(1)初始条件为:p0(0)=1,p1(0)=0,p2(0)=0,p3(0)=0。

系统瞬态可用度A(t)为状态0、1时的概率和,即:

3.3 系统可靠度模型

可靠度R(t)是指系统在规定时间内和规定条件下完成规定功能的概率,用以描述系统在t时刻前没有发生故障的概率。对于ETMR系统,状态0、1时系统处于正常状态,状态2时为故障状态,所以可靠度求解不考虑系统进入状态2后由于演化修复作用再次进入状态1的情况。系统状态空间马尔科夫模型如图4所示。

由图4和全概率公式可得系统的马尔科夫模型方程组:

初始条件依然为:p0(0)=1,p1(0)=0,p2(0)= 0,p3(0)=0。

系统可靠度R(t)为状态0、1时的概率和,即:

4 仿真分析

微分方程组(1)、(3)理论上可通过拉普拉斯(Laplace)变换求解,但过程比较复杂,运算量庞大,可采用MATLAB中微分方程求解函数ode45进行仿真求解。MATLAB帮助文档及文献[8]均给出了以ode45函数求解微分方程组的详细过程,稍作修改便可对相应微分方程组进行求解,在此不再赘述。

4.1 系统可靠性分析

分别取(λ,μ)为(0.000 1,0)、(0.000 1,0.000 1)、(0.000 1,0.001)、(0.000 1,0.01)、(0.000 1,0.1)、(0.000 5,0)、(0.000 5,0.000 5)、(0.000 5,0.005)、(0.000 5,0.05)、(0.000 5,0.5),分别对微分方程组(1)、(3)仿真求解,根据公式(2)、(4)可得系统可用度A(t)、可靠度R(t)分别随λt变化曲线,如图5和图6所示。

由图5和图6可以发现,可靠度曲线与可用度曲线具有以下共同规律。

(1)修复率μ与故障率λ比值一定时,系统可用度(可靠度)曲线重合,说明ETMR系统可用度(可靠度)仅与k=μ/λ有关,与具体的μ、λ取值无关。此结论经多次仿真验证均成立。当k取0或∞时,系统分别等效为传统TMR系统和无故障系统(故障瞬时修复),已不属ETMR系统范畴,在此不做讨论。

(2)当k值一定时,随着λt的增大,系统可用度(可靠度)逐渐降低,且k值越大可用度(可靠度)降低越缓慢。

(3)当λt一定时,k值越大系统可用度(可靠度)相对越高,但随着λt不断增加,不同k值时系统可用度(可靠度)间差距逐渐减小,直至为0。

同时,两者也具有一定差异性:当k、λt值一定时,系统可用度较之可靠度要高。区间(0,100)上,系统可用度曲线下降较之可靠度曲线平缓,且k值越大,此现象越明显。

4.2 系统状态运作规律分析

比较图3和图4可知,ETMR系统可用度与可靠度差异性主要源于系统进入故障状态(状态2)经演化修复再次恢复到可靠状态(状态1和状态0)的情况。若取Z(t)=A(t)-R(t),Z(t)∈(0,1),则Z(t)描述了t时刻系统由状态2转换到状态1的概率,可定量描述系统由故障状态恢复到可靠状态这种事件对系统可靠性贡献情况,同时也可以此分析系统内部状态变化规律。不同k值时Z(t)与λt关系曲线如图7所示。

(1)Z(t)曲线走势规律分析

由图3和图4可知,随着t的不断增加,系统最终必将进入吸收状态(状态3),此时可靠度、可用度均为0,Z(∞)=0;且在初始时刻可靠度、可用度均为1,Z(0)=0。由于Z(t)是一个时间连续函数,结合图7可以推断出,Z(t)曲线走势是一个从0逐渐上升到一个最大值,而后又逐渐下降到0的过程。产生此种规律主要是因为极值点前状态2出现概率较小,从而导致状态2转换至状态1的概率较小;极值点后,由于状态2出现概率不断增大,而系统由状态2转换至状态1概率(即修复率)保持不变,从而使系统整体可靠性下降。

(2)Z(t)曲线极值点规律分析

由图7可知:k=1时,max Z(t)≈0.06,相应λt≈5;k=10时,max Z(t)≈0.65,相应λt≈5;当k= 100时,max Z(t)≈0.94,相应λt≈80;k=1 000时,λt =100时Z(t)尚未达到最大值。可推断出:k值越大,相应Z(t)曲线极值越大,且对应λt值越大。由于Z(t)∈(0,1),随着k值增大,max Z(t)越来越接近于1,且max Z(t)增值越来越小。

Z(t)曲线走势直接反映了演化修复作用对系统可靠性贡献情况,并可以极值点将系统整个运作区间分为两大部分。极值点前,系统各部件可靠性较高,系统主要处于0、1两种状态,在状态0、1间进行转换,演化修复作用对系统可靠性贡献不大;极值点后,系统各部件可靠性降低,系统在状态1、2间转换概率提高,演化修复作用已成为提高系统可靠性的主要因素。

5 结论

本文通过对三模冗余演化自修复系统可靠性分析,揭示了ETMR系统的可靠性规律及状态运作规律。可靠性规律指出修复率与故障率比值是影响系统可靠性的主要因素,且比值越大,相应可靠性曲线下降越缓慢,可靠度(可用度)值越大。所以ETMR系统可靠性设计,应从提高修复率和降低故障率两方面进行综合考虑,在保障系统性能的同时有效设定各系统参数,以期减小设计难度,缩短设计周期,降低设计成本。状态运作规律指出系统的运作区间可以其可用度与可靠度差值的极值分为两大部分,极值点前,系统主要处于0、1状态,演化修复作用对系统可靠性贡献不大;极值点后,系统在状态1、2间转换概率提高,演化修复作用已成为提高系统可靠性的主要因素。此结论可对系统可靠性及运作状况加以定性评估,并可理论指导确定系统最佳任务工作区间以及特殊情况下人工干预的最佳时机。

[1]刘尚合,孙国至.复杂电磁环境内涵及效应分析[J].装备指挥技术学院学报,2008,19(1):1-5. LIU Shang-he,SUN Guo-zhi.Analysis ofthe Conceptand Effects of Complex Electromagnetic Environment[J].Journal of the Academy of Equipment Command&Technology,2008,19(1):1-5.(in Chinese)

[2]廖辉荣,李国林.机载自卫电子战系统对引信信号侦察的作用评估[J].电讯技术,2011,51(3):106-110. LIAO Hui-rong,LI Guo-lin.Essentiality of Airborne Self -Protection Electronic Warfare System to Scout Fuze Signal[J].Telecommunication Engineering,2011,51(3):106-110.(in Chinese)

[3]刘尚合,原亮,褚杰.电磁仿生学—电磁防护研究的新领域[J].自然杂志,2009,31(1):1-7. LIU Shang-he,YUAN Liang,CHU Jie.Electromagnetic Bionics:A New Study Field of Electromagnetic Protection[J].Chinese Journal of Nature,2009,31(1):1-7.(in Chinese)

[4]王友仁,崔坚,游霞,等.仿生硬件及其进展[J].中国空间科学技术,2004,24(6):32-42. WANG You-ren,CUI Jian,YOU Xia,et al.Theory and Technology Developmentof Bio-inspired Hardware[J].Chinese Space Science and Technology,2004,24(6):32-42.(in Chinese)

[5]Greenwood G W.Attaining Fault Tolerance through Selfadaption:The Strengths and Weaknesses of Evolvable Hardware Approaches[C]//Proceedings of 2008 IEEE World Congress on Computational Intelligence.Hongkong:IEEE,2008:368-387.

[6]Gregory V L,Jason D L.Evolutionary Based Techniques for Fault Tolerant Field Programmable Gate Arrays[C]//Proceedings of the 2nd IEEE International Conference on Space Mission Challenges for Information Technology.Pasadena,California,USA:IEEE,2006:553-560.

[7]姚睿,王友仁,于盛林,等.具有在线修复能力的强容错三模冗余系统设计及实验研究[J].电子学报,2010,38(1):177-183. YAO Rui,WANG You-ren,YU Sheng-lin,et al.Design and Experiments of Enhanced Fault-Tolerant Triple-Module Redundancy Systems Capable of Online Self-Repairing[J]. Acta Electronica Sinica,2010,38(1):177-183.(in Chinese)

[8]杨其国.基于Markov过程的冗余系统可靠性分析[J].计算机仿真,2011,28(1):356-359. YANG Qi-guo.Reliability Analysis of Redundancy System Based on Markov Process[J].Computer Simulation,2011,28(1):356-359.(in Chinese)

JU Zheng-quan was born in Huxian,ShaanxiProvince,in 1980. He received the M.S.degree from Ordnance Engineering College in 2009.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.

Email:sharkjzq@yahoo.com.cn

郑见灵(1978—),男,山东平度人,2009年于军械工程学院获硕士学位,现为讲师,主要研究方向为嵌入式系统应用;

ZHENG Jian-ling was born in Pingdu,Shandong Province,in 1978.He received the M.S.degree from Ordnance Engineering College in 2009.He is now a lecturer.His research concerns embedded system application.

满梦华(1984—),男,河北沧州人,2010年于军械工程学院获硕士学位,现为博士研究生,主要研究方向为电磁防护理论与技术;

MAN Meng-hua was born in Cangzhou,Hebei Province,in 1984.He received the M.S.degree from Ordnance Engineering College in 2010.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.

常小龙(1986—),男,河南周口人,2011年于军械工程学院获硕士学位,现为博士研究生,主要研究方向为电磁防护理论与技术。

CHANG Xiao-long was born in Zhoukou,Henan Province,in 1986.He received the M.S.degree from Ordnance Engineering College in 2011.He is currently working toward the Ph.D.degree.His research concerns theory and techniques of electromagnetic protection.

Reliability and State Characteristic Analysis of Evolvable Triple Module Redundancy Self-repairing System

JU Zheng-quan1,ZHENG Jian-ling2,MAN Meng-hua1,CHANG Xiao-long1
(1.Electrostatic and Electromagnetic Protection Institute,Ordnance Engineering College,Shijiazhuang 050003,China;2.Department of Computer,Ordnance Engineering College,Shijiazhuang 050003,China)

This paper investigates the reliability and state characteristic ofthe evolvable triple module redundancy self-repairing system.Firstly,the architecture and workflow ofthe system are proposed.Secondly,its reliability model is established based on Markov′s course theory.Finally,simulation experiments are carried out to study the reliability and state characteristic.As shown in the results,the ratio of repair rate and faultrate is the most important influencing factor.The operation interval of the system is divided into two parts by the extreme difference between the availability degree and reliability degree.In the former part,the system is working at state 0 and state 1.And the contribution ofself-repairing mechanism has little effect.In the latter,the probability of the transformation between state 1 and state 2 is increased.And the self-repairing mechanism is the main factor for the reliability.The conclusions provide guidance for the design,application and evaluation ofthe system in such specific environment.

electronic system;error tolerance;triple module redundancy;evolvable hardware;self-repair;Markov model;reliability

TP273

A

10.3969/j.issn.1001-893x.2012.02.026

巨政权(1980—),男,陕西户县人,2009年于军械工程学院获硕士学位,现为博士研究生,主要研究方向为电磁防护理论与技术;

1001-893X(2012)02-0245-05

2011-09-28;

2011-12-26

猜你喜欢
系统可靠性功能模块极值
极值点带你去“漂移”
极值点偏移拦路,三法可取
试析提高配网系统可靠性的技术措施
一类“极值点偏移”问题的解法与反思
基于ASP.NET标准的采购管理系统研究
借助微分探求连续函数的极值点
城市轨道交通信号系统可靠性分析
基于故障树模型的光伏跟踪系统可靠性分析
输电线路附着物测算系统测算功能模块的研究
功能模块的设计与应用研究