胡庆新,陶桂东,顾爱华,夏文娟,张春阳
(合肥工业大学 计算机与信息学院,安徽 合肥230009)
我国是一个山洪灾害频繁发生的国家,山洪发生大部分是以泥石流、山体滑坡的形式出现,一旦发生就会带来严重的影响。目前人工观测的方式耗费大量的人力资源,且可靠性和实时性不高,所以需要建立高可靠性的山洪预警系统。而远程终端控制系统RTU(Remote Tenninal Unit)是其核心组成部分。RTU主要用于对信号、工业设备的监测和控制[1],其可靠性是研究的要点。
对于山洪预警系统,需要设计一个可以测量雨量和水位的RTU。由于山洪预警系统对RTU可靠性的要求较高,所以对RTU采用双机系统结构。建立Markov模型对单机系统和双机热备系统的可靠性和安全性进行评估。
RTU的主要功能[2]是对现场进行数据采集、处理和数据通信,并且RTU具有存储、显示、设置、报警的功能。本文设计的RTU主要具有检测雨量和水库水位的功能。具体功能如下:
(1)数据采集功能:主要负责采集由雨量传感器和水位传感器传送来的模拟信号;
(2)数据处理功能:对采集到的模拟信号按照计算公式转化为相应的数字信号;
(3)数据存储功能:RTU配备了大容量的存储器以供存储现场处理数据;
(4)显示功能:RTU可以显示现场的水位、雨量以及终端的收发状态;
(5)设置功能:如对水位测量时,RTU可以设定周期(如1 h)采集传感器数据;
(6)报警功能:当测量的水位和雨量超过设定值时,蜂鸣器产生报警信号;
(7)数据通信功能:提供若干种通信规约,支持无线通信的功能,例如将采集到的数据通过RS232串口传送到GPRS模块,再通过GPRS网络发送到数据中心;
(8)诊断和恢复功能:本文设计的双机系统的检测包括自检和它检功能。
由于RTU工作的环境比较恶劣,现场的温度和湿度都会有很大的变化,而且时常会发生雷击,所以对RTU的设计需要达到一定的标准。RTU的温度指标应该在-20℃~+70℃,湿度应该为90%RH,平均无故障时间(MTBF)至少达到30 000 h,此外还应具有抗雷击、抗电磁干扰的能力。
系统模块包括以下几个部分[1,3]:
(1)主控制器模块:通过两片MC9S08QE64单片机构成双机热备系统,通过增加心跳总线和控制总线对两个模块进行故障检测和控制。
(2)电源模块:通过2个继电器,为外部设备提供 2路经过DC/DC隔离的直流电,电流200 mA即可供电或断电。将蓄电池的电压由12 V变成5 V,给单片机供电。
(3)通信模块:用一个串口提供2路RS232接口(1路接卫星,1路接 GPRS,不隔离);用一个串口提供2个RS232接口和 1个RS485接口;1个SPI接口,供外部扩展IO口用。
(4)输入输出模块:包括数字量的输入输出模块、模拟量的输入模块等。
(5)存储模块:1个4 MB大容量的存储芯片MR25H40用来临时存放采集到的各种数据。
由于RTU的工作环境比较恶劣,为满足工业控制的指标和需求,各模块与单片机之间要加上隔离保护器件,如12 V变 5 V的非隔离DC/DC、防雷保护电路等。RTU的系统结构框图如图1所示。
RTU工作现场的环境恶劣,这要求其具有很高的可靠性。由于单机系统[4]的容错能力较差、可靠性不高,同时三模冗余系统[5]和双模冗余-比较系统[6]的复杂度大、成本较高,所以经过比较采用双机热备系统。如今国内对系统可靠性的研究方法比较多,例如基于故障树的分析方法、基于petri网的分析方法、故障模式及危害性分析、基于Markov模型的分析方法。由于双机热备的各个状态转换是一个随机的动态过程,而Markov是研究状态转换的最佳方法,所以选用基于Markov模型的分析方法。最后对单机系统和双机系统的可靠性和安全性进行了比较。
在建立Markov模型之前,需要对可修复系统提出以下假设:(1)系统的模块和对应的元器件完全相同,系统模块切换完全可靠,维修时只有一组维修工;(2)元器件的失效率λ和维修率μ在状态转移过程中服从常指数分布,在极短的时间△t内不会发生两次及两次以上的状态转移,模块在 t时刻正常工作,则在 t~t+△t之间发生故障的概率为 P≈λ△t;(3)初始时刻各模块都处于完好状态;(4)对于单机系统考虑故障检测率,故障时不考虑维修;(5)各模块故障检测覆盖率为c,即存在可测故障和不可测故障。
根据以上假设,给出了单机系统和双机热备系统的状态转换图,如图2和图3所示。
3.2.1 单机可测系统状态分析
对于单机可测系统有以下3种状态:
状态1:单机系统处于正常状态;
状态2:单机系统出现可测故障,系统输出故障安全状态,系统停机失效;
状态3:单机系统处于不可测故障,系统处于危险状态。
由以上可知只有状态1是可靠状态,状态1和状态2是安全状态。由图2得到状态转移方程如下:
P1(t+△t)=(1-λ△t)P1(t)
P2(t+△t)=cλ△tP1(t)+P2(t)
P3(t+△t)=(1-c)λ△tP1(t)+P3(t)
由上式求出极短时间(△t→0)时的极限微分方程组并对其求解,带入初始条件 P1(0)=1,P2(0)=0,P3(0)=0,得出单机系统的可靠度R(t)和安全度S(t)的表达式如下:
R(t)=P1(t),S(t)=R(t)+P2(t)
3.2.2 双机热备系统的状态分析
双机热备系统有以下7种工作状态[7]:
状态1:主机、备机都处于正常状态;
状态2:有一个系统发生可测故障,系统处于单机工作;
状态3:主机、备机均出现可测故障,系统停机;
状态4:工作机出现不可测故障,备机正常,系统处于危险状态;
状态5:主机正常,备机出现不可测故障,系统处于安全输出状态;
状态6:系统处于单机工作状态,并且工作机发生了不可测故障,系统处于危险状态;
状态7:主机、备机都出现不可测故障,系统处于危险状态。
根据图3所示的状态图,可列出离散时间的马尔可夫模型方程组:
P0(t+△t)=(1-2λ△t)P0(t)+μ△tP1(t)
P1(t+△t)=2cλ△tP0(t)+(1-μ△t-λ△t)P1(t)
P2(t+△t)=cλ△t P1(t)+P2(t)
P3(t+△t)=(1-c)λ△tP0(t)+(1-λ△t)P3(t)+μ△tP5(t)P4(t+△t)=(1-c)λ△tP0(t)+(1-λ△t)P4(t)
P5(t+△t)=(1-c)λ△tP1(t)+cλ△tP3(t)+cλ△tP4(t)+(1-μ△t)P5(t)
P6(t+△t)=(1-c)λ△tP3(t)+(1-c)λ△tP4(t)+P6(t)
对以上的微分方程组求解,并且带入初始条件P0(0)=1,P1(0)=P2(0)=P3(0)=P4(0)=P5(0)=P6(0)=0,得出双机系统的R(t)和 S(t)的表达式如下:
R(t)=P0(t)+P1(t)+P4(t),S(t)=R(t)+P2(t)
3.2.3 仿真分析
由于求解微分方程比较困难,采用Matlab进行仿真。根据实际情况对模型中的各个参数进行假设。此时取λ=0.000 1 次/h,μ=0.1,c=0.9,时间取 0、1 000 h、3 000 h、5 000 h、8 000 h、10 000 h。 表 1和表 2给出了单机系统和双机系统的可靠度和安全度数据。图4对单机可测系统和双机热备系统的可靠度和安全度进行了比较。
表1 单机可测系统的可靠度和安全度
表2 双机可测系统的可靠度和安全度
由表1可以看出单机可测系统的可靠度和安全度随着时间的增加而减小,且可靠度减小的幅度明显比安全度要大。
由表2同样也可以得出双机热备系统的可靠度和安全度会随时间的增加而减小,但是下降幅度不明显,且二者数值比较接近。
由图4可以看出双机热备系统的可靠度明显高于单机系统的可靠度,且单机系统在5 000 h时其可靠度跃为0.6,而双机热备系统的可靠度还高达0.94。双机热备系统的安全度和单机系统的安全度相差不大,都处于较高的水平。比较得出双机热备系统比单机系统好,更加适合设计高可靠的RTU。
通过对双机热备系统和单机系统的比较,得出双机热备技术既可以保持较高的安全度,同时也明显提高了系统的可靠性,对于比较恶劣的环境采用双机热备技术提高RTU的可靠性是很好的选择。
[1]陈梓馥,孙万蓉,董明明,等.基于 ARM9的 RTU设计[J].物联网技术,2012,2(3):54-58.
[2]宋涛.水文自动测报系统RTU的设计[D].太原:太原理工大学,2010.
[3]吕宗平.RTU在水电站计算机监控中的应用[D].武汉:华中科技大学,2005.
[4]姜坚华.双机热备系统的技术研究和具体实现[J].微型电脑应用,2004,20(3):7-8.
[5]王丽华,徐志根,王长林.可维修三模冗余结构系统的可靠度与安全度分析[J].西南交通大学学报,2002,37(1):104-107.
[6]张本宏,陆阳,魏臻,等.双模冗余一比较系统的可靠性和安全性分析[J].系统工程学报,2009,24(2):231-237.
[7]覃庆努,魏学业,于蓉蓉,等.基于双机联合故障检测的双机热备系统可靠性和安全性研究[J].系统工程与电子技术,2011,33(12):210-215.