一种三模混合冗余总线控制系统设计研究

2015-03-10 10:34曹帮林张福鑫
航天控制 2015年6期
关键词:备机本机余度

黄 波 曹帮林 张福鑫 陈 伟

北京航天自动控制研究所,北京100854

冗余设计技术在提高系统任务可靠性的同时,不可避免地提升了系统的复杂度。冗余系统可靠度、容错度与容错效率反映了容错结构对系统资源的利用率[1]。与基于故障检测与重构的动态冗余容错技术相比,基于硬件冗余的静态冗余技术具有原理简单、易于实现的优点,但需要投入更多的冗余硬件资源[2]。双模热备与三模冗余(TMR)为这2种冗余技术的典型代表[3]。文献[4-6]论述了一类三模冗余计算机,其结构示意图及工作流程分别如图1和2所示,其工作原理为:三机在实现同步的前提下,通过三机交叉通道数据链(例如双口RAM、高速总线等)实现信息交换,使每个冗余模块均获得相同输入信息,通过“三取二”表决实现对一度故障的自动吸收。文献[7-8]所论述的双机容错计算机通过数据交换实现故障检测、通过自检实现故障机隔离。显然,相对非余度系统,信息交换、比对与表决增加了软硬件设计的复杂度,并产生了额外的时间开销。

为了吸收动态冗余和静态冗余技术各自优点,文献[2]提出了一种“N模块冗余+备份冗余”的混合容错设计思路,文献[9]提出了一种具体的混合冗余三模容错系统,其工作原理仍然以信息交换为基础。

图1 TMR结构示意图

在多总线(为便于描述,本文指1553B总线,简称总线,本文提出的设计思路也适用于类似总线系统)冗余控制系统中,总线控制器失效影响不仅仅局限于其本身,而是形成一种故障耦合关系。例如,对于采用一个余度总线控制器管理一条总线的多余度总线控制系统容错结构中,当其中一个余度总线控制器失效时,将导致其所管理的总线上挂接的所有节点失去作用,从而降低了冗余资源的利用率。

本文针对多总线冗余控制系统特点,提出了一种三模混合容错结构,通过一种自检、互检与表决机制相结合的软硬件协同混合冗余管理机制,既降低了软硬件实现的复杂度,又提高了系统容错效率,可在飞行器控制、工业控制等高可靠控制场合推广应用。

1 容错系统总体结构

本文以完全对称或非对称三余度总线控制系统作为对象,其中非对称三余度系统结构如图3所示,系统配套设备可分为传感器、控制计算机和执行器3大类。其中控制计算机作为总线控制器完成控制律计算,三余度传感器与双余度传感器可能是测量同一物理量或不同物理量的相同或不同类型的余度传感器,余度配置数量根据其提供信息的自诊断性、与其他设备的互诊断性以及失效后的危害严酷度综合确定。由于传感器故障诊断和执行器余度管理与具体控制对象相关,本文不展开论述,只重点论述以控制计算机为核心的多总线控制系统冗余管理设计。

控制计算机采用三模混合冗余结构,由独立的A机、B机与C机三机组成,其工作原理示意图如图4所示(图示为A机为当班机、B机与C机为热备机的情形)。控制计算机三机采取当班机主控、备机跟随的工作方式,当班机执行“采样-运算-输出”的控制流程,备机跟随当班机运行,系统基本冗余管理流程如下:

1)控制计算机三机上电自检后,通过竞争确定当班机或备机角色;

2)当班机作为三总线控制器完成各传感器信息采样;备机作为总线监视器同步获得传感器测量信息;

3)当班机、备机并行开展传感器信息处理与控制运算;

4)当班机通过三总线向执行器输出控制指令;如果备机通过监视当班机通过总线发出的控制指令与本机不一致或超出一定的容差范围,则向当班机发出当班机不允许当班信号;

图3 三余度总线控制系统

图4 控制计算机冗余结构示意图

5)在三机模式下,如果双备机均发出当班机故障指示信号,则当班控制电路强制当班机释放当班控制权,双备机再次竞争当班控制权,在下一个控制周期,取得当班权的备机接管三总线,系统转入双机运行模式;如果只有一个备机持续一定时间发出当班机故障指示信号,而没有出现当班机切换事件,则表明该备机故障,从而终止其程序,系统转入双机运行模式;

6)在双机运行模式下,当班机发生故障时,主动释放当班控制权,备机在下一个控制周期接管三总线,转入单机运行模式。

由上述工作流程可以看出,混合冗余控制计算机综合了自检、互检与间接的三取二表决冗余管理机制,实现了三机表决、双机热备与单机运行3种工作模式故障条件下自动切换。该设计方案取消了三机之间专门交叉数据链,简化了软硬件设计,由于当班机软件不直接进行冗余管理,提高了系统实时性。此外,控制计算机任何余度故障均不会导致一条总线失去控制,使系统可以容忍任何配套设备任何余度模块任意一度故障及其组合故障和典型二度故障,提高了系统的容错效率。

2 系统容错设计

系统容错主要由控制计算机通过软硬件协同的方式实现,本文论述软硬件容错设计逻辑,对其实现不展开描述,其中硬件设计逻辑一般可由CPLD/FPGA可编程器件实现。

2.1 整机结构

控制计算机由3个设计原理相同的独立计算机模块组成,按照信号连接关系每机均可定义其左/右机。在产品实现上,三机可以采取相似设计或非相似设计[10]。三机之间交互的信号主要包括心跳信号、当班控制信号与不允许当班信号等少量离散量控制信号以及控制周期信号。从任意一机视角,基本硬件设计原理与左/右机信号接口以及软硬件接口关系示意图如图5所示,后文针对该图详细描述其设计原理。

2.2 三机同步

三机同步为容错基础。三机采用实时响应同步控制周期中断信号的方式实现三机任务级同步。三机控制周期中断信号采用一种带反馈机制的自检与表决相结合的硬件同步方案,其设计原理示意图如图6所示,其逻辑设计如下:

1)本机时钟通过分频器产生本机控制周期信号,该周期信号的计时起点为控制周期信号表决器给出控制周期信号起点;

2)左机与右机周期信号检测模块利用本机时钟对接收到的左机与右机控制周期信号进行故障检测,如果其周期在设定的偏差范围外则判定其故障,否则判定其正常;

3)如果左机与右机控制周期信号不全故障,则控制周期信号表决器对三机控制周期信号通过三取二表决后得到表决后的控制周期信号;否则利用本机控制周期信号作为表决后的控制周期信号;周期信号表决器将经表决后的控制周期信号发送至本机、左机与右机。

图5 单机工作原理及接口关系示意图

图6 三机同步设计原理示意图

该同步机制使得系统上电一个控制周期后即可实现三机控制周期信号同步,在任意一机、双机时钟信号出现故障时,非故障机控制周期信号相位、周期不会发生突变,从而不影响故障后的控制运算,使得三模控制计算机可以在时钟信号两度故障情况下还具备工作的基础。

2.3 单机自检

单机自检硬件电路采用一种改进的“看门狗”电路,该电路如果在规定的时间内(例如1.5个控制周期)接收到本机软件“喂狗”操作,则向左/右机发出本机心跳信号,否则停止输出本机心跳信号并复位本机硬件。

正常情况下,单机软件在每个控制周期开始时对本机自检硬件电路进行“喂狗”操作。此外,当班机、备机通过总线通信实现进一步的自检。例如,如果当班机软件在本控制周期规定时间内总线消息通信失败次数超出设定值,或者备机软件在本控制周期规定时间内监视到的总线消息少于设定值,则认为自检失败。自检失败后,软件停止“喂狗”操作,配合上述硬件设计,使得本机主动离线。

2.4 互检

本机对左/右机的硬件检测电路采用另一种改进的“看门狗”检测电路。该检测电路将左/右机心跳信号作为“喂狗”信号,在本机自检正常、左机与右机发送的不允许当班信号不全有效条件下,如果在设定的时间内没有检测到左/右机心跳信号,则判定其故障,向其发出左/右机不允许当班信号。

备机软件监测当班机通过三总线输出的控制指令,在下述条件下,判定当班机故障,发出不允许当班指令:

1)在本控制周期规定时间内监视到的总线消息少于设定值;

2)备机监视到当班机发送连续数字控制指令(如伺服指令),以下任意条件成立:

①与本机控制指令进行比较,差值大于某个设定较大偏差。与之相配合,执行机构对不连续(即出现跳变)控制指令进行屏蔽操作,或者利用执行机构的惯性特性直接吸收;

②与本机控制指令进行比较,连续若干个控制周期差值大于某个设定的较小偏差;

③连续若干个控制周期没有监视到对应的控制指令;

④如果设定的控制周期内连续监视到当班机发送离散量控制指令与本机指令不一致。与之相配合,执行机构可采取多拍比对、一致后再执行的冗余管理措施。

2.5 三机表决

2.5.1 当班竞争

三机上电后或当班机发生故障切换时,通过竞争的方式确定当班机。单机软件查询不到左/右机当班信号时,向当班控制电路发出请求当班信号。当班控制电路在单机自检正常、左机与右机发送的不允许当班信号不全有效条件下将本机当班信号置为有效状态,并向左/右机发送,本机软件在查询到本机当班信号有效、左机/右机当班信号均无效时,设置本机为当班机;否则如果查询到本机当班信号无效、左机或右机当班信号有效时,设置本机为备机。

2.5.2 当班机故障表决

在运行过程中,如果双备机根据2.4节所述策略均判定当班机故障时而均给出不允许当班信号时,满足了三取二表决原则,则上述当班控制电路释放本机当班信号;同时,硬件电路检测到当班信号由有效状态变为无效状态时,将总线发送器使能端置无效,禁止三总线通信,进行硬件复位操作,将故障机强制下线。

2.5.3 备机故障表决

三机模式下,备机软件根据2.4节互检策略持续若干个控制周期发出不允许当班机当班指令且未出现当班机变更,则表明该备机判定当班机故障没有得到其它两机确认,则停止向本机自检电路的“喂狗”操作,自检电路触发复位信号,故障备机离线。

2.6 双机热备

当系统转入双机运行模式后,多数表决条件不再可能得到满足,当双机模式下当班机出现故障时,当班机通过自检机制释放当班权,使得最后一个正常备机可以获得当班权继续完成系统控制功能。

3 结束语

针对完全对称或非对称三余度总线容错控制系统结构,设计了一种新的三取二实现形式,形成了一种基于自检、互检与表决机制相结合的冗余管理机制,实现了三机表决、双机热备与单机运行3种工作模式自动切换,简化了软硬件设计,提高了系统实时性与系统容错效率。该研究成果在某飞行器控制系统中得到了应用,试验表明该系统可以容忍任何配套设备任何余度模块任意组合的一度故障和典型二度故障;在控制计算机余度模块不同的故障发生时机时,经过0~2个控制周期可以完成系统重构。

[1] 孙俊恩,宋文好,张六韬.容错计算机技术中的几个新概念[J].现代计算机,2001,(1):6-8.(Sun Junen,Song Wenhao,Zhang Liutao.Several new conceptions in fault-tolerant computer technology[J].Modern Comuper,2001,(1):6-8.)

[2] 胡绍林,黄刘生.计算机控制系统容错设计技术及应用[M].北京:科学出版社,2010.

[3] WC Carter and W G Bouricius.A survey of fault-tolerant computer architecture and its evaluation[J].Computer,1971,4(1):9-16.

[4] 黄涛,陈祥献,黄海.基于三取二冗余结构的安全计算机系统[J].计算机工程 2011,37(18):254-257.(Huang Tao,Chen Xiangxian,Huang Hai.Safety computer system based on 2 out of 3 redundant structure[J].Compter Engineering,2011,37(18):254-257.)

[5] 郭碧洲.基于软件表决的三模冗余星载计算机体系结构研究与设计[D].上海:上海交通大学,2011.(Guo Bizhou.Research and design on TMR on-board computer based on software-voting mechanism[D].Shanghai:Shanghai Jiao Tong University,2011.)

[6] 陈江渝.基于三模冗余综合电子系统的研究[D].杭州:浙江大学,2013.(Chen jiangyu.Research on composite electronic system based on triple modular redundancy[D].Hangzhou:Zhejiang University,2013.)

[7] 朱朝晖,张崇峰,陈卫东.空间双机容错计算机系统研究[J].上海航天,2004,(6):18-23.(Zhu Zhao hui,Zhang Chongffeng,Chen Weidong.Research on aerospace dual-computer fault-tolerant system[J].Aerospace Shanghai,2004,(6):18-23.)

[8] 刘小雄,陈怀民,等.自监控二余度飞控计算机系统设计[J].测控技术,2005,24(7):72-75.(Liu Xiao xiong,Chen Huaimin,et al.Design of self-monitoring dual redundancy flight control computer systems[J].Measurement& Control Technology,2005,24(7):72-75.)

[9] 李朝晖,王泽龙,宫栗,郭纪金.三微机混合冗余容错模式及其在水轮机调速器中的应用[J].大电机技术,1998,(1):60-64.(Li Zhaohui,Wang Zelong,Gong Li,Guo Jijin.A hybrid triplex fault-tolerant system configuration and it's application in hydroturbine governor[J].Large Electric Machine And Hydraulic Turbine,1998,(1):60-64.)

[10] 陈宗基,秦旭东,高金源.非相似余度飞控计算机[J]. 航空学报,2005,26(3):320-327.(Chen Zongji,Qin Xudong,Gao Jinyuan.Dissimilar redundancy flight control computer[J].Acta Aeronautica et Astronautica Sinica,2005,26(3):320-327.)

猜你喜欢
备机本机余度
基于ADS-B的防撞检测算法研究
余度计算机在无人机系统中的应用研究
飞机相遇模型仿真技术研究
不再烦人隐藏Windows 10的更新
高空长航时无人机飞控机容错技术研究
调频广播发射机的N+1备机系统
新型操舵控制系统余度管理技术
混合余度传感器系统的可靠性建模与分析
紫光云计算机升级 支持信息化建设
紫光云计算机升级虚拟化模块