沈霁 郑璧青 叶恒 施雯 王琰
摘要:高可靠飞行器计算机系统主要应用于智能化飞行器以及其它具有故障修复,任务变更等在轨持续扩展飞行任务要求的飞行器,本文选用了三模冗余设计,总线独立,具备三机自主降级切换,自主恢复的能力,有效的保证了计算机的可靠性和安全性。
关键词:可靠性;三模冗余;自主降级
中图分类号:TN79 文献标识码:A 文章编号:1007-9416(2019)04-0158-02
0 引言
航天飞行器由于其灵活多变的应用特点,所以在功能和需求上对可靠性的要求越发重要,本文中高可靠飞行器计算机具备高可靠高性能的特点,系统主要采用三模冗余容错的计算机系统结构,完全消除了单点故障,设计了三机故障重构和降级策略,提高了计算机系统的实时性和可靠性,延长了计算机的使用寿命。
1 系统可靠性设计
为了提高计算机系统的可靠性和安全性,采用了高容错能力的三模冗余设计,主要是通过采用硬件结合软件容错的措施,在系统出现一定故障的情况下仍能够正确完成规定任务的容错系统,这个结构完全消除了单点故障,提供了一种故障重构和降级的策略,提高了飞行器计算机系统的实时性和可靠性,并且采用了断点时分采集方法,保证系统采集能够在同一时间进行读取,通过三取二表决[1]进行处理,避免单个故障状态下的安全性,使得三模冗余的设计更加可靠。
计算机系统设计了三个CPU(arm9260)作三机冗余设计,并且配置了2套系统构成冷/热冗余的二模系统,共6机,每套CPU总线独立,分别有自己的引导程序存储器(PROM)、程序运行存储器(SRAM)和数据存储区(NorFlash),CPU两两之间有共享数据存储器(双口RAM),CPU通过表决FPGA与对外总线(CAN总线和CPCI内总线)进行通信。系统具体设计如图1所示。
2 软件工作模式设计
计算机系统默认分为当权机与备份机,工作模式有三机模式、双机模式以及单机工作默认情况下工作在三机模式,A号机为当权机,B、C号机为备份机,三机同时接收外部数据,进行三机数据交互表决后,由当权机输出控制[2]。
计算机系统故障模式分为两种:瞬时故障和永久故障。
(1)瞬时故障处理设计:各模式下发生瞬时故障时,需维持当前模式,解决瞬时故障,若连续发生瞬时故障超过阈值限制,需转换为永久故障,进行降级或切权;
(2)永久故障处理设计:1)三机模式下发生永久故障时,通过CPU三冗余内部表决实现降级处理,转入双机模式,等待故障机重启,若重启超过阈值限制仍没有恢复,需进入双机模式,当权机共作,备份机通过“心跳”信号监测主份机的工作状况;2)双机模式下发生永久故障时,备份机夺权,降级为单机工作模式直至任务结束。
三种工作模式的切换关系图如图2所示。
3 系统可靠性处理方案
方案设计通过自查、互查模式来决定切权,以此来保障单机在出现故障时仍能正常工作。
(1)自查模式:CPU软件均分配独立的空间进行三冗余数据判读,通过三冗余数据判读检查自身功能异常状态,若三冗余出现异常,需发送异常反馈,写入自身异常标志,由备份机参与进行表决,并进入异常处理模式;(2)互查模式:三个CPU通过各自的交互缓存获得其他两个CPU的心跳信号和同步信息,发现有CPU状态异常时(如无心跳、连续出现同步信息错误等),若有两个CPU同时判断另一机异常,则将三机模式降级为双机模式,以此实现三个CPU之间的互查。
计算机系统主要故障处理策略如下:
(1)降级策略:由于三机采用三取二的三冗余容错机制,当单机失效后三取二的冗余机制不再存在,为了使系统具备更强的故障容忍度,方案采用单机故障后,可降级为主从模式,再次有单机故障时,可降级为单机运行;(2)恢复策略:单机故障后的三机模式的重建:若三取二表决出一机软件故障,则正常的两机控制输出的同时,通过发送复位信号给故障CPU,对CPU进行复位处理;正常的两机降级为双机热备模式固定由其中单机当班输出。在随后的三机模式重建中,以该当班机为主,控制实现三机的重建。
4 结语
本文主要阐述了一种高可靠飞行器计算机系统设计方法,采用了三模冗余结合故障修复设计的综合方案,通过三取二表决进行处理,确保单个故障状态下的安全性,使得三模冗余的设计更加可靠,大大提高了飞行器计算机系统的可靠性和稳定性,能够满足飞行器计算机高可靠的发展趋势。
参考文献
[1] 曹靚,田海燕,王栋.一种抗单粒子瞬态辐射效应的自刷新三模冗余触发器[J].电子与封装,2018,18(09):36-38+41.
[2] 王钊,李勇,崔维鑫,雒莎.一种星载嵌入式软件容错启动系统设计[J].电子设计工程,2019,27(08):1-5.