聂金环
现代信息技术中,如何提升处理器本身的容错性能已经成为当前研究的热点。对于这一问题,可以将故障屏蔽技术(三模块冗余,校正器)和故障恢复技术(多数表决恢复,检查点)应用到处理器的容错设计中。
随着逐步采用纳米级的制造工艺,处理器在性能得到大幅提高的同时,由于集成电路尺寸的减小、电源电压的降低和频率的升高,使得处理器对各种噪声干扰变得更加敏感,处理器的容错性能成为一个日益严峻的课题,对处理器容错性能提出了更高的要求。所以如何提升处理器的容错能力具有很高的研究价值。
处理器容错
处理器在运行过程中产生的错误可以分为硬错误和软错误两种。硬错误是电路单元产生的不可恢复故障,是永久性的错误;而软错误则是由于噪声干扰或者高能粒子撞击而引起的瞬态故障,是可以恢复的错误。研究表明,计算机系统中80%~90%的失效都由瞬态故障引起,表明瞬态故障是引起计算机系统失效的主要原因。为了消除软错误的影响,提高处理器的可靠性,可以在设计阶段采用容错设计技术,通过冗余容错的电路以及体系结构设计,使得处理器具有容错功能。容错技术总是同冗余的概念联系在一起,冗余技术可以基本分为如下几类:硬件冗余、软件冗余、信息冗余和时间冗余。
故障屏蔽技术
故障屏蔽技术基于硬件冗余,利用冗余资源来隔离或校正故障的影响,从而达到容错的目的。由于其不改变系统的结构,即系统部件的逻辑关系相互固定,因而也称为静态冗余技术。故障屏蔽技术可以分为线路级屏蔽技术、逻辑级屏蔽技术和模块级屏蔽技术。三模块冗余技术和校正器技术均属于模块级屏蔽技术。
一、三模块冗余技术。以8051为代表的大多数处理器仍然由控制单元,运算单元,存储单元几个关键模块组成。所以,处理器模块化的结构是应用TMR技术的基础。8051处理器主要由控制单元,运算单元,解码器单元和存储单元(RAM和ROM)组成,为提升这五个单元的容错性能,均对其采用TMR设计。
二、校正器技术。因为校正器无法处理自身错误,一旦其自身发生故障,那么将影响整个系统。所以,为了能够排除校正器所引起的单点故障,对校正器也采用三倍冗余设计。按上述设计,由8051的解码器模块(I8051_dec)和控制器模块(I8051_ctr)及冗余表决器可以组成TMR子系统结构。三个表决器均由两个分别用于表决8位和9位信号的元表决器构成。前者用于解码器输入信号的表决,后者用于解码器输出信号的表决。
故障恢复技术
故障恢复是处理检测到的可恢复故障(如瞬时故障)、消除故障造成的影响并使系统正常运行的重要环节。容错在这个环节之后得到了完全实现。故障恢复技术可以分为以下几类:一编码恢复技术,二多数表决恢复技术,三审查程序,四异常处理,五重启六重试,七检查点,八记日志。
一、多数表决恢复技术。这种技术依赖于多数表决器。三路表决器只要能正常进行表决,那么在屏蔽错误的同时会用正确值校正错误值,就实现了差错的恢复。
二、检查点技术。检查点技术是检查点与卷回的结合,是计算机系统进行故障恢复的主要手段之一。系统周期性地设置检查点,把运行时的正确状态保存到稳定存储器中。如果检测出故障,系统就卷回到前一个检查点所保存的正确状态继续执行,这样就避免了因故障而导致任务从头重新执行,有效地减少了损失的工作量。检查点应设置在系统状态产生变化的时刻,这样能使保存的信息有效比提高,减少冗余信息。而对于处理器来说,在机器周期结束时发生的状态变化最具代表性。8051有固定的机器周期,包括12个时钟周期。指令系统特性。
检查点技术中,在系统进行卷回时,其每个子模块都必须同步;否则,系统将卷回到一个非正常的运行状态,从而引发故障甚至造成系统崩溃。所以,在8051处理器的最高层次结构中设置了一个同步信号,用于各个模块卷回过程的启动,以此来保证卷回的同步性。
通过上述的设计和应用,我们构建了具有容错性能的8051处理器,并在仿真环境下并通过注入既定故障对其容错能力进行了测试和验证。如果在注入上述故障的同时再注入一个故障,将另外一个RAM模块的输出信号out_data同时强制改变为10101010。对于这种非单状态位翻转的故障,表决器因无法正常表决而报错。这时,就需要进行卷回来恢复故障。
(作者单位:中国石油辽河油田供水公司)