计算机系统容错技术研究

2016-06-06 23:02谢建洲
电脑知识与技术 2016年6期
关键词:计算机系统

谢建洲

摘要:计算机技术作为目前发展最为迅速的科学技术领域,为生产生活提供了大量的便利。随着全球信息一体化进程的深入,能够快速处理信息,是各行业能够得以发展的必要保证。计算机系统的快速运算能力,是各行业生产的必要因素,为保证计算计算机系统运行的稳定,计算机系统容错技术需要受到重视。本文通过对计算机系统容错技术进行分析,研究合理进行计算机系统容错技术升级方法,为计算机系统的合理化提出行之有效的建议。

关键词:计算机系统;信息冗余;软件错误;硬件错误;故障排除技术

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)06-0250-03

计算机系统的容错技术是计算机出现软件错误或者硬件错误的紧急情况时,仍能保证各部分的运行功能良好,计算机系统计算能力不下降的应急保护措施。计算机容错技术广泛应用在航天国防、电力化工、医疗卫生等应用计算机系统进行数据测算容错率低的专业部门之中。在关键性工作中,轻微的错误或计算机设备的不合理设置都会引发不可逆转的严重后果,所以针对容错率低生产环节中的计算机设置需采用大量系统应急设计,以求保证计算机系统在突发情况时,仍能稳定运行。

1 计算机系统常见错误

计算机系统错误既有软件层面上的软件运行故障,又有硬件层面上的某个组成计算系统的硬件失灵。近年来电路主板工艺技术的提高,使得出现硬件层面上主要的错误集中于计算机处理器(cpu)的瞬间故障。出现计算机处理器(cpu)故障的主因可能是计算机晶体管无法正常工作,因为电压值超过计算机处理器(cpu)能够承载极限,导致计算处理器(cpu)瞬间故障。计算处理器(cpu)出现故障的原因还可能是计算处理器(cpu)的主频设置过高,目前众多部门应用计算机系统为节省更新换代,对计算处理器(cpu)进行超频处理,增加计算处理器(cpu)的负荷,导致故障出现。计算处理器(cpu)出现故障的原因还可能是因为,近年来计算机制造技术的发展,处理器中晶体管数量庞大,当一个晶体管出现故障时,就导致计算处理器(cpu)出现运行错误的情况。

针对计算机系统出现的诸多故障问题,设计可靠的计算机容错系统,显得十分必要,通过使用计算机硬件容错模块能够极大降低计算机故障几率,为生产工作提供安全与保障。

2 计算机系统容错技术分析

1)计算机硬件容错方法

计算机硬件错误出现概率较高,一旦出现计算机硬件层面问题,比计算机软件层面问题更难恢复。计算机硬件错误可能是因为个别系统部件短时间内停止运行产生的瞬间故障,也可能是计算机个别系统部件损坏产生的永久性故障。计算机系统的永久性故障,是因零部件超出使用年限,计算机主板元器件断路短路等原因产生的。发生计算机永久性故障时,维修只能通过更换受损或已经报废的部件来进行。短时间内的计算机部件故障,可能是瞬间错误频繁发生,导致系统不能承受,瞬间错误由于计算机制造技术的发展,大量计算机部件整合至一个计算机部件之中,这种故障形式频繁发生。增加了计算机系统工作工程的不稳定性,为生产带来许多多不便。

计算机系统的容错设计方法一般采用冗余的设计思路,这种冗余的模式,不仅可以探测故障原因,第一时间对计算机错误进行修补,恢复计算机部件的正常运行,更是保证计算机系统稳定,功能完整的唯一手段。

计算机系统在设计过程中经常在硬件安装环采用硬件冗余的设计思路,通过对降温设备、温度管理设备、计算机操作系统、等计算机运行必要设备安装备用设备的方式,完成冗余设计。计算机主系统部件出现故障时,备用设备立即启动接管主设备的工作,同时反馈计算机停止运行工作的故障信息,以便工作人员对故障部件进行检修,检修完毕后,出现故障的机器成为备用冗余机器,随时准备投入运行。

一台工作处理计算机辅助一台工作备用计算的冗余模式,是按双系统设计模式来进行的,在现代计算机系统设计之中,三系统设备等多系统设备的计算机系统设计方案也很常见。多系统冗余设计方案存在自身的固有缺陷,使用的多个独立系统架构是相同的,每个决策发现的错误都需要单独的修复策略,允许出现的故障率为n-1,也就是说至少需要保证一台备用设备能处于工作,否则整个计算机系统还会停止运行[1]。

多备用系统的计算机容错设计,可能导致故障信息反馈延迟的出现,需要统一的管理设备对各个计算机部件进行管理,查找计算故障速率缓慢。

计算机系统的信息冗余设计是指在正常需要传输的信息中,增加一定量的重复信息,以便出现故障时,保证信息传输的完整,为计算机系统的故障恢复提供了有效的辅助。计算机系统信息冗余容错技术,包括计算机错误信息监测和计算机错误信息纠正两种方法。计算机编码编码技术,常用运用于计算机信号的传递过程中、计算机数据的存储过程中和计算机硬件处理信号的工作中。具有代表性的计算机信息冗余编码方法,不仅有常用的奇数偶数校验码Parity、循环冗余校验码CRC、海明码及它们的扩展改进版本,还有较近期的RED-FEC、Mechanism、ABFTcheck-sum、EDAC等[2]。

计算机信息冗余技术相比计算其他的设备故障检测方式的优势在于:成本低廉,应用内容简单,通过使用少量附加的计算机存储信息,辅助以额外少量的信息处理设备就可能完成,不需要额外的成套的备用计算机设备;故障检测迅速,信息处理及时,冗余信息与正常的数据是在相同工作时间内,与正常信息同时被计算机信号处器器进行监测和运算处理,所以是没有延时性的,能够在最短时间内纠正计算机系统出现的错误[3]。

通过计算机时间冗余技术来达到,来增加计系统容错率的设计思想是通过在统一硬件设施上,于不同的时间段对相应的计算机指令进行操作。计算机时间冗余需要将信息数据流延迟发送至处理器,这需要表决电路的协同陪同,通过将单词的数据流距离结果,依据处理时间差延迟并复制多个附件,推送至表决器进行分型,找出错误原因。

计算机实践容错技术的关键点是延迟推送数据流的设置,如果延时推送时间设计过长,容易错过最佳计算机系统检修时间,造成链式反应,增加计算机系统出现问题的概率。计算机时间容错技术设置的延迟推送数据流时间过短,容易产生书剑数据量过大,造成的错误信息冗余,反而增加了计算系统出现的故障[4]。

计算机硬件线程冗余技术,这种技术的容错设计思路是通过多线程,或者多个核心的计算机中央处理器在真正的线程上降级出现错误,从而减少计算系统整体出现故障概率的方法。通过在多条并列运行的计算机中央处理器线程上进行数据运算,对比对象运算数据纠正错误信息。多线程冗余容错方法是启用多个主引导线程controlor与多个备用线程incontrolor分开,各自进行数据流的运算,最终使用顶层数据分析器(top data coarse grained superme scalar architecture)进行对比,通过对比最终运算结果发现错误。这种容错方式的缺陷在于,效率十分低下,多个信息计算设备处理同样的信息流,很多数据缓冲区使用冲通,荣引发设备部件锁死,或带来不可接受的的错误信息监测延迟[6]。

2)计算机软件容错方法

为提升计算机软件的容错率,加强计算系统整体的稳定性,需要针对软件运行过程中,可能出现的错误进行提前控制。计算软件形式各异,没有固定的设计标准和要求,所以在故障控制方面比较困难。计算机软即使按照人为编程的谁即模式进行工作的,出现运行报错时,往往是由于编程设计人员的编写错误。为提高计算机软件的恢复能力,降低软件报错几率,提高计算技术使用效率。因通过使用高级计算机软件编程语言来进行,C++作为高容错率的计算机编程语言,能够有效降低计算机软件报错几率。

计算机软件故障应对策略有回滚恢复法与后向深入发法,回滚恢复法是指计算机通过贵恢复到之前最后一次正确运行的状态,使计算机重新投入正常运转之中。后向深入法是指计算机通过自我检查软件错误内容,对报错软件的故障编码予以排除,从而使计算机重新正常运转。

计算机多版本软件容错方法是常见的,软件故障排除法,其主要的设计思路是通过使用多种计算机编程语言和开发工具,制造多版本软件,从而提升计算机使用软件的兼容性,达到计算机容错率提高的办法[7]。

设计多版本软件需要注意,软件总体设计架构应该保持一致。保证能够进行错误下的,整个软件的回滚。不同版本的计算机软件之间应该统一计算机软件接口,保证软件的兼容性满足不同的操作系统。计算机软件模块封装方式,应该尽量使用不同的方式,保证同样的错误不会发众生在不同版本软件中。计算机软件设计应该具备各自版本特征,控制计算机软件的运行机制,能够第一时间针对软件错误查找应对方法[8]。

3 计算机系统错误回卷恢复机制

计算机硬件错误、软件错误的故障排除方法都是在计算系统运行过程中,方向错误是,以反馈的故障信息,针对故障进行定点排除。这样做的目的是,尽量排除虚假报错信息,不干扰计算机系统正常运营的同时,以最短的时间,保证计算机系统重新投入运行之中。但计算机运行过程中无论采用何种故障排出机制,对错误的检测与恢复能力都是有限的。通过合理设计计算机系统错误回卷恢复机制,才能保证计算机系统发生不可逆的故障时,在短时间内恢复到最后一次正常运转时的稳定状态[9]。

计算机系统错误回卷恢复机制可以划分为:基于之前计算机操作系统检查点或者备份点,进行的计算机系统错误回卷恢复;基于计算机操作系统错误日志统计信息,进行的计算机系统错误回卷恢复。

基于之前计算机操作系统检查点或者备份点的恢复机制,源自于计算机操作系统的自我保护机制,检查电视提高操作系统容错率的有效方式之一,计算在正常运行中,通过定期将所有信息备份至稳定存储介质之中,通常是计算机的备份磁盘,形成故障恢复检查点。当计算机出现操作故障时,利用在计算机的备份磁盘存储的备份文件,将计算机操作系统恢复到最后一次备份的正常运行状态,以保证在计算机出现错误的过程中损失最低[10]。

基于计算机操作系统错误日志统计信息,进行的错误回滚回复方式,是基于计算机操作系统判断错误发生之后使用的计算机故障排除方式。计算机操作系统错误日志恢复模式,作为记录性恢复手段适用于银行自动提款机或打印设备,特殊设备的信息量很大,信息具有重要的实用价值,操作不可逆转的计算机设备,需保证混滚回复前后记录信息一致[11]。

4 常见计算机故障排除策略

常见的计算机错误排除策略的设计,应针对不同计算机系统的安装环境、运行方式、从事的信息处理工作不同,采用相应的故障排除策略。计算机故障容错方案的涉及私立,主要还是从广泛而普遍应用的合理方法上进行创新,通过设计非定制的COTS的计算机容错架构,针对出可能出现的计算机系统故障,进行预防式的处理[12]。

CTOS容错架构采用常见的计算机系统故障排除软件设计-凯美列侬架构,保证计算机软件的在修复错误时的可靠性,CTOS软件容错设计通过使用不同的针对性反应程序组成。针对性反应程序分为三个等级,位于最顶层的中央控制管理模块,其作用是根据预先编程的错误应对策略,进行的计算机系统的管理。针对性反应程序的中间层是新型传输模块,负责铺设控制层与底层性信息传输渠道。针对性反应程序的底层是错误检测程序,更具计算机系统的要求,实施不同的解决方案[13]。

计算系统容错方案中仍存在一些,有待计算机设计人员攻克的问题。目前的硬件冗余容错方法,虽然能够在一定程度上提高计算机系统的可靠性,但耗费成本高,对整体系统硬件一致化的要求很高,需要使用大量的人力物力,目前是计算机硬件容错设计方向上,难以攻克的问题。

计算机信息流荣誉容错方法,比如:ECC算法难以在短时间内处理大批量的错误信息,当错误信息量过大时,占用计算机系统计算能力,ECC信息流冗余算法就显得捉襟见肘,所以这一计算机容错方案需要继续深化发展[14]。

计算机时间冗余容错方案中,通过延长计算机信息转换时间,得以对固站信息进行甄别,这种容错方案的局限性在于延迟过大,难以在第一时间发现计算机系统故障,对计算机出现的硬件损坏问题反应速度慢。

计算机多线程故障排除方法,目前难以解决的问题有:不同计算机的中央处理的线程之间,有时会出现通信连接丢失,无法步进一致的问题。如何分配计算机中央处理器的运算能力,是目前计算机专业技术人员应考虑的问题。

计算机多版本软件故障排除技术。目前只能应用在,设备规模较小,处理简单任务量的小型机上面,同时计算机多版本软件故障排除技术的程序制作费用高昂,投入产出比不平衡,目前应用于计算机故障排除技术上较少。

当下的计算机硬件故障排除与探测技术是比较完善的,软件层面上的计算机故障排除技术有待发展,通过继续深入研究与探索计算机软件故障排除方案,能有效提升计算机系统的容错率,同时降低软件层面上的计算机故障排除方法的应用成本[15]。

计算机操作系统使管理计算机的运算设备、储存设备的关键,为提升计算机操作系统的安全性,需要计算机从业人员进行深入研究。在高精尖技术领域中,国外的操作系统显现出其局限性,不利于我国国防事业的展开。国内的国产操作系统制作进度缓慢,应用率低。提高国产操作系统的应用能力,是我国计算机应努力的方向。

5 结论

计算机技术在生产生活中的应用越来越广泛,是提升企业生产效率与人们生活质量的重要科技资源。为了满足对计算机系统的使用需求,需要进一步提高计算机系统的稳定性与容错率。计算机系统容错率的提升有效方案,应该是集较高稳定性、计算机故障检测、计算机回滚恢复能力于一体的故障排除方案,同时应该兼顾故障恢复时间与故障恢复成本。只有针对计算机系统运行的时机情况,可能出现的故障进行预先的设计,才能制定合理有效的计算机故障排除方案。计算机容错技术中仍然存在一些难以攻克的问题,需计算机行业从业人员强化专业技术,深化针对这些问题的研究,为攻克这些难关,找出行之有效的方法。

参考文献:

[1] 富弘毅,杨学军.大规模并行计算机系统硬件故障容错技术综述[J].计算机工程与科学,2010,10(23):38-43+53.

[2] 胡澄宇.计算机容错技术在非编网存储系统中的应用[J].科技创业月刊,2010,11(7):163-164.

[3] 黎珊珊.实时分布式计算机系统的容错技术研究[J].计算机与数字工程,2002,6(3):61-64+31.

[4] 徐新海,杨学军,林宇斐,等.一种面向CPU-GPU异构系统的容错方法[J].软件学报,2011,10(01):2538-2552.

[5] 徐文芳,刘宏伟,舒燕君,等.三模冗余容错系统管理板[J].清华大学学报(自然科学版),2011,S1(11):1434-1439.

[6] 熊庭刚,马中,袁由光.基于操作系统调用的容错计算机系统同步技术研究[J].计算机研究与发展,2006,11(06):1985-1992.

[7] 王意洁,孙伟东,周松,等云计算环境下的分布存储关键技术[J].软件学报,2012,4(9):962-986.

[8] 张绍林,杨孟飞,刘鸿瑾,等.一种面向多核的可重构容错方法[J].计算机科学,2014,5(15):59-63.

[9] 易会战,王锋,左克,等.基于内存缓存的异步检查点容错技术[J].计算机研究与发展,2014,6(18):1229-1239.

[10] 宫婧,王文君.大数据存储中的容错关键技术综述[J].南京邮电大学学报(自然科学版),2014,4(20):20-25.

[11] 徐奡,夏德天,郑久寿.高升力系统控制计算机容错技术研究[J].微电子学与计算机,2015,6(17):36-40+45.

[12] 欧阳瑞雪.嵌入式计算机控制系统容错策略研究[J].信息技术与信息化,2015,12(19):113-115.

[13] 贾佳,杨学军,李志凌.一种基于冗余线程的GPU多副本容错技术[J].计算机研究与发展,2013,07(23):1551-1562.

[14] 刘伟,姚玉良,宋新亮.高性能互连网络链路容错分析与模型研究[J].计算机与信息技术,2009,Z2(5):13-16.

[15] 彭珺,高珺.计算机网络信息安全及防护策略研究[J].计算机与数字工程,2011,1(18):121-124+178.

猜你喜欢
计算机系统
《小型微型计算机系统》编辑部联系方式
关于不法分子冒充《小型微型计算机系统》名义诈骗的严正声明
IBM推出可与人类“辩论”的计算机系统
关于不法分子冒充《小型微型计算机系统》名义诈骗的严正声明
计算机系统集成实施与项目管理途径分析
分布处理计算机系统研究
MIMD 并行计算机系统结构与定量分析
地面气象测报业务计算机系统
分布式计算机系统智能化供电的研究
正确书写计算机系统内部使用的二进制倍数词头符号