高性能计算机的可靠性技术现状与方向

2015-04-29 14:40张家芳
工业设计 2015年11期
关键词:冗余可靠性

张家芳

摘 要:现在,高性能的计算机系统的性能在不断地改善,而且其硬件的功能越来越完善,所以,提高系统运行可靠性是十分重要的。本文通过分析高性能计算机的可靠性技术,分析高性能计算机在进行硬件设计的过程中的可靠性的现状,并结合避错技术、静态冗余等技术,分析不同的可靠性技术在计算机中的实际应用,提高高性能计算机在使用过程中的可靠性。

关键词:高性能计算机;可靠性;避错;冗余

现在,高性能计算机的运行效率越来越高,而且,其处理器的数量也是越来越多,现在硬件系统的功能越来越强大,但是,随之而来的是计算机的可靠性下降,系统在使用时会发生各类故障。尤其是在大规模的高性能计算机中,由于硬件的功能多,所以,导致的故障也是多种多样的,而且,故障一旦发生后,就会导致整个系统都不能继续运行。所以,为了能够确保计算机的性能,并提高其使用的可靠性,有必要对计算机的可靠性技术进行研究。

1 高性能计算机的可靠性需求

可靠性指的是系统能够平稳运行的基础,一般是确保系统在长时间内部出现故障,而且,现在,计算机的功能越来越完善,这就导致了计算机的可靠性下降。高性能的计算机,其处理器的数量也是比较多的,处理数据的效率非常高。通过对高性能计算机使用情况的分析,可以看出,其在每个小时内都会出现不同的故障,所以,计算机在运行中都是通过重启的方式使计算机的运行恢复正常的。从计算机的芯片性能进行分析,计算机的芯片规模越来越大,导致了处理器内会发生各类故障。

2 高性能计算机可靠性技术的现状分析

在提高高性能计算机可靠性的时候,一般是使用避错技术和容错技术。避错技术能够通过完善计算机的硬件系统,防止硬件在运行过程中产生错误。容错技术是保障计算机在发生局部的故障时不影响整体的运行。容错技术还包括静态冗余和动态冗余两种,在对高性能计算机进行容错时,一般采用的是静态冗余的方式。

2.1 避错技术

避错技术主要指的是在对计算机设计的过程中,尽量能够对计算机的故障进行控制,防止故障在系统中蔓延,防止其他的零部件不能运行。按照相关的体系,计算机中的零部件的失效与其使用的环境、工作的温度等因素密切相关,所以,避错技术重点是对零部件的设计,控制好零部件运行时的温度,使零部件运行能够在良好的环境下。在实现高性能计算机稳定运行中,一般在选择零部件时都选择那些可靠性比较高的,将零部件集成使用,这样就能够减少零部件的数量,在故障处理中也是比较方便的。例如,在CEC单元中,其零部件主要包括处理器、存储器、I/O几口等,这些零部件通过集成的方式形成一个整体,就能够减少故障发生时的影响区域。

现在,高性能计算机的功能在不断地完善,所以,其会产生更大的能耗量,所以,在系统产生能耗时会产生很多热量,会导致系统发生故障,在提高计算机可靠性时,应该充分考虑到零部件使用的热环境。各类零部件在使用时,如果长时间处于运行的状态,那么,其结温就会一直增加,导致零部件的故障频发。为了能够降低零部件在使用中温度的升高,就要选择那些低热阻的装备,并且采用高效的冷却方法。例如,在数据的传输过程中,当指令也完成了发布后,这时不能够改变串行口的设计状态,由于硬件反应速度比较慢,如果强制性的改变串行口的设置状态,那么就会使一些信息丢失。所以,在实际的应用中,应该等到发送完成后,再改变串行口的状态,或者运用查询的方式分析其状态是否是可以改变的。

2.2 静态冗余

静态冗余技术能够对局部的故障进行屏蔽,使局部的故障不影响整个系统的运行。在系统发生故障的时候,运用信息冗余的方式,使故障能够在最短的时间内输出,通过对故障的补救,从而能够消除其带给系统的不良的影响。CRC校验又称为循环冗余校验,是数据通讯中常用的一种校验算法。它可以有效的判别出数据在传输过程中是否发生了错误,从而保障了传输的数据可靠性。 CRC校验有多种方式,如:CRC8、CRC16、CRC32等等。在实际使用中,我们经常使用CRC16校验。CRC16校验也有多种,如:1005多项式、1021多项式(CRC-ITU)等。在这里我们不讨论CRC算法是怎样产生的,而是重点落在几种算法的C51程序的优化上。 计算CRC校验时,最常用的计算方式有三种:查表、计算、查表+计算。一般来说,查表法最快,但是需要较大的空间存放表格;计算法最慢,但是代码最简洁、占用空间最小。

2.3 部件的冗余

部件的冗余指的是在系统的关键零部件上出现的故障,如在系统的电源和监控器上出现的故障。在使用高性能计算机时,经常出现的故障就是电源故障,这类故障会产生比较严重的后果,所以,应该采用电源冗余的方法,可以进行电源的冗余备份处理,应该从不同的电源上接收输入信号,然后在运行的情况下实现电源的转换。在对冗余时钟进行设计时,要分析中心面板上的振荡器,分为两个振荡器,一个处于工作状态,一个处于备份的状态,当一个振荡器发生故障后,时钟源就可以进行切换,使备用的振荡器派上用场。

2.4 数据通路的冗余

数据通路的冗余能够理解成对零部件的冗余,在高性能计算机使用的过程中,一般都采取了这种提高可靠性的措施,在对磁盘的路径进行设计时一般都设计了冗余路径。软件会实现很多特定的功能,为了方便程序员,引入了“模块化程序设计”,引入动态链接库(DLL),由主执行文件调用来执行某一项或几项特定功能。但在卸载时,可能会出现不能将所有DLL文件删除干净的情况,这些剩余的DLL文件就是冗余动态连接库,可以通过删除来节省硬盘空间。

2.5 信息冗余

信息冗余指的是对数据的纠错的技术,其能够在数据中增加冗余,从而减少信息在传递的过程中发生的故障,而且能够对信息的故障起到良好的屏蔽的效果。在高性能计算机的使用中,中央处理器、I/O接口等一般都采用了信息冗余的方法。

2.6 动态冗余

动态冗余指的是在计算机系统中按照功能的不同分成不同的模块,在对故障进行检查时,只需要检查每个模块的运行状况就可以直接找到故障的所在,系统能够进行及时地恢复。

3 故障的诊断与检测

故障的检测技术能够分析计算机中是否是存在故障的,而且能够对故障的位置定位。在对故障进行诊断和检测时,可以采取联机的方式,也可以在脱机的形式下进行。一般在高性能的计算机中,是采用联机检测的方法,能够对故障进行跟踪处理。在对检错码进行分析时,能够针对循环冗余中提供的校验码进行分析,从而能够自动的识别系统的故障。但是,其与纠错码还是存在一定的差异的,检错码不能够自动的将错误纠正,而且,在监视定时器使用时需要有网络连接。在对总线的故障进行分析时,需要考虑到总线控制器在交互环节中的问题。在对故障进行检测的过程中,应该先对硬件进行检测,然后分析系统的故障。

3.1 重组技术

充足时实现动态冗余的关键,是防止局部的系统故障对整个系统带来的不利影响。系统的故障分为可恢复的和不可恢复,如果检测的故障是不可恢复的,那么,系统中就会将故障的部件切换掉,运用备用的部件。而且如果发现备用的部件不足,系统就能够自动的将故障隔离,确保整个计算机系统还是可以运行的。

3.2 恢复技术

重组技术能够对那些不能恢复的故障进行处理,但是,在高性能计算机运行的过程中,还是存在一些瞬间产生的故障,这些故障能够很快解决,可以通过对系统的恢复完成。恢复能够实现对瞬间故障的诊断,瞬间故障一般都是可恢复的故障,所以这些故障能够及时地消除。在恢复技术中最常见的是重试,在对相关的步骤操作但是没有反应时,可以采用重试的方式,服务器就会采用重试的方式,对系统重新运行,重新对数据进行传输。

3.3 在线替换

这项技术能够对系统出现的故障替换,将故障置换出来,从而能够使系统恢复到之前的功能。在高性能计算机中,在线替换功能主要是英语到磁盘、电源等设备中,在单元板能够正常运行的情况下,实现服务器的一环,从而也能够使那些较为落后的功能替换,实现系统的在线升级。

4 结语

现在,高性能计算机的应用还是比较广泛的,在各类生产中得到了广泛地应用,其功能逐渐完善,但是,在多元化功能的背景下,其运行的可靠性也在下降,所以,要提高计算机的可靠性,就需要借助一些可靠性技术,促进高性能计算机的稳定运行。

参考文献:

[1] 黄永勤,金利峰,刘耀.高性能计算机的可靠性技术现状与趋势[J].计算机研究与发展.2010(04):589-594.

[2] 王俊超,彭涛,冯光柳.曙光高性能计算机在数值预报模式中的应用[J].计算机技术与发展.2014(10):178-181.

[3] 蒋句平,庞征斌,周兴铭.高性能计算机RAS技术现状与趋势[J].计算机工程与科学.2005(01):80-82.

[4] 刘晓婷,贾志淳.高性能计算机中互连网络的可靠性研究[J].电子制作.2015(04):151-152.

[5]华凌.高性能计算机是一个国家综合科技实力的体现 我国超级计算机显神威[J].电子展望与决策.2000(06):29-30.

[6]王颖.李国杰和他的曙光高性能计算机[J].中国信息导报.2000(06):

42-43.

[7]夏培肃.高性能计算机中的若干关键技术问题的基础性研究[J].中国基础科学.2000(04).

[8]胡永生.加快发展高性能穷人计算机——记者胡永生对工程院院士李国杰的专访[J].计算机与农业.2002(01):4-6.

[9]胡敏.走向高性能运算[J].中国计算机用户.2003(34):60.

[10]丁晔,袁斌,陈晓军.未必永远跟随——中国高性能计算机发展趋势[J].每周电脑报.2003(24):34-35.

[11]祝明发.未必永远跟随——中国高性能计算机发展趋势[J].每周电脑报.2003(40):96.

[12]朱莹.浅谈高性能计算机的发展现状和瓶颈[J].科技情报开发与经济.2008(18):123-125.

[13]樊建平.高性能计算机的发展现状与趋势[J].计算机教育.2004

(05):3-5.

[14]洪文董.高性能计算机的发展与气象应用[J].计算机工程与应用.

2004(05):32-35.

[15]段树云.高性能计算机的发展[J].泸天化科技.2003(04):335-336.

[16]王志华.高性能计算机及其相关技术研究[J].忻州师范学院学报.

2004(05):117-119.

[17]陈亮.高性能计算机标准开放图存[J].互联网周刊.2006(32):16.

[18]曾宇,王洁.中国高性能计算机技术及标准现状分析[J].信息技术与标准化.2006(10):9-12.

[19]华凌.高性能计算机是一个国家综合科技实力的体现 我国超级计算机显神威[J].电子展望与决策.2000(06):29-30.

猜你喜欢
冗余可靠性
MAXIMO系统在数控设备可靠性维护中的应用
可靠性管理体系创建与实践
5G通信中数据传输的可靠性分析
核电站核岛电气隔离准则研究
计算机系统容错技术研究
冗余技术在DX—600中波发射机合成器伺服系统的应用
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究
“数控机床可靠性技术”专题(十六) 可靠性管理体系
可靠性比一次采购成本更重要