吴玥
摘 要:计算机容错技术可以提高系统的可靠性、稳定性。本文讲述了容错技术的概念和主要分类,然后对比了两种服务器容错技术:双机热备份和单机容错。最后指出单机容错服务器是未来发展趋势。
关键词:容错技术;备份;双机热备份
1 引言
随着计算机的普及,利用计算机系统来提供及时可靠的信息和服务是必不可少的,但是计算机硬件和软件都不可避免地会发生故障,这些故障有可能给我们带来巨大的损失,甚至造成整个服务的终止,网络的瘫痪。系统的容错性和不间断性显得尤为重要。为了保证系统安全、高效、可靠地运行,必须采取适当的措施确保计算机系统在出现故障的情况下,仍能正常工作。人们经过长期的研究,总结了两种方法:一种叫做避错,即采用正确的设计和质量控制尽量避免把故障引进系统,这种方法实施有难度。另一种就是容错,当系统出现某些硬件或软件的错误时,系统能执行规定的一组程序,或者说程序不会因系统中的故障而中断或被修改,并且执行结果也不包含系统中故障引起的差错。随着现代科学技术的发展和计算机的普及,设备运行的安全性和可靠性倍受重视,为了保证其安全、高效和可靠地运行,必须采用与之相适应的管理模式,计算机容错技术是计算机系统可靠性提高的重要手段。
当系统内部有故障存在时,通过容错技术消除故障的影响,使系统最终仍能给出正确的结果。按照时间划分,故障可分为以下三种:永久性故障、间歇性故障和偶然性故障。随着计算机硬件和网路的快速发展,容错计算机的系统开销逐渐降低,且纠错速度快。而软件方法实现的容错,对硬件不会提过高的要求。同时系统灵活,资源利用比较合理。更正检测、诊断将会采取人工智能的处理途径,以专家系统的各种智能工具来支持故障检测和诊断。
2 容错技术的概念
容错是计算机系统一个或多个关键部件发生故障或即将发生故障之前,仍能保持正常工作而不影响正确结果的一种性能或措施。容错是采用冗余方法来消除故障影响的,因此冗余技术是计算机容错技术的基础,一般可分为下列几种类型:
⑴硬件冗余:以检测或屏蔽故障为目的而增加一定硬件设备的方法。
⑵软件冗余:为了检测或屏蔽软件中的差错而增加一些在正常运行时所不需要的软件方法。
⑶信息冗余:在实现正常功能所需要的信息外,再添加一些信息,以保证运行结果正确性的方法。
⑷时间冗余:使用附加一定时间的方法来完成系统功能。这些附加的时间主要用在故障检测、复执或故障屏蔽上。
⑸简单的双机备份:在20世纪60年代,主要利用双处理机或双机的方法来达到容错的目的。根据系统的工作情况又可分为热备份或冷备份两种。
⑹操作系统支持的双机容错:20世纪70年代中期出现了软件和硬件结构的容错方法。该方法在操作系统的层次上,支持联机维修,即故障部分退出后进行维修并重新投入运行,都不影响正在运行的应用程序。系统容错是在操作系统控制下进行的,在每个处理机上都保持了反映所有系统资源状态的表格,以及本机和其他机的工作进程。
3 服务器容错技术对比
目前应用的服务器容错技术有三类:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,服务器集群技术容错级别最低,而单机容错技术级别最高。
3.1 双机热备份
双机热备份技术是一种软硬件结合的较高的应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜及相应的双机热备份软件组成。操作系统和应用程序安装在两台服务器的本地系统盘上,数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。
双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。“心跳”指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,备用系统将替代主机发挥作用,以保证网络服务运行不间断。双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。
⑴双机热备模式:即active/standby方式,active服务器处于工作状态;而standby服务器处于监控准备状态,服务器数据同时往两台或多台服务器写入,保证数据的即时同步。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。
⑵双机互备模式:两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高,配置相对要好。
⑶双机双工模式:是群集的一种形式,两台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份,需要利用磁盘柜存储技术。WEB服务器或FTP服务器等用此种方式比较多。
3.2 单机容错
单机容错技术是在一台服务器实现高性能容错的。单机容错服务器最大的优势就在于它能够自动分离故障模块,在不中断运行的情况下,进行模块调换,维护损坏的部件,并且在一切物理故障消除后,系统会自动重新同步运行,有效的解决了客户的后顾之忧。
单机容错服务器是通过CPU时钟锁频,通过对系统中所有硬件的备份,包括CPU、内存和I/O总线等的冗余备份;通过系统内所有冗余部件的同步运行,实现真正意义上的容错。系统任何部件的故障都不会造成系统停顿和数据丢失。目前,很多容错系统是基于IA架构的服务器,与Windows系统完全兼容,实现以前只有在RISC系统上才能实现的容错。这种容错技术在IA服务器上的实现,将IA服务器的可靠性提高到了99.999%,同时服务器的运行是不间断的。容错产品支持任意硬件热插拔,包括主板、CPU等关键性硬件,外界并感觉不到切换,系统可靠性大大提高,同时因为系统具备纠错能力,系统更加稳定。如果说集群技术可以减少停机,那么容错系统的目标是避免停机,在相同的条件下,容错系统显然更加稳定和安全。
双机热备份和容错服务器的定位稍微有些不同,这是由两者实现的可用性差别决定的。双机热备份适用于业务连续性不是很严格的行业,比如说公安系统、部队系统或者个别的制造企业。而如电信、金融、证券和医疗等要求高的行业容错服务器是最佳之选。还要注意双机热备份不同于服务器集群,双机热备份要求两对路配置完全一样的服务器,而服务器集群的配置要求没那么严格。另外,双机热备份方式需要至少2台服务器,导致在软件采购、软件维护升级、系统硬件升级的投入都比单机容错方式多1倍,而且在双机备份软件出现故障后,其维修的难度较高,对客户会带来较大困难。因此单机容错服务器的总成本远低于双机备份方式的成本。但是在灵活配置方面,双机热备份方案更具优势。但总体来说,容错服务器才是未来的发展趋势。
4 总结
计算机技术的发展日新月异,带来计算机系统的可靠性受到重视,而容错技术是提高可靠性有效的方法。如今已经取得了一定的成效,相信未来容错技术必将得到更快的发展和更广泛的应用。
[参考文献]
[1]唐忠.双机容错服务器解决方案的研究[J].大众科技.2008(6):65-66.
[2]熊友生.医院网络服务器集成方案[J].医疗设备信息.2007,22(2): 26-27.
[3]陈庆伟.基于WINDOWS平台网络的高可用性研究.现代情报.2005,03:35-36.