张兴彤 黄 胜
(四川启明星铝业有限责任公司,四川 眉山 620041)
四川启明星铝业有限责任公司在2002年新建厂时,为了提高整个生产控制系统的稳定性和存储数据的安全性,在焙烧车间的焙烧火焰控制系统、煅烧车间的煅烧及余热发电DCS系统、供电车间的供电综合自动化系统中均采用双机热备技术。系统还配备了以态网模块和工业交换机,用户可以通过光缆与其他岗位进行通信。由于完善的设计,使得整个系统的稳定性、安全性得到保障。自投产以来,系统工作状态非常稳定,有力地保障了生产。双机热备技术从广义上讲就是使用两台服务器对重要的服务互相备份,共同执行同一服务,当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下确保系统能持续提供服务。
双机热备份技术是一种软硬件相结合的具有较高容错能力的解决方案。根据两台服务器的工作方式,在双机备份方案中可以有三种不同的工作模式,即双机热备模式、双机互备模式和双机双工模式。
①双机热备模式即目前通常所说的active/standby方式,active服务器处于工作状态,而standby服务器处于监控准备状态。当active服务器出现故障时,standby服务器通过软件侦测或手工方式将standby机器激活,从而保证应用在短时间内完全恢复正常使用。
②双机互备模式是指两台设备之间互相备份,彼此独立工作,完成不同的数据类型传输(如设备甲传输A类业务数据,设备乙传输B类业务数据),当其中某一台设备发生故障时,另一台设备在完成自己传输工作的同时,接替另一台设备的传输工作,达到备份的目的。但此模式对服务器的性能要求比较高,服务器配置相对较好。
③双机双工模式是目前Cluster(集群)的一种形式,两台服务器均为活动状态,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份[1-2]。
双机热备有两种实现模式,一种是基于共享的存储设备的方式;另一种是没有共享的存储设备的方式,一般称为纯软件方式。基于存储共享的双机热备是双机热备的最佳方案。这种方式采用两台(或多台)服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)。两台服务器可以采用热备(主从)、互备和双工(并行)等不同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,并按照工作方式的不同将服务请求发送给其中一台服务器承担。同时,服务器通过心跳线(目前往往采用建立私有网络的方式)侦测另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测的情况作出判断并进行切换,接管服务。对于用户而言,这一过程是全自动的,它能在很短的时间内完成,因而不会对业务造成影响。由于使用共享的存储设备,因此两台服务器使用的是相同的数据,由双机或集群软件对其进行管理[3-4]。
2.1.1 控制系统介绍
2002年,经多方论证,四川启明星铝业公司在建设25万t电解铝工程项目时决定在煅烧工艺控制中采用分散集中式控制系统DCS控制技术。DCS控制系统是随着现代大型工业生产自动化的不断兴起和过程控制要求的日益复杂应运而生的综合控制系统。它集计算机技术、系统控制技术、网络通信技术和多媒体技术于一体,可提供窗口友好的人机界面和强大的通信功能,是完成过程控制、过程管理的现代化设备。它的应用对铝用碳素煅烧工艺来说,无疑是一个重大的突破。目前,除广元启明星铝业煅烧车间余热发电部分采用了DCS之外,其他铝厂的煅烧工艺基本上采用局部PLC控制或原始的电气控制。其系统硬件结构如图1所示,PLX即为Process Logix。
图1 Process Logix系统硬件结构Fig.1 Hardware structure of Process Logix system
2.1.2 控制系统工作原理
四川启明星铝业有限责任公司控制煅烧工艺的DCS采用的是美国Rockwell的Process Logix R510系统。为保证控制系统的稳定可靠运行,四川启明星铝业有限责任公司在方案中采用双机热备技术,两台服务器的工作模式为active/standby模式:两台Dell服务器(即图1中的PLX服务器A和PLX服务器B)互为主备状态,先启动的服务器默认为主服务器,后启动的服务器为备用服务器,当两台服务器启动后,需要在Process Logix R510系统软件中进行数据同步,通过数据同步过程,保证主备服务器数据的一致性。假如PLX服务器A为主服务器,PLX服务器B为备用服务器,当PLX服务器A出现故障时,PLX服务器B自动切换为主服务器,接替PLX服务器A的所有工作,工作站也相应自动切换,并与PLX服务器B进行数据交换;当PLX服务器A恢复正常启动后,PLX服务器B通过数据同步过程成为备用服务器。整个系统基于数据复制的方式同步完成,保证主备服务器的数据一致性。
2.2.1 控制系统的组成
焙烧车间的阳极焙烧过程就是粘结剂-沥青炭化变成焦炭的热处理过程,焙烧阳极的质量受诸多因素的影响,如焙烧工艺、原料组成、混捏均匀度和振动成型过程等一系列工艺过程。而在焙烧的生产过程中,由于其他因素的不可控性,计算最优焙烧温度、调节焙烧过程中温度场和焙烧阳极挥发份的浓度含量等参数就成为提高阳极炭块质量的关键。为保证阳极焙烧质量,四川启明星铝业有限责任公司引进瑞士RD公司的焙烧炉过程控制系统(bake furnace process control system,BPS)燃烧控制系统,在填充料的保护下采用天然气作为燃料,按照既定的焙烧曲线进行高温热处理,使沥青转化成沥青焦,从而形成具有较高导电性和强度的阳极熟块,再按一定速度冷却后出炉,从而有效地提高了阳极焙烧质量。
焙烧火焰控制系统硬件结构如图2所示。
图2 焙烧火焰控制系统硬件结构Fig.2 Hardware structure of the roasting fire control system
2.2.2 控制系统工作原理
焙烧炉过程控制系统(BPS)采用双机双工模式,实现模式是基于共享的存储设备的方式。整个系统由两台HP高端服务器、一台磁盘阵列柜和磁盘阵列卡构成双机备份模式,两台服务器互为备份,当一台服务器出现问题停机时,另一台服务器能实时接管中断的工作,保证业务系统的正常运行。操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据通过磁盘阵列进行集中管理和数据备份。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,当一台服务器出现故障时,备机主动代替主机工作,保证网络服务不间断。
磁盘柜磁盘具有热插拔功能,故可以灵活组成RAID 5模式,当一块硬盘发生损坏时,数据可以恢复,保证数据不丢失。由于采用了双机容错的集群结构,系统具有极高的可靠性。两台服务器可以作为一个整体为网络提供服务,且相互间互为监控。集群具有一定的负载平衡功能,可将一个任务的多个进程分摊到两台服务上运行,提高系统的整体性能。当一台服务器发生故障时,其所运行的进程及服务可以自动地由另一台服务器接管,保证客户端的工作不受影响。同时,如果系统采用RAID技术对数据进行保护,可确保重要数据不因系统故障而造成损失。
BPS燃烧控制系统采用基于共享的存储设备的实现方式,数据库放在共享的磁盘柜磁盘上。当一台服务器提供服务时,服务器直接在磁盘柜磁盘上进行读写;而当系统切换后,另一台服务器也同样读取该磁盘柜磁盘上的数据。它可以在无人值守的情况下提供快速的切换,保证不会发生数据丢失现象。
2.3.1 供电系统的作用
电解铝厂对供电系统的可靠性要求非常高,且电能占生产成本的30%以上。高可靠性的综合自动化系统项目的实施,加强了整个变电整流系列的保护和监控,提高了电解槽的电解效率,降低了企业的生产成本,增强了企业的竞争力。四川启明星铝业有限责任公司供电车间采用PecStar 2电力综合自动化监控组态软件,同时,为了保证系统稳定可靠,供电综合自动化系统采用Active/standby架构。
2.3.2 供电系统工作原理
PecStar 2对服务器提供完善的双机热备方案,在硬件层、通道层、网络层提供PecStar 2多重冗余保护。每一个监控站配置两台监控机,双机一主一备,互为热备,网络均采用双缆冗余方式。在主机正常退出的情况下,备机立即转为主用;而在主机异常关机或死机的情况下,备机3 s后转为主机;主机重新启动后,备机可于10 s后将主用权再交回原来的主机,从而保证系统在监控机由于硬件或软件发生异常时可在线切换,提高系统的可靠性。
两台主备监控机各自有不同的通道,用于与硬件进行通信,当主用机上的通道发生故障不能正常通信时,可切换到备机上进行通信;当主用通道恢复正常后,再切换到主用通道。通道的冗余技术解决了现场因环境或老化等原因造成通道故障,影响正常运行的问题。
在硬件层,除采用具有双通道口的监控和保护设备可靠性以外,PecStar 2还支持双网卡的网络硬件冗余方案。PecStar 2的上位机监控网络采用TCP/IP进行通信,监控厂站和后台机上都可以安装双网卡,组成双重计算机网络。当计算机上的某一个网卡出现故障或网线某处发生故障时,监控系统可自动无缝切换到另一个网络进行通信。这对于供电需要高可靠或者在网络环境比较恶劣时的系统运行非常有利。
在双机热备情况下,从机处于热备状态且自动与主机中的数据库通信,而在本机成为主机时自动切换到与本机数据库通信,从机客户端与其他客户端一样能够对数据进行操作。
供电综合自动化双机热备系统可联机多个客户端。当显示的是客户端时,连接监控设备的电脑就成为与控制设备通信的主机;当客户端请求显示数据时,系统就会从主机中请求数据并在本机上处理;当面临系统故障问题时,用冗余备用机替代有故障的主机,客户端要求的数据就可以通过备用机进行处理,而备用服务器只有在通信中断时,才会对主服务器进行取代。当主服务器恢复功能后,就会从备服务器中读取数据以自动回填,而备用服务器再次恢复到其以前的角色[5-7]。
2.3.3 生产中双机热备的优点
生产中双机热备具有以下优点。
①高可用性:两台服务器的互相切换不会干扰系统应用运行,无需修改应用,当系统出现故障时,系统能够自动检测应用或服务器故障,可将应用在备用服务器上快速重新启动,并在短时间内(如1~30 s内)恢复运行,从而有效确保生产过程的稳定性和连续性。
②数据安全性:应用数据存储在两个服务器硬盘中,相当于对数据进行双层保护,确保生产数据的准确性。
③开放的应用系统保护机制:这种机制便于用户针对自己的应用提供保护,将较为重要的数据存储于双机热备系统中。
④高性能:服务器现均采用高可靠性部件,同时提供了多种冗余组件,这就大大提高了单台服务器的稳定性和安全性。
⑤高稳定性和安全性:控制系统为冗余的双通信通道,控制系统间通信网络采用TCP/IP协议,网络均采用双缆冗余方式,冗余的双CPU设计,运行时一主一备。
⑥便捷安全的热备切换方式:用户可以手动热备切换,也可以通过人机界面或编程器切换;在电源失效、CPU失效、I/O失效(电缆或模板)、NOM失效(只在启动时)时将完成CPU的自动切换,确保生产设备连续工作[5-7]。
从四川启明星铝业公司运行双机热备系统的实践证明,当一台服务器出现故障时,该服务器上的工作能以最快的速度切换至备用服务器上运行,保证了数据和控制的连续性。本公司在工业控制系统中使用双机热备技术取得了很好的效果,双机热备系统的应用和存储运行稳定正常,完全达到了企业预期的效果,解决了企业所担心的数据丢失问题。该系统安全可靠、性能优异、实用性强,易于在各行业广泛地推广应用。
[1]姜坚华.双机热备系统的技术研究和具体实现[J].微型电脑应用,2004,20(3):7-10.
[2]李彦青.双机热备典型应用[EB/OL].[2006-11-01].http://www.realinfo.com.cn/tec/tech19.htm.
[3]吕辉,李进,刘曙.防空指挥自动化系统软件工程[M].西安:西北大学出版社,2007.
[4]斯桃枝,李战国.计算机网络系统集成[M].北京:北京大学出版社,2006.
[5]王曜.视频点播[M].北京:北京邮电大学出版社,2002.
[6]孙建华.网络安全应用技术[M].北京:北京邮电大学出版社,2007.
[7]代海英.双机热备系统的应用[EB/OL].[2010-03-30].http://book.51cto.com/art/201003/191756.htm.