王增波
WANG Zeng-bo
(宁波钢铁有限公司,宁波 315807)
多年来国内冶金行业控制系统一直采用服务器冷切换方式、热切换方式或集群方式作为数据库、I/O服务器的控制方式。传统采用的是双机热备方案,该方法不仅不能节省投资成本,而且系统的可靠性得不到保证。
随着经济的迅速发展和计算机、网络等技术的不断进步,冶金企业在加快建设步伐的同时,也面临着控制系统的要求越来越高这样一个局面。因此,建立高精度、高可靠性的冶金控制系统,已经是当务之急。
随着运行时间的增加,整个监控系统的安全性越来越受重视。各种升级后的计算机设备、路由设备、交换设备、操作系统、数据库系统等都会有不同程度的故障风险,再加上使用环境、资源共享、数据通信、计算机病毒以及网络管理等方面的不安全因素,使得控制系统数据的安全性和有效性变得更加重要。以往,为提高控制系统数据信息的可靠性,通常在控制系统中采用双机热备方案。尽管采用该方案对系统的可靠性有所提高,但却增加了系统整体的软硬件投资费用,同时增加了系统的管理和维护工作,更重要的是,系统的可靠性并不一定能得到足够的保障。
因此,寻找并采用一种具备高可用性、低成本、易维护的服务器应用方案,是众多冶金企业一直在研究的课题。笔者根据多年的冶金行业服务器应用经验,结合目前国内外在高可用性服务器领域的成熟技术方案和有效应用成果,发现使用可用性高于99.999%以上的Stratus容错服务器代替传统的双机热备方案是一种有效的途径。
宁波钢铁五丰塘焦化厂为了能更好的提供控制系统核心服务器的连续可用性,采用了世界上最先进的容错服务器作为控制系统核心服务器。这种方案不但可避免双机热备方案中单硬件系统故障所造成的系统停机以及系统切换带来的的经济损失,同时还可减少焦化控制系统的后续维护量及维护费用。由于容错服务器采用了硬件冗余设计,整个硬件系统从主板、CPU、内存到I/O模块都采用双份冗余模式,并且基于先进的锁步(LockStep)技术,各冗余模块在同一时钟周期执行相同的指令,使得整个系统能够消除单点故障、无故障切换时间,连续可用性高于99.999%。
图1 容错系统原理图
容错服务器(如图1所示)与传统服务器(如图2所示)在物理结构上最重要的区别有两点:1)容错服务器采用了双份冗余容错硬件,包括CPU、内存、主板、硬盘、I/O系统等等;2)容错服务器在物理构成上将CPU-内存单元与I/O单元分离,中间增加了容错公司定制的故障侦测与隔离逻辑芯片组进行PCI桥接,该芯片组是容错服务器实现时钟同步操作、容错、纠错等功能的基础。
图2 传统计算机系统原理图
Stratus容错的核心技术——连续处理技术是三十年来为全球最苛刻的应用确保连续运行时间之经验的结晶。连续处理技术主要由三个核心要素构成,分别是:时钟同步技术、故障安全软件和主动服务体系。
锁步技术(Lockstep Technology),也称时钟同步技术,采用双份的容错硬件,由同一时钟源进行控制,两套硬件在同一时刻执行相同的指令。在一个部件出现故障的情况下,其冗余部件就像已激活了的备件一样继续正常的操作,预防了停机现象。锁步技术使系统还能消除可引起软件故障的瞬间硬件错误。
Stratus故障安全软件(Failsafe Software)与锁步技术协同工作,能够预防许多会升级到停机的软件故障。与通常的服务器或集群系统不同,ftServer的硬件和软件以透明的方式处理这类错误,而对操作系统、中间件、应用软件进行屏蔽,同时驻留内存数据也得到很好的保护及维护。
此外,其管理和诊断特性还对其他软件问题进行跟踪、分析,以及向Stratus通报这些软件问题,使支持人员在软件问题发生之前超前纠正问题。强化的设备驱动程序也显著增加了ftServer系统内Windows环境的稳定性。
Stratus独到的主动服务体系(ActiveService)能提供冠绝群伦的服务能力。Stratus ftServer系统能够持续监视自身的操作,发现故障后,服务器会即时隔离故障,并且自动呼叫Stratus支持中心,准确告知其应采取何种解决措施。
图3 焦化厂分布式控制系统结构图
ftServer通过访问适配器及Stratus全球主动服务网络(ActiveServiceNetwork)为客户提供远程支持服务,服务工程师据此实现在线故障诊断、排障,在线解决率达95%以上。必要时,系统还能自动订购其热插拔替换部件,确保相应的部件能在24小时内运到全球主要地点客户手中。客户更可以在ftServer无中断的情况下,轻易安装需更换的备件。同时,Stratus和客户授权的经销商还可透过互联网的主动服务管理器(ActiveService Manager)互相协作,快速解决问题。
宁波钢铁五丰塘焦化厂为了能更好的提高控制系统的连续可用性,采用了世界上最先进的容错服务器作为控制系统核心服务器及HMI服务器。五丰塘焦化厂是一个新建项目,有JN60-6型焦炉两座,以及与之配套的管带机、圆形料场、备煤、焦炉除尘、干熄焦、筛贮焦、煤气回收、污水处理等生产系统,各生产车间工段均设置相应的PLC控制系统,并设置了中控室,各个控制系统均通过网络将生产实时数据引入中控室,以实现生产的集中监控、集中管理和统一调度功能。系统通讯采用C/S模式,在中控室设置了备煤、焦炉、煤气净化、筛焦等生产系统的Data Server和HMI Server;另外还设置了超级服务器,采集和存储全厂生产实时数据,并用于对过程机和EMS能源中心进行生产管控和能源计量数据的实时发布和上传。其中煤气净化系统为化工性质、连续生产,对服务器提出了高可靠性、连续可用性要求;超级服务器作为全厂生产管控系统的核心,其重要性更是不言而喻。焦化厂控制系统结构图如图3所示。
按照传统,为提高控制系统的可靠性,通常采用双机热备方案,由两台独立服务器构成,再通过集群软件完成故障切换。但是,这种方案的可靠性是建立在集群软件的基础上。随着数据库越来越大,应用越来越复杂,一旦系统中某一环节出现故障,其切换时间需要几分钟到几十分钟,同时,切换时间内的动态实时数据将随之丢失。更重要的是,切换工作并不一定每次都能成功。
相比之下,Stratus容错服务器所采用的冗余硬件同步技术(Lockstep),能保持多CPU/内存单元在精确的同步状态——同一时钟周期执行相同的指令,即能够确保包括瞬时错误在内的任何故障都不会影响到系统运行,系统可以在任何CPU/内存单元,或I/O单元发生错误的情况下不丢失动态数据,也不需产生中断进行错误处理,避免了双机热备方案所产生的故障切换和恢复时间,以及该过程中数据的丢失。
在焦化厂控制系统中采用容错服务器,能确保系统在可用性、维护性、总体成本三方面具备无与伦比的优势。
宁波钢铁五丰塘焦化厂控制系统煤气净化服务器和超级服务器采纳了容错技术方案,根据系统规模及数据库的大小,考虑到系统的可用性,煤气净化服务器采用了Stratus ftServer 2510配置,超级服务器采用了Stratus ftServer 4410配置。自2009年11月份投产以来,容错服务器一直运行稳定可靠,管理维护简单方便,为确保生产的安全稳定顺行发挥了至关重要的作用。
通过分析Stratus容错服务器的设计思想、关键技术以及与双机热备方案的比较,我们可以看出,在焦化控制系统中,采用高可靠性的容错服务器,不仅能满足系统7×24小时连续运行的需要,还能为用户节省总投资成本,减少后期维护工作及维护费用。
[1] STRATUS《容错服务器白皮书》.