上海天然气管网有限公司 谢深
容错技术的基本思想是由冯·诺依曼在1962年提出的。它要求系统具有自动修复及故障容错能力在系统的某个部件出错的情况下保证整个系统的可靠性运行,其目的就是使得系统能自动、适时地监测并诊断出系统的故障,然后采取相应的故障控制和处理方法。而达到这一要求可行方法有硬件的冗余,系统的同步性、系统的表决性、重构性、故障监测多方面。容错控制系统的一般要求:
(1)每个安全相关功能,应该冗余运行;
(2)应用软件有周期性检查的功能;
(3)通过比较保证时钟和定时器的正确性;
(4)有措施避免系统进入死循环或停止运行;
(5)保证通讯链路的正确;
(6)任何硬件故障必须立即得到反映,避免故障累积而发生的事故;
(7)和安全有关的数值不能人工输入;
(8)保证CP指令执行的完整性(针对多字节的指令)。
整个LNG站的控制系统按区域上可分为三大区域:中央控制室(NCR)、原有控制室(ECR)、码头控制室(JCR),由功能可分为三套系统:分布式集成控制系统(DCS);火焰及气体灭火系统(FGS);紧急停车系统(ESD)。
LNG站的控制系统采用霍尼韦尔(Honeywell)集成控制系统,它是基于分布式服务器架构与控制的以太网技术。该系统包括三处控制室(NCR、ECR、JCR),该系统架构见图1。
图1 系统架构示意
如图所示:其中码头控制室包括基于霍尼韦尔C300系列的DCS分布式集散控制系统及FSC701系列的FGS火焰及气体灭火系统1套;中央控制室包括基于霍尼韦尔C300系列的DCS系统(包括接入的第三方成套设备的 PLC控制系统)及 FSC701系列的FGS系统和ESD紧急停车系统各1套;原有控制室则由基于AB(Allen-Bradley)PLC5系列的霍尼韦尔SCAN300系统和经过升级后使用FSC701系列的FGS火焰及气体灭火系统和ESD紧急停车系统各1套。而两处分控制室(ECR、JCR)都通过光纤进行连接到中央控制室集成进行数据通讯。
1.2.1 连接网络
此次扩建项目采用的是霍尼韦尔的控制网络。它不仅提供容错功能,而且反应速度快,决定能力强,且安全性更高。在这个项目中,通过冗余的DCS服务器,将所有的操作员站和工程师站,集散控制系统控制器(DCS),紧急停车系统,火气系统,以及各种第三方控制系统(通过 Modbus/TCP 或Modbus/RTU协议接入),都通过冗余光纤连接将NCR,ECR和JCR的各个系统将连接在同一个控制网络中。
1.2.2 接口方式
基于霍尼韦尔C300系列DCS分布式集散控制系统和ECR的Allen-Bradley的PLC5之间的DH+网络的连接,原有站区的SCAN3000系统采用的是AB PLC为控制器的控制系统,需和新站的DCS相集成,PKS提供了与 Allen-Bradley PLC通讯的RSLinx接口与Allen-Bradley可编程控制器连接。在现有工厂,Allen-Bradley公司PLC5作为控制器,集散控制系统(与老站的ESD FGS系统通讯)会作为SCADA点通过在服务器上了一个监控的PKS 1784 PKTXD适配器接入ECR的PKS监控服务器。(PKS SCADA服务器可以与使用了ALLEN-BRADLEY PLC5通过DH+网络的Allen-Bradley RSLinx接口。)接口方式如图2。
图2 接口方式示意
系统中的火气系统/紧急停车系统 FSC系列与PKS通过FSC的接口与系统集成。NCR的EPKS服务器可以访问所有的 FSC控制器(ESD/FGS系统),如实时数据,历史,报警和事件,SOE(顺序事件),诊断等,所有的报警和FSC的事件、顺序在事件日志在PKS系统和操作员工作站(HMI)可视人机界面中均可查询,使其成为完全整合的系统。而FSC系统和PKS系统统一,信息功能,时间同步,能有效帮助操作员找出工艺出现故障。
项目的网络采用霍尼韦尔的控制网络,整个控制网络提供了一个的100 Mbps的冗余总线的分布式控制系统(DCS)以太网网络,连接两套(NCR、JCR各1套)冗余并同步系统控制器(C300系统Controller)及防火墙(C300控制系列防火墙)。一般情况下,传统的以太网结构通常采用两个独立的以太网网络,每个节点连接两个相互独立网络。如果有一个网络上的连接失败,一个节点同时间切换到其它网络的范围可以从10 s到30 s以上,而项目采用的单一多路径的网络,当出现故障时,重新建立网络连接。将切换时间提高到只有1 s,并且通过提供更多的节点之间的通信路径,整个控制网也容忍包括个别节点单故障和多故障的发生。该网络提供了一种先进的网络解决方案,使用集成通信技术方案提高了系统的可靠性,同时减少试运转调试和维修成本。
2.2.1 基本原理
LNG站分布式系统的架构(DSA)采用的是一套冗余的服务器并通过硬件同步(通过硬件时钟信号来同步个信号的运行节拍)和软件同步(采用网络通讯的方法,通过传输同步帧实现模块间的同步)使主服务器和备份服务器处于同步状态,它的选项中提供了外部接入功能,无需做任何服务器上重复配置。使系统中所有的服务器,PLC都能接入 DCS并获得的数据(选项包括访问系统的数据点、报警、信息、历史、共享等)。每个服务器提供自动为所有客户能够远程数据的动态缓存,以便客户端访问的本地服务器其所有的数据。这种机制可确保无论在服务器和在网络上最高的效率。主 DCS终端服务器与现场设备服务器进行通信并通过其余服务器。如果主服务器发生故障,备份 DCS服务器将成为主服务器与现场设备进行通信。
2.2.2 服务器连接示意图
图3 服务器连接示意
软件错误一般编码和程序错误引起,PKS的软件平台通过软件的时间冗余、信息冗余、系统的重构性等功能有效避免这些错误的发生,保障了其稳定性,并通过所具有的自检性、SOE(事件顺序)、EVENT故障报错和存档的能力以及自诊断和纠错有效避免了故障的累积,使得软件的可靠性得到了保障。是需要强调的是PKS软件系统为保障系统的冗余及监测所带来的代价是占据的相当大系统资源,以及报错、报警偏多的问题。
本文从各方面介绍了整个项目的容错实现,以及系统组成,容错性能确保了系统的安全、稳定和可靠性,但同时也考虑到各种冗余的实现及通过SOE事件顺序、EVENT故障报错及存档的能力所带来极大的占据系统资源的问题,以及报错过于频繁,易造成操作员警觉下降。因此容错性的有效性和合理性才是要重点考虑的合理的容错技术才能保证系统可靠性,否则会造成系统资源的浪费。