吴建国,张宇科,卢军刚,王佳俊,石财祥
(中核核电运行管理有限公司,浙江 海盐 314300)
DCS系统是分散控制系统(Distributed Control System)的简称,也称集散控制系统。它是一个集合了计算机、通讯、显示和控制的由过程控制和过程监控的计算机系统。DCS设计的理念是分散控制,集中管理,分级管理,配置灵活,组态方便。在核电厂中,DCS系统是电厂的神经中枢,在保障核电厂的安全、经济运行方面有着十分重要的作用。
某核电厂已安全运行10多年,随着运行时间的延长,DCS系统的稳定性能有所下降,缺陷率有所提高,设备的高缺陷率影响了电厂的健康运行。同时,随着DCS数字化系统的发展,作为已经运行十几年的DCS系统,在网络结构设置、智能化、设备性能方面已经同目前的DCS系统有了较大的差距。本文介绍了某核电厂的DCS数字化网络的结构、配置、存在的问题、改进方式等,重点对交换机网络广播风暴及阻断措施进行了介绍与分析。
某核电厂使用了福克斯波罗公司的基于Mesh网络的I/A控制系统,该系统是一款开放型DCS工业控制系统,其通讯网络是建立在国际标准化组织(ISO)所定义的开放系统互连(OSI)标准基础上的,并符合IEEE的规范,是按照局域概念构造的标准网。Mesh控制网络的设计思想是在网络中任意两个设备之间提供多重通讯途径,从而使通讯不受单点乃至多点故障的影响,提高了通讯的冗余性能。Mesh网络的全光纤通讯线缆的布置,提高了系统通讯中的抗电磁干扰能力[1]。
线形结构由两台交换机组成,如图1。其适用于小型系统,如果选用的交换机有上百个通讯口的话,也可以应用于较大的系统。
图1 线性结构Fig.1 Linear structure
环形结构适用于3~7个交换机组成的网络。每个交换机都与邻近的交换机相连,其中主、备交换机必须相邻如图2。
图2 环形结构Fig.2 Ring structure
倒挂树结构适合于大型系统。该结构中,所有交换机都按层排列,其中根交换机位于顶层。由于RSTP 协议的限制,倒挂树结构中的层数最多只有4层。任何一台交换机必须与上一层中的两台交换机相连,以保证通讯的冗余性,如图3。
图3 功能图绘制流程Fig.3 Function diagram drawing process
某核电厂DCS交换机网络就采用的是倒挂树结构,如图4。整个网络分为3层,最上层为核心交换机8KITS1和8KITS2,中间层为机组级交换机3KIT11、3KIT12、4KIT11、4KIT12、8KSNS1、8KSNS2、8KITS3、8KITS4,最 下 层 为 房 间 级3KIT91-96、3KCOS1-S2、4KIT91-96、4KCOS1-S2。网络中每个交换机都有与其作用相同的冗余交换机,当某一个交换机故障时不影响整个网络的信息传输,如3KIT11故障后,它与8KITS1和3KIT91-96等交换机的通讯不可用,此时3KIT12与8KITS1和3KIT91-96等交换机的通讯仍然正常进行,3KIT11和3KIT12端口连接相同的设备,整个网络的通信功能不受影响。故该网络具备较高的稳定性能,可容忍单一交换机缺陷故障。
图4 某电厂DCS网络Fig.4 DCS Network of a power plant
网络广播风暴是指由于某种原因导致交换机网络中会出现大量的数据无序传输,占用带宽,阻塞网络传输,从而大大降低整个网络的通信性能。网络广播风暴是网上广播的一种消息,该消息导致发送消息包与等待消息包形成死锁反应,从而使网络不能正常运行乃至最终瘫痪。每个死锁反应又导致更多死锁反应,严重的广播风暴可能封锁所有网络通讯, 导致网络灾难甚至全网瘫痪[2]。
2019年1月,某核电厂主控人员发现3号和4号机组的DCS数字化系统的操作员站和工程师站鼠标点击都无法动作,历史库状态显示Server#1/2health is BAD报警,且电脑中的参数都无法显示。检查一回路状态正常,一回路相关控制系统正常。由于DCS系统网络无法正常工作,导致现场一些设备的自动控制功能失去控制,最终触发反应堆停堆信号,导致机组停堆。
经过调查,事件起因为DCS网络中的3号机组的交换机3KIT11故障导致了网络广播风暴,在缺少阻断机制的情况下导致网络瘫痪,引发部分设备控制异常,最终导致4号机组停堆。
对3KIT11故障交换机进行测试分析,发现交换机存在部件老化现象。储存卡固件可正常加载运行,但交换机底板存在故障,导致运行不稳定,判断交换机存在硬件故障。在实验中验证了生成树协议失效会导致网络广播风暴,但是由于实验环境同现场有差异,未能完全复现现场故障。
为应对由于交换机故障而引起的广播风暴突发故障,维修人员制定了相应的应急干预机制,确保在发生此类突发故障时能迅速找到引发广播风暴的交换机并将其隔离,使剩余网络能够正常稳定运行。当广播风暴发生时,应急干预步骤如下:
1)破坏AB双环网络结构,征得主控同意后,断开B列两台机组级交换机3KIT12/4KIT12的电源。
2)若网络故障未解除,则恢复B列两台机组级交换机3KIT12/4KIT12的供电,确认交换机工作指示灯正常后,断开A列两台机组级交换机3KIT11/4KIT11的电源。
3)若网络故障未解除,则断开核心交换机8KITS2的电源。
4)若网络故障未解除,则恢复核心交换机8KITS2的电源,确认交换机工作指示灯正常后,断开核心交换机8KITS1的电源。
5)若网络故障未解除,则断开房间级交换机8KITS3/8KITS4的电源。
6)网络故障消失后,在网络监控站软件中查看各交换机运行情况,确认当前单网运行回路的交换机是否正常,如有不正常的交换机,则切换至另一路后进行该故障交换机的更换。
生成树协议将网络中的物理环路,通过一种算法在逻辑上阻塞一些端口,然后生成一个逻辑上的树形结构,从而阻止广播帧形成环路和广播风暴[3]。如图5所示,3台交换机构成的环路网络,使用STP协议后,交换机8KITS1与8KITS2的链路的一个端口被协议从逻辑上阻塞,这条链路就不能再传输数据了,从逻辑上破坏了环路的形成。当正常通信链路(如3KIT11和8KITS2)之间的链路发生故障时,被逻辑阻塞的链端口被重新激活,使数据能从这条链路正常传输。
图5 STP示意图Fig.5 Schematic diagram of STP
某核电厂的交换机网络使用了生成树协议STP,使各个交换机在正常运行时没有形成网络环路,没有发生广播风暴,各交换机之间的信息通讯按照一定的规则测量,稳定运行。当交换机3KIT11发生某种故障时,引发了STP不稳定或失效,导致广播风暴并最终使全网瘫痪。
虚拟网络是在整个网络中通过网络交换设备建立的虚拟工作组。划分虚拟局域网(VLAN)可以根据实际应用需求,把同一物理局域网内的不同用户逻辑地划分成不同的广播域,每一个VLAN都包含一组有着相同需求的计算机工作站,与物理上形成的LAN有着相同的属性。由于它是从逻辑上划分,而不是从物理上划分,所以同一个VLAN内的各个工作站没有限制在同一个物理范围中,即这些工作站可以在不同物理LAN网段。由 VLAN 的特点可知,一个 VLAN内部的广播和单播流量都不会转发到其它VLAN中,从而有助于控制流量,简化网络管理,提高网络的安全性。一旦发生环路,广播风暴可以被限制在VLAN内部,从而减小受影响设备的范围,同时也便于故障定位[4]。
在一个合理的网络构架中,网络中的交换机能够以高可靠性和冗余度相互通信。STP协议将网络中的冗余环路阻断,形成一个逻辑上的无环路网络。LDP环路检测算法在网络发生不稳定时,提供了一种故障检测和故障隔离的方法。
环路循环是通过已知的数据路径及其来源所监测的,为了建立一个已知的路径,LDP创造了“信标(Beacon)”的概念,信标定期从根交换机向网络的边缘交换机发送IGMP数据包,在发生循环的情况下,数据包被转发回根交换机,当数据包在不应该出现的端口发出时,就可以假设环路循环已经发生且需要采取措施。
具有LDP的控制网络可以隔离风暴交换机,并允许控制网络上的通信继续进行。当检测到交换机的入口端接收到的信标数量达到7个时,LDP就将关闭该端口来隔离环路,阻止广播风暴的发生。LDP关闭端口后会导致一个链路失效。
部署LDP时,仅在网络中的根交换机和备份根交换机上启用“信标(Beacon)”。只有IP地址最低的指定交换机发送“信标”查询包,备用根交换机作为一个备份,只有在根交换机离线或根交换机和备份根交换机之间发生链路丢失时,才会发送“信标”查询包。
某核电厂DCS网络的交换机使用的是福克斯波罗公司的A型和C型交换机,交换机型号较老,无法配置LDP阻断机制。为了提高交换机阻止广播风暴的能力,某核电厂将现场A型和C型交换机替换为X型和S型,并按照LDP的要求,对网络中的两台根交换机8KITS1、8KITS2配置时启用了LDP功能。
某核电站的DCS网络为两台机组共用,该网络结构的优点是整个DCS的数据可以相互调用,方便两台机组之间的数据查看。存在的缺点是两台机组网络不是物理隔离的,耦合度太高,某一台机组的网络故障可能会引发两台机组的网络故障,增加发生网络故障的危害程度。
根据I/A系统的特点以及网络安全的要求,为避免网络故障同时对3、4号机组造成影响,依据原供货商网络设计的原则进行网络拆分,将不同机组之间的信息以及不同功能之间的信息通讯进行拆分,保证机组运行时不会因网络故障产生相关的影响,在物理上彻底阻断3、4号机组间的影响,阻止单元机组故障蔓延。
某核电厂原有网络拓扑结构是倒挂树形Mesh网络结构,3、4号机组通过共用核心交换机均可访问KDO、KME和KSN系统,3、4号机组的DCS系统数据彼此可以互相访问。
结构优化后,将原有的网络拆分成为4个系统:3号机组KIT/KCO为一个系统,4号机组KIT/KCO为一个系统,KSN为一个系统,KDO/KME为一个系统。在拆分的基础上,对相关的网络配置、时钟系统进行修改,并增加必要的通讯设施、通讯网线和光缆,网络安全监视设备等。优化后的网络结构如图6。
图6 优化后网络结构图Fig.6 Network structure diagram after optimization
本文介绍了某核电厂3、4号机组DCS数字化网络的基本情况,包括交换机网络结构、网络拆分等。广播风暴故障对DCS网络和电厂的安全运行有着严重危害,核电从业者需对广播风暴的原理、危害、预防措施有一定的了解,同时建立应急预案。随着国家层面对网络安全的重视程度不断提高,系统漏洞审查、防窃听、设备国产化等措施在稳步推进,核电厂的DCS网络安全水平也将上升一个新的台阶。