(萧山发电厂,杭州311251)
T3000公用系统上层网络安全隐患分析
程甫,於国良
(萧山发电厂,杭州311251)
萧山发电厂5号机组DCS的T3000系统在一次网络故障中出现了在公用系统DCS服务器失去连接的同时,操作员站部分界面无法操作、画面响应迟缓的现象。通过检查发现,虽然导致网络故障的基本原因是硬件故障,但是造成上述故障现象的原因是:网络的运行状况和网络设备设置之间没有有效的结合。根据该检查结果制定了一系列的防范措施,预防类似的故障再次发生。
分散控制系统;网络故障;网络设备设置;防范措施
萧山发电厂5号机组采用的DCS(分散控制系统)为西门子公司的SPPA-T3000操作系统。根据上层网络的设计原理,有可能出现操作员站画面响应迟缓,最终导致操作员站失去监视的现象。
1.1 DCS上层网网络结构
DCS网络结构如图1、图2所示。5号单元机组上层网中,冗余配置的路由器A/B、单元机组服务器A/B分别接入SCALANCE T01/T02,T01上还接有WINTS,OT1,OT3,SOS50,打印机等设备;T02上还接有单元机组OPC,OT2,OT4,彩色打印机等设备,ES1,SCALANCE T01和SCALANCE T02通过光纤实现网络冗余配置。
在公用系统上层网中,A/B侧的设备路由器A/B、公用服务器A/B层(B层以及公用OPC服务器)通过RJ45协议的工业以太网双绞线接在交换机SCALANCE T01/T02上。SCALANCE T01和SCALANCE T02通过光纤实现网络冗余配置。
1.2 操作员站的监控
操作员站的画面监控通过访问单元机组服务器的客户端实现DCS系统的画面监控,公用系统未设置独立的操作员站。为了实现操作员站同时监控单元机组和公用系统的DCS系统数据,单元机组T3000系统需要通过路由器访问公用系统的T3000系统来获取公用系统上层网的数据,从而达到操作员站同时监控单元机组和公用系统的DCS系统数据的目的。
2016年某日4∶30,5号机组OM界面出现“error subscribing plant display connection timed out∶connect”报警对话框,公用系统画面出现“U”报警,ASD无异常报警,同时发现5号机组公用系统及5号机组部分界面无法操作、画面响应迟缓;4∶50,公用系统所有界面以及总览目录中公用系统设备目录消失,现场检查发现5号机组公用系统上层网SCALANCE网络交换机T01和T02均存在故障报警;5∶50,热工人员将T01网络交换机进行断电重启,T01重启结束后T01和T02故障报警信号消失,公用系统设备在界面中恢复正常。
图1 单元机组网络结构(上层网)
图2 公用系统网络结构(上层网)
3.1 设备检查
(1)5号机组公用系统网络交换机T01重启后,T01和T02无故障报警信号,F灯未亮。
(2)检查5号机组公用系统网络交换机T01,发现当光纤数据端口P13处于通信状态,P14处于备用状态时,P14灯标状态闪烁异常。
(3)检查5号机组公用系统网络交换机T01和T02之间的连接光纤通信无异常。
(4)检查T01和T02之间的连接通信光纤,发现光纤存在弯折痕迹。
(5)使用测试光纤工具测试光纤性能,从测试结果可以判断弯折后的光纤通信能力有较大幅度下降,但还是在允许范围内。
(6)检查赫斯曼路由器MARCH 4000无异常。
(7)停5号机组公用系统网络交换机T01电源,网络通信正常。
(8)恢复5号机组公用系统T01电源,停T02电源,网络通信正常。
(9)保持5号机组公用系统T01和T02正常工作,拔除T01和T02之间的互为冗余的通信光纤,设置公用系统服务器CoServer01为主控,出现5号机组公用系统及机组部分界面无法操作的情况。
(10)保持5号机组公用系统T01和T02正常工作,拔除T01和T02之间互为冗余的通信光纤,设置公用系统服务器CoServer02为主控,网络通信正常。
(11)保持5号机组公用系统T01和T02正常工作,拔除T01和T02之间互为冗余的通信光纤,拔除T01上连接赫斯曼路由器的通信网线,网络通信正常。
(12)保持5号机组公用系统T01和T02正常工作,拔除T01和T02之间互为冗余的通信光纤,恢复T01上连接赫斯曼路由器的通信网线,拔除T02上连接赫斯曼路由器的通信网线,网络通信正常。
(13)在确保5号机组公用系统上层网络正常的情况下,拔除5号单元机组上层网T01和T02之间互为冗余的通信光纤,设置单元机组服务器FT4500A为主控,OT1,OT3,SOS50的单元机组画面及公用系统画面均正常,OT2和ES1泛红。
(14)在确保5号机组公用系统上层网络正常的情况下,拔除5号单元机组上层网T01和T02之间互为冗余的通信光纤,设置单元机组服务器FT4500B为主控,OT2和ES1的单元公用系统画面丢失、单元机组换面响应变慢,OT1,OT3,SOS50画面泛红。
3.2 日志检查
(1)检查5号机组公用系统网络交换机T01和T02日志,发现出现网络通信故障的时候,T01和T02之间的2路通信均中断。
(2)检查5号机组公用系统网络交换机T01和T02日志,发现出现网络通信故障的时候,用于T01和T02之间通信的光纤数据端口P13已被禁用,报警信息“Link Check∶Broken link on port 13 indicated by 100%packet loss.Port disabled”。
(3)检查5号机组公用系统网络交换机T01和T02日志,发现出现网络通信故障的时候,用于T01和T02之间通信的光纤数据端口P14已被禁用,报警信息“Link Check∶Broken link on port 14 indicated by 100%packet loss.Port disabled”。
3.3 网络情况检查
(1)通过断开公用系统上层网T01和T02之间通信光纤的方式,重现网络故障现象,检查5号单元机组DCS系统上层网络、5号公用DCS系统上层网络,没有发现网络异常情况。
(2)通过断开公用系统上层网T01和T02之间通信光纤的方式,重现网络故障现象,检查单元机组DCS系统服务器、5号公用DCS系统网络服务器,没有发现异常情况。
4.1 公用系统上层网故障原因
根据检测结果可以判断,虽然公用系统上层网T01和T02之间的连接通信光纤发现有弯折痕迹,通信能力有所下降,但还是在允许范围内,网络设备T01存在故障,导致T01和T02之间通信的光纤数据端口P13和P14的丢包率较高,最终由于高丢包率导致P13和P14端口均被屏蔽,T01和T02之间通信中断。
4.2 公用系统画面丢失原因
路由器的配置硬件上是冗余配置,但是在同一时间只能有1个路由器作为主控网络路径,根据测试结果得知,目前萧山发电厂5号机组DCS系统上层网路由器主控网络路径分别接入单元机组上层网T01和公用系统上层网T02。
西门子T3000系统是安装在一对硬件上互为冗余配置的服务器里的DCS操作系统,虽然2台服务器的内容完全一样,但是在网络中只访问作为主控服务器的数据。操作员站通过访问单元机组服务器的客户端实现DCS系统的画面监控,同时单元机组T3000系统需要通过路由器访问公用系统的T3000系统,以获取公用系统上层网的数据,实现公用系统的画面监控。
当公用系统上层网T01和T02之间的网络通信中断后,由于主控服务器在物理上和其相连的SCALANCE通信没有中断,主控服务器认为网络通信正常,因此不会进行主、副服务器的切换,同时网络通信路径也没有发生改变,此时若公用系统CoServer01服务器处在主控模式,因为在主通信路径上此时无法读取CoServer01的数据,因此单元机组的服务器无法读取到公用系统上层网的数据,最终导致操作员站的公用系统画面丢失。
同理,当单元机组上层网T01和T02之间的网络通信中断后,若FT4500的B侧作为单元机组的主控服务器,由于单元机组上层网T02此时不是主通信路径,因此无法读取到公用系统上层网的数据,最终导致操作员站上的公用系统画面丢失。
4.3 单元机组画面响应缓慢
操作员站通过访问单元机组服务器的客户端来实现对单元机组和公用系统的画面进行监控,当公用系统上层网的通信中断,而该客户端内含有公用系统的画面数据,此时会耗费较多的网络资源对公用系统的数据进行读取,最终导致单元机组的画面响应变慢,甚至出现无响应的情况
根据结果可以判断,5号机公用系统DCS上层网络的设置方式存在安全隐患。由于冗余配置的路由器没有实现动态路由的功能,无法自动识别公用DCS系统中冗余配置的主控服务器,当发生公用DCS系统上层网网络交换机T01和T02之间的网络通信中断的情况时,如果此时路由器的主通信路径上所连接的公用DCS系统服务器不是主控服务器,操作员站就会由于无法访问公用系统服务器而出现公用系统画面丢失、单元机组画面响应缓慢的情况,严重影响机组的安全运行。因此,采取了以下防范措施:
(1)DCS系统中开放服务器异常状态报警信息、网络交换机状态报警信息、网络交换机数据端口存在异常数据的报警信息。
(2)将连接在5号机组公用系统上层网络主控通信路径交换机的CoServer02作为公用系统DCS主控服务器。
(3)将连接在5号机组单元机组DCS上层网络主控通信路径交换机的FT4500的A侧作为单元机组DCS主控服务器。
(4)将T3000单元机组客户端中操作员站画面里的公用系统数据点都移至公用系统客户端中的操作员站画面显示,同时要求集控室中至少有1台操作员站只访问5号单元机组客户端,以确保再出现类似网络故障的情况下,至少有1台操作员站可以正常监控5号机组的运行数据。
(5)编制“SCALANCE检查步骤”,要求进行网络设备的跟踪检查。
(6)制定“5号机组公用系统上层网络故障应急预案”。
针对常见通信故障,通常考虑故障原因是通信方面问题(如通信电缆、网络交换机等故障)或者是信号电缆存在干扰问题。5号机组故障原因虽然是硬件故障导致的,但最终原因是网络运行和硬件设置之间无法有效地结合导致,这是今后再遇到类似问题需要拓展思维的方面。
动态路由功能并不是新技术,在信息领域已经得到广泛应用,可以通过学习信息专业的网络知识来指导工作,并提出有操作性的整改建议。
[1]丁俊宏,丁宁,苏烨,等.2015年浙江省发电厂典型热控故障异常分析与建议[J].浙江电力,2017,36(1)∶27-30.
[2]刘哲,刘林.大型火电机组分散控制系统网络通信性能试验[J].广东电力,2016,29(11)∶47-51.
[3]来晓,冯冬芹,褚健.分布式网络故障检测及恢复技术研究[J].计算机工程与应用,2010,46(24)∶73-76.
[4]丁俊宏,孙长生,王蕙,等.2013年浙江省火电厂热工故障及异常的统计与分析[J].浙江电力,2014,33(10)∶23-27.
(本文编辑:徐晗)
Analysis on Hidden Danger of Upper Level Network Security of T3000 Public System
CHENG Fu,YU Guoliang
(Xiaoshan Power Plant,Hangzhou 311251,China)
In a network fault of T3000 system of DCS for unit 5 in Xiaoshan Power Plant,a DCS server of public system could not be connected,and there were failure of interface operation and delayed image response in an operator station.It is found after check that the network failure resulted from hardware faults;however,it is fundamentally due to ineffective combination of operating condition with network device setting. Therefore,a series of precautionary measures were taken to prevent similar failures.
DCS;network failure;network device setting;precautionary measures
10.19585/j.zjdl.201707014
1007-1881(2017)07-0056-04
TK37
B
2017-03-31
程甫(1982),男,工程师,从事发电厂热工控制专业工作。