一起水电站监控系统网络故障的分析与处理

2010-05-16 09:09李正家周奋强
水电站机电技术 2010年3期
关键词:网线环网交换机

李正家,周奋强

(重庆大唐国际彭水水电开发有限公司,重庆 彭水 409600)

一起水电站监控系统网络故障的分析与处理

李正家,周奋强

(重庆大唐国际彭水水电开发有限公司,重庆 彭水 409600)

分析了彭水水电站计算机监控系统网络通讯故障的原因,纠正了其在施工和调试过程中由于疏忽而导致的接线错误。可供相似计算机监控系统网络结构出现通讯故障时作为参考。

计算机监控系统;上位机;网络;下位机;H IPER-Ring

0 引言

乌江彭水水电站单机容量为350MW,其计算机监控系统采用100M光纤双以太环网两层结构,主交换机采用赫斯曼MACH 3002系列工业级以太网交换机,其余现地LCU采用赫斯曼MICE MS20系列工业以太网交换机。上位机监视终端的NC2000系统启动时数据接收缓慢,且有滞后;下位机PLC重启时初始化速度较慢会导致其CPU出现主从切换。

1 情况概述

彭水水电站机组检修期间,对4号机组LCU进行SOE分辨率测试时发现,当信号间隔为2ms时,计算机监控系统上位机一览表中测试的SOE信息有丢失现象,且时间记录不对。由于最初进行SOE测试时发现现地LCU柜CPU模件的对时灯SYNC常亮,故对对时回路进行检查时,计算机监控系统上位机报“4号机组通信故障”,随后其他运行机组LCU等均报通信故障,接着计算机监控系统上位机无任何数据。并发现4号机组LCU上的赫斯曼小交换机一个灯常亮,一个灯闪烁。

当时临时处理:

a)将4号机组LCU断电,再上电,4号机组LCU赫斯曼交换机在初始化过程中,全厂通信恢复;

b)当4号机组LCU交换机初始化完成,刚参与网络通信,全厂网络通信再次故障;

c)将4号机组LCU断电,其他LCU继续工作,一段时间后全厂网络又出现一次网络通信故障;

d)拔掉4号机组LCU赫斯曼交换机上的网线,4号机组LCU上电,全厂通信恢复。

2 故障的危害性

彭水水电站装机容量为1750MW,电站各机组由重庆市调统一调度,担当着重庆电网的调峰、调频、事故备用的功能,在电网中具有举足轻重的作用。

计算机监控系统发生网络通讯故障时,存在如下几点问题:

a)各机组运行参数不能在计算机监控系统中查看;

b)各机组及公用设备的报警信息等不能及时地进行监视及发现,一旦有异常情况,工作人员变得十分被动;

c)机组的有功功率、无功功率的调整必须在现地调速器及励磁等盘柜旁由专人进行调节,且负荷调节需跟调度实时联系;

d)由于网络通讯故障,致使现地控制柜的PLC,CPU模件出现故障,万一出现程序误动作、模件误开出,轻则影响到设备运行,重则影响到电网的安全;

e)电网调度不能对电站的实时负荷、机组状态等重要参数进行监视。

3 第一次检查及处理

由于为计算机监控系统的网络故障,故对计算机监控系统内的环网交换机、网路拓扑结构分析并作了如下处理:

(1)对计算机监控系统进行网络故障检查,发现A网(200网段)和B网(201网段)有贯通现象,决定对计算机监控系统的全厂网络拓扑结构进行检查。彭水水电站计算机监控系统为双环网结构,正常时其双环网应该为独立的、无物理连接的。

(2)记录全厂各现地LCU柜上赫斯曼小交换机MAC地址,用网线连接调试终端和交换机任一空闲网口,用Hdiscovery 1.1软件设置交换机IP地址。面对LCU背面,规定为右边交换机为A网,左边交换机为B网,如表1所示。

(3)在4号机组现地LCU柜内的小交换机上,用网线连接调试终端和A网交换机空闲任一网口,用Industrial HiVision 3.10软件,扫描网络,得到彭水电站计算机监控系统A网(如图1)和B网(如图2)2个网段的拓扑结构。由如下两个网络拓扑结构图可以看出:其A网和B网并没有直接相连的迹象,即只从单个计算机监控系统来分析,A网与B网是没有贯通的。

?

图1 A网拓扑图

图2 B网拓扑图

由于计算机监控系统自身的双环网之间没有贯通,而唯一与计算机监控系统网络连接的就是二次安全防护系统,故需进一步检查二次安全防护系统与计算机监控系统网络的连接情况。

(4)在计算机监控系统网络柜中,用网线连接调试终端和A网主交换机任一空闲网口,同时把二次安全防护系统连接至计算机监控系统B网的网线拔掉,再用命令pingB网设备,发现A网和B网的贯通现象消失。

进一步检查发现,计算机监控系统A网主交换机一网口用网线接至二次安全防护系统的一区交换机,计算机监控系统B网主交换机一网口用网线接至二次安全防护系统的二区交换机,如图3。一区交换机可通过防火墙向二区交换机发送UDP数据包,且一区与二区之间允许ICMP数据包的流动,由此导致监控A网和B网出现贯通现象。

图3 双环网与二次安全防护连接图(改线前)

将各网线恢复至正常状态,即A网交换机连接至一区交换机的网线保持不变,B网交换机至二区交换机的网线改接在一区交换机上,这两根网线对应的网口通过交换机的配置将其划分为两个VLAN将它们隔离开来,且关闭了一区与二区之间的ICMP协议,保证生产控制区的绝对安全,如图4。双环网不再贯通。

图4 双环网与二次安全防护连接图(改线后)

(5)采用HiVvision软件检测计算机监控系统环网住交换机的通信负载率,记录如表2。

?

在计算机监控系统厂内终端机上测试发现,当计算机监控系统B网至二次安全防护二区交换机网线接上,在监控系统厂内终端机上重启监控应用软件NC2000,发现启动很慢,启动后画面数据刷新滞后;断开该网线后,NC2000启动很快,画面数据能立即刷新。

(6)断开监控B网至二次安全防护二区交换机网线,恢复4号机组LCU上CPU的网线接至本机柜内交换机,通信正常,此时A网交换机为主,最高通信负荷率1.41%。

(7)进行SOE分辨率测试,没有出现报文丢失的现象。

4 第二次检查及处理

在解决双环网贯通问题后,一天后发生了第二次网络通讯故障,上位机简报窗口出现主机1与所有现地LCU柜CPU1通信故障,接着出现主机1与所有现地LCU柜CPU2通信故障,之后与市调通信中断;上位机画面数据不刷新;除返回屏LCU外(返回屏LCU未接入环网),其余现地LCU的两块CPU的FAULT灯都亮,且A网交换机上的2个光口,一个灯闪烁,一个灯常亮,情况比第一次网络通讯故障更为严重。

临时恢复处理:

a)解开4号机组LCU交换机至PLCCPU网线。

b)将网络柜上的A网主交换机断电重启,现地LCU网A网交换机2个光口正常闪烁;全厂网络通信恢复。

c)依次按下各现地LCUCPU上Reset键,复位重启;CPU FAULT灯熄灭,计算机监控系统恢复正常,各参数显示正常。

由于网络贯通故障处理后并未彻底解决网络通讯故障,故需从交换机的软件配置、硬件设置上来检查:

(1)利用IE WEB界面登录到主交换机,检查发现主交换机构成环网的2个光口在软件配置中为光口1和光口2,如图5可以看出,其RingPort1的Opertion为inactive(不活动的),RingPort2的Opertion为 active,信息(information)中显示为配置失败(configuration failure),而工程实施时光纤实际接到光口2和光口4,说明其HIPER-Ring未真正形成,所以需要按交换机软件设置来更改光纤尾纤接线。

图5 主机换机环网配置(改线前)

Information:

"Redundancy guaranteed"tells you that if one of the lines affected by the function fails,a redundant line will take over the function ofthe failed line.

"Configuration failure"tells you whether the function is configured completelyand correctly.

(2)检查确认主交换机设为环网中的主站,检查确认所有LCU小型交换机拨码设置为环网中的从站。

(3)用IE WEB界面登录到交换机,将两台主交换机和2号机组、5号机组LCU交换机的日志信息和系统信息导出,发送给赫斯曼交换机厂家技术人员,请其协助分析交换机是否存在故障。

(4)制定好监控网络通信故障应急预案后,先将B网主交换机电源关闭,将光口4上的光纤尾纤换接至其光口1上,然后将B网主交换机通电重启。同样,将A网交换机上的光口4上的光纤尾纤换至其光口1上。

(5)按实际光纤接线更改后,再次利用IEWEB界面登录到主交换机,检查确认主交换机构成环网的2个光口在软件设置中为光口1和光口2,如图6可以看出,其RingPort1的Opertion为 active,RingPort2的 Opertion为active,且信息(information)中显示为冗余可靠(Redundancyguaranteed),说明双环网中的软件配置光口与实际的接线一致,HIPER-Ring已形成。

图6 主机换机环网配置(改线后)

(6)采用HiViSion软件分别扫描A网和B网环网结构,得到拓扑结构如图7、图8。

图7 A环网结构图

图8 B环网结构图

(7)根据各交换机日志信息,分析出某些交换机上存在数据丢包现象。

5 故障原因分析

经过检查、测试和分析,推断彭水计算机监控系统网络故障原因有以下三点:

5.1 A网和B网经由二次安全防护系统贯通

分析计算机监控系统环网上通信负载率发现,A网和B网贯通后也会导致网络负载加重,同时,B网与二区交换机连接后,二区一些系统的数据流入计算机监控系统网络,此种情况下,计算机监控系统软件NC2000启动缓慢,画面刷新滞后。赫斯曼交换机厂家技术人员指出,两个网段的网络贯通,会使网络安全级别降低,某种条件下会出现网络风暴,不推荐在这种方式下运行。A网和B网贯通后,本来在各自网络上通行的信文会误发到对方网络上,应该收到的信文得不到回应,信文丢失现象严重,此种情况下,SOE测试时会出现信文丢失的现象,操作员站双机简报信息不一致,使用赫斯曼网管软件扫描网络时总得不到全部交换机信息。

5.2 双环网主交换机网络配置与实际接线不一致

双环网主交换机软件设置的光口1和光口2作为环网的管理接口,实际只使用了光口2,整个网络只是物理意义上的环网,没有形成真正意义上的HIPER-Ring环网,管理报文一直在寻找另外一个管理光口,当报文在端口累积到一定程度时,交换机环网端口故障。交换机实际工作在亚健康临界状态,只要网络负荷稍微上升,故障就会发生,计算机监控系统主机与各现地LCU网络通信中断,现地LCU CPU频繁切换主从,造成CPU模件故障。

5.3 某些设备网络端口(如5号机组测温LCU A网)数据丢包现象严重

现场检查为网线与交换机网口接触不良所致,重新拔插并紧固网线后,采用ping命令检测其网络,丢包现象消失。

6 防范措施

由于计算机监控系统网络在水电站的重要性,其故障时会对电站设备的运行产生较大影响,鉴于此,采取如下措施:

(1)定期使用网管软件扫描网络拓扑结构,监视网络结构、端口负荷率,交换机自诊断信息和系统信息,分析网络健康状况;

(2)定期使用ping命令检查A网和B网有无贯通现象;

(3)定期使用ping检查设备端口,若有数据丢包现象,检查相应端口网线接触状况。

7 结语

通过对计算机监控系统各环网交换机的软件配置、硬件设置的检查,同时对二次安全防护设备的网络设备进行梳理,解决了计算机监控系统网络通讯故障。处理之后的计算机监控系统,其上位机的NC2000启动接受数据速度恢复至正常,不再滞后;现地LCUCPU重启后不再主从切换,且初始化速度很快。

[1]计算机网络技术及应用[M].水利水电出版社,2005.

[2]现代水电厂计算机监控技术与试验[M].中国电力出版社,2004.

TP393.07

B

1672-5387(2010)03-0026-04

2010-04-28

李正家(1980-),男,助理工程师,从事大型水电站自动化设备管理工作。

猜你喜欢
网线环网交换机
基于ODUk Spring方式实现基础网络环网保护的研究
修复损坏的交换机NOS
使用链路聚合进行交换机互联
高速公路万兆环网建设探析
加强配网线损管理 提高企业经济效益
基于CAN的冗余控制及其在轨道交通门禁环网中的应用
PoE交换机雷击浪涌防护设计
万兆环网在京秦高速智能化监控中的应用
改进等效容量法在含风电配网线损计算中的应用
罗克韦尔自动化交换机Allen-Bradley ArmorStratix 5700