基于IEC 61850变电站网络频繁中断原因分析及解决方案

2016-02-15 06:17罗凯文中国南方电网超高压输电公司南宁局广西南宁市530028
低碳世界 2016年36期
关键词:后台中断报文

罗凯文(中国南方电网超高压输电公司南宁局,广西南宁市530028)

基于IEC 61850变电站网络频繁中断原因分析及解决方案

罗凯文(中国南方电网超高压输电公司南宁局,广西南宁市530028)

IEC 61850代表了变电自动化系统的最新趋势,是数字化、智能化变电站的关键技术,各大厂商受限于当时研究深入程度及硬件条件的限制导致对于基于IEC 61850的第一代建设的变电站网络结构设计及硬件要求存在一定的局限性,导致影响监控系统稳定运行的网络中断问题越来越凸显,本文通过对问题进行原因分析,找出导致该问题的因素,并制定解决方案。

IEC 61850变电站;网络中断;原因分析;解决方案

引言

随着电网发展及电力需求的增加,线路扩建逐渐增多,挂接在监控系统的设备也越来越多,基于当时IEC 61850标准的建设变电站的设计的局限性及不足越来越明显,有时还还影响到监控系统的稳定运行,最典型的就是监控系统中有大量网络报文导致通信堵塞,引起设备频繁出现中断,导致数据不刷新、死机,以及测控装置之间的闭锁因GOOSE报文异常导致装置异常闭锁,同时引起装置通信中断随机性大,目前通过重启装置或经过长时间等待系统即可自动恢复正常,该问题已经影响到监控系统的稳定运行;本文针对该问题现象进行原因分析,找出导致该问题的几种因素,并正制定解决方案。

1 监控系统构成

该变电站监控系统采用南瑞继保的RCS-9700分散式微机监控系统,RCS-9700系统采用最新的IEC 61850通信规约标准,按安装地点和功能,分位主控楼内的站控层和现场小室内的间隔层设备。网络结构为开放式分层、分布式结构。站控层通过光纤与间隔层相连。该系统的网络全部采用光纤或屏蔽双绞线以太网组网,网络拓扑结构采用总线型。站控层监控网络按双以太网配置,且按全站终期规模配置。间隔层也采用双以太网,间隔层设备采用具备以太网接口的测控单元直接接入网络,与站控层设备通讯。

2 原因分析及处理方案

监控系统中测控装置间采用GOOSE报文进行间隔层联锁交互信息。根据现场频繁出现装置通信状态发生“通/断”现象,初步判断可能存在如下原因:

(1)站内装置Mac地址冲突;

(2)交换机网口或装置网口芯片老化;

(3)网络负荷增加导致装置CPU处理通信报文速度变慢。

2.1 MAC地址冲突(略)

2.2 MAC地址冲突现象分析

当发生冲突时,后台或远动同一时刻只能收到一台装置的通信报文,该报文可能是后台或远动需要的报文,也肯能是不需要的报文。对于不需要的报文,会被丢弃,从而导致装置通信状态“断”,当又收到正确文本后,该装置通信状态又变为“通”。长时间这样,就可能会出现装置频繁“通/断”现象。

例如:

A装置Mac=93:73:E0:63:0A:03,IP=198.120.0.3

B装置Mac=93:73:E0:63:0A:03,IP=198.120.0.4

交换机通过ARP、UDP或其它TCP报文学习每台装置的Mac。当A和B都与远动通信时,由于Mac冲突,远动发送给A的命令报文可能被交换机到转发到A,并收到A回复;也可能被交换机转发到B,却收不到回复。如果交换机学习到Mac(对应不同IP)在频繁改变,就会出现装置频繁“通/断”现象。

装置Mac都是根据自身设置(装置地址、IP地址……)确定的,当设置不当可能出现Mac冲突现象。

2.2.1 MAC地址冲突异常查找

排查该问题可通过在现场将一台Hub级联后台并接入中心交换机抓取网络报文分析进行分析。

通过抓取报文分析是否存在IP/Mac冲突或A/B/C网络被串联,正常运行时要求三网必须从物理上断开。

2.2.2 MAC地址冲突处理方法

如果判定IP/Mac冲突,只需要将冲突的装置Mac地址修改即可。并在后台重新做静态ARP绑定。如果A/B/C网络发生串联,则需要找到源头,从物理上断开。

现场经过测试未发现存在IP/Mac冲突及A/B/C网络发生串联,因此可排除该因素引起的通信中断。

2.3 交换机网口芯片老化

2.3.1 交换机网口芯片老化现象

当交换机网口芯片老化,尤其是主控室中心核心交换机,可能会出现网络报文频繁重发现象。在这种现象下,后台或远动、装置都会可能出现收到不到对方的报文,从而出现频繁“通/断”现象。

一方面可通过后台抓取正在通信的报文,从报文中判断是否出现频繁的网络报文重发现象。同理可以判断远动是否存重发报文;另一方面通过检查查看交换机运行指示灯及登录交换机查看运行状态。

2.3.2 交换机网口芯片老化处理方法

若确认为当交换机网口芯片老化,该问题交换机会降低或丧失对网络报文处理能力,可通过更换交换机即可。

现场通过逐台交换机排查未发现交换存在故障问题,可排除该因素。

2.4 网络负荷增加导致装置CPU处理通信报文速度变慢

网络负荷增加导致装置CPU处理速度变慢现象:

装置CPU除了处理通信报文外,还要处理采样、逻辑等运算。当站内装置增多,网络报文量会成几何数级增长,导致CPU处理数据变多。对于装置而言,尤其是测控,通信处理任务一般为最低优先级。当网络报文量增加,装置CPU处理有效报文的时间就会减少,从而导致来不及回复后台或远动发来的命令,进而引起频繁通信“通/断”现象。

可通过通过后台抓取全站文,从报文判断装置发送报文是否频繁。

3 现场排查情况及采取方案

3.1 站内报文类型

通过报文抓取软件对变电站内网络报文进行抓起,网络报文主要由以表1中类型组成。

表1

3.2 站内报文分析机处理方案

变电站监控系统正常运行时,没有保护动作发生、没有SOE产生、没有运行方式切换,仅遥测值微小变化。在这种情况下,同时从后台A网抓取5min左右报文。其报文大致分析如图1所示。从报文总量来看,报文量正常,在装置承受范围内。

图1 网络报文统计

根据表1站内报文类型特点可知,对装置通信状态有影响的主要为:UDP、GOOSE、ARP三类报文,以下结合抓包具体分析。

3.3 ARP报文影响

从现场A网抓包数据来看(如图2黑色柱状图,图3黑色字体部分),第138.786~138.806s、139.786~139.806s的两段20ms间隔中,出现了10帧ARP。根据运行经验,这种规模的ARP报文在装置正常处理范围内,不会引起通信异常。如果在多个连续的500ms时间段内出现40帧以上ARP报文,或则每隔1、2s就密集产生一波密集ARP报文(多于30帧)时,装置就会耗费大量资源处理它们,进而延迟处理远动/后台发来的MMS命令报文,从而使得装置与远动/后台出现通信异常的几率急剧上升。如果此时再有GOOSE、UDP、MMS遥信/遥测量报文增加,并持续一段时间后,装置很容易出现通信“通/断”现象。

图2 ARP和GOOSE报文统计柱状图

图3 各类报文顺序图

对于ARP报文的影响,可在后台和远动采用“静态ARP绑定”方案。目前该变电站已经实施该方案,通过对比实施前后的报文,可以发现ARP报文量和出现频率已经大大降低。

4 结束语

通过对早期基于IEC 61850建设的变电站监控系统网络频繁中断原因分析,找出了引起网络频繁中断为网络报文量剧增所至,根据深入报文类型,并针对每类报文特点采取静态绑定及划分VLAN限制报文的广播,从而显著降低网络报文的流量,消除变电站网络频繁中断问题。

通过对早期基于IEC 61850建设的变电站监控系统网络频繁中断问题分析论证得出的结论,可为早期建设及后期建设的变电站改造或改进提供借鉴意义。目前该站点出现的问题已申报技改项目进行整改,项目完成实施将消除监控网络频繁中断问题,提高站内监控系统运行的可靠性。

[1]陈安伟,朱松林,乐全明,朱炳铨.IEC 61860在变电站中的工程应用.2012.

[2]叶海明.变电站监控系统数据通信实时监听及分析[A].第三届浙江中西部科技论坛论文集(第四卷电力分卷)[C].2006.

TM63

A

2095-2066(2016)36-0090-02

2016-12-13

罗凯文(1986-),男,自动化技师,学士,主要从事电网自动化设备状态技术研究工作。

猜你喜欢
后台中断报文
基于J1939 协议多包报文的时序研究及应用
CTCS-2级报文数据管理需求分析和实现
浅析反驳类报文要点
Wu Fenghua:Yueju Opera Artist
基于FPGA的中断控制器设计*
后台暗恋
跟踪导练(二)(5)
千里移防,卫勤保障不中断
ATS与列车通信报文分析
后台朋友