合宁客专电力远动网络中断分析

2012-09-06 03:44沈先义
铁道通信信号 2012年12期
关键词:通信网络

沈先义

合宁客专电力远动网络中断分析

沈先义

摘 要:合宁客专电力远动系统自开通以来,经常出现网络中断,主控站无法与各被控站联系,为此利用网络监控工具分析故障产生原因,并协调电力远动系统RTU厂商解决设备缺陷,解决了电力远动系统的隐患。

关键词:电力远动系统;通信;网络

合宁客运专线自2008年4月18日正式开通以来,每年都有几次电力远动网络中断的故障。原合宁公司也曾组织集成商及相关厂商进行故障查找和定位,一直没有找出故障原因,每次网络中断只得重启各汇聚交换机。为此利用网管网络监控工具对沿线汇聚交换机及各箱变RTU地址进行监控,研究端口流量、带宽占用率等指标,试图找到中断的原因。

图1 合宁电力远动网络结构示意图

1 网络结构

合宁客运专线电力远动系统,在上海铁路局调度所电调楼内设置主控站,通过1个2 Mb/s通道接南京通信楼S3100汇聚交换机,南京汇聚交换机通过传输FE端口 (2 Mb/s)接合宁线4个车站的S3100汇聚交换机,通过网线或传输FE端口(2 Mb/s)接入沿线各个车站、中继站、基站的电力箱房或箱变RTU设备。图1为合宁电力远动网络结构示意图,省略了连接各交换机之间的传输电路和各交换机端口下联的业务端口。

为监控合宁电力远动网络,也为障碍定位查找提供手段,2011年11月,上海通信段合肥高铁通信车间从三十里铺站电力远动汇聚交换机开通了一条监控通道,在合肥高铁通信车间内接入一台PC终端,将PC终端地址配置在合宁电力远动IP地址段,确保PC监控终端与上海主控站及被控站正常通信,同时在网管监控终端上安装SolarWinds公司的SolarWinds Engineers Edition软件。

三十里铺站电力远动汇聚交换机的端口1上联南京汇聚交换机,端口2接罗岗站箱变RTU,端口3接肥东站箱变RTU,端口4接三十里铺1基站箱变RTU,端口5通过网线接入三十里铺站箱变RTU,端口23接电力监控PC终端,各端口业务运用情况见图2。

2 流量监控

利用网管网络监控 (Network Monitor)工具对合宁电力远动5台汇聚交换机及合宁客专沿线各箱变RTU地址监控,监测各箱变综自设备地址的通畅及时延、丢包率等指标;利用Network Performance Monitor工具监测合宁线电力远动各汇聚交换机端口流量、带宽占用率等指标。

网络正常时,电力监控PC上各监测IP地址通畅,各交换机业务端口流量平稳,流量均为0.5~2 kb/s,上海调度所电调主控站显示正常。

图2 三十里铺站电力远动汇聚交换机各端口业务运用情况

2012年3月12日至18日合宁线电力远动出现全网阻塞障碍时,端口流量监测工具可以看出,南京汇聚交换机及其他4个汇聚交换机下各个业务端口均出现了异常流量,超出了正常流量的数倍。选取三十里铺汇聚交换机上联南京的端口1为例,见图3,正常情况下收发流量均在几百kb/s并且较稳定,收发流量出现5次峰值,这对于传输带宽2 Mb/s的通道必然会出现阻塞,且与全网阻断时间一致,电力监控PC终端监控的箱变RTU地址也全部中断。

图3 三十里铺汇聚交换机上联南京的端口1业务端口流量

3 故障分析

利用抓包软件进行分析,初步判断为某一箱变RTU设备地址中断后,上海调度所电调楼内的2台通信前置机X.X.X.10或X.X.X.20频繁向网络中广播此地址,是造成异常流量的主要原因。为判断故障原因是否成立,通过模拟来再现故障。

2012年4月1日10:20,在电力监控PC终端远程登录全椒汇聚交换机,关闭全椒汇聚交换机上联南京交换机端口;10:27电力监控PC上监测箱变RTU设备地址丢包严重,基本处于不通;10:50将全椒汇聚交换机上行端口打开,10:55监控网管上测试地址基本恢复通畅;12:20在电力监控PC终端,远程登录三十里铺汇聚交换机,关闭汇聚交换机接箱变RTU端口;12:23电力监控PC上监测箱变RTU设备地址丢包严重,基本处于不通;12:30将汇聚交换机关闭的端口打开,很快监控网管上箱变地址基本恢复通畅。故障模拟时间段内,监测三十里铺电力远动汇聚交换机各业务端口流量均出现异常,流量峰值约1 Mb/s,与3月12日至18日出现全网阻断时一致。

从端口流量采集图可以看出,当关闭全椒汇聚交换机上行端口,相当于全椒下挂的箱变地址全部不通,异常流量产生,在三十里铺汇聚交换机下每个业务端口都有异常流量;当关闭三十里铺车站箱变RTU端口时,三十里铺汇聚交换机除三十里铺站端口无异常流量,其余业务端口均出现异常流量。由此说明当箱变RTU地址中断,异常流量就会出现,不断增加最后阻塞网络。

4月1日10:20关闭全椒汇聚交换机上联端口,在电力监控PC终端上打开ethereal抓包软件,抓取三十里铺E1/0/23电力监控端口收发报文,10:30抓包软件显示端口收到了大量的TCP报文,增长速度迅速。停止抓包后,打开收到的报文,看到源地址为X.X.X.10,目的地址为全椒汇聚交换机下的各箱变RTU地址,相同的TCP报文每秒钟有上万条。

从每条报文的分析可以看出,报文为正常的TCP连接报文,源地址为上海服务器地址,目的地址为中断的箱变RTU设备地址。仔细分析报文详细内容发现,虽然每条报文的源地址是一致的,但源地址的MAC地址不完全相同,随意调看报文,第一条报文源MAC地址为08013e342326,第二条报文的源MAC地址为08013e6d3130,第三条报文的源MAC地址08013e6d324d,源MAC地址虽然不同,但前6位均为08013e,从全椒、巢北、三十里铺交换机上查看MAC地址表,发现这些报文的源MAC地址均为基站箱变RTU设备的MAC地址。可以看出当合宁电力远动网络内某个箱变RTU设备地址中断后,上海的主控站定时向网络内发TCP连接包,寻找中断的箱变RTU地址,基站箱变RTU收到这个TCP连接包后,没有采取丢弃处理,而是将报文中 源MAC更换为自己的MAC地址后转发出去,这就解释了在交换机业务端口流量图中,接基站类箱变RTU设备的端口既有接收流量,也有发送流量,而接车站和中继站类箱变RTU设备的端口只有发送流量 (对于箱变RTU设备端为接收)。

4 改进措施

合宁电力远动系统网络结构简单,为范围较广的星型结构局域网,业务端为点对点连接,网络中不存在环路,出现异常流量导致全网阻断的原因在应用层。根据故障分析,原因在合宁线基站类箱变的RTU设备上,此类箱变RTU设备系统存在漏洞,当合宁电力远动网络内单点RTU设备IP地址中断后,上海的主控站定时向网络内发TCP连接包,广播中断的箱变RTU地址,基站类箱变的RTU设备收到报文后,向网络内转发此TCP报文,当基站类所有箱变的RTU设备都不断将收到的TCP报文向网络内转发时,就使网络内的TCP报文在网络内不断增加,流量增长迅速,最后将网络阻塞,造成全网中断。而TCP连接包又是正常的通信报文,在网络内无法采取限制手段,因此需要基站类箱变RTU厂商解决报文转发问题。

目前,可在RTU设备前端增加通信前置机,用通信前置机将收到的非本站点TCP连接报文进行丢弃处理,不进行转发,确保被控站与主控站正常的业务通信不受影响。此方案已在合宁线上选点试验成功,待合宁全线基站类箱变RTU全部设置通信前置机后,将彻底排除合宁线电力远动全网阻塞障碍。

[1]SolarWinds Engineers Edition.SolarWinds公司网络工具集使用手册.

[2]任泰明.TCP/IP协议与网络编程[M].西安:西安电子科技大学出版社,2004.

[3]满昌勇.计算机网络基础[M].北京:清华大学出版社,2010.

Abstract:Since the power remote operating system of Hefei-Nanjing passenger dedicated line has been open,its network often failed so that the master station could not contact controlled stations,The author analyzed fault causes by using network monitoring tool and coordinated the manufacturer of power remote operating systems,Remote Terminal Unit,to settle equipment failures.Finally,hidden problems in power remote operating system were eliminated.

Key words:Power remote operation systems;Communications;Network

沈先义:上海通信段合肥高铁通信车间 助理工程师 230031合肥

2012-07-17

(责任编辑:诸 红)

猜你喜欢
通信网络
简述计算机通信网络安全与防护策略
Android环境下主UI线程与子线程通信机制研究
无线自组网在野战防空通信系统中的应用
对数字微波通信技术的研究
计算机网络管理技术探析
刍议计算机网络信息化管理
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
新形势下地市报如何运用新媒体走好群众路线