城市轨道交通综合监控系统基于工业以太网架构之网络广播风暴的研究与方法控制

2014-09-24 05:42董平
城市建设理论研究 2014年25期

董平

摘要:城市轨道交通综合监控系统(即ISCS)网络一般采用环网设计,按车站部署为不同层次。为了控制在环网上广播风暴对网络带来的冲击,按照车站部署层次,架构为大环套小环的结构,并融合几种常见的控制广播风暴的方法,形成一种基于网络架构的、能够全面而有效的控制ISCS网络广播风暴的方法。这种方法,不但控制了广播风暴问题,还能对网络运营维护和故障恢复起到很大作用。

关键词:综合监控系统;ISCS;广播风暴

中图分类号: X924 文献标识码: A

1综合监控系统一般结构简介

轨道交通综合监控系统(即ISCS)由位于控制中心的中央级ISCS系统、网络管理系统(NMS);各车站级ISCS系统、车辆段级ISCS系统、停车场级ISCS系统;车辆段的设备维护管理系统(DMS)、培训管理系统(TMS)等组成。

ISCS系统采用主备、冗余、分层、分布式C/S结构,采用TCP/IP协议。

ISCS系统网络由三层组成,即主干层、局域层和现场层。

主干层,用于控制中心、与各车站、车辆段、停车场局域网的互联。主干网由ISCS系统专业自己构建千兆光纤以太环网。

局域层,控制中心ISCS系统、各车站ISCS系统、车辆段ISCS系统、停车场ISCS系统、TMS、DMS、NMS的局域网。中央级局域网采用冗余的1000M交换式工业以太网,车站、车辆段、停车场、NMS、DMS、TMS的局域网采用冗余的100M交换式工业以太网。

现场层,即各子系统执行层面上的网络,包括火灾报警系统(FAS)、环境控制系统(BAS)、电力监控系统(PSCADA)等系统,一般采用工业控制以太网或现场总线。

图1(a) ISCS综合监控系统构成图

如图1(a)所示,ISCS主干网一般采用环型结构,由冗余核心三层交换机构成。为什么工业以太网需要成环呢?回答这个问题,需要考虑工业网络对可靠性的高要求。网络故障在个人用户那可能没有什么太大影响,让网络工作人员简单查查、修复问题就可以了。但是在工业网络环境中,断网1分钟就可能导致成百上千万元经济损失,甚至会造成严重的安全事故。所以,在工业网络中,常常采用冗余设计,包括设备冗余和链路冗余等,方式又有冷和热之分。其实,环网就是一种冗余设计,一旦链路断了,环网立刻成为总线结构的以太网,网络的通信还是能正常进行。所以,现如今很多工业以太网结构都是环网。但在成环的网络拓扑中,会存在很多的网络问题,例如,著名的广播风暴。下面会详细介绍广播风暴的成因以及影响。

2广播风暴的形成

所谓广播风暴,简单的讲,当广播数据充斥网络无法处理,并占用大量网络带宽时,导致正常业务不能运行,甚至彻底瘫痪,这就发生了“广播风暴”。一个数据帧或包被传输到本地网段(由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪,这就是广播风暴。

广播风暴的产生有多种原因,如病毒,交换机端口故障、网卡故障、链路冗余、没有启用生成树协议、网线排线顺序错误导致的环路,或受到干扰等。病毒、ARP攻击和网络成环是造成网络广播风暴最主要的原因。

网络设备原因:交换机转发数据包,是依赖自己的MAC地址表来进行的,MAC地址表内应该记录下目的物理地址与转发端口的对应关系。MAC地址表默认下是空的,交换机是通过ARP洪泛的方式学习到目的物理地址和转发端口的对应关系。正常网络环境中,所有终端的MAC地址和交换机相应端口一一对应,一旦其中一个终端网口掉线,交换机在维护自己MAC地址表条目的有效性时,就会再次的ARP洪泛,找不到该网口,一段时间后就会删除该失效MAC地址的对应条目。现在,正常的网络,终端网口故障了,时断时续,ARP始终在洪泛,大量ARP存在与网络中,势必造成网络广播风暴。因为,ARP是基于广播的原理,数据包途径每台交换机会复制N(N在这里为除进向端口之外的,交换机上所有端口数)份,分别向N个出向接口向外转发,让网络产生大量无用信息。

网络环路:曾经在一次的网络故障排除中,发现一个很可笑的错误,一条双绞线,两端插在同一个交换机的不同端口上,导致了网络性能急骤下降,打开网管网页都非常困难。这种故障,就是典型的网络环路。网络环路的产生,一般是由于一条物理网络线路的两端,同时接在了一台网络设备中。ARP在环内,不断复制,不能消除,ARP数据包占满链路时,网络崩溃。

网络病毒:目前,一些网络病毒,一旦有机器中毒后,会立即通过网络进行传播。网络病毒的传播,就会损耗大量的网络带宽,引起网络堵塞,引起广播风暴。

工业以太网,虽然在物理连接上成为环型,但是,在某两个车站之间,为了避免环路,手动设置某条合适的链路,在逻辑上断开链接,这也就是“虚断技术”,类似于STP协议中放环的机制,但STP是自动选择端口逻辑断开的。但是,这样一条逻辑链路物理上还是连接的,因此在设备状态在异常与正常切换频繁时,仍然会构成环路,依然会产生广播风暴。在综合监控系统CCTV子系统中,部分视频网络传输设备为了便于网络视频点播,常常采用UDP的方式,以广播数据包的形式对外进行发送,如果在专用网络中也使用这种方式,很容易引发广播风暴,导致网络阻塞,因此必须通过相关设置来杜绝这类故障。在实际工地调试中,已经发现了大量的广播风暴问题,它已经成为地铁网络中的一个大问题,特别是终端设备故障引起的广播风暴,容易产生,很难排查,不能杜绝。因此,我们希望能找到一种方法,来控制广播风暴对网络所产生的影响。

3ISCS系统网络控制广播风暴的方法

控制广播风暴,需要把握广播风暴的成因,熟悉网络的构架。一般来说,广播风暴很多都是ARP惹的祸,控制ARP就能很好的控制广播风暴。众所周知,交换机隔离了冲突域。在一个局域网内两两通信不再需要等待检测网络资源,而靠交换机的直接转发,但是,交换机没有对广播域做任何限制,因此不能用它来隔离广播。

可以用路由器来隔离广播,因为路由器的转发机制不是根据MAC地址表,而是采用了IP地址表,相应的,网络上需要启用IP地址,来进行三层转发。IP地址表记录的是IP地址与下一跳地址的对应关系,广播数据包到路由器上时,没有相应的IP地址信息,路由器是不会转发的,像ARP这类的广播包也就被丢弃,这就是路由器隔离广播的原理。

除了路由器隔离广播之外,数据链路层的VLAN(虚拟专用网技术)也能隔离广播域。它的原理是数据包只能在相同编号的VLAN内通信,不同VLAN不能相互访问。也就是说VLAN10的ARP数据包不能到VLAN20里面去,也就一定程度地隔离了广播的作用范围。

数据链路层还有STP协议可以防止因网络成环而引起的广播风暴,因为采用STP协议的网络是没有环的。STP会逻辑上的为网络生成一个二叉树,树形结构是没有环路的。

前面提到过,在ISCS系统网络中,环形结构是必要的,那么在环网中采用STP协议不就可以控制广播风暴吗?其实,不然。首先,网卡故障产生的风暴无法控制。其次,广播域还是全部网络环境之下,一旦风暴,全网都受到影响。还有,STP协议本身的局限性也导致其在ISCS网络中不适用,因为STP收敛是全网收敛,时间相对要比较长,而ISCS网络对其收敛时间是有很高要求的,并且STP对网络设备的要求过高,占用资源过高也是原因之一。所以,ISCS系统网络一般是不会采用STP协议的。

STP不行,那么采用VLAN呢?VLAN虽说划小了广播域,但是ISCS系统要求控制中心(OCC)能够访问到其它所有车站,那么全部车站属于至少一个VLAN,所有车站还是在一个广播域内。所以VLAN也不能控制。

那可以用三层交换机的路由功能吗?可以,实际上路由是能够有效隔离广播的。但是,路由协议的选择又是大问题。工业交换机不像商业交换机那样支持很多路由策略,采用的路由无非就是静态路由,和RIP或者是OSPF的动态路由协议。静态路由条目繁多,手工配置复杂,容易出错,也难维护,基本不使用。RIP协议有很多防环机制,可以对环网风暴起到很好的控制作用。但是RIP协议又有跳数限制,16个设备就不可达,局限于小型网络。OSPF路由协议呢,又是基于STP生成树协议的,虽然防止环路了,但全网收敛时间达不到要求。

所以,现在的ISCS网络中,虽然使用了VLAN,有的主干网也用到了路由协议,甚至不管切换收敛时间采用STP或者快速的RSTP,网络中的广播风暴问题还是没有有效控制,或者是控制了却损失了部分系统稳定性。那么,是不是可以将这几个行之有效的控制广播风暴的方法,采取一种合理化的方法糅合到一起,来达到既没有减小网络的稳定性,又能有效控制广播风暴的效果呢?我认为,结构化、层次化的网路架构就能做到。

4层次化环网构架控制广播风暴

基于环网的本质不变,并且综合监控系统车站部署是层次化的,那么我们可以以此对现有的大环网进行优化。按线路长短、站点多少来规划出每一个区域,在区域内选择一个车站作为区域节点车站和控制中心(OCC)、车辆段、停车场的核心三层交换机组成一个环网,再以所有的区域节点,和各区域内的普通车站构成小环,这样就形成了一个层次化的大环套小环的结构,如图3(a)。

图3(a) ISCS层次化主干网结构拓扑图

这样的网络架构方式,可以将上述几种控制网络广播风暴的方法融合在一起。具体方法是这样的:

1) 主干网络可以用OSPF路由协议,区域节点车站加上车辆段、停车场、OCC的设备一起,构成完整路由表,即使故障收敛,也不是全部车站的收敛,控制在一定范围内。主干上能够通过路由隔离广播,基本不会有广播风暴,而且故障时的网络收敛性能没有太大影响。

2) 区域内,我们有两种选择,可以通过OSPF,也可以不走路由而选择二层转发。第一,选择OSPF的时候,区域1就设置为OSPF的1号区域,区域2就设置为OSPF的2号区域,以此类推。OSPF路由协议的区域特性,保证了所有非零区域只能挂靠在0号区域(主干OSPF就是0区域),0号区域在同一个OSPF进程下有且仅有一个。很有意思的是,网络物理拓扑也是按区域来的,正好和OSPF的区域吻合,并且OPSF保证网络收敛是在区域内部,不会扩散到其它区域。例如:1号区设备故障,停机,相应的IP表项删除,网络收敛,重新计算路由。收敛只在1号区域内进行,不会扩散到0区。这样子收敛也会在一个小范围内,基本不影响网络性能。同样的,全网路由,基本没有广播风暴。第二,选择二层转发。为每一个区域设置不同的VLAN,区域内启用RSTP协议,区域节点车站交换机上设置VLAN路由,静态指到主干网上或者将静态路由重分布到OSPF里面。这样做达到的效果就是,区域内全二层转发,速度快,RSTP收敛在区域内进行,无环路,广播域小,广播影响比较小,并且主干上面路由完整。

这样的组网方式有几点好处:

隔离广播域。

常见的ISCS网络是一个独立的大环网,没有进行路由的情况下,整个环网就是一个单独的大广播域。就算路由功能,隔离了广播,全网故障收敛时间达不到要求,不能采用。结构化架构之后,广播域细分到小环上了,虽然广播域数量增多,但是范围大大的减小了。同时,也将路由区域细分,划开路由收敛区域,路由功能也能适用。

减小广播风暴的影响范围。

整个网络的影响范围,被细分到每一个小环上。原来一处产生的广播风暴,能影响到整个网络,现在,经过结构化,在一处产生了广播风暴,只在相应的小环上产生影响,并不会扩散到整个网络。主干上面路由控制了广播,如区域小环也采用路由,全网都能有效控制广播。

减小网络恢复时间。

未结构化构架前,网络恢复是所有设备恢复正常的时间,而在结构优化后,网络能够在产生广播风暴的小环上快速恢复,其他未受影响的设备依然正常运行着,因此恢复时间只是小环的少量设备恢复时间,当然会比恢复整个网络要来的快速。

5结束语

对于综合监控系统网络这种,实时性、稳定性、安全性等要求很高的系统网络,采取层次化的网络构架是很有必要的。他能将常见的几种解决广播风暴的方法融合到一起,构成一种全面而有效的解决网络广播风暴的方法。解决广播风暴只是其中比较重要的一点,层次化架构的环网,甚至还能够简化运营维护人员对网络的维护操作等,一定程度上简化网管软件方案的设计,很大程度上提高冗余网络的收敛速度。

当然,这种结构的网络,对核心交换机的性能要求比较高。但是,基于目前要求采用国际知名品牌的,高性能的,最先进的核心设备来说,完全能够构架起整个网络可靠的快速通道。

综上所述,在大型综合监控系统网络中采用层次化架构环网结构,可以大大的减小广播风暴带来的影响,并且可以带来其他更多额外的益处,将来必有大作为。

参 考 文 献

[1]王晟:局域网广播风暴的常见原因及预防措施[J]福建电脑,2008(7).

[2]Jeff Doyle.TCP/IP路由技术卷一[M].北京:人民邮电出版社,2009.

[3] (德)Alexander Bormann. (德)Ingo Hilgenkamp. 工业以太网的原理与应用[M].北京:国防工业出版社,2011.

[4]熊桂喜.王小虎,译,计算机网络:第3版[M]北京:清华大学出版社,2000;