董平
摘要:城市轨道交通综合监控系统(即ISCS)网络一般采用环网设计,按车站部署为不同层次。为了控制在环网上广播风暴对网络带来的冲击,按照车站部署层次,架构为大环套小环的结构,并融合几种常见的控制广播风暴的方法,形成一种基于网络架构的、能够全面而有效的控制ISCS网络广播风暴的方法。这种方法,不但控制了广播风暴问题,还能对网络运营维护和故障恢复起到很大作用。
关键词:综合监控系统;ISCS;广播风暴
中图分类号: X924 文献标识码: A
1综合监控系统一般结构简介
轨道交通综合监控系统(即ISCS)由位于控制中心的中央级ISCS系统、网络管理系统(NMS);各车站级ISCS系统、车辆段级ISCS系统、停车场级ISCS系统;车辆段的设备维护管理系统(DMS)、培训管理系统(TMS)等组成。
ISCS系统采用主备、冗余、分层、分布式C/S结构,采用TCP/IP协议。
ISCS系统网络由三层组成,即主干层、局域层和现场层。
主干层,用于控制中心、与各车站、车辆段、停车场局域网的互联。主干网由ISCS系统专业自己构建千兆光纤以太环网。
局域层,控制中心ISCS系统、各车站ISCS系统、车辆段ISCS系统、停车场ISCS系统、TMS、DMS、NMS的局域网。中央级局域网采用冗余的1000M交换式工业以太网,车站、车辆段、停车场、NMS、DMS、TMS的局域网采用冗余的100M交换式工业以太网。
现场层,即各子系统执行层面上的网络,包括火灾报警系统(FAS)、环境控制系统(BAS)、电力监控系统(PSCADA)等系统,一般采用工业控制以太网或现场总线。
图1(a) ISCS综合监控系统构成图
如图1(a)所示,ISCS主干网一般采用环型结构,由冗余核心三层交换机构成。为什么工业以太网需要成环呢?回答这个问题,需要考虑工业网络对可靠性的高要求。网络故障在个人用户那可能没有什么太大影响,让网络工作人员简单查查、修复问题就可以了。但是在工业网络环境中,断网1分钟就可能导致成百上千万元经济损失,甚至会造成严重的安全事故。所以,在工业网络中,常常采用冗余设计,包括设备冗余和链路冗余等,方式又有冷和热之分。其实,环网就是一种冗余设计,一旦链路断了,环网立刻成为总线结构的以太网,网络的通信还是能正常进行。所以,现如今很多工业以太网结构都是环网。但在成环的网络拓扑中,会存在很多的网络问题,例如,著名的广播风暴。下面会详细介绍广播风暴的成因以及影响。
2广播风暴的形成
所谓广播风暴,简单的讲,当广播数据充斥网络无法处理,并占用大量网络带宽时,导致正常业务不能运行,甚至彻底瘫痪,这就发生了“广播风暴”。一个数据帧或包被传输到本地网段(由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪,这就是广播风暴。
广播风暴的产生有多种原因,如病毒,交换机端口故障、网卡故障、链路冗余、没有启用生成树协议、网线排线顺序错误导致的环路,或受到干扰等。病毒、ARP攻击和网络成环是造成网络广播风暴最主要的原因。
网络设备原因:交换机转发数据包,是依赖自己的MAC地址表来进行的,MAC地址表内应该记录下目的物理地址与转发端口的对应关系。MAC地址表默认下是空的,交换机是通过ARP洪泛的方式学习到目的物理地址和转发端口的对应关系。正常网络环境中,所有终端的MAC地址和交换机相应端口一一对应,一旦其中一个终端网口掉线,交换机在维护自己MAC地址表条目的有效性时,就会再次的ARP洪泛,找不到该网口,一段时间后就会删除该失效MAC地址的对应条目。现在,正常的网络,终端网口故障了,时断时续,ARP始终在洪泛,大量ARP存在与网络中,势必造成网络广播风暴。因为,ARP是基于广播的原理,数据包途径每台交换机会复制N(N在这里为除进向端口之外的,交换机上所有端口数)份,分别向N个出向接口向外转发,让网络产生大量无用信息。
网络环路:曾经在一次的网络故障排除中,发现一个很可笑的错误,一条双绞线,两端插在同一个交换机的不同端口上,导致了网络性能急骤下降,打开网管网页都非常困难。这种故障,就是典型的网络环路。网络环路的产生,一般是由于一条物理网络线路的两端,同时接在了一台网络设备中。ARP在环内,不断复制,不能消除,ARP数据包占满链路时,网络崩溃。
网络病毒:目前,一些网络病毒,一旦有机器中毒后,会立即通过网络进行传播。网络病毒的传播,就会损耗大量的网络带宽,引起网络堵塞,引起广播风暴。
工业以太网,虽然在物理连接上成为环型,但是,在某两个车站之间,为了避免环路,手动设置某条合适的链路,在逻辑上断开链接,这也就是“虚断技术”,类似于STP协议中放环的机制,但STP是自动选择端口逻辑断开的。但是,这样一条逻辑链路物理上还是连接的,因此在设备状态在异常与正常切换频繁时,仍然会构成环路,依然会产生广播风暴。在综合监控系统CCTV子系统中,部分视频网络传输设备为了便于网络视频点播,常常采用UDP的方式,以广播数据包的形式对外进行发送,如果在专用网络中也使用这种方式,很容易引发广播风暴,导致网络阻塞,因此必须通过相关设置来杜绝这类故障。在实际工地调试中,已经发现了大量的广播风暴问题,它已经成为地铁网络中的一个大问题,特别是终端设备故障引起的广播风暴,容易产生,很难排查,不能杜绝。因此,我们希望能找到一种方法,来控制广播风暴对网络所产生的影响。
3ISCS系统网络控制广播风暴的方法
控制广播风暴,需要把握广播风暴的成因,熟悉网络的构架。一般来说,广播风暴很多都是ARP惹的祸,控制ARP就能很好的控制广播风暴。众所周知,交换机隔离了冲突域。在一个局域网内两两通信不再需要等待检测网络资源,而靠交换机的直接转发,但是,交换机没有对广播域做任何限制,因此不能用它来隔离广播。
可以用路由器来隔离广播,因为路由器的转发机制不是根据MAC地址表,而是采用了IP地址表,相应的,网络上需要启用IP地址,来进行三层转发。IP地址表记录的是IP地址与下一跳地址的对应关系,广播数据包到路由器上时,没有相应的IP地址信息,路由器是不会转发的,像ARP这类的广播包也就被丢弃,这就是路由器隔离广播的原理。
除了路由器隔离广播之外,数据链路层的VLAN(虚拟专用网技术)也能隔离广播域。它的原理是数据包只能在相同编号的VLAN内通信,不同VLAN不能相互访问。也就是说VLAN10的ARP数据包不能到VLAN20里面去,也就一定程度地隔离了广播的作用范围。
数据链路层还有STP协议可以防止因网络成环而引起的广播风暴,因为采用STP协议的网络是没有环的。STP会逻辑上的为网络生成一个二叉树,树形结构是没有环路的。
前面提到过,在ISCS系统网络中,环形结构是必要的,那么在环网中采用STP协议不就可以控制广播风暴吗?其实,不然。首先,网卡故障产生的风暴无法控制。其次,广播域还是全部网络环境之下,一旦风暴,全网都受到影响。还有,STP协议本身的局限性也导致其在ISCS网络中不适用,因为STP收敛是全网收敛,时间相对要比较长,而ISCS网络对其收敛时间是有很高要求的,并且STP对网络设备的要求过高,占用资源过高也是原因之一。所以,ISCS系统网络一般是不会采用STP协议的。
STP不行,那么采用VLAN呢?VLAN虽说划小了广播域,但是ISCS系统要求控制中心(OCC)能够访问到其它所有车站,那么全部车站属于至少一个VLAN,所有车站还是在一个广播域内。所以VLAN也不能控制。
那可以用三层交换机的路由功能吗?可以,实际上路由是能够有效隔离广播的。但是,路由协议的选择又是大问题。工业交换机不像商业交换机那样支持很多路由策略,采用的路由无非就是静态路由,和RIP或者是OSPF的动态路由协议。静态路由条目繁多,手工配置复杂,容易出错,也难维护,基本不使用。RIP协议有很多防环机制,可以对环网风暴起到很好的控制作用。但是RIP协议又有跳数限制,16个设备就不可达,局限于小型网络。OSPF路由协议呢,又是基于STP生成树协议的,虽然防止环路了,但全网收敛时间达不到要求。
所以,现在的ISCS网络中,虽然使用了VLAN,有的主干网也用到了路由协议,甚至不管切换收敛时间采用STP或者快速的RSTP,网络中的广播风暴问题还是没有有效控制,或者是控制了却损失了部分系统稳定性。那么,是不是可以将这几个行之有效的控制广播风暴的方法,采取一种合理化的方法糅合到一起,来达到既没有减小网络的稳定性,又能有效控制广播风暴的效果呢?我认为,结构化、层次化的网路架构就能做到。
4层次化环网构架控制广播风暴
基于环网的本质不变,并且综合监控系统车站部署是层次化的,那么我们可以以此对现有的大环网进行优化。按线路长短、站点多少来规划出每一个区域,在区域内选择一个车站作为区域节点车站和控制中心(OCC)、车辆段、停车场的核心三层交换机组成一个环网,再以所有的区域节点,和各区域内的普通车站构成小环,这样就形成了一个层次化的大环套小环的结构,如图3(a)。
图3(a) ISCS层次化主干网结构拓扑图
这样的网络架构方式,可以将上述几种控制网络广播风暴的方法融合在一起。具体方法是这样的:
1) 主干网络可以用OSPF路由协议,区域节点车站加上车辆段、停车场、OCC的设备一起,构成完整路由表,即使故障收敛,也不是全部车站的收敛,控制在一定范围内。主干上能够通过路由隔离广播,基本不会有广播风暴,而且故障时的网络收敛性能没有太大影响。
2) 区域内,我们有两种选择,可以通过OSPF,也可以不走路由而选择二层转发。第一,选择OSPF的时候,区域1就设置为OSPF的1号区域,区域2就设置为OSPF的2号区域,以此类推。OSPF路由协议的区域特性,保证了所有非零区域只能挂靠在0号区域(主干OSPF就是0区域),0号区域在同一个OSPF进程下有且仅有一个。很有意思的是,网络物理拓扑也是按区域来的,正好和OSPF的区域吻合,并且OPSF保证网络收敛是在区域内部,不会扩散到其它区域。例如:1号区设备故障,停机,相应的IP表项删除,网络收敛,重新计算路由。收敛只在1号区域内进行,不会扩散到0区。这样子收敛也会在一个小范围内,基本不影响网络性能。同样的,全网路由,基本没有广播风暴。第二,选择二层转发。为每一个区域设置不同的VLAN,区域内启用RSTP协议,区域节点车站交换机上设置VLAN路由,静态指到主干网上或者将静态路由重分布到OSPF里面。这样做达到的效果就是,区域内全二层转发,速度快,RSTP收敛在区域内进行,无环路,广播域小,广播影响比较小,并且主干上面路由完整。
这样的组网方式有几点好处:
隔离广播域。
常见的ISCS网络是一个独立的大环网,没有进行路由的情况下,整个环网就是一个单独的大广播域。就算路由功能,隔离了广播,全网故障收敛时间达不到要求,不能采用。结构化架构之后,广播域细分到小环上了,虽然广播域数量增多,但是范围大大的减小了。同时,也将路由区域细分,划开路由收敛区域,路由功能也能适用。
减小广播风暴的影响范围。
整个网络的影响范围,被细分到每一个小环上。原来一处产生的广播风暴,能影响到整个网络,现在,经过结构化,在一处产生了广播风暴,只在相应的小环上产生影响,并不会扩散到整个网络。主干上面路由控制了广播,如区域小环也采用路由,全网都能有效控制广播。
减小网络恢复时间。
未结构化构架前,网络恢复是所有设备恢复正常的时间,而在结构优化后,网络能够在产生广播风暴的小环上快速恢复,其他未受影响的设备依然正常运行着,因此恢复时间只是小环的少量设备恢复时间,当然会比恢复整个网络要来的快速。
5结束语
对于综合监控系统网络这种,实时性、稳定性、安全性等要求很高的系统网络,采取层次化的网络构架是很有必要的。他能将常见的几种解决广播风暴的方法融合到一起,构成一种全面而有效的解决网络广播风暴的方法。解决广播风暴只是其中比较重要的一点,层次化架构的环网,甚至还能够简化运营维护人员对网络的维护操作等,一定程度上简化网管软件方案的设计,很大程度上提高冗余网络的收敛速度。
当然,这种结构的网络,对核心交换机的性能要求比较高。但是,基于目前要求采用国际知名品牌的,高性能的,最先进的核心设备来说,完全能够构架起整个网络可靠的快速通道。
综上所述,在大型综合监控系统网络中采用层次化架构环网结构,可以大大的减小广播风暴带来的影响,并且可以带来其他更多额外的益处,将来必有大作为。
参 考 文 献
[1]王晟:局域网广播风暴的常见原因及预防措施[J]福建电脑,2008(7).
[2]Jeff Doyle.TCP/IP路由技术卷一[M].北京:人民邮电出版社,2009.
[3] (德)Alexander Bormann. (德)Ingo Hilgenkamp. 工业以太网的原理与应用[M].北京:国防工业出版社,2011.
[4]熊桂喜.王小虎,译,计算机网络:第3版[M]北京:清华大学出版社,2000;