由网络原因造成的欧洲猫系统塔台降级故障浅析

2014-11-26 10:16赵杰
企业技术开发·中旬刊 2014年11期
关键词:塔台青浦降级

赵杰

摘 要:上海的欧洲猫自动化系统已运行多年,在其发生过的网络故障中,路由器工作异常导致塔台席位降级是其中的一个典型案例。文章以该现象为线索,通过对其进行深入分析,找到问题结症所在,并尝试性地提出相应的解决方案,以期为今后工作的开展提供便利。

关键词:欧洲猫系统;网络故障;XSR-1850路由器;塔台席位降级

中图分类号:V226 文献标识码:A 文章编号:1006-8937(2014)32-0019-03

1 上海欧洲猫系统主用网络结构简述

上海区域管制中心使用的欧洲猫系统共分设四个分部:区调分部、进近分部、虹桥塔台分部以及浦东塔台分部。系统中的A、B两个网络组成双冗余的工作网模式,即便某个交换机或路由器出现故障,也能保障各分部之间的数据通信。在分区内部采用smartswitch系列的交换机,在逻辑链路上,它们之间通过SPANNING TREE协议连接,形成在逻辑拓扑结构上的无环网络,既可减少物理结构的双网冗余模式下的资源浪费,又可通过软件设置将多个物理端口合成为一个逻辑端口,减少网络风暴的可能性。

从网络分层的角度来说,欧洲猫网络一般分为三层架构:

欧洲猫系统的交换机等设备处于网络的最底层,即接入层,负责将区管ACC、TMA或是远程塔台的数据流导入网络,所有的终端用户(即欧洲猫上的席位和服务器)通过接入层来访问网络;而XSR-1850路由器处于整个网络的中间层,它的目地就是通过使用各种路由策略来处理接入层进来的数据包,显然,XSR-1850使用的是OSPF路由协议;在这两层之上,则是网络的核心层,它负责传输从本地路由器来的数据包(主要是UDP包),发送到远端的路由器上,目前上海三地的环网连接方式如图1所示。

2 XSR-1850路由器简介

由图1所示,图中的Router实例是欧洲猫所用的XSR-1850路由器,该路由器承担着区管和两个塔台工作网间数据的路由交换功能。

2.1 到塔台链路的设备分布情况

从图1可以看出,青浦-虹桥塔台、青浦-浦东塔台两部分分别采用了该型号的路由器,每个路由器配1个以太网网口,用于连接本地以太网,还配置一个E1接口,用于串连对端远端网络。

2.2 虚拟路由功能(VRRP)

所有XSR-1850路由器配置的虚拟网络地址都是相应的A网路由器的IP地址,并且虚拟的MAC地址也默认是A网路由器的MAC地址,当整个网络启动时,在同一个分组中,拥有最高优先权(一般是0~255中的某个数字)的那台路由器将成为主用状态;如果优先权相同,则哪台路由器的IP地址大,哪台就被选为主路由器;当主路由器瘫痪时,它的优先权就变为0,那么将由其它路由器来代替。

涉及塔台的VRRP共分2组:

GROUP 3:TMA-虹桥塔;GROUP 4:TMA-浦东塔台。

2.3 所使用的路由算法:OSPF

该协议的建立比较复杂,通过5种不同的OSPF分组通知来建立完整的路由信息,有:hello分组、DBD分组、LSR分组、LSU分组和LSAck分组,故每个路由器都要花费一定的时间来完成对整个网络的路由信息的维护,从而才能够为数据包做出路由选择。

欧洲猫系统的OSPF协议配置较为简单,整个上海欧洲猫系XSR-1850路由器都配在一个区域内,可在路由器上通过指令show ip ospf来了解相应的配置情况,同时也可以通过指令show ip route来了解路由表信息。

当XSR-1850路由器启动后,需要在自己所处的组中选举VR,并在自己所处的区域中完成OSPF的链路更新。

3 故障现象

3.1 故障综述

目前,XSR-1850路由器出现频率最高的故障就是E1端口不断地在进行UP、DOWN的切换,这种切换也叫做路由翻动(flapping)。根据OSPF的协议规定,一条翻动的链路必然会促使相关路由器发送一系列的LSU分组通知,那么,接收到这些更新的路由器将不得不重新运行SPF算法来更新自己的路由表。而长时间的翻动会严重影响路由器的性能,不断重复进行的SPF计算则会导致录取一点CPU负担过重;而从整个网段来看,连续不断地进行路由更新回使得OSPF的链路状态数据库无法快速、有效地收敛。凡是涉及到与远程塔台通信出现故障,且能够第一时间在OASYS上监控到有某个路由器的端口在不停地翻动的情况,那么无一例外是E1端口在翻动,即从侧面反映了每个分区的内部网络是比较稳定的。从目前的现实情况来看,由于中心结点光端机机器放在虹桥,所以通常做电信切割时,影响到的是青浦到两个塔台的路由器,因为有VR的存在,A、B路的路由器不会同时发生路由翻动的情况,通常情况是A路某个E1口翻动,并迅速恢复,所以如果切换到B路,那么B网上的路由器也会有同样的问题出现。

塔台接收从青浦传来的UDP数据包,根据不同的用途,分为3种类型,它们被分别放到不同的缓存中去:

TYPE 1数据:存放在buffer_infos和buffer两个不同的缓存中,前者负责描述存储在内的数据(如:存储编号),后者则是一个循环链表,存储实际要发送的数据;

TYPE 2数据:存放在循环链表buf2中。

FIFO 数据:存放在循环链表fifo_buffer中。

后两种数据被CDP发送后即刻删除,这样便可以保障这两个缓存基本上不出于饱和状态;而对于TYPE 1数据类型来说,当青浦向塔台发送一个TYPE 1数据后,塔台的CDP在收到数据的同时会回送一个ACK的消息(即:内容与计数器类似),此时青浦会将该数据在bufer_infos和buffer中删除;否则会将向塔台CDP发送一个NACK的消息,用于塔台CDP判断还有哪些数据需要本方来传送。

3.2 故障现象一:塔台席位目标停滞

当路由器E1端口出现翻动现象前5~10 min,CDP的日志中就已经有链路oerflow的告警提示了,具体日志信息如下:

lscmio文件:设备SHTM_HQRT_CDP处于非正常工作状态;

too many requests stored in buffer

No packet monitoring on link to shrhcdp1ada because overflow status

Msg not added because link is in overflow

DLI messge NOT sent to HQRT:shrhcdp1ada

cdp00x文件:RX PACKET from HQRT:shrhcdp1ada

CONNECT from HQRT:shrhcdp1ada

Link is OVERFLOW and we have received a CON- connection has been dropped at the other end.

在缓存中有大量传送数据的请求,链路处于overflow(溢出)状态,由于缓存容量有限,故DLI信息无法送到目的地(shrhcdp1ada)。

塔台席位内的日志信息:

ENV:FDP Mode:NORMAL

RDP Mode:MULTI

DLI信息里主要是雷达航迹,由于DLI信息在buffer中发送,所以属于TYPE 1类型;上述情况表明雷达航迹无法传送到塔台的CDP节点,显然在塔台的席位上,会出现雷达航迹不更新的现象,相当于其管制的航班停滞不前了;此时,塔台席位的雷达航迹不更新,而且也不降级,鼠标、键盘功能都正常,这种情况系统更本不能自动降级,只是链路断续,在路由器上E1端口的翻动现象很频繁,但路由器本身没有失效,CDP的相应链路会显示处于STARTING状态,必须重启路由器。

3.3 现象二:塔台席位降级使用

塔台席位内的日志信息:

ENV:FDP Mode:NORMAL /LOCAL

RDP Mode:MULTI /BYPASS

从监控上看到塔台的工作网链路中断时,CDP的相应链路会显示处于FAILED状态(如:shtm-hqrt-cdp FAILED),在这种情况下,青浦不能将数据发送到塔台,那么塔台席位将自动降级;此时在外部链路回复正常前,重启路由器无效。

3.4 降级后的恢复

当确认外部链路正常后,再对路由器进行重启,一般塔台席位都能恢复正常。

此时青浦的日志信息为:

Resetting active link type 1 to HQRT and the other type one.

BNS resending required form HQRT.

Starting REMOTE consistency for HQRT:shrhcdp1ada and resetting all the buffers.

ADDING initialisation_data in buffer at indes 0 for link to HQRT.

4 故障探讨

在OSI七层模型中,数据链路层的作用是将强物理层传输原始bit的功能,该层发送的数据都封装在数据帧(Data Frame)中,该层又分为MAC和LLC两个子层,MAC负责对共享介质的存取,而LLC即:逻辑链路控制子层,负责处理差错检测(Error Detection)和差错控制(Error Control);对于上海的EUROCAT-X系统来说,降级多发生于虹桥塔台,这是由于外部链接上的特殊性所造成的:由于网络公司的中心结点在虹桥航管楼,从航管楼到虹桥塔台还要经过一个从大光端机到小光端机的传输环节,比到浦东塔台多了一个环节;故当电信切割发生在虹桥中心节点机上后,SDH设备需要重新建链时,大、小光端机有所差异(大约有55 ms的空隙时间),由于其本身没有时钟同步机制,导致发生时隙延时,从而导致了数据帧的传送错误;这往往会影响到欧洲猫路由器的同步,表现为E1端口不断地翻动,如果此时察看路由器的Slip seconds参数,那么必有数值增加的现象。此外,为了保障可靠的传输,数据链路层要求对端回送特殊的控制帧,作为对发送端的肯定或是否定性的确认,这些都会产生大量XSR-1850可以容忍的CRC校验错误,最终导致青浦无法向塔台传送信息。

由于XSR-1850路由器支持VR,且默认配置是A路路由器优先级高于B路,故一旦A路出故障,只要路由器认为自己还是正常的,只不过是有一个端口状态不稳定而已,那么链路就不可能自动切换到B路,从而导致塔台席位降级。

5 建 议

在对欧洲猫的两个远程分区进行A/B网连接时,应为A/B网设置不同的工作链路,并且将A网(系统默认主用网络)放在相对更安全的那条链路上。

此外,基于到远程分区的链路都要通过租用外部运营商的通信链路,那么我们还可以通过引入多套外部传输链路,如:中国联通ATM机、中国移动光端机设备等,分解由单一运行商设备故障导致的链路问题。具体改造方案如图2所示。

6 结 语

以XSR-1850路由器为代表的网络设备是系统分区间数据发送的物理中转站,当发生塔台席位降级现象时,可结合具体链路情况并结合查询系统日志进行统一分析,提高故障定位的准确性,从而可为塔台席位恢复正常使用节约下宝贵的时间;但作为维护人员,从根本上解决这种情况需要从目前的网络架构入手进行改造,才能从本质上减少由于网络原因造成塔台席位降级的可能性。

参考文献:

[1] 龚宏伟,周欣.基于塔台仿真系统的飞行短期冲突检测[J].计算机技术与发展,2013,(4).

猜你喜欢
塔台青浦降级
社交降级后,终于舒服了
三轮复习的“动”议“恒”构
现代年轻人“消费降级”现象大扫描
和小伙伴共搭塔台模型
青浦工业园区召开重点用能企业节能对接活动
塔台
飞机场的塔台是干什么的?
“赏石”会被消费降级吗?
消费降级了吗?
新一代民机试验场指挥塔台设计研究