黄河
(中国民用航空珠海进近管制中心,广东珠海 519015)
在现代内部网络的发展过程中,对网络有着各种各样的需求。而仅仅采用传统的路由交换和广域网连接技术构建内部网络,将面对路由设计、地址规划、安全保护、业务隔离、成本和灵活性等各个方面的挑战。针对这一情况,使用VPN技术(虚拟专用网/虚拟私人网)是比较理想的选择。传统的VPN技术包括IPSec、GRE、L2TP等,随着用户需求和网络发展,传统的VPN技术的一些缺点已无法适配,比如静态隧道扩展性问题,维护VPN的ISP(运营商)不能有效区分不同用户等。
在VPN技术中,VPN的实现依赖于隧道技术,通过隧道,用户私网在公网中架起了一个逻辑通路,在MPLS VPN技术中,MPLS协议就是实现隧道的方式。它依据路由器(或3层交换机)的路由表来生成标签转发表,在承载IP报文时加上MPLS标签,路由器根据标签进行快速转发,MPLS VPN共有2层标签嵌套,一层为公网标签,另一层为私网标签,它们分别标识了公网和私网传输隧道,并最终将不同的私网在同一公网中进行了区分,能够互不干扰的传输多个不同的私网业务,示意图如图1所示。
图1 私网数据在公网内传输示意图
笔者计划从5个方面实现对民航中南地区宽带数据网的全面监控。
(1)硬件状态监控:包括内存、CPU、业务板卡、电源、风扇等,如图2所示。
图2 硬件监控参数(关键字标红,下同)
(2)协议监控:包括MPLS、BGP协议,组网路由协议OSPF等。
(3)干线监控:包括4个方面:1)物理状态;2)OSPF邻居状态;3)ping检测状态;4)路由表和标签转发表状态。
(4)业务状态:包括4个方面:1)物理状态;2)端口协议状态;3)ping同一私网内的某终端;4)私网相关协议状态,如图3所示。
图3 ping对端私网示意图
(5)实时获取log信息,进行综合判断。
硬件故障的判断需输入相应命令,再结合交换机log信息,在回显中提取状态信息关键字,下图为显示设备温度示意,如图4所示。
图4 获取设备内温度状态示意图
当温度超过阈值时告警。此外,其他硬件状态信息的获取与之类似(包括CPU占用率、CPU历史占用率、内存占用率、板卡软硬件状态、风扇模块状态、电源模块状态等)。
中继干线故障的判断主要从3个方面进行,首先是干线端口状态,如图5所示。
图5 干线端口状态检查
干线端口状态可以通过指令“display interface xxx(端口号)”查询,从回复信息中可得:(1)端口物理状态;(2)端口协议状态;(3)出入峰值是否超限;(4)对比前后2次轮询出入流量有无增长,如果长时间无增长说明该干线存在异常;(5)对比前后2次轮询出入错误报文有无增长,如果一段时间内错误大量增长说明该条干线虽未中断,但质量不佳,应引起重视。
干线故障判断的第二个条件,可以结合OSPF邻居状态。在一切正常的情况下,每条干线对应一个直连的OSPF邻居,如果某个OSPF邻居状态异常,也可以从侧面判断干线状态异常,图6是2条对外干线均正常时OSPF邻居状态,图7是某1条干线异常时状态。
图6 干线端口正常时OSPF邻居状态
图7 干线端口异常时OSPF邻居状态
干线故障判断的第3个条件是查询路由表和MPLS标签转发表。假设A局和B局之间有2条干线,在网络配置时一般会指定某条为主用,另一条为备用,正常情况下网络中大部分流量由主用干线承载,备用干线只传输少量心跳包(例如OSPF协议的Hello包)。我们希望,当主用干线因故中断时,备用干线能够及时启用,所以程序在检测到主用干线中断时,会自动查询路由表,检测备用干线是否正常启用。此外,当程序检测到路由表发生变化时,必然是检测到了网络拓扑改变事件,触发了路由协议重新计算,这也从侧面反映出某条干线发生了异常,应引起注意。
在程序试用过程中发现,当中继干线的中断是由租用的运营商线路中间段异常引发时,主用干线会中断40s,然后才切换至备用干线,而业务需经过2min40s左右才能恢复。当中继干线的中断是由物理端口down引发时(比如端口网线被拔出或人为shutdown端口),中继干线的切换是瞬时完成的,但业务仍需经过2min左右才能恢复,如图8和图9所示。
图8 中继干线中断前路由表
图9 中继干线中断后路由表
通过监控程序返回的结果分析,其原因就在于OSPF协议的判断机制和MPLS标签转发表的生成原理。当OSPF协议检测到物理端口down时,会迅速切换路由,生成新的路由表。当运营商中间线路异常引发中继干线中断时,物理端口仍是正常up状态,OSPF协议无法通过检测端口的方式发现异常。此时,OSPF协议会通过Hello包的方式进行检测,由于无法通过原路由传输OSPF Hello包,当4个周期未检测到Hello包时(Hello包默认发送周期为10s,4个周期约为40s),协议认为该路由失效,此时再重新计算路由,生成新的路由表,所以2种中断情况的恢复时间相差40s左右。至于业务为什么需要经过2min才能恢复,是由于MPLS标签转发表是根据路由表生成的,当路由表更新后,需经过约2min才能重新生成新的标签转发表。
MPLS VPN支持2种类型私网:L3VPN和L2VPN。类似于虚拟一个路由器(L3VPN)或交换机(L2VPN)。
对于业务监控,应从3个方面进行判断,分别是端口物理状态、私网协议状态和ping对端私网终端状态。
(1)三层VPN。可以使用指令“display mpls interface Vlan-interface vlanID”查询,如图10所示。
图10 三层VPN状态检测
(2)二层VPN。可以使用命令“display vsi vsi名称”查询,如图11所示。
图11 二层VPN状态检测
(3)BGP协议和MP-BGP协议状态。使用命令“display bgp peer”和“display bgp vpnv4 all peer”来查询,如果BGP协议或MP-BGP协议故障,将导致私网路由无法传递,私网业务会中断。
Log信息对于故障分析排查以及辅助判断有所帮助。从下图可以看出,系统检测到MPLS标签转发表和BGP协议的状态发生了异常,如图12所示。
图12 故障发生时交换机Log
(1)程序主界面(1.0版),如图13所示。
图13 程序主界面(1.0版)示意图
(2)初始化配置。各空管部门可以根据自身的运行实际,对监控项目进行灵活的配置,如图14所示。
图14 配置逻辑示意图
(3)数据库模块和告警模块。主要包括配置文件、告警日志和操作日志。所有异常告警都会存入数据库,并在故障当时发出声音提示。
依据MPLS VPN的特点,笔者研发成功了宽带数据网监控程序,该程序可广泛服务于中南地区各运行现场,对提升安全保障水平有所裨益。