引言:基于策略的路由比传统路由更灵活,它使网络管理者不仅能够根据目的地址,而且能够根据协议类型、报文大小、应用、IP源地址或者其他的策略来选择转发路径。笔者结合工作实际,介绍一则策略路由带来的隐蔽故障的发生和解决。
最近单位发生一起奇怪的网络故障,问题原因很简单,但找到问题却颇费周折。
先介绍一下我单位市局城域网络的基本情况。
七个区市局共十个办公地点,通过MSTP专线与市局连接,其中两个区市局(区市1、区市10)的互联网出口也在市局。市局互联网出口有两条,一条是联通100M,一条是电信10M。市局新上上网行为管理设备(如图1)。
防火墙接口配置说明:Eth10电信互联网出口、Eth11联通互联网出口、Eth12内网口、Eth13 DMZ区(如图2)。
某日,区市一位工作人员反映不能连接互联网,访问市局、省局等正常。初步分析:
除区市1,其他区市局用户访问互联网均正常,说明互联网线路没有问题。
将区市1与区市10路由器、交换机的配置做对比未发现异常。
由于以前网络运行一直平稳,这次故障是新上的上网行为管理设备后发生,于是跳过上网行为管理设备直接通过防火墙访问互联网,这时发现区市1访问互联网恢复正常。第二天将上网行为管理设备又重新接入,区市1访问互联网正常未受影响。
一段时间后,一天晚上,区市1访问互联网又完全断掉,第二天自行恢复。
几天后,区市1访问互联网又断掉,这次采取以下措施均不奏效。
1.隔离上网行为管理设备。
2.重新启动区市1网络设备。
3.区市1交换机上的计算机连接网线全部拨掉,在市局远程telnet,测试。
以上措施可排除内部病毒和网络攻击及上网行为管理设备造成的故障。
这次故障排查测试时,发现在区市1的路由器和交换机上Ping市局互联网出口结果不同:路由器Ping市局防火墙上的联通外网互联地址221.215.210.153可达,交换机Ping市局防火墙上的联通外网互联地址221.215.210.153不 可达。而且在区市1交换机上tracert市局防火墙的外网地址,只能跟踪到内网口地址,这表明区市1的路由配置没有问题,问题出在市局的防火墙上,市局的防火墙收到了来自区市1网段10.xx.83.0/24的互联网连接请求,但不能转发到互联网出口。
图1 全市拓扑结构
图2 防火墙接口配置
可是为什么其他网段的流量转发正常呢?到防火墙管理界面仔细查看才发现,互联网出口的电信线路是不可达的,有一条在界面上非常隐蔽的策略路由(网络管理——路由-策略路由a中的一条路由)将区市1的流量分配到电信线路。联系运营商说因线路欠费被关闭,线路重新开启后,一切恢复正常。
故障恢复后又做测试如下:
1.电信线路正常时,在城阳区的交换机上跟踪互联网地址:
2.将市局防火墙上电信互联网接口的网线拔掉时:
此时,因为电信互联网出口为Down的状态,防火墙会跳过策略路由,将包转发到联通出口221.215.210.153。
3.关闭机房电线互联网线路的光纤收发器(模拟远端线路故障)
此时,电信互联网出口为Up的状态,但对端地址219.147.6.81不可达,就出现了类似前期欠费断网的情况。
这次故障处理受到运营商线路时停时续和对新网络上网行为设备了解不够等因素的干扰,在诊断测试时虽然发现在区市1的路由器和交换机上测试结果不同,也没有仔细分析,没有抓住问题的本质。直到彻底断网才重新审视关键线索,延长了维修时间。
之所以路由器和交换机上测试结果不同,是因为路由器、交换机上有多个接口时,常规Ping的时候会选择最短路径的接口,区市1交换机上全部是10.xx.83.0/24,它 的包到达到防火墙后被转发到了电信互联网出口,电信线路此时断掉,所以Ping联通互联网100M互联地址时不通。而区市1路由器最短路径的接口(10.xx.74.7)的包到达到防火墙后被转发到联通互联网100M出口,自然Ping与其直联的联通互联网100M互联地址时是通的。
通过这次事件得到以下提示,要快速高效的进行网络故障排除,网络管理人员一定要有扎实的基本功,深入学习底层协议和网络设备的通信原理,判断时笃信不疑才能少受各种意外现象影响。网络配置要专人负责,配置及修改要有详细记录文档,临时测试的配置要即用即删。管理人员要整理完备详细的网络系统档案,网络有变动时及时更新。