心跳线端口出现故障

2016-11-26 06:42
网络安全和信息化 2016年2期
关键词:流控指示灯路由器

故障现象

近日,互联网用户反映上网特别慢,得知这一故障后,首先在机房进行测试,发现打开网页的速度很慢,于是使用Ping命令对百度、网易等各大门户网站进行测试,发现了一个共同的现象,Ping结果显示包是通一个丢一个。

图1 网络拓扑结构

故障分析

为了更好地排除故障,我们首先了解一下网络拓扑结构(如图1)。

通过图1可以看到,互联网核心网络由两台流控设备、两台路由器和多台BRAS组成,其中出现故障用户位于BRAS-1上,四路互联网出口分别连接到两台流控设备上。

首先对该互联网出口的互联地址进行了测试,结果不通。难道是互联网出口出现了问题?登录到流控设备-1上对互联网出口的互联地址192.168.92.9进行测试,发现没有问题。就在登录到流控设备-1上查看互联网出口流量的同时,我们发现两台流控设备的互联心跳线几乎没有任何流量,看到这个情况,我们意识到问题的严重性。

急忙来到机房对流控设备心跳线的端口指示灯进行查看,指示灯处于灭的状态,使用光功率计对心跳线的光功率进行测量,发现流控设备-2没有收到流控设备-1的光功率。这有可能就是网络故障发生的原因所在,即流控设备-1和流控设备-2互联的端口出现故障。对流控设备-1上的光模块进行更换后,发现光模块依然不发光。难道是端口关闭了?登录到设备后发现端口并没有关闭,随即使用打环的方式进行测试。所谓打环,就是将网络设备的发送端经过一个环路环回到此设备的接收端,故障端口的指示灯依然是灭的。

故障解决

为了尽快解决故障,我们决定使用更换端口的方法来解决问题。立即将流控设备-1设备上的互联心跳线端口0/2更换到0/3上,同时将路由策略中的入接口也修改成了0/3口,这样做完后,设备连接的心跳线接口瞬时闪烁起来,两个端口的互联地址也能Ping通,而且端口的流量也在不断增加。再一次对百度、网易和搜狐等各大门户网站进行了Ping测试,没有再出现文章开头通一个丢一个的现象,故障得到解决。

经验总结

后期我们将流控设备端口故障的问题反馈给了设备厂家。在等待厂家查找原因的同时,我们也将对两台流控设备的心跳线进行调整和优化,具体的措施是,使用链路聚合的方式将两台设备连接起来,这样既能实现流量的负载分担,又能达到链路备份的作用,达到了两全其美的效果。

上面我们从得知故障现象后,一步一步分析问题,广泛使用了Ping命令,从而最后将故障定位到端口上。在这里,我们还使用了打环的方法对光模块或者端口进行了简单测试,最后通过更换端口的方法解决了问题。

仔细分析出现该问题的因果关系,如图1所示,BRAS-1上的互联网用户根据BGP协议的特性,它会根据路由的优先级高低,发现BRAS-1到两台路由器的开销是一致的,所以BRAS-1会将数据转发给两台路由器,如果用户从路由器-1上来,想访问位于流控设备-2上的联通出口,结果是失败的,原因是两台流控设备间的心跳线出现故障,这样就会造成丢包现象的发生。反过来,用户如果从路由器-2上直接访问位于流控设备-2上的联通出口的话,数据就会正常转发出去,这样就完成了数据的正常转发。

综合以上两点我们就可以解释清楚文章开头Ping各大门户网站出现包通一个丢一个的现象,即两台流控设备间的心跳线出现故障,导致部分数据请求无法转发出去,从而引发网络故障。

猜你喜欢
流控指示灯路由器
流控分会第七届委员会特种流控专业第一次工作会议暨2021特种流控学术研讨会于线上成功召流控分会流控分会
买千兆路由器看接口参数
维持生命
路由器每天都要关
路由器每天都要关
空中交通管制流控信息数据交互实践
中国机械工程学会流体传动与控制分会智能流控分会委员会第一次工作会议
“疏堵”结合打造校园网出口高速公路
上海大众POLO充电指示灯点亮
美国邦纳 工业智能指示灯