引言:单位下属站点机房搬迁,与总部的网络连接关系保持不变,只是由本单位维护的2M线路改为租用电信公司的2M线路。这项工作并不复杂,只要将设备搬至目的机房安装完毕,正确连接线路后,设备加电,网络即可连通。然而,由于搬迁工作人多手杂,一点儿小小的疏忽,导致该站点与总部之间的网络迟迟无法连通。本文介绍故障的排查过程。
我单位因为业务拓展需求,要搬迁其中一个下属站点机房。总部与该站点之间的网络拓扑结构如图1所示(为简洁起见,未画出两个机房的光端机)。搬迁后,该站点与总部之间的网络连接关系保持不变,只是原来由本单位维护的2M线路改为租用电信公司的2M线路。这就意味着,线路两端的路由器不需要修改参数配置。这项工作并不复杂,设备搬至目的机房,正确连接后加电,网络即可连通。
由于这项工作相对简单,且工作量不大,起初没有引起足够的重视。新机房整治完毕,2M线路调通,搬迁工作开始。设备正确连接后加电,然而,网络却未能如愿连通。单位领导先后两次派人排查未果。
图1 网络拓扑图
图2 总部机房2M线路打环示意图
笔者带领抢修小组,再次进行故障排查。首先通过Ping命令检查总部局域网及外网之间的连通性,局域网内部畅通;外网除该站点外均畅通。经该站点工作人员检查,此站点内部局域网畅通,说明问题出在总部与该站点之间的网络互连设备或线路上。
接下来,我们把排查重点放在网络互连设备和线路上。登录到总部路由器,检查该站点对应端口的参数(包括网间网地址、封装协议、以及路由协议等),未发现问题;在总部机房的2M配线架对应线路上打环(如图2),在路由器输入命令show ip interface serialX brief,显示 :serialX is up,line protocol is up(looped)。总部机房2M配线架到路由器对应端口的线路形成环路,说明路由器对应的端口硬件无故障;2M配线架到路由器之间的线路也没有问题。由此判断故障不在总部机房。
总部机房2M配线架拆环恢复后,与该站点协同,在其2M配线架打环(如图3),总部路由器仍然显示形成环路,说明租用的2M线路及两个机房的光端机工作正常。推断故障部位应该在该站点2M配线架以内。抢修小组决定到现场进行排查。
到达现场后,发现2M配线架对内打环时,路由器LINK REM SYNC LOSS(E1远端同步丢失告警)红灯亮,说明并未形成环路。自此,断定故障就在2M配线架与路由器之间的同轴线缆或本地路由器上。
我们先检查了2M同轴线缆的四个接头,焊点牢固并未发现异常。然后,把怀疑重点放在路由器上。反复检查了路由器参数,确认设置正确。是不是路由器硬件故障?更换备份路由器,重新配置参数,故障仍未解决。此时,抢修小组有些茫然。
待冷静下来,回顾了整个排查过程,可以确定总部路由器和光端机正常,租用电信公司的2M线路也没有问题,该站点也更换了新的路由器。那么,故障可能就在该站点2M配线架到路由器之间的同轴线缆上。于是,在2M配线架对内打环的情况下,用万用表欧姆档测量,发现同轴缆屏蔽网形成回路,但芯线开路。
从电缆槽中取出两根同轴线缆仔细检查,终于发现其中一根有一处被压扁。剥开线缆,发现芯线已被压断,屏蔽网未被压断。我们推测,在机房搬迁过程中人多手杂,这根75-2细同轴线缆受到重物挤压所致,而人们恰恰又没有注意到这一点,为后续工作留下了隐患。重新制作了一根同轴线缆,连接后故障排除。
抢修小组在整个故障排查过程中,采用分段排查法,逐步将故障范围缩小。通过打环,将故障部位压缩在该站点2M配线架以内的线路或设备上。故障排查总体思路是对的,采取的排查方法也是恰当的。但是,在观察到该站点对内打环,路由器LINK REM SYNC LOSS(E1远端同步丢失告警)红灯亮后,凭借惯性思维,觉得电缆中间不会出问题,检查了线缆接头后,转去怀疑路由器,而与真正的故障点擦肩而过。
如果当时对同轴线缆认真排查,就会及早发现故障部位,缩短故障排查时间。值得庆幸的是,虽然走了一点弯路,但是经过冷静的思考后,终于定位了故障点,故障得以排除。
网络连通性发生问题时,故障原因都不尽相同。但通常可归纳为三类原因引起,即:设备硬件故障、软件参数设置故障、线路故障。遇到故障,不要慌乱,只要思路清晰、方法得当,就能快速定位并排除故障。
机房搬迁工作,头绪多、人手杂。人们往往比较重视各类设备的安全,而忽视了线缆的安全。本案例告诫我们,在机房搬迁过程中线缆安全也同样重要。