王 威
摘要:本文论述了网络故障的一般分类;一般网络故障的解决步骤。
关键词:网络故障;实例;故障排查
当今的网络互联环境是复杂的,必须要建立一个系统化的故障处理思想并合理应用于实际中,以将一个复杂的问题隔离、分解,从而及时修复网络故障。下面简要介绍一下网络故障的一般处理方法。
一、网络故障的一般分类
1. 连通性问题
硬件、媒介、电源故障。
2. 配置错误
3. 性能问题
4. 网络拥塞
5. 到目的地不是最佳路由
6. 供电不足
7. 路由环路
8. 网络错误
二、一般网络故障的解决步骤
故障处理系统化的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。
网络故障解决的一般处理流程:
故障处理的实例:
用户网段广播包过多造成该网段的服务器FTP业务传输速度慢。
该案例组网如上:某校园网的三个局域网,其中10.11.56.0为一个用户网段,10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。
1. 故障现象描述
用户反映“日志服务器与备份服务器间备份发生的问题”。
这个问题是连续出现,还是间断出现的?是完全不能备份,还是备份的速度慢(即性能下降)?
哪个或哪些局域网服务器受到影响,地址是什么?
正确的故障现象描述是:
在网络的高峰期,日志服务器10.11.56.11到集中备份服务器10.15.254.253之间进行备份时,FTP传输速度很慢,大约是0.6 Mbps。
2. 相关信息搜集
搜集有助于查找故障原因的详细信息;
向受影响的用户、网络人员或其他关键人员提出问题;
根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关display和debug命令等。
3. 经验判断和理论分析
我们现在能够确定是一个网络性能下降问题。那么,是网段10.11.56.0的性能问题,是中间网络的性能问题,还是10.15.0.0网段的性能问题呢?
4. 各种可能原因列表
该步骤列出根据经验判断和理论分析后总结的各种可能原因。
如上述案例,可能原因如下:
网段10.11.56.0的性能问题,其原因可能为:
日志服务器A的性能问题;
10.11.56.0网络的网关性能问题;
10.11.56.0网络本身的性能问题。
5. 对每一原因实施排错方案
根据所列出的可能原因制订故障排查计划,分析最有可能的原因,确定一次只对一个变量进行操作,这种方法使你能够重现某一故障的解决办法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢?
6. 观察故障排查结果
当我们对某一原因执行了排错方案后,需要对结果进行分析,判断问题是否解决,是否引入了新的问题。如果问题解决,那么就可以直接进入文档化过程;如果没有解决问题,那么就需要再次循环进行到故障排查过程。
7. 循环进行故障排查过程
在进行下一循环之前必须做的事情就是将网络恢复到实施上一方案前的状态。如果保留上一方案对网络的改动,很可能导致新的问题。
8. 循环进行故障排查过程
可能原因1:网络10.11.56.0到网络10.15.0.0的路由不是最佳路由。
制订方案:在10.11.56.0网段的网关上使用“tracert 10.15.245.253”命令,发现探测报文返回时长仅为10 ms。
可能原因2:日志服务器A的性能问题。
制订方案:测试同一网段的主机C和日志服务器间的FTP传输速度,是6 Mbps,正常。
可能原因3:10.11.56.0网络的网关性能问题。
制订方案:测试主机C和备份服务器B间FTP传输速度是7 Mbps,正常。
可能原因4:10.11.56.0网络本身的性能问题。
制订方案:在网段10.11.56.0的以太网交换机上使用命令“show mac”,输出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
----------------- -------
6/3210317812 0 8665
Port Xmit-Unicast Xmit-MulticastXmit-Broadcast
------------------------
6/32 66679872866522474038
(输出的广播∶输出的单播比例为1∶3,太大了。)
PortRcv-Octet Xmit-Octet
------ ---------- --------------
6/32 140948293581516443041
在网段10.15.0.0上的以太网交换机上使用命令“show mac”输出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
-------- ---------- ---------
6/36 557802870285
Port Xmit-UnicastXmit-Multicast Xmit-Broadcast
-------- -------------- - -------
6/36 27879749190257119430
(广播∶单播比例=1∶270,属于正常。)
Port Rcv-Octet Xmit-Octet
-------- ------------ ------------
6/3667172587081 4998816809
由此得知,网段10.11.56.0上广播包和单播包比例为1∶3,确实太大了。
这是一个网络布局不恰当的问题,需要重新安排服务器的位置,将服务器移动10.15.0.0网段后,故障解决。
9. 故障处理过程文档化
当最终排除了网络故障后,流程的最后一步就是对所做的工作进行文字记录。
文档记录主要包括以下几个方面:
故障现象描述及收集的相关信息;
网络拓扑图绘制;
网络中使用的设备清单和介质清单;
网络中使用的协议清单和应用清单;
故障发生的可能原因;
对每一可能原因制订的方案和实施结果;
本次排错的心得体会。
参考文献:
[1]周明天.TCP/IP网络原理与技术[M].北京:清华大学出版社,1996.
[2]王旭,张军译.程序员参考手册[M].北京:清华大学出版社,2004.
(辽阳市辽化职业中专)