孙海虹 张建强 冯旭 李选
摘 要:当今互联网在生活中占有重要地位,而局域网则是保证互联网信息稳定传输的前提,但在使用过程中也存在许多问题。本文利用局域网TCP/IP协议网络各层相互独立的特征,提出在网络故障诊断过程中使用分层法可快速、准确定位故障点,提高故障排查的效率,确保局域网网络稳定、可靠、安全地运行。
关键词:分层法;局域网;网络故障;故障诊断
现代互联网生活中,局域网作为大多数政府机关、企事业单位信息化办公的重要组成部分,具有举足轻重的地位,然而网络随时都可能发生故障,因此必须掌握相应的技术排除故障,确保各类突发事件能够及时、正确、果断的处置。
1 分层法排除网络故障流程
在局域网络故障排查中,可利用分层法快速、准确定位故障点。即接到故障申告后尽可能地向故障申告方收集故障信息,按照网络拓扑结构加以分析,追本溯源,初步定位可能发生故障的范围,在后期故障探测时重点关注。首先测试网络层是否正常,若不正常接下来检测接入层;若测试正常,那么接下来检测应用层和传输层,查看应用软件程序的配置信息,以及网络传输设备是否存在故障[1]。分层法排除局域網网络故障流程如下图所示。
分层法排除局域网网络故障流程图
2 分层法排除局域网网络故障分析
故障排除时按照分层法逐一关注网络层、接入层和传输层有无故障现象。
网络层提供了两个端点之间的数据通信,包括路径选择、拥塞控制、传输确认与中断等。网络层故障诊断的基本方法是:采用tracert命令检验数据包,对照查看路由表,检查路由器接口地址,若下一跳地址或目的地址没有在路由表中出现,则要确定是否已输入静态路由、默认路由或动态路由;否则必须重新添加丢失的路由信息,或者检查动态路由选择是否出现故障,包括RIP或者IGRP路由协议故障[2]。
接入层包括从服务器或工作站到数据接口的线缆,作为介质,包含数据接口、信息插座模块、信息插头模块、集线器或交换机的各条连接的物理接口[1]。该层实现系统和通信媒体节点之间数据的打包和解包、差错检测、校正的透明传输。接入层网络故障包括:物理连接故障、硬件和线路故障、设备接口配置故障。
传输层是对应用层数据添加必要的控制信息,在源节点和目的节点两个进程实体间提供端到端的数据传输[3]。出现故障大多与路由器端口配置错误和访问控制列表不正确有关。在传输层,可利用许多实用程序来协助故障排查。如使用Netstat命令和Tcpdump命令等。
3 分层法排除局域网网络故障实例
3.1 实例1
故障现象:某控制大厅网络化视频双流中PPT出现马赛克,甚至双流掉线,导致网络化视频无法正常运行。
故障分析:按照分层法第一步检查网络层。一是重启设备,查看视频会议系统连接某基层方向的音视频及双流中的PPT是否出现延迟、马赛克、甚至掉线故障;二是通过系统监控软件核查该基层终端网络是否存在问题;三是用比较大的包如6000字节ping出现故障的基层视频会议终端地址,查看是否存在丢包或者丢包率较高的现象。
ping对端ip地址l 6000t
Pinging ip with 6000 bytes of data:
Reply from ip:bytes=6000 time=8ms TTL=61
Request timed out.
……
如上信息所示出现多条Request timed out,表示该条线路存在网络丢包情况,再查看如下所示结果:
Ping statistics for对端ip地址
Packets:Sent=20,Received=12,Lost=8(40%loss)
第二步检查从总部MCU到出现故障的基层终端的网络线路是否存在问题,丢包现象说明从MCU到基层视频终端每一个网络节点都有丢包的可能性,需要排查从MCU到本级交换机、路由器、基层路由器、基层交换机、基层视频终端这些环节[4]。采用tracert命令检验数据包通过路径:
Tracing route to ip over a maximum of 30 hops
1 <1ms 4ms 4ms ip地址1
2 2ms 2ms 2ms ip地址2
……
6 * * * Request timed out.
由上显示经过几个环节到达对端路由器内部,但未到达终端,说明故障在基层内部局域网。
第三步从基层终端ping路由器内部地址,观察ping信息,发现产生振荡性时断时通现象。基本可以判断为网络线路中其中两个或多个交换机间出现环路,形成“广播风暴”,使网络线路通信数据处理速度受限,网络传输信道拥塞,交换机数据处理异常,导致网络出现时断时通现象。
故障处理:检查各级交换机指示灯闪烁状态是否正常,如果指示灯闪烁次数在每秒4次以上,则可判断出现故障。依次检查并去掉交换机级联网线,实时监控交换机端口指示灯状态,如果某端口网线拔掉后,指示灯恢复正常,继续检查,发现该网线的末端有网线形成环路,拆除该网线,网络恢复,网络化视频正常进行。
3.2 实例2
故障现象:指挥大厅综合终端席位收不到基层运行数据。
故障分析:第一步检查网络层。Ping 127.0.0.1,发现工作正常,说明席位终端系统网络适配器和驱动程序工作正常。Ping该本单位服务器及总部服务器,没有丢包现象,说明网络层正常。用Show Interface命令检查所经过的交换机的配置,查看交换机与席位终端连接的接口参数及运行情况,物理层状态运行未发现异常。
在本级服务器终端抓包:
Tcpdumpxs 200 src ip and poor 4001
No suitable device founf
显示未截获从总部服务器传送的端口号为4001的数据包
Tcpdumpxs 200 dst ip and poor 4001
No suitable device founf
显示未截获发送到基层服务器传送的端口号为4001的数据包
第二步检查应用层。主要排查服务器和席位终端运行状态、测试应用程序以及相关应用程序的配置。网络页面可以打开,说明应用平台运行正常,只是没有该基层数据。询问外单位,系统其他基层单位运行正常,相关应用程序没有问题。
第三步检查传输层。检查基层防火墙与本席位有关的配置策略信息。发现协议访问控制中信息化系统总部服务器与终端席位ip地址点对点临时通道服务未开放,从而导致该席位无法收到基层数据包。
故障处理:登录本级防火墙配置页面,进入“协议访问控制”,打开“临时通道”,双向添加总部服务器与基层终端席位ip地址、协议。登录综合终端,运行正常,基层传输数据正常,故障排除。
3.2 实例3
故障现象:本单位一终端申告该终端无法登录单位信息网OA办公系统。
故障分析:第一步检查网络层。首先由网管终端ping该故障终端IP地址,网络层不通。其次在故障终端输入ipconfig/all,显示本机TCP/IP网络配置情况,检查IP地址、子网掩码、网关、DNS服务器地址均正常。再次在该终端Ping本机地址:127.0.0.1,显示正常,说明该终端系统网络适配器和驱动程序工作正常。
第二步检查物理层、数据链路层。首先检查故障终端电源及网卡接口,连接正常。其次检查该终端安全U盾,证书信息正常,在使用期内,可以保障安全上网。再次检查与该终端连接的交换机端口,发现交换机绑定的该终端端口指示灯不亮,检查交换机配置文件,信息正常,没有丢失,说明交换机正常,那么只能說明故障为该网络线路不通。使用测线仪检测故障终端和交换机之间网线质量,发现测线仪指示灯有几个不亮。测试配线架接入端口到交换机的网线状态,线路正常。测试配线架接入端口到终端的网线状态,线路故障,大致可以判断故障原因可能出现在配线架。最后在网络配线架机柜排查,发现机柜有移动的痕迹,检查配线架背后的打线夹,发现有几处网线松脱。
故障处理:在配线架背面用打线刀把故障网线压接入打线夹并剪切好,重新测试网线断通情况,网络恢复正常,故障排除。
4 结语
在故障处理的实例中,彰显了分层法排除局域网网络故障的巨大优势,该方法能够快速缩小故障查找范围,准确定位故障点,思路清晰,大大提高了网络故障诊断的效率,希望对其他网络运维人员有所帮助和参考作用。
参考文献:
[1]朱云鹏,陈卓.基于层次分析法的网络故障诊断技术研究[J].网络安全技术与应用,2007,(07):3032.
[2]裴祥.网络常见故障诊断及排除[J].技术与市场,2010,(08):2324.
[3]金霈,李德有.如何根据数据在TCPIP模型中的传递方式排查网络故障[J].职业,2011,(14):136137.
[4]张建中,周若.省级气象视频会商网络故障分析[J].计算技术与自动化,2014,(01):104107.
作者简介:孙海虹(1973— ),女,汉族,硕士,工程师,研究方向:网络安全。