马阵(陕西省水文水资源勘测局 陕西西安 710068)
浅析计算机网络故障管理在陕西水文信息网络系统中的应用
马阵(陕西省水文水资源勘测局 陕西西安 710068)
计算机网络故障非常普遍,在日常工作中计算机网络故障排查是计算机网络最基本、最重要的工作。本文对陕西水文信息网络架构进行故障定位、分析、处理,并提出了网络故障的检查方法和一般解决方案,为同属性网络架构的故障排查奠定了基础。
网络管理,网络故障,故障分析,故障排查
一般来说,网络管理就是通过某种方式对网络进行管理,使网络能正常高效地运行。网络管理是使网络中的资源得到更加有效的利用,它应维护其正常运行,当其出现故障时能及时报告和处理,并协调、保持网络系统的高效运行。网络管理系统分五大功能域:配置管理、故障管理、性能管理、计费管理和安全管理。
计算机网络中,当发生失效故障时,往往不能轻易、具体地确定故障所在的准确位置,而需要相关技术上的支持。因此,需要有一个故障管理系统,科学地管理网络发生的所有故障,并记录每个故障的产生及相关信息,最后确定并改正那些故障,保证网络能提供连续可靠的服务。网络故障管理包括故障检测、隔离和纠正三方面,主要包括故障监测、故障报警、故障信息管理、排错支持工具、检索/分析故障信息等。
陕西水文信息网络架构采用三层架构,并利用VPN将整套网络进行了逻辑隔离,形成业务网络和互联网络。业务网包括:各地市水情分中心、省水情中心服务器(不包含WEB服务器)、水情业务终端、视频会商系统、卫星接收站;互联网包括:WEB服务器(部署在DMZ区域),省局机关所有用户,互联网用户可通过VPN安全认证访问业务网。
业务网络内服务器与水情业务终端实行分级接入管理,分别接入核心层和汇集层交换机;互联网内所有用户均通过楼层交换机接入核心层,MAC地址绑定和VLAN划分在接入层交互机完成,减少核心层的策略部署,提高核心交换机的数据交换、处理能力。
在业务网与互联网分别部署了网络管理平台与流控与上网行为管理设备,加强了整个网络的监控、管控能力,减轻了基层水情分中心管理压力。陕西水文信息网络拓扑图(见图1)
图1 陕西水文信息网络拓扑图
常见的网络故障归类为:物理类故障和逻辑类故障两大类。我局的网络故障管理也主要以这两种故障类型为主,以下就这两类故障的分析和排查进行简要概述。
1.物理类故障
物理故障,一般是指线路或设备出现物理类问题或说成硬件类问题。
(1)线路故障
在我局日常网络维护中,线路故障的发生率是相当高的,约占发生故障的70%左右。线路故障通常包括线路损坏及线路受到严重电磁干扰。
排查方法:如果是短距离的范围内,判断网线好坏简单的方法是将该网络线一端插入一台确定能够正常连入局域网的主机的RJ45插座内,另一端插入确定正常的HUB端口,然后从主机的一端Ping线路另一端的主机或路由器,根据通断来判断即可。如果线路稍长,或者网线不方便调动,就用网线测试器测量网线的好坏。如果线路很长,比如由线路运营商提供的,就需通知线路提供商检查线路,看是否线路中间被切断。
(2)端口故障
端口故障通常包括插头松动和端口本身的物理故障。
排查方法:此类故障通常会影响到与其直接相连的其他设备的信号灯。因为信号灯比较直观,所以可以通过信号灯的状态大致判断出故障的发生范围和可能原因。也可以尝试使用其它端口看能否连接正常。
(3)交换机或路由器故障
交换机或路由器故障在此是指物理损坏,无法工作,导致网络不通。
排查方法:通常最简易的方法是替换排除法,用通信正常的网线和主机来连接交换机(或路由器),如能正常通信,交换机或路由器正常;否则再转换交换机端口排查是端口故障还是交换机(或路由器)的故障;很多时候,交换机(或路由器)的指示灯也能提示其是否有故障,正常情况下对应端口的灯应为绿灯。如若始终不能正常通信,则可认定是交换机或路由器故障。
2.逻辑类故障
逻辑故障中的最常见情况是配置错误,也就是指因为网络设备的配置错误而导致的网络异常或故障。
(1)路由器逻辑故障
路由器逻辑故障通常包括路由器端口参数设定有误,路由器路由配置错误、路由器CPU利用率过高和路由器内存余量太小等。
排查方法:路由器端口参数设定有误,会导致找不到远端地址。用Ping命令或用Tracert命令(路由跟踪程序),查看在远端地址哪个节点出现问题,对该节点参数进行检查和修复。
路由器路由于配置错误,会使路由循环或找不到远端地址。该故障可以用Tracert工具,可以发现在Tracert的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由,把路由设置为正确配置,就能恢复线路了。
路由器CPU利用率过高和路由器内存余量太小,导致网络服务的质量变差。比如路由器内存余量越小丢包率就会越高等。检测这种故障,利用MIB变量浏览器较直观,它收集路由器的路由表、端口流量数据、计费数据、路由器CPU的温度、负载以及路由器的内存余量等数据。解决这种故障,只有对路由器进行升级、扩大内存等,或者重新规划网络拓扑结构。
(2)一些重要进程或端口关闭
一些有关网络连接数据参数得重要进程或端口受系统或病毒影响而导致意外关闭。比如,路由器的SNMP进程意外关闭,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。或者线路中断,没有流量。
排查方法:用Ping线路近端的端口看是否能Ping通,Ping不通时检查该端口是否处于down的状态,若是说明该端口已经给关闭了,因而导致故障。这时只需重新启动该端口,就可以恢复线路的连通。
(3)主机逻辑故障
主机逻辑故障所造成网络故障率是较高的,通常包括网卡的驱动程序安装不当、网卡设备有冲突、主机的网络地址参数设置不当、主机网络协议或服务安装不当和主机安全性故障等。主机逻辑故障主要发生在客户端或服务器上,排除方法相当较为简单,在这里就不赘述其排除方法。
由于网络故障的种类多,原因复杂,解决方法也很多,本文从以下几个方面提出建议。
1、排查网络故障,确定故障原因:解决网络故障的第一步就是要合理地、逐步排除网络故障,最终确定故障原因,发现症结所在,方能对症下药。首先应搜集当前故障的现象与症状,从而初步分析潜在原因,缩小排查范围。其次在确定的排查范围内继续排查,具体思路应是由服务器到工作站,由外部到内部,由软件到硬件。由服务器到工作站,如出现工作站不能入网的情况下,先确定服务器是否有问题,如死机、无法启动,登录和口令等问题,然后再从工作站进一步分析问题。外部到内部就是当有工作站网络功能失灵时,先检查其外部直接可看到的设备情况,如电缆有否缠绕,路由器有没有故障、网线接头?接触是否良好。如果没有查清外围设备情况,就打开机器检查内部,不仅事倍功半,而且可能导致新的故障发生。软件到硬件就是网络出故障后,先从操作系统,驱动程序,配置上排查原因,然后再检查硬件是否损坏。
2、根据故障原因,制定测试方案:在进行网络故障排查后,应根据最可能的故障原因,建立相应的诊断测试方案。在具体落实诊断测试方案时,应严格按照方案的相关措施进行故障排查,直到故障症状消失。在故障得到解决后,还应测试网络的相关效果,确保在排除网络故障的同时不至于引发另一故障隐患。
由于网络故障的原因很多,为了避免在排除网络故障时引起其他故障,应在故障排查的过程中应做好故障排查记录,这样可以很容易恢复到故障的原始状态,如果不行,便可再进行其他复杂的可能性测试。此外,还应建立健全事件管理体系,将每次故障登记在册,并包含与问题和隔离解决步骤相关的完整记录,以便为今后的网络管理工作提供经验和资料。
计算机网络发展迅速,网络故障也十分复杂,本文介绍了常见的几类故障及其维护方法。
为了在网络出现故障时及时对网络进行维护,快速恢复网络,在网络故障排除中还需要注意以下几个方面:
1、建立完整的组网文档,以供维护时查询。如网络设计总体思路和方案、网路拓扑结构的规划、网络设备和网线的选择、网络的布线、网络的IP分配,网络设备分布等等。
2、做好网络故障维护日志,对每台机器都要作完备的维护文档,以有利于以后故障的排查。这也是一种经验的积累。
3、提高网络安全防范意识,提高口令的可靠性,并为主机加装最新的操作系统的补丁程序和防火墙、防黑客程序等来防止可能出现的漏洞。
[1]赵志囡等.计算机网络中的服务
[2]杨家海等.网络管理原理与实现技术.
[3]博影.浅析网络故障管理