王海飞
海军指挥自动化工作站 北京 100841
随着计算机网络技术的迅猛发展及逐步成熟,计算机网络的规模和覆盖范围快速扩大,及其应用业务领域也不断快速拓宽,人们在日常生活工作中对网络的依赖也越来越大,网络故障也随之越来越多,给人们造成了难以预知的损失和不利影响。因此,为确保计算机网络运行的畅通、高效和稳定,就必须要能在尽早时间内捕捉到网络故障点,并快捷有效及时对故障进行诊断及排除,将网络故障损害和不利影响控制减少到最低。
网络的故障类型有硬件故障和软件故障两种。硬件故障是指网络线路或网络设备出现的硬件类故障,常见硬件故障主要有网络连接线故障(线缆或接头问题)、网卡故障(网卡未正确安装或接口问题)、交换机和路由器故障(电源、板卡或接口问题)、UPS电源故障以及其它硬件故障。软件故障是指网络系统的各类参数设置不正确、网络设备的各种参数配置不当及其他软件原因而导致的网络运行异常或故障发生,常见软件故障主要有网卡的驱动程序未正确安装、网络协议配置错误、相关的网络服务未开启、重要进程和端口的关闭、网络数据流量大而导致的网络拥塞、重要网络设备(交换机、路由器和防火墙)参数配置错误以及其它软件故障。
网络故障诊断及排除是要以具有一定的计算机网络相关知识为基础,从故障现象入手,使用各种网络诊断工具,获取故障诊断信息,分析并确定网络故障的发生点,深入查找故障问题根源,及时正确排除故障,使网络恢复正常运行。网络故障诊断及排除的原则可归纳为三个方面:一是从远端到近端,即:网络客户端或其它网络设备出现故障问题后,首先要确定排除是否是本端网络机房以外网络设备问题,再查找本端网络机房设备问题,最后查找客户端设备问题;二是从外部到内部,即:网络客户端或其它网络设备出现故障问题后,要先检查其外部直接相连的并可看到的设备问题情况,再查找客户端设备或其它网络设备的内部问题;三是从软件到硬件,即:网络客户端或其它网络设备出现故障问题后,要先从操作系统、网络协议、网卡驱动程序及相关系统参数配置等方面查找原因,确定排除软件方面问题后再检查硬件方面的问题。
网络故障诊断及排除的一般思路如图1所示,可总结归纳为问询识别并详实记录故障现象、分析列举可能故障原因并制定相应排除方案、进行故障排除及故障排除过程记录归档四个步骤。
图1 网络故障诊断及排除思路图
故障出现之后,及时识别清楚故障现象是十分重要的,它是排除故障的重要前提,要认真细致的做好相关故障问题情况的问询工作(例如:在故障发生前,工作人员做了哪些操作,设备上正在运行哪些程序,在什么操作后出现了不正常变化,等等),并做好详实记录;另外,要根据问询情况上机进行实际操作,并与系统正常运行情况进行比对,注意观察有关细节变化,查看系统日志记录,并注意错误信息提示,对收集到的所有问题和故障现象信息也要做好详实记录。
根据收集到的所有网络问题和故障信息,进行充分消化吸收,要真正弄清楚故障症状现象,对可能造成导致故障原因的软件和硬件问题,进行深入细致的分析与研究,并以网络故障诊断及排除原则为依据,分别列举可能的不同故障原因,并制定相应的诊断及排除实施方案。
根据分析列举可能故障原因的诊断及排除方案,严格进行实施操作,并认真做好每一步的测试工作,进行网络运行状态及网络设备状态的仔细观察,做好各项记录工作,对每一步的测试工作都要有明确的实际结果,确定故障问题是否已排除,如果还未排除,则要继续查找判断可能的故障原因,并制定相应的诊断及排除方案,再进行故障排除,直到网络故障的彻底解决。
在网络故障排除之后,要对故障产生的原因、诊断及排除过程进行总结,并记录于值勤维护管理日志内或故障诊断排除专用文本上,这样不仅可对网络故障的处理有据可查,而且还可保存下来作为宝贵的参考资料,为以后的故障诊断及排除工作提供良好的方法借鉴。
网络故障诊断及排除基本方法包括分层法、分段法及替换法三种。其中,分层法和分段法,运用各类硬件、软件诊断工具较多,诊断层次清晰,判断确定故障点较快,有利于网络故障的迅速排除处理,而替换法运用诊断工具较少,容易实施操作,适用于简单的网络问题排除,对于复杂的网络问题将会很困难,可作为分层法和分段法的有效补充。
分层法是指根据OSI七层结构模型的定义和功能,从故障的实际症状现象出发,以网络诊断工具为手段获取诊断信息,如图2所示,自下而上从物理层开始,依次对数据链路层、网络层、传输层、会话层、表示层、应用层进行分析和排查。由于网络七层相对独立,分层法排查可有效地发现和隔离故障。OSI的1至4层主要负责数据传输,可通过排查处理相关数据传输问题,其中,物理层负责介质的连接,要重点关注网络缆线是否良好、线缆连接头是否良好、电气性能是否良好及传输模式设置是否正确;数据链路层负责处理数据封装问题和通路建立、维持和释放管理,要重点关注交换机及路由器端口状态,查看协议是否正常,或查看端口等利用率情况作为参考;网络层负责分段打包、重组及差错报告,要重点关注网络设备IP地址和子网掩码设置是否正确、网络设备接口IP地址的设置是否正确、路由协议配置是否正确及路由表情况检查。OSI的5至7层属于高层,最接近网络终端用户,主要提供负责支撑各种程序应用,可通过排查处理相关程序应用问题,多注意系统软件和应用软件的实际操作使用,重点关注网络终端设备软、硬件运行是否良好,网络终端的高层协议是否正常。
图2 分层法诊断步骤图
分段法是指在同一网络分层上,把故障分成几个段落,再逐一排查,可缩小网络故障涉及的设备和线路,以便更快地判定故障点,然后逐级恢复原有网络。在物理上或逻辑上,分段检查包括网络用户端、网络接入设备、网络主干设备、网络中继设备等之间的链路连通及相应端口的状态,其中,链路连通主要是指物理线路的介质类型、物理线路的连通、物理线路的性能(包括线路的距离、衰耗、终端设备的电气特性等)、物理线路的最大数据承载能力及收发线路的对应等,相应端口的状态主要是指两端设备对应的端口类型(包括传输速率的匹配、传输模式的设置、收/发时钟的时钟源)的统一、数据收或发的线路接通、数据流控制及拥塞控制等。分段法故障诊断步骤如图3所示,可从甲端的数据终端设备到网络接入设备,再到网络主干设备,再到网络中继设备,再到网络主干设备,再到网络接入设备,最后到乙端的数据终端设备的顺序,依次分段进行诊断分析故障问题。
图3 分段法诊断步骤图
替换法是指使用确认能正常运行的网络设备部件,替代被怀疑有故障可能的网络设备部件,观察网络运行状况,直到故障问题得到排除。替换法适用于解决单个或少数站点的网络故障出现时,优点是在没有网络诊断工具情况下,仍然可以解决网络故障,缺点是要有足够充裕的可替换设备,且排除网络故障所耗费时间较长,甚至有时不能很好的将网络故障排除,即使排除问题后,对网络故障发生的根本原因也不能真正查明认知,只能了解熟悉故障症状的表面现象,对将来网络故障的排除不能提供很多有效经验的借鉴。
为确实保证在网络出现故障时能及时诊断排除,以最快速度恢复网络正常运行,有力保障网络的可靠性和高效性,要注意以下五个方面的问题:
一是要建立全面完整的计算机网络维护管理文档资料(包括机房管理维护规定、网络值勤管理维护规定、网络故障应急处置预案、网络的拓扑结构图、网络设备分布情况及使用说明资料、网络的IP地址分配及其它相关资料),可作为日常网络维护管理和训练学习的浏览或查询。
二是要紧密关注网络维护管理新理论新技术的国内外发展动态,不断加强相关网络应用理论知识的学习,积极探索实践,不断提高动手能力,熟练掌握相关网络维护管理软件的使用。
三是要加强日常网络的维护管理工作力度,严格执行各项值勤维护管理规定,明晰管理职责,清楚任务内容,勤检查勤维护,实时监控系统运转情况,及时发现网络故障征兆并适时处理。
四是要加强网络的安全管理工作,配置管理好系统防火墙、入侵检测软件系统、网络安全漏洞扫描系统、漏洞补丁升级软件系统及网络防病毒软件系统等网络安全设备,防止内外部对网络的攻击和入侵,并有效进行病毒防治,同时要做好网络系统的备份容灾工作。
五是要做好日常网络值勤维护日志的记录工作,记录的格式要规范、内容要详实、过程描述要准确,特别是对发生概率低但危害大的网络故障处理过程的记录,记录日志可作为网络值勤维护工作的可查之据和故障处理经验的累积。
计算机网络技术越发展越复杂,网络故障的发生难以避免,网络故障的及时诊断与排除越来越重要,已成为网络管理中的重要工作之一,只有不断在实际工作中勤于学习钻研勇于探索实践,不断加强知识和经验积累,才能逐步提高排除故障的技能水平,并摸索出适合本单位实际的故障诊断排除方法与实施方案。
[1]王金光,周子琨.浅谈局域网计算机及网络维护[J].甘肃科技.2008.
[2]闫立荣.如何做好网络维护[J].科技信息.2009.
[3]关晶超.网络安全技术探讨[J].青年科学.2010.