张路青
(武汉市74223信箱 武汉 430074)
随着舰载装备的网络化、信息化程度不断提高,舰载网络的应用范围日益扩大,规模、复杂度和能力也不断提高,已逐渐成为现代舰艇的基础信息设施。一旦发生网络故障,致使网络性能下降或者通信中断,将会给舰艇带来巨大的损失,甚至危及舰艇安全。因此,行之有效的网络管理是新型舰载网络必备的功能,而故障管理又是网络管理的重中之重。
网络故障的两个主要特性是网络无法正常运行或差错出现次数超出了门限值[1]。而所谓故障管理是利用网络管理工具发现网络中的故障、理解其含义并启动纠正措施的过程,其任务是检测、定位和尽可能修复网络中硬件和软件的故障,主要包括三个步骤[2]:
1)发现故障(即故障检测);
2)分离故障原因(即故障诊断、定位);
3)如有可能修复故障。
其工作流程一般如图1[3]所示。
按照以上故障管理的步骤和流程,故障管理机制主要涉及故障监视发现和故障诊断,而故障恢复工作主要是修复或替换故障组件,不在此重点介绍。
网络故障的发现主要通过收集与网络状态相关的数据进行分析,一般采用两种方法[4]:
方法1:被管设备向管理系统主动报告关键网络事件。关键网络事件是诸如连接失败、设备重新启动或者从一个主机来的响应无法收到等事件。
图1 故障管理流程
方法2:管理系统定期的查询网络设备。即定时地对网络设备进行状态查询以及时发现故障。但这种方法需要系统在发现故障所需的及时程度与所需的带宽消耗之间进行权衡。
故障诊断在故障发现之后进行,是故障管理中的重点和难点。其实质是完成从网络的故障症状(告警信息)到网络故障原因的映射[5]。目前,主要有以下几种诊断机制。
3.2.1 专家系统
专家系统是首先被引入故障诊断领域的人工智能技术,它将领域知识编成一系列产生式规则,在推理过程中将故障征兆与原因结果直接相连。主要是在知识库和事实库的基础上进行推理。但专家系统存在知识获取困难、知识难以维护、知识应用面窄、推理能力弱和不适于解决模糊问题等缺点,使得基于这种技术的故障诊断专家系统在遇到未见过的新故障或新信息时,不能正确处理。对于模糊的故障征兆,难以得到正确的诊断结果。
3.2.2 神经网络
神经网络由大量类似于神经元的简单处理单元相互连接而成,是模拟生物神经网络结构的一种复杂的、大规模的非线性系统。其中常用于故障诊断的是前馈式神经网络,它利用连接强度(神经元间的连接权值)和神经元的非线性输入输出关系,实现从输入状态空间到输出状态空间的非线性映射。这种方法具有很好的容错性,通过对样本的学习,神经网络可以发现其中隐含的信息,建立规则,最小程度地受人为因素的影响。其局限性有:首先需要较多训练样本用于神经网络学习才能使得网络收敛,从而得出稳定的诊断结果。难于处理因不完全领域知识而产生的非单调性和不精确性。
3.2.3 贝叶斯网络
贝叶斯网络也叫做置信度网络或因果网络,是一种有向非循环图[6],特别适用于概率和不确定性突出的问题。在故障管理中,贝叶斯网络可以通过给定告警数据推断出最可能的故障原因。而且贝叶斯网络具有鲁棒性,在故障告警信息不完全或不精确时,也可评估出近似的故障诊断结果。另外还可以对网络故障进行一定的预测,可以在故障发生前及时通知管理者采取必要的措施以避免其发生。
贝叶斯网络的难点在于:首先,贝叶斯网络的结构是最基础且最重要的问题。如何根据被管网络的结构和故障间的关系,合理的确定贝叶斯网络的结构?是否所有被管对象、所有故障都要反应在贝叶斯网络中?如果这些映射关系设定的不好,有效的故障诊断根本无从谈起。其次,面对大型异构网络,贝叶斯网络如何学习各点的条件概率也是个不易解决的问题。
3.2.4 混合方法
故障诊断研究和应用中发现,技术本身的局限性可能会导致诊断结果的不确定性。因此,每种故障诊断技术都存在其优缺点,如果将某些方法进行一定融合,就可以取长补短,提高诊断方法的有效性和诊断结果的精确性。神经网络与专家系统相结合就是较为成功的例子。专家系统根据人类专家领域知识的相应规则和算法实现,从宏观上实现智能行为。神经网络方法则从微观上模拟人脑的智能行为,其智能存在于网络结构及其自适应规则中,通过大量样本学习,可推广问题的解决范围,从而有利于克服基于符号推理方法的知识获取瓶颈。其他混合方法还有很多,此处不一一列举了。
目前在实际故障管理系统开发中主要还是采用集中式的三层体系结构,一般如图2所示。
1)故障数据采集层
主要功能是自动采集故障管理所需的相关数据,[7]如利用ICMP和SNMP所提供的T RAP机制作为基本的数据获取手段来实现对故障事件的采集、过滤和规格化,并通过对故障事件作过滤和关联等处理,形成固定格式的记录信息,生成各种设备故障和网络事件报告。
图2 故障管理系统层次结构
2)故障数据处理层
故障数据处理层重要完成故障通报、故障日志的创建和维护以及故障重定义等功能。
◦故障通报
当故障产生/清除时,故障数据处理系统通知上层应用更新拓扑图上节点的故障状态。
◦故障日志创建及维护
系统对产生的故障和事件信息进行记录,以便用户对历史故障进行查询。并定期进行维护、备份及删除。
◦故障重定义功能
用户能够根据故障类型、故障级别等条件对故障类型和故障级别进行重定义。
3)故障管理应用层
◦故障实时监视
故障实时监视包括故障上报条件的设置、故障信息实时显示的过滤控制、故障提示过滤条件的管理等功能。
◦故障管理
故障管理包括故障显示、查询和统计、故障分析和定位、故障确认过滤条件、故障确认与清除等功能。
◦故障管理报表
故障管理报表以报表系统方式表现,包括故障树图、故障时报、网元故障简报、网元故障详情、网元故障历史统计等。
故障管理是未来新型舰艇中舰载网络管理必不可少的功能之一,其有效与否对网络可靠性有着非常重要意义,直接影响新型舰艇的信息化水平。文章从故障管理的基本概念入手,对故障管理机制和实现技术等核心内容进行了归纳研究和分析描述,其成果可作为技术参考,用于舰载网络故障管理系统的设计和开发。
[1]雷震甲.计算机网络管理[M].西安:西安交通大学出版社,2004
[2]管海兵,白英彩.计算机网络管理系统设计与应用[M].上海:上海交通大学出版社,2004
[3]Mani Subramanian.Network Management Principles and Practice[M].北京:高等教育出版社,2001
[4]曹文君,阎华,沈富可.计算机网络管理理论与实践教程[M].成都:电子科技大学出版社,2002
[5]候霞,范植华,李鸿培.网络故障管理的现状与发展[J].计算机工程与应用,2004(增刊):13~17
[6]Hoagjan Li.An Introduction to Belief Networks[R].CSHCN Technical Report,1999:3l
[7]李悦.利用SNMP对网络管理系统的分析与设计[D].天津:天津大学博士论文,2006