网络故障预测与健康管理的关键技术

2017-03-17 18:36祝旭
电子技术与软件工程 2016年16期
关键词:网络故障健康管理关键技术

摘 要

近几年,随着科技的迅速发展,人们不管在生活还是生产上都离不开网络。网络涉及到工业生产、国防、教育、生活等方面。所以网络的管理尤为重要。为保证网络的正常运行,需要为其设置故障防御及管理系统。本文以网络故障预测与健康管理的系统设计为例,详细阐述在设置时的关键技术。

【关键词】网络故障 预测 健康管理 关键技术

互联网已成为社会生活和工作的必需品,网络在运行中的各部分组成设备,如路由器、主机等日益增加,其功能在提升的同时,也加大了网络的管理难度。而网络设备的健康运行对整个网络系统有着至关重要的影响。因此,在网络的日常运行中,需要能夠维护网络正常运行,且在出现故障后能够迅速反应,准确定位故障发生环节,并排除故障的系统。这是目前网络维护和管理工作者的核心任务。

1 网络故障预测与健康管理综述

网络的故障预测和健康管理(PHM)技术是作为实现网络设备基于状态的维修、自主式保障、感知与响应后勤等新思想、新方案的关键技术,也是一门新兴综合性交叉学科。故障预测和健康管理有两层含义:意识故障预测,即预先诊断设备或系统完成各自功能时的状态,确定设备正常工作的时间长度;另一方面是健康管理,即根据诊断或预测到的设备信息、可用资源和使用需求对维修活动作出适当决策能力。而网络故障预测与健康管理技术在设计上将传统的基于传感器的诊断转向基于智能系统预测,为准确而主动的维护网络正常运行提供了技术基础。

在网络的故障预测和健康管理技术中,使用当前最新科技技术为基点,结合现下网络健康程度、特征等历史数据,收集与系统属性有关的各类设备运行参数,将这些参数和系统健康做关联,对系统进行检测、分析。对网络系统未来时刻的运行状态进行预测,便于在故障发生之前,能够采取有效措施保障网络的正常运行。为更直观地阐述网络故障预测与健康管理的关键技术。本文涉及网络设备的PHM系统,同时采用模块化设计,通过四个功能层次,实现网络设备故障预测与健康管理。

2 故障预测与健康管理系统的设计

2.1 网络故障预测系统的设计要求

在设计故障预测与健康管理系统时,系统需要实现以下要求:

(1)在故障预测与健康管理系统中的诊断环节,需要以网络管理系统所提供的警报信息为基础,通过SNMP模块接收设备警告,将来自网络系统中不同的运行设备放入警报信息转换为标准的、可识别的格式,存储到警报信息数据库中,对于故障警报信息将触发故障预测和诊断,对于数据库中的历史数据进行重新梳理分析。一旦发现故障模式,就会不断完善故障诊断信息库,为诊断故障累积“经验”,便于后期检测出同样故障时及时调出处理。

(2)在系统中的诊断实施流程就是收集网络运行设备的性能的关键参数,对于参数预处理后进行合理的健康评估,再通过故障诊断方法对网络设备故障进行诊断和预测。系统中,此技术将诊断经验学习、累积和诊断的实施相互结合,互为补充,从而提高网络系统故障预测的可靠性和准确性,降低预测的误差。

2.2 关键技术

网络故障预测与健康管理的关键技术从信息的收集、系统数据的处理、故障诊断与预测的技术、健康评估与管理等四个方面入手。详解如下:

2.2.1 网络设备运行信息的收集

在故障预测与健康管理系统中,利用系统的预测模型对收集到的网络设备运行状态信息进行分析和预测。故障预测和健康管理系统主要是将网络运行中的所有设备数据进行采集,在此过程中,为了减少通信的数量,需要选择对网络设备运行转台影响较大的参数量。比如网络设备的运行时间、系统运行时的温度变化、计算机CPU的最大利用率、内存的存储量、通信端口等对设备的运行状态影响较大的数据。以上几组变量可以反映设备的健康状态,因此在设计时,选用其作为预测模型的参数量。

在设计之时,经过团队研究,提出五点研究假设:

(1)网络设备的运行时间越趋近于或者超过发生故障的周期,系统认为发生故障的可能性就越大。

(2)网络系统的运行温度越高,被认为发生故障的可能性就越高。

(3)计算机CPU子运行时的利用率越高,被认为发生故障的机率就越大。

(4)在计算机运算时的内存存储量越大,认为发生故障的可能性越大。

(5)通信端口的丢包率、误码率越高,认为发生故障的可能性越大。

提出五点假设后,系统的主要研究过程就围绕以上五点操作。同时在系统运行过程中,设备信息的收集时间间隔也比较重要。当收集的周期较短时,可以迅速发现设备的异常,更有利于维护网络的正常运行。但同时也存在缺陷,即在频繁的信息收集所占用设备和系统的有效资源,加重了系统运行的负担。当收集数据的周期较长时,数据量会比较少,对系统的负担小,但是不能及时发现并解决故障问题,对于网络系统中的突发状况不能及时作出响应。所以在实验系统的设计中,将系统数据收集的间隔时间设置为5-6分钟。

2.2.2 系统数据的处理

系统在进行运行数据的收集时有可能会出现差错,这时就需要对差错数据进行过滤处理。首先需要去除超出系统取值范围的数据变化量,然后结合数据关联分析的结果,再去除不合理的运行数据,如流入设备的网络计算流量和流出的网络计算流量要保持基本的平衡,如果某一方流量特别大,可能就是数据出现误差。同时,系统还要对所收集到的数据进行同化处理,比如在网络系统中的通信端口,一般会将此环节流量转化为实际带宽占用比、端口误码率、丢包率等参数,而内存的存储会转化为占用率等,这样处理可以便于系统自动分析。最后再通过将所有收集的数据进行融合,对不同途径收集的数据进行融合分析,如通过对SNMP收集的数据与监控数据、系统日志等融合,保证系统数据库内数据的质量,去除错误的,弥补系统不足之处。

2.2.3 故障诊断与预测

系统中的故障诊断与预测是通过对网络设备在日常运行的状态、近期的健康运转程度、当前所收集到的参数量等,通过对以上数据进行诊断和预测的计算出结果,以此判断出网络系统在运行时是否存在故障现象或可能出现的问题。在诊断预测技术中采用了网络神经波动、灰色模型、向量机等机器的计算方法。其中网络神经波动的计算方式是风险最小的,其需要足够大的样本数据,在模型的推广能力上较差。而向量化是保证模型最大计算能力,较好地解决了小样本、网络非线性和维数等实际操作问题,但存在一定的限制,比如在故障诊断时,不能确定信息从而影响处理的效果。所以为保障故障预测技术的正常工作,本次设计的系统采用的是累积和控制算法(CUSUM),此计算方式是通过对检测到的统计平均值的变化,从而判断出结果。累积和控制算法常被运用到工业声场的监控中,因为此算法具有计算量小、检测迅速、操作简单等优点,不需要故障的样本就可以进行诊断。

在基于累积和控制算法的诊断技术中,当序列值超过定阈值时,网络系统发生异常,检测系统便会发出警报。而决定累积和控制算法的参数是信念值和门限值。门限值的取值和序列特征的取值上限有关,系统应该在序列值达到上限之前就會发出警报,或者在允许的上限运行时间内报警,其也可以通过上限计算得到,并保证正常的运行。在运行过程中,上限值需要根据设备的状态及时进行调整,当发生错误的报警时,可以适当调节其值的变化,以消除错误警报,还能通过调整值变改变系统的敏感度。

在使用累积和控制算法的过程中,还需要考虑到其特殊性,因为在进行系统异常检测的过程中容易产生累积和效应问题,系统从异常恢复到正常水平时,常会因为累积数据值的高度出现误报。解决这种问题的有效方法是将不再增加超过门限值的累积数据,等待恢复后降低其累积值,以消除误报。

2.2.4 健康评估和管理

设计的系统中健康管理板块是根据检测算法的结果进行判断网络的运行状态,对于运行不佳的设备将安排专业技术人员进行检查。在故障期间,系统将采取调整网络的基本配置、利用备份的设备,重新构建新的网络运转系统,以此保障网络的联通性,避免瘫痪。同时,系统通过对监控信息和系统日志记录的信息进行分析和判断,健康评估检测版块,对新故障及历史误报、漏报的样本进行重新梳理、判断,以此修正和建立完善的诊断计算环节。

在设计完善后,对所设计的网络故障预测与健康管理系统进行检验,发现当网络系统中出现CPU使用率较高或者温度上升等情况时,CPU的使用率并没有达到警报的标准,但是温度值却发生异常。所以实验结果是温度值的变化会造成系统异常,温度变化可以作为检测网络异常的重要依据。

3 结束语

在网络系统的故障预测和健康管理设计中,首先要明确所诊断和预测的标准,以及系统所实现的目标,再据此制定合理的监管系统。

参考文献

[1]彭宇,刘大同,彭喜元.故障预测与健康管理技术综述[J].电子测量与仪器学报,2010(01):1-9.

[2]李瑞莹,康锐.基于神经网络的故障率预测方法[J].航空学报,2008(02):357-363.

[3]许丽佳,王厚军,龙兵.基于贝叶斯网络的复杂系统故障预测[J].系统工程与电子技术,2008(04):780-784.

[4]张持晨.基于网络的社区居民健康管理模式研究[J].科技创新与生产力,2011(07):54-55+58.

作者简介

祝旭(1982-),男,湖南省益阳市人。硕士学位。现为湖南工业职业技术学院讲师。研究方向为网络管理、软件工程、大数据。

作者单位

湖南工业职业技术学院 湖南省长沙市 410208

猜你喜欢
网络故障健康管理关键技术
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
体质辨识在社区糖尿病“治未病”健康管理中的应用价值
Wireshark协议解析在网络故障排查中的应用
通讯网络故障类型研究