徐雪源
摘 要:传统的网络运维管理系统更关注网络中各网元的当前运行状态,网元状态评价主要依据是否已发生故障等信息,系统缺乏进行故障预测和健康管理(PHM)的能力。PHM技术可使传统的“事后维修”和“计划维修”转变为“视情维修”。最后,基于健康管理的故障检测技术应用,文章分析了其对网络管理系统运维效能的影响。
关键词:网络管理;故障预测;健康管理
1 短波通信应用背景
短波通信以其通信距离远、难以彻底摧毁等特点,在世界各国军事通信领域得到了广泛应用。以短波通信为主的通信网络是为提升通信保障能力而建的通信网络,为保障通信效果,其系统的稳定性和可靠性要求较高。同时,位于中央处理中心的中心管理和各节点处理中心的节点管理之间,地域分布较广 ,管理的网元设备和服务种类杂数量多,给系统的运维带来很大的工作量。此外,短波通信技术的迭代发展及新通信技术的推广应用,使得以短波通信为主的通信网络规模增大,系统的复杂性和不确定性更加突出,因此,系统的故障事件处理和系统巡检、巡修等方面面临更多的问题和挑战。
以短波通信为主的通信网络作为传统管理网络的一种,更关注的是网络中各网元的当前运行状态,网元状态评价主要依据是否已发生故障等信息,缺乏对网元的故障预测和健康管理的能力。在管理和维护方面,主要采取的是“事后维修”和“计划维修”策略。“事后维修”即系统出现故障后才进行维修,此时问题往往已暴露,系统的服务能力已受到影响;“计划维修”即按計划执行维护,直接受计划影响,计划过密容易维护过剩造成维修成本浪费,而计划过梳极易产生维护不及时,影响到系统服务能力。因此,就如何“事先”“恰当”“合理”“准确”地维护,将“事后维修”和“计划维修”演变成为“保障和维护性维护”,产生了故障预测和健康管理(Prognostic and Health Management,PHM)的概念。
2 PHM技术
PHM包含故障预测(Prognostics)和健康管理(Health Management)两层含义,“故障预测”是预测未来一段时间内当前系统的运行状况,即预测未来一段时间内当前系统的运行状况;“健康管理”是基于故障预测对系统准备开展的维修活动做出适当决策的能力。此外,PHM是通信网络故障的一种检测预测方法和维修维护策略,同时,也能带动传统网络运维管理思路的变化,能够将传统的故障管理向基于智能分析的故障预测管理转变,从而使得“事后维修”或“定期维修”的方式被“视情维修”取代。
PHM系统主要包括故障的检测、隔离、诊断、预测、健康管理和寿命追踪等功能,对复杂系统能够实现不同级别、不同层次、不同区域、综合的预测和健康管理,能够预测和管理通信系统运行状态,实时对通信系统的健康状况进行预测评估,能够尽早、有效地预测系统可能发生的故障,同时为系统的视情维修提供决策。
3 故障预测方法
PHM技术实施的核心是故障的预测评估。目前,业界主流的故障预测方法主要包括基于模型、基于数据驱动和基于统计可靠性的故障预测技术3种。
3.1 基于模型的故障预测技术
一种采用动态模型进行预测的方法,主要包括物理模型方法、卡尔曼/扩展卡尔曼滤波/粒子滤波以及基于专家经验的方法等,前提是要求通信系统的数学模型清晰且已知。通过建模方式,对通信系统的运行状况进行评估,以此预测系统的未来故障。其优点是能够深入通信系统本质,实现实时故障预测;缺点是对于故障模式和失效机理相对复杂的系统,构建相应的具备失效机理能力的数学模型较为困难。因此,其在实际应用中受到了很大制约,不适用于复杂系统或大型通信网络。
3.2 基于数据驱动的故障预测技术
一种基于状态检测数据进行故障预测的方法,能够通过状态检测数据对通信系统进行认识和学习,在无精准系统数学模型情况下,对通信系统进行预测评估,典型的预测评估方法包括人工神经网络(Artificial Neural Networks,ANN)、模糊系统(Fuzzy Systems,FZ)等。其中,神经网络是目前业界在故障预测方法和应用研究中最多、最热门的一种,有大量机器学习算法应用实施,常用的包括支持向量机(Support Vector Machines,SVM)、循环神经网络(Recurrent Neural Network,RNN)、决策树(Decision Tree,DT)和隐马尔可夫模型(Hidden Markov Model,HMM)等。该技术的特点是不需要具备通信系统数据模型,通过对采集数据的分析处理,挖掘其中的隐含信息,进行预测评估,从而避免了基于模型的故障预测技术的缺点,目前,已成为业界一种较为实用的故障预测方法。
3.3 基于统计可靠性的故障预测技术
一种基于故障历史数据进行故障预测的方法,从故障历史数据统计特性角度进行故障预测,预测所需要的信息均包含在故障历史数据所蕴含的一系列概率密度函数中。常用的方法包括贝叶斯方法(Bayesian Analysis,BA)、D-S证据理论(Dempster-Shafer Evidence Theory,DSET)、模糊逻辑(Fuzzy Logic,FL)等。最典型的应用分析便是著名的“浴盆曲线”,即通信系统在运行之初的故障率较高,运行一段时间后故障率可以保持在相对比较低的水准,再运行一段时间后故障率又开始上升,最后直到通信系统发生故障或失效。
4 典型案例应用
以中央处理中心(中心管理)和节点处理中心(节点管理)两级架构组成的典型大型通信网络管理系统为例,系统管理的网元设备分布地域广、类型复杂、数量众多,系统的稳定性和可靠性要求较高,给网络运维带来较大工作量和成本,同时,通信网络本身是以通信保障为主的新建通信网络,在实际网络运行环境下,其系统(含网元设备或服务)的故障模式、故障的解除方式、系统的可靠性等方面都面临无历史经验可借鉴、无历史数据可共享的局面。基于以上综合因素,结合通信网络本身的应用特点,系统可采用基于数据驱动和基于统计可靠性两种故障预测相结合的方式综合实现系统的故障预测和健康管理。可根据系统的应用层级适当选用不同的预测方法,同时,不同层级上可采用不同的预测方法等方式进行,其优势是可提高通信系统故障预测准确度的同时,实现健康管理,精减网络运维工作量。PHM技术实现框架可分为7个层次,如图1所示。
4.1 数据采集层
通信网络中各节点处理中心的被管网元设备或服务对其自身运行状态进行数据采集(包括设备自检数据、运行过程中的状态变更数据、人工输入的故障数据等),并依次上报本地节点处理中心的节点管理和中央处理中心的中心管理。
4.2 数据处理层
中心管理汇集全网各节点处理中心采集的数据,按照预设的数据处理规则进行数据预处理,并参照专家知识库的信息进行数据融合,对其进行特征提取和记录。节点管理要接收中心管理处理完毕的数据,作为本地的资源数据进行管理。
4.3 状态监测层
节点管理对网元采集的数据指标进行实时监测,并将其与预设的阈值进行比对,判别各网元的工作状态。
4.4 故障诊断层
节点管理对网元进行故障诊断,若发现网元故障,则触发故障管理功能,记录故障发生的网元、时间、故障位置、故障类型;若未发现网元故障,则继續进行实时故障监测,同时,节点管理将生成的当前故障及故障历史信息等上报中心管理。
4.5 故障预测层
中心管理对网元采集的数据以及故障历史记录进行综合分析,采用人工神经网络、支持向量机以及决策树等机器学习算法进行数据挖掘,预测未来有可能发生的故障。
4.6 健康决策层
中心管理从故障预测层接收到信息后,根据当前网元的运行环境和健康管理策略,在专家知识库中搜索与之匹配的解决建议,并给出运维计划建议,如开展预防性维护、技术状态检验等。中心管理将健康决策的数据发送给节点管理,由节点管理根据实情进行系统的健康维护。
4.7 人机交互层
中心管理和节点管理的人机交互层的主要功能是实现交互页面的可视化设计,向网管人员提供直观、简洁、美观的数据呈现视图,包括数据表、分析图、运维建议说明等。
5 结语
PHM技术可使传统的“事后维修”和“计划维修”转变为“视情维修”,能有效缩短维修周期、减少维修成本并提升系统可用性,该技术已成为以美军为代表的外军系统装备高效系统级维护、降低生命周期成本的关键推动因素之一。
采用基于PHM的网络运维管理技术后,网络管理系统能增加对系统和网元未来可靠性的预测能力,使网络管理能力由状态监控向健康管理转变。故障预测与健康管理能力的引入能有效提升系统完好性与可用性、提升维护保障效率并降低使用与保障费用。