刘英挺,朱睿杰,杜晓明,赵永利
(1. 西北师范大学 物理与电子工程学院,甘肃 兰州 730070; 2. 北京邮电大学 信息光子学与光通信教育部重点实验室,北京 100876)
全光网中采用可信度模型的故障定位技术
刘英挺1,朱睿杰2,杜晓明2,赵永利2
(1. 西北师范大学 物理与电子工程学院,甘肃 兰州 730070; 2. 北京邮电大学 信息光子学与光通信教育部重点实验室,北京 100876)
宽带业务的飞速发展推动着光网络向着超大容量、超高速率方向演进.与此同时,在透明节点增加、光电再生设备减少的全光网络中,多故障定位的非完全多项式属性、网络拓扑的复杂性以及承载业务的多样性使得故障定位变得尤为困难.如何根据收集的告警信息,确切地找出故障的准确数目及其位置成为网络管理人员的难题.针对全光网中故障与告警的关系展开研究,在多故障定位的相关方向上完成了采用可信度推理方法对故障与告警之间的复杂映射关系进行梳理,建立了一种多故障条件下全光网故障定位模型,并以此为基础,提出了基于模糊隶属度以及联合可信度的两种启发式故障定位算法.通过不同的网络拓扑以及与其他的算法对比,对这两种算法以及可信度模型的正确性进行了验证.仿真结果表明,该模型能够很好地处理多故障定位问题的不确定性,且定位性能优越,具有很强的实际意义.
全光网;故障定位;不确定性;可信度
光网络因其传输媒质具有超大带宽、较强抗干扰能力、传输损耗低等优点,一直作为主要的通信网络,广泛应用于大容量宽带业务的传输.随着电信技术的更新演进,光网络也如火如荼地发展着.与此同时,随着高速光网络的透明化发展,网络故障管理,尤其是光网络的故障识别与定位变得尤为困难.一旦光网络发生故障,若不能及时定位故障,进行保护恢复,则光网络将会损失大量数据,造成无法预估的后果,这就需要一种有效、精准的故障管理机制.故障管理机制包括故障甄别、故障定位、故障隔离以及故障恢复.考虑到文献[1-3]中提到的依靠电域的故障管理机制的不足及多链路故障定位的复杂性,从国内外现有的故障管理机制入手,笔者着重研究全光网中故障定位的关键技术,针对多故障定位中故障与告警的不确定关系,结合在人工智能方面应用广泛的不确定推理技术,通过引入可信度概念,建立采用可信度模型的故障定位机制,并基于建立的模型提出两种故障定位算法.
故障是造成光网络性能异常、网络服务质量下降的原因,也是产生告警事件的原因.告警,就是当网络中发生故障时,那些可被收集到反映当前网络异常状态的现象.网络中的故障是产生告警的根本原因,出现告警说明网络中可能出现故障,根据观测到的告警信息,并加以分析可以完成故障的定位.故障定位,就是根据收集到的告警信息,通过相关的方法确定网络中故障位置以及故障数量.故障往往是产生告警的诱因,因而一旦知道网络中确切位置发生故障,可以很快推断出告警,然而根据告警信息来反推故障发生的位置,难度却很大.一方面,网络拓扑的复杂性,即使一个故障也会产生大量的告警信息,而大量冗余告警信息增加了故障定位难度;另一方面,由于故障传播模型、业务部署的复杂性等因素,告警与故障的关系不是一对一的确定性关系,即使经过相关处理,得到有效告警信息,也不能确定地找到故障发生点.
除此之外,故障定位与网络中信令的传送方式以及控制方式直接相关.因而,必须在充分了解全网配置信息以及业务信息的前提下,才能有效地进行精确故障定位.首先对故障管理系统和故障定位机制进行总结.
文中将故障管理系统分成3类: 集中式管理系统、分布式管理系统[4]以及层次化管理系统[5].其中,集中式管理系统主要用于小规模的网络; 分布式管理系统因其可扩展性,适用于中等规模的网络; 层次化管理系统主要应用于大规模网络.将故障定位机制分成两类: 自动控制以及人工测试.其中,自动控制,是指当故障发生时,能够查询业务信息,并结合网络拓扑以及告警信息完成故障定位; 人工测试,是指当网络出现故障时,利用人力去排查确定故障发生的具体位置.
在集中式管理系统中,存在一个中心管理节点,该节点能够监控网络中所有监测器的状态,发送所有的控制信息,并收集所有监测器的告警信息,由主控节点完成告警的过滤、筛选以及处理,从而完成故障定位.在集中管理系统中,又可以划分成两种层次:扁平集中上级和扁平集中详细级,前一个层级主要完成光交叉连接(Optical Cross-Connect,OXC)以及边缘点监控,而后一个层级主要是对离散的光器件进行监控.
多故障定位中故障与告警之间的不确定性关系,使得多故障定位的研究点集中为如何处理告警与故障的关系,进而通过对这种关系的处理来有效完成多故障定位.文献 [6]利用模糊数学的思想,引入不确定性推理技术,利用可信度的概念来衡量告警与故障之间的因果关系.不确定性推理技术不仅能对确定性的推理关系进行建模,为故障和告警之间不确定性的推理关系提供建模方法,而且基于贝叶斯网络的不确定性推理技术将故障定位转换成概率问题,大大简化了故障定位推理的复杂度,所以基于贝叶斯网络的故障定位方法很适合应用到全光网中来实施故障定位.
首先,定义网络模型G(V, E, S),利用无向图来描述该拓扑结构,通过构造相应的邻接矩阵来存储网络拓扑中顶点与链路的连通关系,其中V代表网络中的节点集合,E代表网络中的边集合,并且链路均是无向的,S代表网络中承载的业务集合.任意节点集合中的节点都有一个节点权重P(d),P(d)代表节点d因为出现故障而产生告警的概率; 任意链路集合中的链路都有一个链路权重P(l),P(l)代表链路发生故障的概率,这里假设每条链路发生故障的概率是相同的,并且所有链路之间是否发生故障是相互独立的; 任意业务集合中的业务都可以标记为(id, route),其中,id代表网络中承载业务的id标号,route代表承载业务的路由信息,id和route能够惟一标记网络中的业务,通过某个业务的id和route信息,可以确定该业务经过的link数目,记为lnum,以及与该业务有相同的宿节点的业务数目snum.
在建立网络模型后,引用文献[7]的故障传播模型——仅考虑网络发生断纤故障,假设故障仅能被业务宿节点检测到,并且一旦某个链路发生故障,由于拓扑结构的连通性,以及业务配置的影响,那么其下游业务均受影响.
结合已经建立的故障传播模型以及网络模型,根据网络拓扑和已建立的光路,可以得到告警集合SAS以及疑似链路集合SF,并且可以得到相应的二部图.在上述工作的基础上,建立了可信度模型.可信度因子FC能够很好地衡量出基于证据推断出某些结论可信程度的大小,因而可以利用可信度来描述基于某些业务中断宿节点产生的告警信息,从而来推断具体是哪些链路发生故障,进而完成多故障定位,得到最可能的疑似故障链路集.因此,全光网中可信度模型可以建立如下:
式(1)代表某个业务的宿节点是node,当节点node因为某个链路发生故障而致使位于node处的监测器产生告警信息,利用FC(link, node)(以下简称FC(l,d))来衡量链路link是引起node告警的疑似故障链路的可信度.可以用式(2)和式(3)来分别计算该节点发生故障推断链路l是故障链路的可信度以及节点d发生告警的概率.
式(2)代表一旦链路l发生故障,节点d产生告警的可信度,其中,P(l|d)是当节点d产生告警,链路l是故障链路的条件概率,P(l)是链路的权重,即链路发生故障的概率.节点产生告警的概率,可以用式(3)来计算,其中l_num_i表示第i个业务经过的链路个数l_num.s_num是具有相同宿节d的业务个数.
图1 精简的链路结构
常见的链路结构可以精简为图1.其中节点D为业务的宿节点,那么经过该节点的业务要么是单业务,则这时业务的路由可以抽象为图1(a)所示的链路结构.当宿节点D的业务不止一个时,可以抽象为图1(b)所示的链路结构.以两个业务均以节点D是宿节点为例,当D节点是单业务的宿节点时,如图1(a) 所示,设每个链路的故障概率为P(l),那么D节点产生告警的概率是 P(D)= 1- (1- P(l))2,因为在图1(a)中,宿节点为D的业务S1经过的链路数2,每个链路正常的概率是 1- P(l),若节点D产生告警,则该业务经过的链路至少有一条发生故障,根据概率的相关性质,可以得到上述的结果.当多业务的宿节点相同时,先计算每个单业务全部正常的概率,宿节点产生告警,则代表至少有一个业务发生了故障,因而利用同样的方法,只需要得到具有相同宿节点的业务数目即可,进而可以推广到宿节点相同的业务数为两个以上的情况,计算结果如式(3)所示.
根据全概率公式,P(l|d)可以用式(4)来代替.在式(4)中需要注意的是,P(d|l)有两种情况,第1种就是链路l发生故障会引起宿节点d告警,因为有宿节点为d的业务经过链路l,因而链路l发生故障与宿节点d告警相关.另外一种情况是宿节点为d的业务不经过链路l,因而链路l发生故障与否,与宿节点告警不相关,在这种情况下,宿节点不会产生告警.结合网络的拓扑和当前承载的业务信息,式(2)可以用式(5)来代替,
接下来,讨论当多个告警由同一个故障引起时的情况.如果当多于一个受影响的业务是由同一个链路发生故障引起的,则根据收到的告警计算由多个告警组合证据推断链路就是疑似故障链路的联合可信度.以d1和d2告警,进而推断l就是疑似故障链路的联合可信度的计算过程为例,
根据可信度的推算方法,可以得到式(6)以及式(7).需要注意的是,文中的可信度模型,认为所有的告警信息均是由当前网络发生故障引起的,不考虑其他的影响因素.因而上述可信度模型中的告警证据都包含有故障的相关信息,不存在证据不存在的情况,因而修改上述不确定推理技术中可信度的值域FC(H,E)为[0,1]以及去掉可信度表达式中的负数部分.
图2 多故障定位流程
全光网中多故障定位流程如图2所示,文中主要提出两种采用可信度模型的故障定位算法,隶属度-可信度故障定位算法(Membership based Credibility Model Algorithm,MCMA)以及联合可信度故障定位算法(Combination Credibility Model Algorithm,CCMA).这两种算法均基于可信度模型,算法输入都是故障告警二部图,并利用贪婪策略筛选出疑似故障链路,进而完成多故障定位,但是处理各自算法的权重因子不尽相同,前者引入模糊数学中隶属度的概念,该方法中的权重因子是模糊隶属度以及可信度共同作用的结果; 后者联合可信度模型算法是利用组合证据的联合可信度来完成最终疑似故障链路集合的选取.
之所以选择贪婪策略是因为在可信度模型中,证据E的出现会增加结论为真的可信度,并且证据E的出现对H为真的信任度越大,则FC(H,E)的值越大.因此,有理由相信,利用初始证据,经过推理计算得到的最终结论的可信度FC(H,E),若FC(H,E)值越大,则证明此次推导过程越接近真实的场景,那么该链路将最有可能是故障链路,因而,文中提出的两种算法均采用贪婪策略进行故障链路的选择.
3.1 隶属度-可信度故障定位算法(MCMA)
该算法的提出是结合不确定性推理技术中两种重要的处理手段: 概率论以及模糊数学,在可信度模型的基础上,提出隶属度的概念,利用可信度与隶属度的双重约束计算MCMA的权重因子α,采用贪婪策略来选择具有最大权重因子的链路,则该链路就是最终的疑似故障链路,将该链路加入到疑似故障链路集合RF中,提出故障定位成功率Location Accuracy这个性能指标,来衡量最终算法的定位准确性,该指标的定义是成功定位的故障链路数与所有定位的故障链路数的比值,其值越高,代表该算法的定位越精确.
3.2 组合可信度模型算法
该算法的提出主要是利用可信度推理技术中组合证据的合取算法,由于多个证据可能同时推出同一个结论,并且具有不同的可信度.同一个链路故障,由于拓扑的连通性以及故障传播模型,会导致许多业务中断,这些业务的宿节点都会针对该链路的故障信息进行告警,因而利用证据的合取性质进行同一个链路故障与否的推导具有合理性.最终,同样利用贪婪策略来选择最大权重因子的链路,则该链路就是最终的疑似故障链路,将该链路加入到疑似故障链路集合RF中,利用故障定位成功率Location Accuracy这个性能指标,来衡量最终算法的定位准确性.该指标的定义与MCMA相同,都是成功定位的故障链路数与所有定位的故障链路数的比值,其值越高,代表该算法定位的性能越好.与MCMA不同的是,CCMA中的权重因子只由组合可信度决定.
在全光网网络仿真系统中,模拟了在NSFNet和SmallNet两种拓扑中采用可信度模型的故障定位算法的性能.该仿真运用的对比算法是文献 [6]中的模糊算法(Fuzzy Arithmetic,FA), 模糊算法在处理故障告警的二部图时, 是给每个故障告警的连接分配告警隶属度, 该连接的模糊隶属度越大, 代表该链路越有可能是故障链路.
图3 NSFNet拓扑下故障成功定位率图4 SmallNet下故障成功定位率
由图3和图4可以看到,随着业务量的增加,故障定位成功率均呈现增加的趋势,提出的两种算法性能均优于对比算法,且可信度权重因子 α=1 时,性能最优.这说明提出的两种算法能够很好适应故障数目的随机变化,有效利用故障信息,结合可信度推理技术,进行告警与故障的不确定分析,从而有效地进行故障定位.通过对比分析,还可以看到,这两种算法在稀疏度差别较大的两个网络中的故障定位性能都比较优越.因而,这两个算法具有良好的扩展性,可以适应不同的网络拓扑.与此同时,对比算法的性能受到故障数目的制约,当故障数目或是业务信息较少时,产生的告警消息必然也相应减少,此时,告警隶属度不能深入地挖掘故障与告警的不确定性关系,因而其故障定位成功率稍差.可信度权重因子 α=1,α=0 时,MCMA的算法性能也有差异,这是因为 α=1,相当于只考虑单个故障与告警连接的关系,而没有综合考虑触发告警数目的隶属度的因素,根据证据的推导,最有可能的故障链路一定会拥有最大的可信度因子.与此同时,却不一定能够触发最多的告警数目,告警数目的多少取决于当前的网络拓扑,以及业务配置情况,只能说具有最大的可信度的故障链路,有较大可能触发最多的告警数目.因而,引入触发告警数目充当疑似故障链路的证据进行推导,本身就存在模糊性,二者之间不存在必然联系,因此会导致引入触发告警数目时,其定位性能与不引入触发告警数目的情况的差别.同理,CCMA引入的组合可信度,也可能引入干扰性的告警,导致最终疑似故障链路的推导出现问题,影响了成功定位的故障链路个数以及故障定位成功率.
笔者将不确定推理技术引入到光网络故障定位中,牢牢把握多故障定位中故障与告警的不确定性特质,结合现有故障定位实现技术的不足,分析了采用不确定性推理技术实现多故障定位的可能性.重点研究了不确定性推理技术中采用可信度的推理方法,结合当前多故障定位存在的问题,实现了采用可信度的多故障定位技术,分析了其合理性,提出了采用可信度模型的两种启发式故障定位算法,通过不同的网络拓扑以及其他的算法对比,对这两种算法以及可信度模型的正确性进行了验证,实现了完整的采用可信度模型的多故障定位技术.仿真结果表明,该模型能够很好地处理多故障定位问题的不确定性,且定位性能优越,具有很强的实际意义.
[1] TAPOLCAI J. Survey on Out-of-band Failure Localization in All-optical Mesh Networks [J]. Telecommunication Systems, 2014, 56(1): 169-176.
[2]ALI M L, HO P H, TAPOLCAI J. Fault Localization in All-optical Ring Networks[C]//2014 19th European Conference on Networks and Optical Communications. Piscataway: IEEE, 2014: 159-164.
[3]XIONG Y, ZHANG H, FAN X, et al. Fast Fault Localization Mechanism Based on Minimum Dominating Set Clustering in WDM Networks[J]. Optical Switching and Networking, 2015, 18(1): 59-70.
[4]张新, 常义林, 孙方涛, 等. 一种改进的网络故障监测算法[J].西安电子科技大学学报, 2006, 33(3): 416-421.
ZHANG Xin, CHANG Yilin, SUN Fangtao, et al. An Improved Algorithm for Monitoring the Network Fault [J]. Journal of Xidian University, 2006, 33(3): 416-421.
[5]STANIC S, SUBRAMANIAM S, SAHIN G, et al. Active Monitoring and Alarm Management for Fault Localization in Transparent All-optical Networks[J]. IEEE Transactions on Network and Service Management, 2010, 7(2): 118-131.
[6]ZHAO Y, LI X, LI H, et al. Multi-link Faults Localization and Restoration Based on Fuzzy Fault Set for Dynamic Optical Networks[J]. Optics Express, 2013, 21(2): 1496-1511.
[7]STANIC S, SAHIN G, CHOI H, et al. Monitoring and Alarm Management in Transparent Optical Networks[C]//Proceedings of the 4th International Conference on Broadband Communications, Networks, Systems, BroadNets. Piscataway: IEEE Computer Society, 2007: 828-836.
(编辑:李恩科)
Mechanism for fault location based on the credibility model of all optical networks
LIUYingting1,ZHURuijie2,DUXiaoming2,ZHAOYongli2
(1. College of Physics and Electronic Engineering, Northwest Normal Univ., Lanzhou 730070, China; 2. Key Lab. of Information Photonics and Optical Communications, Beijing Univ. of Posts and Telecommunications, Beijing 100876, China)
Optical networks, driven by the rapid development of the broad band business, tend to be of large capacity and high rate. However, the complexity of optical networks topologies and the business deployment, together with the feature of NP-completeness make multi-link faults location difficult in a transparent optical network. How to diagnose the accurate faults number and location without doubt is becoming an intractable problem. We have studied the uncertain relationship between alarms and fault in all optical networks. A multi-link fault location model in an entire transparent optical network is established. Then we advance two heuristic fault location algorithms based on the credibility mode above, which could measure the credibility of multi-link faults location reasoning process according to alarms quantificational. Finally, we build up a simulation system to simulate the network model and fault propagation model in entire optical networks and obtain the fault location module to verify the correctness of multi-link faults location model based on credibility and the performance faults location of two algorithms. Simulation results show that the model solves the uncertainty of the fault location effectively, and two algorithms display the good performance on the accuracy of fault location.
all optical networks; fault location; uncertainty; credibility
2015-07-24
刘英挺(1982-),男,高级工程师,博士,E-mail: liuyingting666@163.com.
10.3969/j.issn.1001-2400.2016.06.026
TN913.7
A
1001-2400(2016)06-0152-06