一种基于子网拓扑的故障分析方法

2018-02-28 09:24李尧辉霍龙浩何境宇
电信工程技术与标准化 2018年2期
关键词:传输网网元子网

李尧辉,霍龙浩,何境宇

(中国移动通信集团广东有限公司,广州 510623)

通信网络迅猛发展及网络规模日益扩大,使大量通信网元每天产生海量告警信息;同时,在电信行业网络管理集中化趋势下[1,2],大量告警监控任务集中在少量监控人员上。因此,对从海量告警中快速定位、处理故障的手段和能力提出了更高的要求,特别是通信网络底层无线、传输设备量大以及告警量较上层设备多,手段与能力的提升更显得尤为迫切。

目前,主要通过告警关联[3,4,5]、智能预处理[6]等手段实现海量告警的压缩和智能化处理,协助定位故障。文献[7]提出一种无线故障原因预处理方法,基站退服时通过关联分析各类告警,根据停电、传输设备、传输线路等原因按优先级预处理对故障进行智能定位。文献[8]中提出一种引起大面积基站退服的传输故障定位方法及装置,针对大面积基站退服场景,通过找出传输故障引起的退服基站,分析其与承载这些基站的传输电路、传输光路的对应关系,从而定位故障光路信息。总的来说,这些方法通过告警关联等预处理手段,提升传输故障、退服、大面积退服等典型故障场景的定位效率。但这些方法一般侧重关联规则挖掘或针对某一特定场景故障定位,并不通用批量退服、批量脱管或停电等无线、传输故障场景定位及故障影响面分析;而且基于传输电路、传输光路与退服基站的对应关系需要有传输电路中间段每一跳路由的群路口信息才能实现,而现网电路资源信息往往只有首末两端支路口信息没有完备中间段路由群口信息,因此实现难度较大。

本文提出一种基于子网拓扑的无线、传输故障分析方法,该方法对无线、传输告警流关联传输子网,并对告警流进行以同一传输子网为单位的渲染分析定位,并提出基于树图回溯法的业务影响面分析,从而提高无线、传输故障定位效率,增强故障影响面掌控能力及资源调度能力。

1 基于子网拓扑的故障分析方法

基于子网拓扑的无线、传输故障分析方法主要步骤如下:第一,获取现网退服、市电、LOS等无线、传输特定告警流;第二,对获取的告警流匹配传输子网,得到每个告警网元关联的传输子网;第三,对告警流进行子网拓扑渲染分析定位故障点,即以传输子网为单位渲染呈现无线、传输告警流;最后,基于树图回溯法分析故障的业务影响范围。具体的分析流程图如图1所示。

图1 基于子网拓故障分析方法

其中,获取特定告警流指获取指定时间段内、指定区域、指定设备、指定类别的告警流。一般在告警监控、故障分析的场景下,指定区域是某个地市或者地区;指定设备可以是一个或多个基站或传输设备,实际应用场景也可不指定设备;指定类别即指定无线、传输的重要告警类别,重要无线告警类别一般包括退服告警、网元断链告警、S1断链告警、市电告警、低压告警等,重要传输告警类别一般包括网元脱管告警、LOS告警等。获取特定告警流最终目的是从监控的告警出发,通过上述各维度选出数量异常的告警流或与当前故障最为相关的特定告警流用作后续的分析。

获取特定告警流后可以根据不同类别告警流通过不同方法获取对应的传输子网,具体如图2所示。对于传输专业脱管告警、LOS告警等告警可通过告警上报的传输网元所属传输子网直接得到关联的传输子网。对于无线专业指定告警、退服告警、网元断链告警、S1断链告警可通过基站及端口获取电路编号,通过电路编号进而获取电路首末两端传输网元,通过首末两端传输网元所属传输子网得到关联的传输子网;市电、低压告警可通过基站所属机房信息获取所在机房,进而获取同机房传输网元,从该传输网元所属传输子网得到关联的传输子网。

图2 告警获取相关传输子网流程图

获取特定告警流、关联传输子网后,便可定位告警最为集中的一个或多个传输子网,进而进行子网拓扑渲染分析、定位故障点。每次选取一个传输子网进行渲染分析,通过多次选择实现多个子网分析。先通过资源信息呈现所选取子网传输拓扑,拓扑由该子网各个传输网元链接形成,并呈现该子网中环路下带子环(呈现子环下带网元个数),如图3所示。根据告警流关联的传输网元信息(告警流关联传输子网过程均会关联对应传输网元),将告警渲染到子网拓扑上,通过不同颜色渲染代表不同类别告警。对选定的传输子网分无线、传输两个图层进行渲染分别对应两个专业的故障,无线图层渲染无线告警、传输图层渲染传输告警及动环告警。当一个网元有多个告警时,可渲染优先级较高的告警,按告警的重要程度可将优先级进行如下设置,无线图层退服告警>网元断链告警>S1断链告警>低压告警>市电告警,传输图层脱管告警>LOS告警>低压告警>市电告警。另外,可在拓扑下方列出传输子网的所有指定告警流告警信息,点击传输子网的某个传输网元时可列出渲染在该图层该网元的网元信息及告警信息。由此可较为清晰呈现子网拓扑的告警情况便于发现故障点,对于无线退服、网元断链、S1断链告警,可以联动市电、低压告警以及传输告警在拓扑的分布位置,定位市电、传输或设备等原因造成的退服或断链;无线或传输市电、低压告警以及传输的LOS、脱管告警,可通过其在拓扑的位置判断业务影响面。

图3 子网拓扑渲染分析示意图

2 基于树图回溯法的故障影响面判断

根据上述子网拓扑渲染分析,可较为直观对批量告警的故障点进行定位,并根据渲染的子网拓扑定性判断业务影响的范围。在此基础上,能通过树图回溯法进一步定量判断故障业务影响范围。先建立告警网元列表,将获取指定告警流关联的传输网元放入告警网元列表;同时建立业务影响网元列表用以储存业务可能受影响的传输网元。业务影响网元列表建立时为空,通过以下方法找出业务受影响的传输网元放入列表:从告警网元列表中选取一个告警网元,并同时将其从告警网元列表剔除,判断该告警网元是否在业务影响网元列表内若是则重新选择(首次判断时业务影响网元列表为空可直接进行后续判断);若不在则判断其是否在拓扑的单链上、或是否环路上唯一告警网元,若是上述两种情况之一则将该网元及其下挂网元列入业务影响网元列表后重新选择告警网元,若告警网元是环路上非唯一告警网元则进一步通过树图回溯法找出业务影响网元列入业务影响网元列表,重复上述步骤直至告警网元列表为空。最后对业务影响网元列表中网元去重,得到可能受影响的所有传输网元,进而关联出下带的可能受影响的无线网元等数目。

其中通过树图回溯法找出环路非唯一告警网元的业务影响网元,如图4所示。具体以故障网元为根节点NE,与其相邻网元作为第1层子节点,查找并构建第1层子节点集{子节点网元1,子节点网元2,…,子节点网元N},遍历第1层子节点集并以第1层子节点的相邻网元(剔除上一层节点)构建第2层子节点集{子节点网元1.1,子节点网元1.2,…,子节点网元N.N},如此循环,形成树状拓扑。树状拓扑的每一条分支以子网上联传输网元(连接该子网与上一层级子网的传输网元)终结或以子节点除上层网元外没有其它相邻网元终止。构建树图后,从某一最底层叶子节点回溯找到第一个带告警的传输网元(此处指带告警传输网元而非在告警网元列表内的网元,部分带告警传输网元可能在寻找影响网元过程中被剔除出告警网元列表中),第一个带告警的传输网元到根节点间的所有传输网元为业务影响网元列入业务影响网元列表中。若某一支路只有根节点一个网元为告警网元,当终止节点为上联网元则该支路只有根节点列入业务影响网元列表,当终止节点为普通传输网元则整条支路网元列入业务影响网元列表。遍历所有最底层叶子节点找出该环路所有影响网元。图4树图回溯法中,若环路中有套环情况,需将所套子环解成单链避免进入死循环,即当检测到某两条支路有两个相同网元(根节点外)时,则将两条支路合并成一条支路,合并支路的网元取两条支路的并集。

图4 树图回溯法判定环路业务影响面

对树图回溯法找环路非唯一告警网元的业务影响网元举例如图5所示。环路有A-J10个传输网元,其中A和F为告警网元,D为上联传输网元。以故障网元A为根节点,第1层网元为子节点B、H;第2层为G、C;第3层为F、I、D,其中D为上联传输网元故该支路终止;第4层为J、E,J无其它相邻网元该支路终止;第5层为D,D为上联传输网元故该支路终止。形成树状拓扑后,从各支路的底层节点(D、J、D)往上回溯,A-H-G-I-J只有根节点为告警网元且终止节点为普通节点故全部列入受影响网元列表,A-B-C-D只有根节点为告警网元且终止节点为上联传输网元则只有A列入受影响网元列表,A-H-G-F-E-D回溯第一个告警网元为F故A-H-G-F列入受影响网元列表,受影响网元列表去重后又A、H、G、F、I、J 6个网元。

通过上述方法可定量得出故障可能影响的传输网元数目以及下带的基站数目,并根据具体受影响网元列表中的网元重要程度调度资源优先恢复重要网元。

3 总结

本文针对底层无线、传输网络告警量大及故障难以定位的问题,提出一种基于子网拓扑的故障分析方法,该方法可以通过获取指定告警流,对告警流匹配传输子网进行渲染分析故障定位,在子网渲染分析的基础上进一步通过树图回溯法定量分析业务影响范围。根据实际应用测试,对2017年1-2月两起批量退服故障进行分析,有效协助监控人员10min内定位故障传输子环,支撑业务影响面分析。该方法能有效提高故障定位效率、分析故障业务影响范围,根据业务影响范围进行资源调度,提升监控及故障处理能力。该方法不局限某一种的特定告警而覆盖无线、传输重要告警,而且依赖简单的资源信息达到挖掘告警共性的效果,有较好的推广意义。

图5 环路非唯一告警网元案例

[1] 矫秀梅. 推进集中故障管理提升网络生产效率[J]. 科技与创新, 2014,20:137-138.

[2] 李永强, 张瑞. 面向用户感知的集中化性能管理模式探索与实践[J]. 移动通信, 2016,40(14)34-37.

[3] 赵振东, 黄楠, 李紫涵. SDH系统网路故障的告警关联分析[J],2012,33(236):63-66.

[4] 徐前方, 阚建杰, 李永春. 一种具有时序特征的告警关联规则挖掘算法[J],2007,24(3):23-26.

[5] 张永华. 基于大数据技术的电信网络告警关联分析设计与实现[J], 2016,29(4):18-23.

[6] 张满卢, 卓君, 冯剑明. 传输告警自动预处理方法研究[J],2014,9:102-104.

[7] 柴宗弘, 韩建友, 马英香. 一种无线网络故障原因预处理方法及无线网络故障工单派发系统: 104270779[P]. 2015-01-07.

[8] 魏丽红, 聂宇田, 王歆波. 一种引起大面积基站退服的传输故障定位方法及装置: 104254095[P]. 2014-12-31.

猜你喜欢
传输网网元子网
一种简单子网划分方法及教学案例*
子网划分问题研究及应用
一种全网时钟同步管理方法
浅析干线传输网升级改造勘察注意事项
子网划分的简易方法
OTN传输网的建设及应用探究
寿光电力SDH传输网优化设计
OTN在福建高速公路传输网中的应用
基于安全协议的虚拟专用子网研究
Java EE平台在综合网元管理系统中的应用研究