【摘 要】为了提高大容量网管监控系统中告警处理的实时性,对设备级并行度故障告警处理方法进行了研究,并做了相关应用实验,通过对比实验数据可知,该方法适用于海量设备监控管理系统,且能极大地提高告警处理效率。
无线网元管理系统 告警管理 设备级并行度
1 引言
网元管理系统(EMS,Element Management System)[1]是管理特定类型的一个或多个电信网络单元(NE,Network Element)的系统,而无线网元管理系统(WEMS,Wireless Element Management System)就是在无线通信环境中使用的一种网元管理系统。随着无线通信技术的发展,管理网元种类呈现出多样化的态势,网元数目急剧增加,大容量网管监控系统成为一种新的技术领域。为了保证故障告警处理的实时性,大容量网管系统中告警处理方法的效率保证成为亟待解决的主要问题之一。
以4G设备为例,其通话质量及数据通信速率远优于传统通信设备,随着网络结构升级及服务质量要求的提高,运营商对设备状态监控的实时性提出了更高的要求。当大批量设备集中上报告警且告警较密集时,单一运行的故障告警处理模式[1]无法满足大容量设备监控的要求,如千级、万级的设备数量[2]。按行政区域划分进行并行处理的方法[3]对告警处理效率有所提高,当设备均衡分布时能达到最佳配置(即告警处理达到行政区域级并行度),但依然无法完全满足性能要求,尤其当设备区域分布不均时可能会出现极恶情况(即告警处理效率相当于单核串行处理效率),因此需要一种更为高效的并行告警处理方法。
本文将研究一种在大容量的无线网元管理系统中处理大量不同类型设备集中上报告警的方法,该方法能将设备告警的处理粒度达到设备级并行度,可极大提高网管系统的并行处理效率,保证告警上报处理的高效性与实时性。
2 WEMS告警管理方法
告警管理作为WEMS的一项重要管理功能,能为运营商及时地提供详尽可靠的设备故障告警数据,告警业务处理单元按照用户预配置的过滤规则处理告警信息,屏蔽不影响业务使用的告警,确认已知原因的告警,清除正在处理的告警,显示用户终端所关心的告警。这些告警过滤规则可以帮助用户集中精力处理关注业务。
为了克服现有技术存在的问题和不足,提供了一种可实现设备级并行度的告警处理方法,同时适合于集中式管理和分布式管理系统,极大地提高了海量告警处理的效率。该方法的主要思路框架如图1所示:
(1)建立告警解析池和告警處理池,告警解析池的并行度根据协议帧解析例程的个数进行配置,告警处理池的并行度根据告警处理例程的个数进行配置。
(2)设备主动告警上报或网管告警同步后,将设备上报或应答的告警加入设备告警协议帧队列。
(3)告警解析池进行并行处理,获取告警协议帧,解析各类设备告警,将其加入待处理告警队列;若主动告警上报,则发送告警应答给设备。
(4)针对待处理告警队列,告警处理池以设备级并行度进行并行处理,使用负载均衡方式分配设备告警,将告警存储入库,上报告警给操作终端。需要注意的是,同一时刻同一设备仅允许分配一个处理例程处理告警,不同设备分配到不同处理例程并行处理告警。
其中,告警解析例程按照设备类型分别进行解析,解析成预定义数据结构的待处理告警;告警处理例程按照负载均衡方法来处理设备告警,将待处理告警处理成预定义数据结构的告警日志,存储到数据库并上报操作终端。在实际应用过程中,告警解析池的配置根据设备告警上报速度设定,告警处理池的配置根据设备数量级、告警处理速度设定。
3 WEMS应用设计
设备级并行度的告警处理方法不仅适合于广泛使用的集中式网管系统,也适合于发展迅猛的分布式管理系统。设备级并行度的告警处理方法主要是针对设备主动告警上报或告警同步的一种并行处理方法,该方法最大并行度可达设备级,极大地提高了告警处理效率。WEMS应用于集中式管理系统的实施过程如图2所示,具体操作步骤如下:
系统在具体应用时,可采用计算机软件技术在告警业务处理单元实现自动处理流程。另外,技术人员可自行设置告警屏蔽规则、告警确认规则、告警清除规则和告警过滤规则。当进行告警屏蔽/确认/清除/过滤时,若符合告警屏蔽规则,则不予入库且不予上报操作终端,若符合告警确认规则,则更改告警为确认状态,若符合告警清除规则,则更改告警为清除状态,若符合在线授权用户的告警过滤规则,则告警入库且上报操作终端,否则不予上报。
4 试验结果与分析
在实际应用过程中,不同的服务器硬件配置会产生不同的处理速度,基于SUN FIRE X4640服务器进行测试,根据测试结果分析出最优配置。
4.1 告警解析池配置分析
告警解析池的配置取决于设备的告警上报速度(RR,Report Rate),通过协议帧解析例程数目M进行配置。协议解析处理时不区分设备,仅区分设备类型。目前,WEMS所管理的设备类型包括宏基站、核心网、Nanocell基站、Nanocell网关、车载CPE、时钟服务器等,根据先进先出(FIFO,First In First Out)策略均衡处理。告警解析池配置如表1所示:
4.2 告警处理池配置分析
告警处理池的配置取决于设备数量级(DC,Device Count)、告警处理速度(DR,Deal Rate),通过告警处理例程数目N进行配置。进行告警处理时需区分设备,同一时刻每台设备有且仅有一个例程可处理告警,不同设备可划分到不同例程中并行处理。告警处理池配置如表2所示。
网元管理系统主要是作为省级网管集中部署,比如湖北省的行政区域有武汉市、孝感市、荆州市等地级市,行政区域数(RC,Region Count)即为该省所有地级市的个数。根据早期按行政区域划分的并行处理方法[3],配置如表3所示。
表1、表2是设备级并行度告警处理方法的配置结果,表3是行政区域并行度告警处理方法的配置结果。经过对比,行政区域划分的并行处理方法告警处理速度最高可达980 条/s,而设备级并行度方法的告警处理速度最高可达3 000 条/s,后者在处理效率上有大幅提升,确保了处理的实时性。
5 结论
WEMS告警处理采用设备级并行度的故障告警处理方法,该方法在海量设备监控管理系统中能极大地提高告警处理效率,概括来说具有以下优点:
(1)在大容量网管系统中,海量设备以设备级并行度处理告警,可真正实现高效性;
(2)设备管理与设备通信协议、设备类型等特征相分离,可同时管理多类设备,具有管理统一性;
(3)同时适合于集中式管理、分布式管理的EMS系统,具备普遍适用性。
由此可见,WEMS告警处理方法可用于所有需要处理网元故障的EMS系统,尤其适用于海量设备管理系统。未来,在分布式应用场景下如何提高故障告警处理效率将是该领域研究的一个重要课题。
参考文献:
[1] 门健. 网络告警管理系统的设计与测试[J]. 空军工程大学学报: 自然科学版, 2004,5(4): 63-66.
[2] 王洋. 集中监控模式下的信息通信网络故障管理探索与实践[J]. 电信科学, 2015(1): 164-170.
[3] 刘玮,吴玲琦,陈高华. 一种网管监控系统及其实现并行处理故障告警的方法: 中国, 201010201270.0[P]. 2010-11-03.
[4] 罗明,孟传伟,黄海量. 基于加权频繁模式树的通信网络告警规则挖掘方法[J]. 计算机工程, 2016(4): 190-196.
[5] 龙昱磊. 基于SNMP协议的网络管理告警振荡抵消策略的研究[J]. 广西通信技术, 2012(3): 11-14.
[6] 苏醒,张璐. 一种光传送网告警分级预警算法[J]. 光通信研究, 2016(3): 16-18.
[7] 孙延涛,杨芳南,王迎春. 端到端的通信网综合网络管理系统[J]. 北京交通大學学报: 自然科学版, 2010(2): 90-94.
[8] 许劭庆,马彪,安海英. 基于数据挖掘的网管告警处理方法研究[J]. 软件工程, 2016(12): 17-19.
[9] 王焘,张文博,徐继伟,等. 云环境下基于统计监测的分布式软件系统故障检测技术研究[J]. 计算机学报, 2017(2): 397-413.
[10] 傅剑虹. 地铁专用通信集中告警管理系统的建设[J]. 城市轨道交通研究, 2014(8): 139-141.