电信网管性能资源数据管控系统的研究和设计

2012-10-08 01:58黎春强董裕艺
电信科学 2012年3期
关键词:网元网管监控

黎春强,董裕艺

(1.中国移动通信集团广西有限公司 南宁530022;2.中国移动通信集团广西有限公司梧州分公司 梧州543002)

1 引言

传统的网络管理正在进行变革和完善,网络管理的重心更偏重于服务质量的提高。“以客户为中心、能够灵活开发新业务、快速响应市场”成为新的电信网络管理系统的核心。从管理方法上来看,传统的电信网络管理系统习惯于将数据进行简单的分类,分门别类地进行管理,由业务人员选择相应的数据对其进行分析并得出结论,对网络管理系统的要求相对较低,但需要业务人员进行大量的后续分析工作,对于规则较为复杂或者实时性要求较高的业务来说,时效性问题就十分突出。

随着通信技术的不断进步,中国移动通信集团(以下简称中国移动)的网络规模越来越大,也越来越复杂,承载的业务也在不断地进行丰富和扩展,其网上业务除了传统的话音eNode B业务之外,还包括了GPRS、基于智能网的预付费业务、VPN业务、短信业务等多种业务。为了支撑庞大的用户群,中国移动建成了覆盖整个中国大陆31个省市的多业务、多制式的通信网络,网络中运行着几十种制式不同的网络设备。可以预见在未来的几年中,中国移动网络通信系统仍然会保持高速发展的势头,且移动网络提供的业务重点在逐步地由话音eNode B业务向数据业务的方向发展。中国移动作为部级企业,需监控其各省市公司在全国的运营情况,包括各地的配置信息、各种设备的使用情况以及各种业务的发展状况。

中国移动通信集团广西有限公司 (以下简称广西移动)话务网管系统目前处于控制阶段向统一集成阶段的过渡时期,此阶段的特征是:企业已经深刻意识到数据质量管理的重要性,并且逐渐出现正式的组织进行数据质量管理,实现管理集中化,处理标准化,信息资源充分共享,着力消除企业部门壁垒和信息孤岛。因此,对于网管系统来说,建立全面、系统的数据质量监控体系,负责对数据质量全过程管理显得尤为重要。一方面由于市场竞争加剧,运维部门和业务部门对数据质量的要求日益提高,网管数据的使用者,如集团网管、上层网管系统和省、地市分析人员对网管系统的数据质量管理水平提出了更高要求;另一方面现阶段3G全业务运营全面开展,2G/3G融合,IP化改造,网络规模日益扩大等造成网元升级、割接、变更频繁,数据质量保障难度加大,网管支撑系统和各网元、业务平台的数据不一致现象日益明显,数据的时延、缺失、异常、不一致等影响数据准确性的故障日益增多。现有的数据监控手段已不能满足使用部门对数据准确性的要求,必须按照新一代运营系统与软件(NGOSS)的理念探讨一种新的数据稽核监控方法。

2 新一代运营系统与软件简介

国际电信联盟(ITU)提出的电信管理网(TMN)模型,长久以来一直指导着电信领域的网络管理建设。但是由于ITU-T对TMN标准化的活动是一种自上而下的过程,即从网元管理到业务管理,从而导致目前在企业管理层面的标准匮乏。

在电信行业新的竞争形势下,电信网络管理需求的变化主要来自业务客户对电信运营活动的介入。业务客户和业务提供商之间服务等级协定的签订和执行改变了传统的电信运营模式,面向客户、操作一体化和端到端的商务处理过程呼之欲出。网络管理系统不再仅仅是一个独立的运行维护系统,而是作为电信企业整个运营管理中不可分割的组成部分。电信管理论坛(TMF)对TMN管理层次模型进行了深入的研究,提出了面向业务管理的电信运营图(TOM)和以其为开发起点的基于新一代运营支撑系统(NGOSS)的电信运营管理解决方案。

NGOSS是研究人员从电信运营企业的核心业务流出发,通过彻底分析业务流程以及研究OSS(operation support system,运营支撑系统)建设的相关技术,提出了一整套能够完全支撑电信业务,并能在业务变化过程中平滑过渡的OSS建设框架。在网络技术和计算机技术的驱动下,NGOSS将成为适应新时期运营商需求的解决方案,并且NGOSS的一系列文档、信息模型和代码,能够帮助开发商迅速开发支撑系统,完善日益复杂的电信OSS。NGOSS的建设目标是分析、研究企业核心业务流和信息技术的同时,提出一套指导OSS建设的系统框架,通过设计即插即用的OSS组件方式,满足电信运营商对OSS建设的需要。这种变革使OSS的设计和开发从满足个别运营商的个体需求扩展到分析电信运营商的整体需求,从而使OSS的设计开发进入一个崭新领域。

3 广西移动网络管理系统现况

为满足中国移动集团的要求,广西移动现有的网管系统监控全区承载各种业务的设备信息,包括GSM网的MSC、OMC,智能网的 SCP、SMP等。同时,网管系统通过104张自定义报表,按照GSM、GPRS、短信、互联互通和智能网的业务分类,将业务量以不同的时间粒度、地理粒度呈现,以便满足集团公司对其业务的发展情况进行分析的需求。

3.1 广西移动网络资源管理的范围

广西移动资源管理的范围包括:

·空间——区、地市、机楼、楼层、机房等;

·设备——交换机(MSC、GMSC、TMSC1、TMSC2)、HLR、STP、BSC、BTS、CELL、GGSN、SGSN、PCU、SMC、SMP、SCP、VC、IP、机架、OMC;

·模块——信令模块、中继模块、信令中继模块;

·端口——信令端口、网元通信端口;

·连接——link、linkset、trunkgroup。

网管系统通过对这些资源数据的采集,可以提供资源利用率的分析功能。资源利用率包括交换设备的利用率、无线设备的利用率、短信设备的利用率以及GPRS设备和智能网设备的利用率等。这些设备利用率可以充分体现出资源的使用情况,让用户能够合理地配比资源。

同时,系统提供对资源数据进行查询和统计的功能,可按照时间、厂商、设备类型等多维度进行查询和统计,用户也可以自定义设置单条件查询和组合条件查询。

3.2 广西移动网络资源管理的性能数据

性能数据是话务网管系统最重要的数据之一,能够反映各种业务的业务量情况,为公司决策层制定运营策略提供参考。

目前广西移动系统性能管理的范围包括:

·交换子系统——TMSC1、TMSC2、GMSC、MSC、VLR、HLR/AUC等设备;

·基站子系统——BSC、基站(BTS)、小区(cell);

·中继路由——中继群 (trunkgroup)、信令链路组(routeset)等设备;

·GPRS系统——GGSN、SGSN以及原有GSM网元中为GPRS作了修改的部分(包括BSS和HLR、VLR/AUC);

·移动智能网设备——SMP、SCP、IP、VC/SDP、SSP;

·短信系统——短信中心(SMSC);

·信令网设备——HSTP、LSTP。

为保证性能数据的完整性、准确性和及时性,系统采取主动采集以及补采相结合的方式。不同的设备类型的性能数据体现了不同业务的展开情况,因此采集的数据经过汇总之后按业务种类呈现在上层报表页面中。用户根据性能数据对各种网络性能及多个网元的多个指标进行统计分析,包括无线、交换、GPRS、智能网、短信等主要性能指标的分析,经过分析以后可对其未来的发展趋势做出预测。

3.3 广西移动网络管理系统的性能资源数据

3.3.1 网管系统的性能资源数据获取

话务网管系统通过一种或多种采集方式,获取网络配置、性能等原始数据,经过解析、计算和汇总入库后,通过消息或文件方式上传给集团网管及省内其他上级网管(如省内的经营分析(以下简称经分)系统)。目前省级话务网管数据采集方式包括如下几种:

·采集OMC厂商网管侧的网元原始文件;

·采集OMC系统数据库;

·通过OMC网管系统连接网元进行指令采集 (直连网元除外);

·直连网元采集原始文件/话单数据。

数据从网元侧经历厂商网管到亿阳综合网管,涉及测量、传输、存储、归一化、计算、汇总、入库、呈现等多个过程,性能数据、告警数据和资源配置数据的采集、处理方式、实时性要求等各厂商都不相同。同时,厂商网管侧上传的数据,根据网元厂商、数据特性等的不一致,有文件、数据库及指令等多种采集方式。

由图1可以看出,网元数据从生成到最上级的集团网管的数据呈现,需经过多个设备节点和处理环节,每个节点都可能造成网管数据缺失、数据不一致或异常。网管系统数据稽核监控管理的目标是切实保证数据流采集层最底层的网元/网元网管系统的网管数据质量,进而保障上级网管(省级综合网管、集团网管或其他上级网管)的数据质量。

从数据流转角度,网元侧、厂商网管侧和上层网管侧的采集、处理、上传都存在影响因素。总体来看,网元侧由于网元分布范围广、数量多,涉及的变更、维护操作、工程等较多,因此存在较多影响数据质量的原因。除大面积网元数据缺失或者OMC侧采集机出错这些原因以外,网元侧造成的对数据质量的影响相对较小。

3.3.2 网管系统中性能资源数据的特点

(1)设备种类繁多,数据格式复杂

目前对于移动全网来说,设备种类繁多,包括核心网、信令网、无线网等多种不同业务设备。同时,同一种网元设备会存在多个不同厂商的产品,不同厂商网管设备北向接口的数据格式和数据类型都有可能是不同的,对于性能资源数据的处理非常复杂,往往要经过预处理以及多次的映射和转化。

(2)数据量大

由于网管系统对性能资源数据采取集中管理的方式,因此每天网管系统需要处理的性能资源数据量十分巨大。以无线网为例,目前广西移动无线网拥有基站几十个,小区几百个,每天需要集中采集处理的数据达到几百万条记录数,数据处理的及时性、准确性就显得非常重要。特别是网络出现故障,影响了通话质量时,网络分析人员必须在最短的时间内发现问题,并及时决策处理,这更加大了网络分析人员的工作压力和工作难度。

3.4 广西移动网管系统目前存在的问题

根据目前广西移动网管系统性能资源数据采集的机制,挖掘厂商网管存在的问题并进行了分析,发现厂商网管侧存在的问题有以下3个方面。

·系统稳定性问题。由于目前网元规模日益庞大,造成厂商专业网管负荷加重,从而引起网元侧产生的性能测量数据网管无法及时处理,出现漏采或者性能数据采集时延的情况。例如厂商网管数据采集进程吊死、网管负荷较高等。

·网元侧话务量统计存在缺漏问题。由于缺乏对网元侧统计定制、维护的规范性,造成网元侧部分话务量统计失效或者漏定制,从而导致性能资源数据缺失。

·厂商设备侧不可控。一方面是缺乏对厂商维护考核规范,另一方面由于各厂商维护规范和数据质量管理规范的某些具体管理规范不一致(比如设备故障历时、网元割接操作等),导致很多上层网管呈现数据质量问题,厂商层面变得不可控。

上层网管侧涉及影响数据质量的因素有网络连接异常、软硬件问题、网管上层算法问题、资源数据更新配置问题、系统自身处理逻辑问题等,而目前对于这些问题的发现基本都是通过用户的投诉或者维护人员在做例行维护作业时发现,故障发现的平均时间超过6 h,时延情况比较突出。

4 稽核监控机制的性能资源数据质量管控系统的实现

稽核监控机制的要点是保障数据质量,而合理设置数据质量监控点是保证数据监控质量的基础。为了设置合理的数据质量监控点,笔者将监控的要点贯穿在数据的采集汇总过程中,具体流程见图2。

数据质量监控的要点包括数据及时性、数据完整性、数据一致性和数据的波动异常情况,而数据及时性、数据完整性又是其他监控要点的基础,只有数据及时完整到达上层网管,才能扩展到后面的一致性和波动、异常情况的监控和分析,实现对数据质量从来源到呈现的全面稽核。数据质量监控的基本视图如图3所示。

在数据质量监控过程中,对发现的问题,以告警或者报表的方式进行呈现,同时按及时性、完整性、一致性、波动异常的不同要求,定制自动派单规则,对相关厂商、部门进行派单,达到发现问题、反馈问题、处理问题、解决问题的目的。

为了保障数据稽核工作的常态化、实效化,还需要将监控过程实现自动化处理,以达到降低人力投入和人为误差的目的。

4.1 资源数据监控

4.1.1 监控方法

话务网管的数据从采集到呈现经历了OMC、话务网管、集团网管和经分系统等几套系统的数据传送,并不是每套系统都要全部监测,具体监控的指标如表1所示(注:是表示需要监控,否表示不需要监控)。

4.1.2 资源及时性监控

表1 资源数据监控指标

(1)OMC侧

2G的OMC的资源数据监控全部用数据库接口方式,TD的OMC采用文件接口方式。

OSS及时性的检测方法:每日上午7时检查OSS的adjustment任务是否有出错告警。告警标题为 “xxOSS的CAN-adjust任务《任务名称》失败”,告警级别为重要告警。

华为的M2000、TDOMC及时性的检测方法:每日上午7时检查当天是否有同步失败告警产生。同步任务失败告警的告警标题为“任务执行失败告警”,告警级别为1级,定位信息=任务名称=网元存量数据同步;执行结果=任务处理部分成功。

(2)省网管侧

检测资源上层表数据入库时间是否早于8时。检测资源对象为:基站(或 Node B)、小区(或 utrancell)、中继群,针对不同资源类型监测规则不尽相同。

(3)集团网管

检测每日凌晨1时30分是否有数据文件生成。

文件路径:/export/home/pniadmin/pni3/dat。

文件名:CMREPORT_$year-$month-$day_$hour:$min:$sec_$pid.xml。

资源及时性监控的流程如图4所示。

4.1.3 资源完整性监控

(1)省网管

检测数据库表记录数与OMC侧记录数一致,针对不同网元类型监测规则不尽相同。

(2)集团网管

采用文件接口方式监控,检测数据文件记录是否与省网管资源一致。

4.1.4 资源一致性监控

一致性检查要求通过可配置的用户界面,根据需要分别配置两套网管系统(含OMC)的数据库的登录方式、数据库名、表名、字段名、算法。两套系统其中一套为主本,一套设为副本。

4.1.5 资源性能波动性监控

基于主动监控系统,波动的阈值可以随机变动。波动监控指标包括:基站、小区、中继群。监控的系统包括话务网管和经分系统。

4.2 性能数据监控

4.2.1 监控方法

监控方法如表2所示(注:是表示需要监控,否表示不需要监控)。

表2 性能数据监控指标

4.2.2 性能及时性监控

(1)OMC 侧

仅监控文件接口(只有爱立信OSS有文件接口),网元的统计文件(GXWGZX0X)在生成40 min后到达为及时,监控以OMC为粒度,只要某个OMC有某个网元的某个文件不及时到达(即该OMC的及时率小于100%),则为不及时。OSS存放统计文件的路径为/var/opt/ericsson/sgw/outputfiles/apgfiles/sts。

(2)METRICA 侧

文件接口:要求在统计时间结束后,70 min内完成

OMC侧统计采集。

·服务器:10.184.13.28。

·检测路径:/metrica/npr/spool/NPM/gsm-ericsson_oss9.0/$OSS_ID/$day/$hour。

·检测规则:进入检测目录,执行ls-lrt命令,检测最后一个文件的时间戳是否超过阈值。

(3)省网管侧

数据库接口:要求在统计时间结束后,90 min内完成OMC侧统计采集;100 min内完成数据汇总呈现,120 min内完成集团数据上报。

(4)集团网管侧

文件接口:检测每小时上报日志是否按时在2 h内更新。要求2 h准实时考核数据完整率不低于100%。

·每××:55时分检测是否有数据文件生成。

·服务器:10.184.14.133。

·文件路径:/export/home/pniadmin/pni3/dat。

·文件名:PMREPORT_$PM_$year-$month-$day_$hour:$min:$sec_$pid.xml。

性能及时性监控的流程如图5所示。

4.2.3 性能完整性检查

(1)METRICA 侧

·文件接口:要求现网网元统计在网管指标需求的objtype必须齐全。

·服务器:10.184.13.28。

·检测路径:/metrica/npr/spool/NPM/gsm-ericsson_oss9.0/$OSS_ID/$day/$hour。

(2)省网管侧

采用数据库接口,检测网管数据库表中数据记录数是否与现网网元一致。检测方法如下:资源的数据都对应有性能数据,则为性能完整。性能的完整性以上层资源表为依据。

(3)集团网管侧

采用文件接口,检测上报数据文件中数据记录数是否与上报资源数一致,要求日报数据完整率不低于100%。

·服务器:10.184.14.133。

·文件路径:/export/home/pniadmin/pni3/dat。

4.2.4 性能一致性监控

一致性检查要求可配置,用户可以根据需要分别配置两套网管系统(含OMC)的数据库的登录方式、数据库名、表名、字段名、算法、时间段等。两套系统其中一套设为主本,一套设为副本。一致性比对的指标包括:话务量、掉话率、无线接通率等。

4.2.5 性能波动性监控

数据波动以主动监控作为功能主体,关键指标为话务量、掉话率、无线利用率。主要对话务网管和经分系统进行监控。

数据波动性检查全部采用数据库接口,检测网管上层表、送到经分系统的数据与历史数据相比波动是否超过阈值,率值指标是否存在负数、超百情况。

5 性能资源数据质量管控系统的设计

5.1 总体设计

数据质量管控平台的总体框架如图6所示,该数据质量管控平台的层次从下往上划分如下所述。

·外部接口层:算法管理、话务采集平台、话务汇总平台。

·数据层:包括话务数据库和数据质量的独立数据库。

·分析处理层:数据质量的后台处理程序。

·展现层:数据质量的应用呈现。

5.2 主要技术方案

·数据质量管控平台,采用BS结构;

·用户在Web Server客户端设置测量方案和阈值,保存到数据库表;

·在被监控点(采集平台、汇总平台)部署测量适配器,依据测量方案和阈值设置,对被监控点进行数据和任务核查,将结果存入库表,这是研究项目的关键技术;

·Web Server从库表查询测量结果,以报表等形式呈现给用户。

5.3 数据质量管控系统的实现

5.3.1 数据流向监控

数据流向主要是监控网管系统的性能资源管理涉及的各类数据库表的数据流向。对于原始层OP完整性、TPD完整性、TPC完整率、TPA完整率,[95,100]——绿色,95以下——黄色,为空——红色(没有采集)如图7所示(其中虚线框表示绿色覆盖区域,实线框表示英色覆盖区域)。对于OP时延,45 min以内——绿色,45 min以上——红色;TPD时延,45 min以内—绿色,45分钟以上——红色;TPC时延,60 min以内——绿色,60 min以上——红色;TPA时延,60 min以内——绿色,60 min以上——红色。

5.3.2 数据及时性核查

数据的及时性,是指各个环节的数据在完整的基础上的及时,是以性能统计的开始时间为基准,根据各个事件

的时长,得出不同的时延,如图8所示。

5.3.3 数据完整性核查

数据的完整性指性能周期采集的完整性。以网管的资源记录条数,作为基准。参考完整性是指某类数据和该类相关联的数据一同比较,以其中一种数据类型为准去判断另一类数据记录是否完整。如话务网中通过性能数据和资源数据对比,发现差异,可以资源数据为参考,检查性能数据完整性,如图9所示。

5.3.4 数据合理性核查

指标数据设定阈值,根据阈值进行越界判断。参考公式如下。

正常:某指标合理性=原始指标值>(1-%N)×设定值&&指标值<(1+%N)×设定值;否则异常。其中的阈值(设定值)为前一天同时段的值,如图10所示。

5.3.5 数据一致性核查

一致性指数据经过不同处理环节后的变化趋势以及

变化趋势的方向,主要通过核查时间点的某处理环节数据与其相关联的下一环节数据相比的波动,如图11所示。

5.3.6 部省接口上报监控

监控部省接口文件的完整性和及时性。部省接口的完整性以前一天同时段的文件大小为基准。及时性以前一天文件的生成时间为基准,如图12所示。

6 结束语

本系统将新型的数据稽核理念投入到数据质量的保障工作中去,采用自动化的手段替代人工的手段发现数据质量问题并及时处理。本地通可以清晰地呈现话务网管数据流向,在各个环节(采集层、汇总层、应用层)的及时性、完整性、准确性和一致性,有效地降低运维人员的维护工作量。通过告警前转、短信前转方式及时通知运维人员,并通过补采、补汇等措施保障数据质量,减少人工分析日志、定位问题的工作量。通过算法管理,把算法这个黑匣子透明化。针对原始数据缺失对上层的影响性分析以及上层异常结果指标的向下追踪,准确地对KPI指标算法进行管理。

经过一段时间的实施,广西移动话务网管的数据质量得到了明显的提高,网管数据传送故障发现时间平均从原来的6 h减少到目前的1 h,统计数据的准确率从之前的93%提高到目前的99.2%,因此该系统有着很好的推广应用前景。

1 龙湘明.对发展NGOSS的思考.中兴通讯技术,2004(2):37~41

2 钱鸿生,黄立平.NGOSS的演进及对我国电信企业的支撑作用.通信企业管理,2006(4):70~71

3 邓洁霖.NGOSS方法论及其应用原则.电信科学,2004,20(7):80~81

4 电信管理论坛/中国电信上海研发中心.新一代运营支撑系统与软件NGOSS:数据模型、体系架构与测试.北京:人民邮电出版社,2005

5 罗建国,楚建梅.电信管理网(TMN)物理体系结构.中国人民共和国邮电部.YD/T 934-1997,1997

6 罗建国,楚建梅.电信管理网(TMN)功能体系结构.中国人民共和国邮电部.YD/T 960-1998,1998

7 孟洛明.电信管理网原理及应用.北京:北京邮电大学出版社,1998

8 陈桂汉,孙沁真.综合电信管理解决方案.北京:电子工业出版社,2002

猜你喜欢
网元网管监控
The Great Barrier Reef shows coral comeback
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
一种全网时钟同步管理方法
给水网管的优化布置研究
“五制配套”加强网管
PDCA循环法在多重耐药菌感染监控中的应用
Java EE平台在综合网元管理系统中的应用研究
网管支撑系统运行质量管控的研究与实现
S1字节和SDH网络时钟保护倒换原理