张雪超,张力伟
(中国移动通信集团河北有限公司,石家庄 050021)
话务网管作为支撑网络运行分析的重要系统,主要包含了告警监控、配置管理、性能分析、智能巡检、主动监控等功能,大大提升了网络运行维护效率、网络分析水平和管理能力,在日常网络运维中发挥着越来越重要的作用。性能分析作为话务网管的重要模块,其数据的准确性、及时性、完整性是进行网络质量分析的重要依据,现有话务网管系统由于各种原因经常出现网元性能统计缺失现象,并通过WED应用的KPI完整率进行缺失统计,以及系统使用过程中发现缺失问题,才通知维护人员进行核查,这种以“问题驱动”、“出现问题后再解决”的被动工作方法,很难适应日常业务分析要求,导致问题发现不及时,处理滞后,数据无法补采,无法为网络运行分析提供完整的数据。
如何将网络管理工作变被动为主动,及时监控,实时发现问题,加速问题解决进度,迅速恢复业务,成为系统亟待解决的问题,以满足网络分析、网络优化、网络规划和决策的需要。
话务网管采用了3层架构模式,分为采集层、处理层、应用层,每一层出现问题都将影响数据质量。如何定位问题预警点,可从话务网的整体结构入手进行分析。通过分析每层数据流向,发现影响性能统计的因素如下:
设备侧数据质量直接影响话务网管对外提供的数据服务质量。设备上北向接口数据时延过长、超过采集关键性能指标(KPI,Key Performance Indicator)的时间要求,都将影响网管数据的及时性;北向接口若存在统计数据缺失,将影响网管数据的完整性;北向接口数据异常,将影响上级网管数据的准确性。
采集程序异常导致数据未能及时采集,如何及时发现成为解决问题的关键。
同步程序异常导致临时数据库中数据不能入到性能库,直接影响性能监控和统计分析可用性。
数据汇总异常影响各关联网元数据的正确生成。
在以上因素中,任何一个环节出现问题都会影响网管的数据质量。当用户使用系统数据以及检测应用KPI完整率时,若发现数据缺失,通知维护人员解决问题时,维护人员需要逐点核查日志,逐步检测采集、同步、汇总过程中存在的问题。这种处理问题的方式周期较长,不利于问题快速定位和及时处理,致使客户感知较差。
为了解决话务网管性能统计完整性问题,可采用智能问题预警方式代替问题驱动的被动工作方式,通过采用话务网管端到端的监控工具,以提升维护效率。
在本方案中,根据系统中数据流向,进行逐层分析,通过数据输入输出判断监控点,整理数据监控流程,做到端到端的监控,使维护人员通过可视界面实时了解数据质量,及时掌握数据在哪一个环节出现了异常,并能够快速定位问题影响范围和原因。通过分析数据输入输出点,得到4个重点监控点:
(1) 厂家侧数据完整性检测,厂家数据作为数据源,是保障KPI的关键;
(2) 临时库数据完整性检测,临时库作为网管中数据存储的第一步,其数据的完整是保障性能库完整的基础;
(3) 性能库底层表完整性检测,是触发汇总的关键;
(4) 数据汇总检测。
通过以上分析,得到数据监控流程如图1所示。
图1 数据监控流程图
针对以上分析的检测点,逐点实现监控,达到快速定位问题、及时解决问题的目的,以下逐点介绍实现原理。
由于网络设备复杂多样,各个厂家向上级网管提供数据的方式不同,通过梳理厂家侧接口方式,根据不同接口实现厂家侧数据完整性检测。
通过对文件接口的分析,定义文件接口数据检测机制:
(1) 以小时为粒度,通过定制任务定时检测接口文件;
(2)与网管服务器上的资源信息进行关联,记录在网的网元配置信息;
(3)根据配置信息,提取设备网管上的文件列表;
(4)进行分析对比,记录对比结果;
(5)生成接口文件,进行自动派单。
通过对厂家文件完整性检查,及时发现厂家问题,并通过自动派单的主动方式通知维护人员及时解决厂家数据问题,缩短了由于厂家数据不完整导致的KPI缺失时长,提升了客户感知。
图2 文件接口检测流程图
通过对数据库接口的分析,定义数据库接口检测机制:
(1)以小时为粒度,通过定制任务定时检测数据库接口数据完整性;
(2)与资源信息进行关联,对在网的网元进行检测;(3)根据检测条件,关联配置信息,对厂家侧数据库进行完整性检测;
作为区域性开发与建设的政府融资平台,承担着融资及建设的重要职能,虽有部分经营项目,但投资的基本是公益性项目,了无收益,获利风险大。
(4)将厂家数据库返回结果与在网的网元进行分析对比,记录结果;
(5)生成接口文件,进行自动派单。
为了提高数据采集的效率,并且保障数据采集的及时性,话务网管数据采集可部署在多台采集服务器上,且每台采集服务器有一个临时库,具体如图4所示。
每个采集服务器通过采集任务管理将不同厂家不同设备的网元性能指标采集解析后存储到各个临时数据库中,临时数据库数据为数据流向的第二个检查点,为了能够准确的掌握每一台采集机上任务的执行情况,梳理临时库的数据检查原理如下:
(1)由于各网元的指标繁多,各厂家支持情况不同,在数据库中做细化到指标粒度监控不可行,故选取对每个采集任务的网元个数进行监控,以网元配置数量为依据,与临时库中入库数量进行对比分析,数量一致即证明数据完整,不一致则呈现告警;
(2)由于一个采集机上临时数据库中数据表很多,需要被监控的表,原则上只监控重要业务表;
(3)针对临时库统计的情况,在每一个采集机上部署相应数据监控程序,该程序定时去扫描MDDB中入库的网元数量,并和被采网元的资源数量进行对比,如果入库量和资源数据量一致则说明采集完整,否则认为性能采集不完整,将对比结果存储到监控表中,供监控界面调用。
图3 数据库接口检测流程图
图4 临时库图
性能库底层数据完整之后,将触发数据汇总,将数据按时间粒度、空间粒度、网元粒度进行汇总,最终检测点为应用表数据完整性,将检测结果存放在监控表中,供监控界面调用。
通过以上数据检测,将检测结果以矩阵图形式展现,并分为一级视图、二级视图、三级视图,达到数据质量可溯源、可分析、可视、可控的目标,实现了端到端的监控。
一级试图实现总体上功能展现,提供不同数据输入输出点的选择,如图5所示。
图5 矩阵监控一级视图
选择数据检测点,可以下钻到不同类型不同厂家,如选择临时库检测,如图6所示。
选择华为无线,可以下钻检测每个OMC的数据完整情况,如图7所示。
系统采用矩阵图形式呈现了每一个检测点各个厂家网管的数据完整情况,对数据异常现象以红色预警呈现,通过可视化视图使网管维护人员清晰地发现和定位问题出现点,改变了以往逐层进行问题排查的盲目工作方式,主动地发现解决问题,并采用自动派单及时通知相关维护人员处理,缩短了问题解决时间,提升了网管数据质量。
图6 矩阵监控二级视图
图7 矩阵监控三级视图
话务网管作为网络运维支撑的重要手段,在日常维护、网络规划中发挥着重要作用,而原有通过KPI完整性和用户使用发现问题的被动方式已经不能满足解决问题及时性的需要。本文提出了一种话务网管端到端的数据质量监控方法,在原有网管架构的基础上,通过对数据流向的分析,进行数据输入输出点的监控,并通过自动派单、矩阵图告警展现等主动发现问题方式提升问题解决的及时性,缩短了各种原因导致的数据不完整的影响时间、影响范围,提升了客户感知,同时使维护工作由被动转化为主动,提升了维护效率,大大减轻了维护工作量,每月网管问题数量明显下降,有力支撑了网络运营分析工作。