集约化移动无线网络网管系统建设探讨

2017-03-12 20:17王兵沈建军罗萍
移动通信 2017年2期
关键词:集约化大数据

王兵++沈建军++罗萍

【摘 要】针对LTE网络网元数量和设备提供商多、版本升级频繁以及集约维护等问题,中国电信建设了LTE无线网络一级架构的综合网管系统。通过对运维集约化形式下4G无线网络管理系统建设面临的问题进行分析,介绍了综合网管系统的系统架构、接口和数据等方案,总结了系统建设和应用推广过程中面临的问题,并提出了相应的解决思路,从而实现全网数据集中、能力统一、快速部署、降低投资等目标。

【关键词】网管系统 需求管理 集约化 大数据

doi:10.3969/j.issn.1006-1010.2017.02.005 中图分类号:TN929.5 文献标志码:A 文章编号:1006-1010(2017)02-0021-06

引用格式:王兵,沈建军,罗萍. 集约化移动无线网络网管系统建设探讨[J]. 移动通信, 2017,41(2): 21-26.

1 引言

网管系统是网络维护管理的重要手段,考虑到网络规模、用户规模以及技术水平,国内传统的网管建设一般为二级建设方式,即省级和集团级分别建设,各省系统相互独立,通过规范的集团-省接口将汇聚后的数据信息上传给集团级网管。这种模式下省级系统和集团级系统两级网管中的数据有不同颗粒度,数据量在技术可管理范围内,但各省网管系统的功能、数据模型、分析算法等各方面都可能不一致,为全国一张网进行统一管理造成一定难度。

随着网络技术、大数据处理技术、存储技术的逐步成熟,构建新一代移动无线网络综合网管系统也成为可能。中国电信从2014年开始建设新一代移动无线网络综合网管系统,目前网管系统已完成架构搭建和数据集中,初步实现了全国统一能力和统一模型,走出网管系统IP化、扁平化、融合化、智能化的第一步。

2 4G无线网络管理面临的问题

目前各大运营商基本已建设了一张覆盖全国的4G无线网络。4G网络具有以下特点:

(1)网元数量多:扁平化的LTE网络中无线基站和拉远端是无线网络的末梢节点,由于频段高,为达到覆盖效果,基站和拉远端数量比3G时代的基站数量更多,根据公开数据,三大运营商的基站数量总和超过百万,小区数量更是数百万之多。

(2)设备商多、设备网管数量多、数据种类多:目前无线网络设备提供商(FDD和TDD)为7家左右,这些设备商在硬件架构、软件架构、数据产生机制、功能实现机制方面都有自己的设计,与上层网管系统的接口也有很大区别,导致在网络管理中面临各方面的不一致性。

(3)网元多版本并存、升级频繁:无线网设备的版本升级一般每年不超过2个,考虑到网元数量和省级安全要求,版本升级会持续一段时间,网络上一般会存在多版本共存的现象。不同版本的设备以及北向接口会有所区别。

(4)集约化要求:集约化工作是运营商提升运营效率的重要举措,在网络管理方面不仅体现在组织结构方面的调整,网管系统的集约化建设、配合集约化组织结构的远程操作维护、故障精确定位以及派单量压缩等也是新一代网管需要面临的问题。特别是面临多设备商时,多个设备网管的独立实现跨设备商的统一网络管理更是急需解决。

(5)数据分析要求:多网元、多业务、多用户带来越来越多的网络数据,端到端分析、精细化经营等需求越来越多的跨专业数据关联分析,而由于业务形态和市场变化都很快,这些数据分析已经突破了原有的思维模式,呈现出各种不确定性和探索性,不再局限于某类固定数据范围和分析算法。

3 集约化一级网管建设方案

3.1 网管架构

网管专用承载网络示意图如图1所示。其中,OMC(Operation and Maintenance Center,操作维护中心)是设备商的网管系统,省采集网关通过设备网管的北向接口汇聚无线网络的数据,通过VPN(Virtual Private Network,虚拟专网)网络建立的独立承载网络,确保网管在维护操作管理的安全性。

3.2 接口方案

综合网管的数据来自设备网管的北向接口输出,从数据源采集到综合网管对外的数据输出服务包括三层接口:第一层接口为设备网管OMC与采集网关之间的接口(简称为I1),采用设备商的私有接口,采集全量(地域、时域)的数据源;第二层接口为省采集网关与统一应用平台采集层接口(简称为I2),由省采集网关进行省数据的汇聚与文件级标准化,保证原始数据的完整性;第三层接口为统一应用平台的对外接口(简称为I3),由综合网管对数据进行解析、分析、处理后形成标准化的数据,通过标准化的接口进行数据共享和数据输出能力,为其他系统提供跨设备商的标准化数据源,同时也根据分析需求从其他系统采集数据。具体如图2所示。

不同层次的接口按照数据类型可分为实时告警数据和准实时文件数据,按照数据内容可分为告警、性能、基礎资源、测量报告、呼叫记录等,按照数据加工可分为原始数据和标准化数据,形成服务于不同应用不同需求、实现跨专业跨设备商的全方位无线网络数据输出能力。

3.3 网管系统部署方案

作为一级网管系统,统一应用平台日处理文件数据在TB级别以上,原始告警量平均每日接近1000万条,传统的系统硬件架构已经很难满足用户的查询速度要求。以Hadoop为代表的大数据处理技术经过互联网界近十年的实践和应用已经逐步成熟,形成文件存储、数据计算、资源管理等丰富完整的产品和社区生态链,成为事实上的大数据平台技术的自然选择。

网管系统硬件架构示意图如图3所示:

统一应用平台的硬件平台基于公共云资源池搭建,根据软件分层处理功能,利用云资源池中虚拟机和物理机组成几个相对独立的集群,分别对外承担数据采集、数据处理、数据库服务、应用和门户服务、报表服务、GIS服务等能力,随着网络规模、用户规模和数据规模的不断扩大,各能力集群的规模可进行无缝动态调整。

3.4 数据规划

网管系统的处理对象是数据,这些数据包括传统的告警数据、基础资源数据、网络运行指标数据。此外,还有LTE无线网络特有的MR(Measurement Report,测量报告)、CDR(Call Detail Record,呼叫详细记录)等数据。这些数据从多方位描述无线网络的网络资产、设备运行状态、网络运行质量以及用户体验,都是进行网络管理和网络运营分析的基础。

从数据格式和实时性要求来看,这些数据可分为准实时文件型和实时消息型,其中告警数据是实时消息型,其他数据基本是准实时文件型,产生文件的时间粒度从5分钟到24小时不等;从数据量来看,文件型数据大致可分为大数据和小数据,其中MR、CDR数据全网每日原始文件超过20 TB,占所有数据量的95%以上,是网管系统中的“大数据”;从使用需求来看,除了告警的实时呈现外,对数据的分析还包括目标详单的查询和基于固定模板的统计汇总。针对不同的数据特征应用需求,各类数据需要基于不同的工具或组件实现。

网管系统软件架构示意图如图4所示:

传统的性能数据、资源数据、参数数据等数据量较小的结构化数据采用Oracle数据库,MR、CDR数据量较大,基于开源大数据库框架Hadoop实现,利用HBase进行统计分析,同时通过Hive进行单条记录查询。而告警数据为实时流数据,基于Storm进行告警消息的标准化、与基础信息的关联以及实时分析等。

3.5 网管功能

传统网管能力主要包括三个方面:网络规模、运行状态监控和运行质量分析。在集约化运营维护大背景下,利用一级平台进行跨设备商的操作也是必要功能。同时,随着运营商从网络维护到网络运营的转型,独立的无线网分析远远无法满足业务支撑和用户支撑的需求,端到端联合分析能力也是网管建设的目标之一。

3.6 管理对象分析及基础信息模型

LTE无线网络中设备形态已不同于2G/3G时代,其最重要的典型特征在于扁平化以及射频拉远站的大量使用,网络管理对象下沉,RRU(Radio Remote Unit,射频拉远单元)和小区成为最基础的网元粒度,具有相对完整协议栈的基站依然是管理对象,但由于BBU(Building Base band Unit,基带处理单元)池的大量采用而弱化,表现在其数量的大量减少。

根据LTE网络的这一变化,形成天线、RRU、BBU、小区、站址为中心的管理对象。其中,天线、RRU、BBU是物理对象,是资源、现场维护、故障处理的基础单元;小区是逻辑对象,是网络优化的基础单元;站址对象确保物理对象和逻辑对象的精准定位。这些管理对象之间通过特定标识进行关联,以全面支持资源管理、维护操作、问题定位和性能优化。具体如图5所示:

图5 基础信息模型关系示意图

根據以上规划以及维护优化需求建立LTE基础资源信息表,每个管理对象一张表,在每个管理对象中根据维护需求增加相关属性,比如:在BBU表中包括厂家、制式、S1配置带宽等,在RRU表中包括端口数量、所服务营业部等,在天线表中包括天线的一些特定属性及经纬度信息等。

目前基础资源信息表中已包含超过500个属性,根据维护和优化需求,可组成面向不同维护角色、不同分析角度的资源子模型。

4 互联网时代网管建设思路

4.1 从私有接口到标准接口

近年来,大数据这个概念已经甚嚣尘上,但是数据量并不是无线移动网络一级网管建设最大的难题。事实上,数据以及数据接口的不规范、不稳定这个大数据领域最常面临的问题也是一级网管建设最大的挑战。

从接口协议上看,可采用从私有接口到标准接口逐步过渡的建设思路。3GPP以及3GPP2组织投入在各网元之间接口的研究力度很大,但对网管方面的研究远比不上对网络的研究,在建设网管时,NMS(Network Management System,网络管理系统)与EMS(Element Management System,网元管理系统)之间的数据接口一直存在标准接口和私有接口两种方案。NMS与EMS之间标准化接口不仅需要对网络的深刻理解,也需要对网络组织、网络接口协议、软件编程、数据库等都有深入研究和积累。而在网管建设初期,网管方面的技术积累一般比较少,采用私有接口可跨过漫长的标准化过程,根据设备商的自有能力快速部署,并可通过跨设备商的横向分析逐步学习到相对健康高效的接口方案。

但采用私有接口时网管建设工作量相对较大,对一级系统而言这个问题尤其突出。以中国电信为例,从设备网管到省采集网关、从省采集网关到统一应用平台,全网超过100个设备网管、200个省采集网关服务器共接入了7个设备商三大类数据,平均每个设备商有2个以上的在网版本,并不断发生版本滚动更新,任何数据源头、数据传输环节中的变化都会引起网管中数据的波动,导致数据异常,很多时候需要人工一一排查,否则影响网管的正常使用。因此,从长远考虑,独立出数据中间层、标准化NMS接口是一级网管建设的最终方案,使网管建设能够专注于数据分析和能力建设。

4.2 渐进式网管建设

在网管建设中,重点在于功能设计以及支撑功能的数据。从功能设计来看,一级网管面向全国运营维护所涉及的多种角色包括基础资源管理、网络监控、运营分析三大类以及一线操作角色、本地网/省/集团的技术管理角色等,形成二维角色矩阵,每个矩阵元素的要求都不一致;从数据来看,数据来源于不同设备商(目前7个设备商、TDD/FDD两个技术体制),数据种类丰富(目前包括基础资源信息、告警实时消息、性能数据、测量数据等),形成面向不同功能又相互关联的数据集合。

面对这样的功能规划和数据集合,网管建设不宜激进,应稳步推进。首期以完成网络搭建、关键数据采取以及基本网管能力为目标,满足运营维护基本要求,达到网管能用;第二期可根据首期的应用情况,扩大数据采集范围、提升数据质量、优化功能操作、增加辅助数据和维护监控管理功能、做好需求管理,达到网管好用;第三期则在稳健的数据基础和管理手段上,在应用上进行扩展,在架构上进行优化,进入迭代增强的良性循环中。

4.3 敏捷式需求管理思路

在传统的二级网管建设中,省级网管只承载省级需求,由省公司主导建设,集团公司主导集团网管建设,承载集团级需求,用户需求直达网管。

一级网管系统一般由集团公司主导,而用户则从集团一直到本地网甚至区县一线维护人员,因此最大的困难在于如何发现和体现用户的真正需求。传统的需求调研方法是通过集团发文征集分公司需求,而被征集者往往人数和角色都很有限,所以看上去很规范严谨的需求管理往往流于形式,造成应用与实际需求不符等。

由于集团和省的需求不同,31个省在组织结构、运维体系、数据口径、网络运行评估要求、维护技术力量等各方面也存在不一致性,在需求管理中面对统一与个性、基础与提升、近期与长远等之间的各种矛盾时,既要考虑为维护力量薄弱省份提供基础网管能力,又要兼顾技术强省的个性分析监控要求;既要为省级用户提供基础监控流水查询,又要为集团用户宏观展现全网运行质量;既要为技术主管提供报表服务,又要为一线技术人员提供基础数据进行线外加工分析。在传统的需求调研阶段,这些需求很难全面展现出来,而在网管系统真正投入运行、直接面对用户时才会逐步表现出来,并呈现出发散特征。

为了避免这种情况,除集团层面的战略性需求之外,其他需求管理可在一定程度上借鉴互联网应用的敏捷思路。在网管建设早期,以最基础能力快速推出网管,同时辅助开放式问题管理平台进行需求搜集,从用户反馈问题中挖掘需求,形成实质上的“众筹需求”,快速解决问题中的Bug,从而快速部署用户关注度高的功能需求。在网管逐步成熟后,则引入Kano模式,通过专家团队对需求进行管控,确定需求优先级,保证网管的迭代过程,并在每期网管中分层次体现出必要性功能、增强性功能以及亮点引导性功能。

事实上,综合网管用户表达的需求与最终产品之间的不对等会长期存在,这方面需要网管产品需求分析人具备一定的洞察力和表达能力,同时通过用户需求宣讲、需求分析人员的反宣讲等过程进行数次磨合,并在功能上线后进行打磨,向用户需求无限逼近,打破工程以“期”的绝对划分模式。

4.4 层次化用户管理与扁平化用户服务

网管上线后,在应用推动下,用户数量会增长很快。由于一级网管用户具有层次和角色的多样性,并且因为岗位调整,用户角色变化较快。面对如此数量多、角色多、变化快的情况,传统的集中式面对面培训在现场培训的时间效率、培训结束后的传承效果等方面都很难达到预期。

反观互联网应用,很多受欢迎的互联网应用基本没有用户培训,用户服务也大多采用在线方式,这得益于其功能设计的简洁和易用。网管系统是专业系统,在设计简洁和易用性方面很难完全达到互联网应用的水平,但可以借鉴互联网应用的服务模式,并与传统培训模式相结合,促进用户快速与系统建立友好的关系。

在传统面对面培训中,以网管内部架构、算法逻辑、流程及配置、新功能等为主,面向各省网管管理员及骨干人员,他们负责承接省内网管的工作管理,包括用户角色配置、需求确认、工程接入等,并且他们也是网管培训的顶层人员,负责组织省内的针对性培训等;同时,在网管系统中增加需求管理,建立交流社区,形成需求可跟踪、经验可分享、规范可查阅的开放透明平台,促进一线用户自助服务和互助服务。

此外,还可以结合QQ交流群、视频集中答疑、在线帮助等,为一线用户直接提供操作類应答,作为集中培训的辅助手段,为新入岗的用户提供技术指导。

5 结束语

与传统二级架构的网管系统相比,一级架构的无线综合网管系统有其独特的优势,也有其难度,这些难度体现在由于用户量和数据量增大而带来的架构方面的颠覆、由于接口多样性而带来的数据难度、由于数据种类丰富和数据格式不统一而带来的数据管控方式的变化、由于用户层次多及角色多而带来的需求管理方面和用户服务方面的困境。因此,不能简单地将其看为一个二级系统的扩大版、增强版,而需要引入新的思路面对各方面的变化,在逐步探索中形成稳定成熟的建设和管理模式。网管系统的生命周期与网络生命周期相同,对于一个网管系统,10年生命周期是相对合理的,而其规模建设应在生命周期的前5年之内完成,为后5年乃至更长时间内的成熟应用打下良好基础。

中国电信4G无线综合网管系统是国内第一个无线与移动专业方面的综合网管系统,目前已完成超过40万个基站、150万个LTE小区、7个无线设备商的基本运营数据接入,在系统建设中,综合网管系统搭建了可平滑扩展的软件、硬件架构,解决了数据、接口、工程方面的诸多难题,目前为全网近3千名无线网维护运营人员提供了基本网络故障监控、运营分析能力,实现了从二级网管向一级网管的突破。

本文通过介绍4G无线综合网管系统建设的相关内容,提出了所面临的一些问题和解决思路。作为互联网时代中的网管系统,互联网技术和思维已经渗入到网管系统建设的方方面面;而作为专业网管系统,传统的一些管理方式依然不能完全摒弃。中国电信4G无线综合网管系统是一级网管的试水者,需要在未来工作中继续探讨将两者如何更好地结合。

参考文献:

[1] 琼斯. 软件工程最佳实践[M]. 吴舜贤,杨传辉,韩生亮,译. 北京: 机械工业出版社, 2014.

[2] 陈波波. 基于KANO模型的质量评价研究[D]. 北京: 北京邮电大学, 2008.

[3] IT架构设计研究组. 大数据时代的IT架构设计[M]. 北京: 电子工业出版社, 2014.

[4] 顾炯炯. 云计算架构技术与实践[M]. 北京: 清华大学出版社, 2014.

[5] 怀特. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.

[6] 3GPP TS 32.435. Telecommunication management; Performance measurement; eXtensible Markup Language (XML) file format definition (Release 9)[S]. 2009.

[7] 3GPP TS 32.401. Telecommunication management; Performance Management (PM); Concept and requirements (Release 9)[S]. 2009.

[8] 3GPP TS 32.102. Telecommunication management; Architecture (Release 9)[S]. 2010.

[9] 3GPP TS 32.302. Telecommunication management; Configuration Management (CM); Notification Integration Reference Point (IRP); Information Service (IS) (Release 9)[S]. 2009.

[10] 如何进行需求管理[EB/OL]. (2016-09-01). http://www.zhihu.com/question/19844142.★

猜你喜欢
集约化大数据
基于集约化的电费电价管理措施探析
关于无线移动通信室内覆盖的集约化建设探讨
探究县供电企业财务集约化实践分析
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
番茄集约化育苗关键技术
城市土地集约化利用研究
论县域小型农田水利工程改造的集约化管理