曹永刚 中国电信股份有限公司内蒙古分公司工程师王冠之 中国电信股份有限公司内蒙古分公司工程师张永艳 中国电信股份有限公司内蒙古分公司工程师董 信 中国电信股份有限公司内蒙古分公司工程师
OSS域统一采集适配平台建设方案探讨
曹永刚中国电信股份有限公司内蒙古分公司工程师
王冠之中国电信股份有限公司内蒙古分公司工程师
张永艳中国电信股份有限公司内蒙古分公司工程师
董信中国电信股份有限公司内蒙古分公司工程师
摘要:通过分析电信运营商网络及网管现状,探讨了OSS域统一采集适配平台建设方案,结合网络管理系统的实际需求以及国内主流网管产品的实际案例和使用情况,实现南向网元的统一接入管理,通过屏蔽OMC/NE网络技术与厂商差异,对多专业、多技术接口的网元进行数据采集和转换,以及对网元的操作指令快速翻译。对OSS域统一采集适配平台的建设有一定借鉴意义。
关键词:采集适配;转换;指令翻译
国内电信运营商网管领域长期以来一直按照分专业、分厂家的模式来建设网管系统,按自下而上划分,包括三大类网管:厂家网管、专业综合网管和跨专业综合网管。经过多年的发展,这些大大小小的网管在网络维护和管理支撑等各方面,提供了非常丰富的支撑手段,为电信业务的快速发展提供了强有力的后端支撑。但是这种持续、分散的建设模式同时也导致了电信网管建设出现了网管数量庞大、维护和运行效率低等一系列问题,已经无法满足集约化运维需求。
网管层级太多,网管的南向接口薄弱,各种应用都向网络要数据,各种操作要求也不断涌现网络,一方面形成了各网管和网络之间多而复杂的网状接口;另一方面,越上层的网管越不具备对设备的操作能力,制约了集约化维护的发展。
如何通过一套具备多专业、多协议的数据采集和转换能力,对网元的操作指令快速翻译能力、快速灵活扩展能力的统一采集适配平台,实现与相关业务系统的接口,获取数据,来满足上层场景应用视图以及对外数据共享的需求,是目前OSS域统一采集适配平台建设的热点问题。
目前,分专业、分厂家的建设模式也导致电信网管的网元接入层出现了如下问题:
(1)北向接口协议不规范
由于各类新、老设备的特点以及分专业、分厂家的建设模式,导致网管领域长期以来一直未能进行统一规范。虽然部分专业制定了一些标准的北向接口规范,但是相对于中国电信整个网管域,仍仅占其中较小部分。绝大部分的设备、厂家网管仍然采用的是私有协议,正是由于这种大量私有协议的使用,导致协议数量众多,极大增加了网管接入、管理和维护网元的工作量。
(2)系统间接口网状互联
由于对网管域没有规划统一的入口,导致IT系统、跨专业综合网管与专业综合网管、厂家网管和设备之间的接口连接呈网状形式,从而导致网络运维管理的相关部门难以对网络进行统一的监控和维护。
(3)缺乏统一管控能力
现有的专业网管、综合网管、厂家网管、本地网管、EMS等都进行资源、告警、性能数据的采集,但采上来的数据千差万别,各自为政,没有统一的管理,无法保证数据的一致性。
(4)缺乏大数据采集能力
随着网络分析的深入,运营商越来越关注用户行为的分析和用户价值的挖掘,因此需要对话单、信令、路测等大数据量进行采集适配,这些数据都是日增量以TB为单位的,并且要求处理时间到分钟级。这就要求数据采集平台要具备大数据采集和处理机制,满足上述需求。
(3)存在单点隐患
网管作为日常维护的必备手段,在运维支持中起着重要的作用,网络的维护管理要求网管系统的数据必须完整、准确、实时。这就要求网管数据必须保证7×24h不缺失,需要数据采集平台能实现分布式部署,实现Server和采集端的负载均衡,规避单点故障而导致数据无法正常采集的情况。
如何才能保证采集接入,个人认为统一采集适配平台需要考虑如下问题:
●采集适配要由注重数据的接入能力向注重数据的管控能力演进
专业网管私有接口多,采集系统更注重接口的匹配能力。集成共享平台的采集接口相对固定,更加关注采集任务的管控和数据质量的管控,是从面向接口到面向用户的转变。
●采集适配由注重数据的提供能力向注重数据的共享能力演进
专业网管通常是要看什么报表就采什么数据,消费形式简单,数据可以拿来直接就用。集成共享平台数据来源不一,数据消费的形式多变,需要将数据采集过来先集中和共享,再由应用来判定和消费。采集的服务能力体现在数据的集中化和共享的输出能力上。
●采集适配要由注重数据的被动集成能力向注重数据的主动分发能力演进
以前专业网管总觉得数据不够,总想东抓抓西凑凑;集成共享平台本身的技术架构解决了数据来源问题,需要面对的就是数据的有效分发能力。采集系统在不同的时期、不同的应用系统支撑过程中所起的作用不同,需要有强大的数据预处理和逻辑统一的数据分发能力,使之适应不同的应用系统的数据采集需求。
统一采集适配平台定位于集成共享平台的底层基础设施,用来屏蔽网元技术与厂商差异,为集成共享平台应用提供底层的数据基础和网元访问入口。集成共享平台所涉及到底层网元的数据采集和网元操作功能,主要由统一采集适配平台提供。采集适配平台能够最大限度降低底层网元变动对上层网管应用的影响。
统一采集适配平台作为集成共享平台的基础平台,主要提供两大类支撑能力,即数据采集和网元操作。平台属于集成共享平台的内部模块,不直接对外部系统提供网元访问服务。对于数据采集和网元操作的边界规定如下:
(1)数据采集
所有需要入库的数据,由采集适配平台直接或间接调用数据中心的服务进行入库。数据采集包括从网元侧的数据采集及从专业网管侧的数据采集两种数据来源。
(2)网元操作
对于通过专业网管具备网元操作功能的,由专业网管对网元操作能力进行封装后在服务总线上注册供上层应用调用;对于其它网元所涉及的网元访问逻辑,均由采集适配平台的标准指令操作接口及业务操作接口通过注册到网管服务总线的标准服务能力对外提供。
统一采集适配平台致力于建设成为集成共享平台所需要的配置、性能、告警和使用记录等数据的采集来源,以及为上层应用提供网元操作服务的综合平台。该平台将是集成共享平台与网元和专业网管交互的重要手段,将是集成共享平台实现智能化的核心基础设施。
本文统一采集适配平台的建设了如下的建设目标:
(1)标准化:定义采集适配平台向上的标准接口,屏蔽网络技术和厂商差异,降低底层网元或网管接入对上层应用系统的影响。
(2)规范化:对新设备新网管的接入提供规范的接口要求,提升新网络的接入效率和对新业务的支撑能力。
(3)融合化:融合全网全专业的网元接入能力,融合数据采集与网元操作功能,预集成通用接口,简化北向接口的接入。
(4)平台化:提供基础运行框架和易扩展的插件开发接口,各系统提供商可按平台标准进行开发,有效提高平台稳定性和缩短网元接入周期。
采集适配平台在技术和功能层面应达到以下目标:
●功能目标:提供包括配置、性能、告警和使用记录等数据的采集及网元操作的能力。
●技术目标:规范化网管域数据交互标准,提高数据一致性,提供灵活的任务调度机制,并具备多协议适配能力。
图1 功能架构
统一采集适配平台采用Ultra-IDCP(综合数据采集平台),由Ultra-IDCPServer、Ultra-IDCPProbe组成,Server与Probe之间的数据交互由MQ消息中间件来承载;Ultra-IDCP从功能层次可以分为数据接入层、数据处理层、数据共享层。采用分布式部署,支持多专业、各类型数据接入;支持各种接口适配,并保持接口可扩展性。目前,该产品能采集各专业通信网(包括无线网、交换网、数据网、传输网等)设备的性能数据、配置数据、告警数据、业务数据。
统一适配平台满足对大数据的采集需求,大数据主要是文件数量多(单次采集50个文件)、单个文件大(单个文件可达10G或更大)的日志文件以及CDR话单等。
综合数据采集平台系统功能架构如图1所示。
(1)数据接入层主要负责数据的采集、协议的适配等
采集适配器实现与设备侧的接口协议适配的功能,从设备侧获取原始数据,进行数据解析(词法分析,数据格式标准化,根据处理规则将采集到的底层数据转换成相应的信息模型的数据)。采集适配器的功能组成包括协议适配、数据获取、数据解析、数据上报,并支持被动接收设备侧发送的数据。经过解析后的源数据通过适配器北向接口向上共享。
(2)数据处理层主要负责数据的预处理与临时数据存储
采集任务/数据处理:接收调度中心的数据处理命令,将采集适配器生成的数据进行处理、关联运算,通过ETL过程将数据录入到数据库中。
(3)数据共享层主要负责接收订阅采集策略、数据订阅请求及北向接口
●采集策略接收
接收订阅策略,根据策略和当前时间实例化成采集任务,根据各采集节点的运行环境和资源空闲情况进行判断,能够选择合适的采集节点,并把任务下发;能够接收采集节点反馈的任务执行情况,并监控各采集节点运行状态;根据任务的采集结果分析数据是否完整,能够根据设定的策略触发数据的补采。
●数据订阅/共享
接收外部系统发送的数据订阅请求,根据设定的数据订阅权限判断该订阅请求是否合理并作出响应。数据准备好后,给订阅该数据的外部系统发送通知消息以及数据的访问方法,外部系统主动获取数据,对同一份数据的不同订阅者分别发送通知。
●北向接口
这里的北向接口是指负责完成上层应用与采集适配平台的交互;接收来自上层应用的各种告警、性能、配置、网元操作等相关的请求;将处理与转化后的数据或结果以标准接口形式提供给上层应用系统。在规范中也叫标准接口。
采集入库后的数据提供给上层的系统和模块进行调用,通过北向接口向外输出,对于北向接口,提供多种接口方式输出,包括DB、文件、消息等。
另外,作为IDCP的前端界面,将采集管理、元任务管理、数据质量管理、系统维护、日志管理作为主菜单,其中还包括了任务管理、任务监控、采集机管理、进程监控、消息管理、数据核查、算法管理、指标管理模块,使采集平台的操作简便明了。
并且按照组件化和模块化的设计思想,IDCP将一些常用的公共组件固化下来统一管理,如共享管理、元数据管理、消息服务管理、数据解析组件等。
6.1采集设备管理
统一采集平台数据来源于厂家网管(如EMS/ OMC)、专业网管(如移动网管、交换网管、业务平台网管、数据网管)、综合类网管(如集中告警、分析系统、C网网管)、设备网元等系统;集成共享平台所需采集的数据,从数据种类来看,主要可以分为以下两类:常规数据、大数据。常规数据主要有网元的配置数据、告警数据、性能数据等。大数据主要有信令数据、话单数据、路测数据等。下面针对不同数据类型的数据,分别描述对这几类数据采集上报的处理过程。
针对于以上两类数据,分别由不同的数据采集及处理机制进行处理。
(1)常规数据的采集适配处理
采用统一采集平台模块进行采集适配及数据处理。该平台的主要业务逻辑实现如图2所示。
首先,可定制对指定数据源、指定网元、指定指标的采集策略,系统将采集策略以及调度规则信息发送到Server端的动态任务调度模块,该模块根据Probe采集机的资源使用情况,可动态控制Probe端任务的启停状态。当Probe端分布式部署时,同一个任务可在多个Probe端存在,当Server接收到任务控制的请求消息时,能够根据各Probe采集机的资源利用状况,选择最合适的Probe来执行任务。这多个Probe的多个任务配置信息统称为任务资源池。那么,如何收集到采集机的资源利用状态呢?Server端的自监控模块可以根据监控采集任务的执行状况、监控采集机资源状况、监控数据质量状况,通过一定的规则来生成最合适执行任务的Probe推荐信息供动态任务调度模块选择。在采集任务信息下发到Probe采集机之后,采集任务根据其属性,分为探测任务、补/重采任务、正常采集任务3种。探测任务是一种主动式的对数据源进行数据完整性是否满足业务要求的准实时检查,通常探测的粒度以秒为单位,相对于定时采集任务的调度,数据探测的机制同时也进一步从源头上解决了数据源数据产生的及时性问题;补重采任务是根据数据质量模块传递得到的数据完整性信息,判断是否对已采集任务进行补采或重采,用以满足业务系统对数据完整性的需求;常规采集任务则通过对接口进行适配、进行数据源数据的获取、清洗、归一化处理等动作,最终通过北向接口输出到指定的位置中。
图2 IDCP业务实现逻辑
通常一个数据采集的过程为通过创建厂商、采集项、元数据、采集任务、采集环境、数据输出规则等操作后,把数据采集任务分配给采集机,并启动数据采集任务,采集任务按照采集周期或采集请求触发进行数据采集,将采集到的数据按照约定好的格式共享输出给上层应用,如有必要用消息通知给上层应用。
在Corba接口协议的数据源采集过程中,由于Corba接口本身的规范制定了数据源生成数据的消息通知机制,所以现有网管系统的南向接口越来越多的采用Corba接口进行采集适配,一旦数据源准备好数据,采集程序接收到消息后立即到指定位置获取数据,大大减缓了数据采集的延时性。
●告警数据的采集适配处理
告警数据用于及时反映全网系统运行状态。
采集方式包括Corba、MQ、Socket、WEBSERVICE、SNMP、TRAP、SYSLOG等。
告警数据主要包括核心网设备、信令网设备、IP数据设备、传输设备、接入网设备等设备告警及业务平台产生的业务告警,动力设备和环境监控告警、相关性能指标超阈值的告警等。
统一采集适配平台与集中告警获取全专业告警数据,采用Socket接口方式。
系统通过内置的采集接口,连接各厂家网管、专业网管、综合类网管、设备网元等,实时获取其主动上报的告警消息,并对告警消息按照采集策略中定义的规则进行清洗、归一化处理,供其它应用服务使用。
●性能数据的采集适配
性能数据来源于专业综合网管、固网交换网管、接入网网管和EMS、设备网元等;性能数据用于评价系统运行质量,通过分析历史数据的情况、预测未来的发展,提升管理层次,达到面向服务品质的管理。
采集方式包括FTP、DB、Corba、WEBSERVICE、SNMP等。
性能指标的采集粒度至少应为1h以内,在条件允许时,专业网管、EMS/OMC、设备网元等应提供15min、5min等粒度的指标采集能力。
统一采集适配平台与传输网管、C网网管、接入网网管、IP网管、动环网管获相关性能指标数据,通采用FTP接口方式。
●配置数据的采集适配
资源配置数据来源于专业综合网管、资源系统、固网交换网管、接入网网管和EMS等系统;资源配置数据是指无线网设备、核心网设备、信令网、IP数据网设备、接入网设备、传输设备、动力环境设备、业务平台系统、客户、合作伙伴、空间等各种配置元素的类型、属性信息以及相关人员、文档、介质、地理等维度属性,它用于整体描述综合网管系统的资源状况。
资源数据的采集方式一般采用文件接口、DB、Corba等方式。
系统通过内置的采集接口,连接专业综合网管、资源系统、固网交换网管、接入网网管和EMS等系统,采取周期性获取的方式,从数据源获取格式化的资源配置数据,根据预先定义好的采集脚本进行解析入库,为上层应用提供相应的数据支撑。
统一采集适配平台与综合资源系统获取全专业资源数据,采用DB接口方式。
(2)使用记录的采集适配处理
使用记录的定义是:使用记录是在智能网管参考SID引入的新模型,指外部客户或运营商自身因使用(包括用户消费网络产生的数据、运营商因维护网络而产生的数据)网络而产生的各类服务使用数据、资源使用数据,这些数据都是海量数据。
图3 大数据采集原理
所谓的使用记录,在电信网管领域具体的就是指像短信话单、WAP话单、信令数据、路测数据、分组域数据等半结构化的,日增量在TB以上级别的,同时系统对数据处理的实时性要求在分钟级别的一类数据,这类数据具备大容量、准实时、复杂度高、价值密度低等典型的大数据特征,针对这类数据,采用大数据采集模块进行使用记录的采集适配及数据处理。
采用开源的大容量字符码流采集框架Flume-ng来进行二次开发和处理这类大数据。ApacheFlume是一个分布式、可靠和可用的系统,其有效地收集、汇总和转移大量的日志数据从许多不同来源移动到一个集中的数据存储区;具有数据流模型、数据可靠性、可扩展、高效率采集等特性;Flume的数据源支持包括log4j、unixtail、syslog、TCP/UDP的端口监听、文本文件等,在数据输出方面,支持HDFS和Hbase,除了这两种之外,还支持写入文本文件、通过TCP把数据传到另外的主机等,若需输出到关系型数据库如Oracle,MySQL等,则需要进行二次开发,目前的大数据采集产品已完全支持这两种数据库的输出。
●FlumeAgent大数据采集机工作原理
每个FlumeAgent能配置多个Source-channel-sink工作流(见图3)。
通过界面可轻松配置每个工作流的Source、Channel、Sink等步骤的属性参数,采集平台服务侧将配置好的工作流通过消息中间件下发到指定的FlumeAgent,FlumeAgent会将配置参数保存到相应的配置文件,在下一个运行周期到来后按最新的Source-channel-sink工作流来工作。
●FlumeAgent特性
设置多个Agent流,前一个Agent的Sink作为后一个Agent的Source,具体参见图4。
图4 多Agent流示意图
由Agent1、Agent2、Agent3同时进行采集,把采集的到的数据统一作为Agent4的数据源,由Agent4进行合并或统计处理,Agent4处理后写到HDFS中,具体参见图5。
图5 多Agent合并处理示意图
对于同一个源,可以进行不同的数据处理,处理后的结果可以写到HDFS中,或者由JMS发送出去。同时也可以作为下一个Agent的数据源,再次处理,具体参见图6。
●大数据完整性保证
对于Tail、File的Source数据源,需要对其数据完整性进行处理,有以下两点功能:
——因大数据采集引入了事务处理机制,当工作流在Source-channel-sink过程中遇到任何异常中止数据传输或采集,都会相应的步骤保存前一步骤的数据,当FlumeAgent下次启动时会自动进行数据恢复并传输到相应的目的地,具体参见图7。
——当数据源与FlumeAgent之间出现了不可抗拒的异常情况后,就需要FlumeAgent自动记录当时Tail文件的行数,或File文件记录的行数,当异常情况修复后,就必须从记录行开始进行数据采集,保证Tail、File的数据采集完整性。
●大数据采集过程
对实时数据采集层需要完成实时数据的装载、批量数据加载,实时数据装载需要有SDTP协议解析模块来解析SDTP接口发送的实时信令数据,将其中的XDR解析出来后,利用消息分发模块分发到消息中间件中,为了保障数据在加载过程中的高可用性,加载过程需要进行本地持久化。流计算集群按照定制好的预处理拓扑读取消息队列中的数据,进行实时计算,需要支持分组统计、Count、求和、平均、最大值、最小值等常用算法,并采用时间窗口的概念来区分计算批次,将计算完的批次实时同步到内存数据库中。同样,内存数据库中的数据也会进行本地持久化,保证数据不丢失。
图6 数据输出方式多样
对于文件接口的批量采集框架,可以采用分布式的Flume-ng进行采集,内置内存DBSource采集适配插件、FTPSource采集适配插件、HDFS采集适配插件、数据库采集适配插件、WebService采集适配插件、MPP数据库Loader采集适配插件等常用接口采集插件。通过界面化定制采集任务的方式,周期性的发现FTP目录的文件,增量采集到HDFS或MPPLoader中。特别的是,在增量采集到HDFS时,需要支持小文件合并的能力,合并的大小要大于HDFSBlock的大小。同样,在采集过程中,持久化文件到本地磁盘,保证采集过程数据不丢失。并且在配置采集任务时,可以配置异常数据的判断规则,以及将异常数据输出的路径,并将异常记录到采集日志中。采集到HDFS中原始数据,需要同采集的指定版本的资源数据进行关联,例如网元资源、用户资源、热点资源等,这就需要周期性的将固定版本的资源数据同步到HDFS中。对于采集到MPP数据库中的数据,都必须通过MPP数据库的Loader服务器进行加载,避免通过JDBC或ODBC加载产生的低效率。由于经由HDFS计算后的统计数据需要加载到MPP数据库中,为了统一数据分发流程,特经由Flume-ng的HDFSSource插件进行统一加载。图8为大数据采集流程示意图。
平台需采集固网系统的AAA话单、WLAN话单、日志数据和分组域AAA系统的AAA话单等,其数据量规模较大,并且还在不断增长中,数据的快速增长带来了数据存储、处理、分析的巨大压力,传统的数据处理手段已经无法满足如此大规模的数据的处理及运行效率,因此对这几类数据的采集都采用大数据采集方案进行处理。数据采集部署如图9所示。
6.2采集调度管理
O域网管系统对各类网元配置数据进行采集,支持定期采集、全量采集、增量采集等方式的任务调度。系统通过内置的采集接口,连接专业综合网管、资源系统、固网交换网管、接入网网管和EMS等系统,采取周期性获取的方式,从数据源获取格式化的资源配置数据,根据预先定义好的采集脚本进行解析入库,为上层应用提供相应的数据支撑。
6.3协议适配
作为OSS域统一采集适配平台。该平台内置丰富的采集接口适配能力,并且基于组件技术进行开发,根据不同采集对象的接口协议和应用协议来进行组件开发,快速支持新协议的适配。
(1)多种接口协议的支持
图7 数据传输事务处理机制
图8 大数据采集流程
接口协议的支持:Socket、MQ、FTP、DB、Corba、WEBSERVICE、SNMP、Trap、telnet、SSH、syslog、MML、TL1、Q3、Flume等接口协议。
(2)多种数据种类的支持
提供如下数据种类的支持:配置数据、告警数据、性能数据、日志数据、信令数据、话单数据等数据的采集适配。
(3)多种网络管理层次的支持
提供如下网络管理层次的接入支持:省级专业网管、本地网专业网管,厂家网管EMS/ OMC,网元直连等。
(4)多种专业及厂家的支持
提供如下专业及厂家的支持:话务专业、传输专业、数据专业、动环专业等专业的数据采集,诺西、阿卡、爱立信、摩托、华为、中兴、东信、北电、NEC、UT、中邮通、大唐,烽火、BMC等主流设备厂商的数据采集适配。
伴随着电信业务的不断发展,网络建设越来越多,用来监控网络的专业网管以及综合网管数量在不断的增长,在运营过程中产生大量的O域和B域的相关数据。通过一套具备多专业、多协议的数据采集和转换能力,对网元的操作指令快速翻译能力,快速灵活扩展能力的统一采集适配平台为采集适应复杂网络要求,增加访问网元的敏捷性等方面奠定了基础。如何通过统一适配平台的分布式采集,统一采集任务监控,界面可视化配置以及对大数据采集全程的数据质量管控,需要今后更进一步的深入研究和探索。
图9 数据采集部署示意图
Discussion onthe construction of unified acquisition and adaptation platform inOSSdomain
CAOYonggang,WANGGuanzhi,ZHANGYongyan,DONGXin
Abstract:In this paper, through telecommunications network operators and network management present situation analysis,discusses the OSS domain unified acquisition adaptation platform construction scheme, combined with the actual case of network management system of the actual demand and domestic mainstream network management products and the use of,realize unified access management element to the south, through the shielding OMC/NE network technology and the vendors difference, network elements of multi- disciplinary, multi interface technology of data acquisition and conversion, and the element of the operating instructions fast translation. It has certain reference significance to the construction of unified acquisition and adaptation platform inOSSdomain.
Keywords:acquisition adapter; conversion; instruction translation
收稿日期:(2016-01-10)