陆小铭 ,曹维华 ,苏志胜 ,许 彤
(1.中国电信股份有限公司广东研究院 广州 510630;2.中国电信集团公司 北京 100032)
电信运营商的运维支撑系统(OSS)在电信网体系架构中属于支撑网范畴,承担着网络运营支撑、业务开通和质量监控、客户服务保障等重要功能,在电信运营商内部的地位与作用和网络、终端、业务平台一样,是运营商核心资产的重要部分,在网络建设和业务开通开始就被列入统一的规划和建设中。电信IP网管系统(以下简称IP网管)是OSS体系的一部分,负责IP数据网络的管理、维护和保障。
IP网管是以“集中管理、集中监控、集中维护”为原则进行建设的,在近年的发展中不断向面向网络、面向业务和面向客户的发展方向演进。目前IP网管支持普通和优质承载网,支持固定和移动互联网业务,支持互联网和大客户VPN业务。
随着运营商IP网络的不断扩大、业务种类的增多以及运营要求的精细化,IP网管需要处理的数据越来越多,IT基础设施面临着负载不均衡、设备管理困难、IT设备被动扩容等诸多问题。云计算作为一种有效的优化IT基础设施的手段,也提上了IP网管的发展日程。
IP骨干网网管管理着运营商多张网络的骨干部分(如公众互联网、精品承载网、专用承载网等),具体功能一般包括资源配置管理、故障管理、性能管理、流量管理、路由管理、安全管理、业务质量监测、流量监测、互联网维护统计分析、VPN业务管理、移动互联网管理等。
IP骨干网网管结构如图1所示。IP网管在逻辑结构上采用信息处理的分层原则,可以分为以下3个层面。
·数据采集层:负责系统与被管网元设备和网元管理系统之间的通信,通过对各种网络管理协议接口的封装,提供协议服务层的应用。通过SNMP、Trap、xflow、Syslog、Telnet、XML、Corba 等网管协议,采集各种网元设备、网络端到端的管理信息并对这些信息进行一定的数据预处理和加工,然后通过软件总线传递给上层数据处理层的应用功能模块,处理的结果通常存放于网管数据库中,如拓扑、资源、故障、性能、流量数据库等。
·数据处理层:从数据采集层获取信息,对各种管理应用进行封装处理,各模块之间也可以通过软件总线交互信息。数据处理层根据系统功能的分层需求又分为网络管理应用层、业务管理应用层、事务管理应用层和客户管理应用层,下层为上层应用提供服务。
·数据发布层:系统通过数据发布层向使用用户提供各种网管应用。用户通过浏览器或专用的客户端浏览、查看并执行各种网管操作。
IP骨干网网管的部署现状:数据采集层的设备实现分片区部署,每个片区的设备汇聚到指定的数据采集节点;数据处理层和数据发布层的设备部署在两个主节点,主节点中的设备实现高可用性保障,两个主节点之间采用专用链路相连,用于数据同步和备份,实现异地容灾功能;各省设置省级网管工作站,各省网管人员分权分域使用网管系统。
IP网管的管理功能复杂,工单流程管理、业务开通、维护、排障等流程都较好地纳入了整体架构中,但有部分功能以独立运行的软件或子系统的方式存在,如IP地址管理、互联网质量测试、Netflow数据采集与分析、统一认证管理等。这些独立运行的软件和子系统,都是走传统的IT建设的流程,独立占用物理的服务器、网络和存储等设备,这种“烟囱式”的设计和部署必然导致IT基础设施整体的利用率偏低。
同时,随着网络的发展,IP网管还面临着以下需求和问题。
·网络规模不断扩大,网络设备、链路和端口的数量不断增长,同时,单台设备规模不断增大(集群设备),端口的速率也越来越大(40 Gbit/s、100 Gbit/s),IP 网管要采集和处理的信息越来越多。
·由于精细化运营的要求,网管对设备信息的采集密度越来越大,数据呈几何级增长。
图1 IP骨干网网管结构
·由于安全管理的要求,重要设备都要求实现冗余备份,IT设备的数量逐渐增多。
·IT系统的扩容遇到瓶颈,小型机的升级成本高,部分小型机已经没有升级的空间,部分新购设备与旧设备面临着不兼容的情况,如不能实现高可用性。
·Netflow采集和处理的数据量快速增长,而流量流向分析设备的处理能力远远没有跟上。
以上问题在大企业的IT系统发展中也同样存在,而电信IP网管作为一个需要根据网络和业务的发展持续开发、永没有最终版的系统,表现得更为强烈。云计算的出现为这些问题的解决提供了一个值得研究的方向。
按照NIST对云计算的定义,云计算模式能以按需方式通过网络方便地访问云系统的可配置计算资源共享池(如网络、服务器、存储、应用程序和服务),同时以最少的管理开销及与供应商的交互迅速配置、提供或释放资源。
从部署模式上看,云计算有3种模式:公有云、私有云和混合云。其中,私有云比较符合IP网管的需求,IP网管是运营商维护IP数据网络的支撑系统,其管理的数据属于企业机密,同时,在私有云环境中,可以按照实际情况动态增加或减少运行实例,控制应用程序使用资源池的指定部分(包括服务器、网络和磁盘),也可以决定允许哪些用户使用基础设施。
回顾近10年来网络的发展,从固定到移动互联网,从普通互联网到大客户VPN网络,网络容量以每年50%的速率扩张,网管要处理的数据不断增加,要管理的业务逐渐增多,还要面临不同角色的使用人群,如果还按照传统IT资源的发展模式,网管系统的IT资源将会慢慢陷入无序发展和不可控的管理状态。设计人员在进行扩容设计时,很难有效地调配已有的IT资源,只能不断增加新设备。同时,为了管理越来越多的IT资源,运营商要不断地增加相应的维护人员,而不同的维护人员所管理的内容相对独立,缺乏有效的沟通。
IP网管系统引入云计算的必要性可以归纳为以下几点。
·云计算的虚拟化和弹性资源调配:能提高资源利用的有效性,可以在不增加投资的前提下,承载更多业务。
·云计算的标准化和自动化资源调配:快速部署,按需即供,可以在不增加人力投资的前提下,大幅提升效率。
·可靠性:提供冗余容错能力,可以提升服务质量。
IP网管系统部署私有云符合当今IT资源池化的趋势,同时IP网管要处理的信息属于数据密集型任务,很适合在云计算环境中运行,具备以下可行性条件。
·从IaaS的角度看,云计算为网管系统提供一个稳定、可持续发展、性价比高的计算平台。
·基于x86的PC服务的资源池扩展能力强,扩容成本比小型机低。
·并行任务(如报表查询)能实现平行处理,系统能容纳更多的用户,提升处理速度。
·云计算所具备的分布式处理能力,为Netflow的分析提供良好的计算平台。
·从SaaS的角度看,云计算能为网管维护人员提供虚拟桌面、虚拟应用的服务,能方便发布网管应用,同时易于实现访问权限的控制,提升用户访问网管系统的安全性。
·虚拟化桌面和虚拟化应用能支持多种终端类型,包括平板电脑、手机等终端,能方便地实现移动办公和移动网管的功能。
IP网管属于重要的生产网支撑系统,在引入云计算技术的过程中,为尽量避免对现网的影响,建议按照由小而大、由浅入深的步骤逐渐铺开,并在一开始就要做好云计算统一管理的设计规划。引入云计算技术方案的目的可以概括为:建设跨区域的私有云平台,实现集中管理和灵活调度,网管功能和应用逐步有序地进行迁移,基于云环境进行应用创新。
从云计算的3种服务模式看,对应的网管应用分析如图2所示。
图2 云计算的服务模式对应的网管应用分析
建议IP网管以IaaS和SaaS的服务模式为切入点。云计算平台可以为采集层和数据处理层(主应用功能软件和Netflow流量流向分析软件)提供可持续扩展的有冗余保障的计算能力,同时,在数据发布层,虚拟桌面和虚拟应用能为网管使用人员提供多种形式的访问途径,并能提升网管访问的安全性,而Netflow流量流向分析软件可以为网管使用者提供基于不同对象的分析功能,因此也可以视为SaaS的应用功能。
·分析IP网管内服务器的负载和软件运行情况:分析各硬件平台的运行现状以及运行软件的情况;梳理各子系统、模块之间的关系以及各软件逻辑图;各软件资源占用情况(包括CPU、磁盘、内存、I/O等)调研;各软件使用数据库情况以及数据总量和增长情况调研。
·分析现有软件哪些可以直接迁移到私有云中,哪些需要改造后才能迁移。
目前,主应用服务器(数据处理层)软件融合了所有的资源管理和业务管理功能,对业务进行开通、维护、保障等全程的支撑。随着所管理的资源和业务的增多,目前数据处理层软件
·分析使用私有云的人员数量,如需要向多少人提供虚拟桌面或虚拟应用,从而决定资源池的大小和应用软件的License问题。
·分析引入私有云技术是否会对维护人员的使用习惯造成影响。
在分析评估的基础上,建议从实现IT资源虚拟化和管理自动化两方面进行改造。
虚拟化是通过软件或固件管理程序把物理资源映射为虚拟资源,这些虚拟资源在使用上和物理资源的特性相差很少或没有差别。通过虚拟化,可以进一步简化IT基础架构、整合IT资源、提高资源利用率,有助于降低IT基础设施的能耗。
对虚拟化进行统一管理是云计算管理的关键,自动化的目标是实现对物理资源和虚拟机资源的自动识别、资源分配流程的自动化、负载迁移的自动化等,使私有云的管理者可以方便地提供和回收虚拟机资源,同时系统能对资源池负载进行优化分配。
互联网期刊出版主要分为两大类,一是传统期刊的数字化并在互联网上出版;另一类是期刊在线数据库出版。顺应时代与市场的需求,传统期刊正在经历数字化,而随着网络的发展,光盘、磁盘等形式出版的数字期刊已逐渐被网络出版所替代,大多数期刊在线数据库已转变为期刊数字出版平台,发挥平台集成性优势向消费者提供海量内容与定制化服务,因此大多数期刊选择在互联网期刊数据库进行网络出版,由中国知网出版的《中国学术期刊(网络版)》就是中国学术期刊网络出版官方平台。据了解目前国内传统期刊选择的互联网出版平台主要有《中国学术期刊(光盘版)》、“中国期刊网”、“万方数据——数字化期刊群”、《中文科技期刊数据库》等。
在虚拟化软件的选择上,建议着重考虑以下几点功能。
·可虚拟化服务器兼容能力:虚拟化软件能在哪些服务器上安装。
·高可用性能力:包括物理资源的动态调整、宿主机间的HA、虚拟机间的HA、HA成熟度、虚拟机的在线迁移、动态存储迁移。
·成本:不同的虚拟化软件公司按照不同的方式(如CPU数量或虚拟机数量)计算License费用,其差别会很大。
针对网管硬件分散部署的现状,建议采用如图3所示的部署方式,整个IP网管的IT设备都纳入私有云的体系中进行统一管理,中心节点和每个片区的服务器、存储设备和网络都是网管云的一部分。每个片区的采集服务器和冗余备份服务器都落在该片区的物理资源上,不去调用其他片区的物理资源。每个片区的IT资源在提供给数据采集层服务器的同时,还承载网络测试代理、Netflow数据分析等其他功能。不断变庞大,不可能从小型机直接迁移到以x86 PC服务器为主的私有云环境下。对此,需要对数据处理层的软件系统进行适当的改造,将适合在云计算环境运营的功能剥离出来,实现模块化改造。
数据处理层中存在很多并发处理的任务,这些任务的特征是:如果有很多用户同时调用这些任务,网管程序首先会通过负载均摊分配流程把任务分给不同的处理进程,然后不同的处理流程分别处理上报结果,这些处理流程在运行过程中并没有直接的联系。并发处理的任务是最适合部署在云计算环境下的,而且具有很好的扩展性,可以按照任务的并发数灵活调整所需要的资源。目前,IP网管中的并发型任务有以下种类。
·地址查询接口。
·资源查询接口:根据用户的查询条件返回相应的内容。
·VPN业务开通:网管下发VPN业务的开通和变更数据,判断每一步返回的结果并执行相应的操作。
·路由追踪服务:用户可实现从POP点到用户主机的路由跟踪。测试发起点支持POP点路由器,也支持分布在省内的互联网质量评测测试代理。
·路由查看服务:查看某个设备或某个VPN客户的路由情况。
软件的改造和迁移需要重点观察以下3方面内容。
·软件的运行状况:软件运行是否正常,如采集机程序运行在一个利用率相对较高的虚拟机时,是否能满足要求。
图3 IP网管私有云拓扑
·自动切换功能:当在用的虚拟机发生故障时,云计算平台是否能实现自动切换,保证软件的中断时间在一个合理的范围之内。
·多用户的并发请求能否比较均匀合理地分配到不同的虚拟机上。
通过私有云向网管维护人员提供虚拟桌面和虚拟应用,IP网管系统的使用者包括集团层面、省层面、支撑单位以及厂商等多方面,采用虚拟桌面和虚拟应用可以带来以下好处。
·桌面的存储和执行(包括操作系统、应用程序和用户数据)都集中在数据中心的虚拟机上,可以解决安全访问问题。
·数据集中存储:避免机密数据泄露,防止病毒木马等恶意软件入侵。
·快速集中化部署:快速的patch和应用程序安装,显著减少采购时间和维护成本。
·随时用各种终端访问:Win/Linux/iPhone、iPad。
·支持多种客户端系统:Linux、Win、MAC、Ubuntu、CenOS。
·系统/产品自动升级:检测下载,安装系统以及补丁。
·集中系统管理和VDI监测:集中管理虚拟桌面、用户、备份恢复、网络设置、系统升级。
·问题检测和修复系统:继承问题检测、报警和修复功能,辅助用户快速解决问题。
在云计算环境下,Netflow分析功能是可以预见的一个典型应用。Netflow系统可以采用分布式架构,并通过增加采集和计算节点数量适应网络流量规模的增长;系统采用x86 PC服务器降低成本,同时采用网络包处理性能优化技术提升单台采集节点的处理能力;系统采用Hadoop云计算技术实际计算负载的弹性分配,并通过HDFS文件系统提供低成本的flow原始数据冗余存储方案。
随着网络和业务的发展,IP网管也在不断地更新和发展,云计算在整合和调度IT系统资源方面有独特的优势。同时,IP网管执行的大部分属于数据密集型的并发任务,特别适合在云计算的环境中部署,因此IP网管引入云计算技术具备必要性和可行性。由于运营商较为看重IP网管系统的稳定性和安全性,因此引入云计算时要循序渐进,并关注云计算的保护切换能力,同时要充分发挥云计算在分布式处理上的优势,将网管系统中并行处理的软件模块逐步移植到云计算平台上,使网管能力能跟随云计算平台的扩展不断增强。
1 黄挺,谢文旭,王燕川.云计算在电信网络管理系统中的应用与实践.电信科学,2011,27(4):119~122
2 张云勇,杨光,陈清金等.电信OSS应用云计算技术的研究.电信科学,2010,26(11):43~48
3 杨志豪,赵太银,姚兴苗等.一种适应数据与计算密集型任务的私有云系统实现研究.计算机应用研究,2011(2)