传送网OMC发展趋势研究

2016-10-20 09:14蒋燕广东省邮电职业技术学院信息与通信工程系博士
信息通信技术与政策 2016年9期
关键词:集中化刀片运维

蒋燕 广东省邮电职业技术学院信息与通信工程系博士

产品与技术方案

传送网OMC发展趋势研究

蒋燕广东省邮电职业技术学院信息与通信工程系博士

介绍了传送网OMC的重要性,分析了其现状、存在的问题以及相关关键技术,结合降低运维成本的要求,给出了传输网OMC技术的演进路线、现网部署策略,以便更好地支撑运营商开展集中运维与降本增效工作。

传送网;集中;刀片服务器;存储;虚拟机

1 传送网OMC重要性简介

传送网是各大全业务运营商非常重要的基础网络,综合承载着基站、专线、家宽等各种业务。传送网的规模及承载能力是其体现各大运营商综合能力的一个关键指标。传送网主要由管道、光缆、传输设备组成,其中管道、光缆属于“哑设备”,传输设备属于“非哑设备”。

为了更好地为上层网络提供承载服务,传输设备可以通过丰富的人机对话提供各种类型的业务。这些与传输设备进行友好人机对话的实体可被称为传输设备的运行维护中心,简称OMC(OMC,Operation and MaintenanceCenter)。

传送网OMC主要由网管计算机、存储、操作系统、数据库、应用软件等主要构件组成,这些构件相互配合,实现对海量传输设备告警、配置、性能、安全等方面的管理。本文重点分析研究了传送网OMC的发展趋势。

2 传送网OMC现状

(1)建设及管理模式

传送网OMC的部署形态和各大运营商的运维管理及组网策略息息相关。各大运营商基本上都以一干、二干、本地3个层次进行网络结构设计,那么传送网OMC也基本上按照上述模式进行配套建设,属于一种分而治之的模式。设备厂家的EMS网管从2001年起,一直采用以市公司为单位分散部署的模式开展建设工作,即以相对独立的本地网或者干线为单位每种传输产品分别建设OMC,并随着设备规模的进一步扩大,各个网络、产品独立进行扩容。

(2)硬件平台

传送网OMC硬件平台的计算能力直接与其管理能力成正比,随着传送网络规模的不断变大,OMCde硬件平台也在不断地变化与更新,总体演进节奏和各主流计算机厂家服务器、工作站、PC的升级换代基本一致。早期运营商网络主要使用的有SUN、HP、DELL、IBM等外资厂家的硬件作为服务器,近些年也使用了一些ORACLE、华为的服务器。硬件厂家及型号可谓五花八门。以某省级运营商为例全网165套传送OMC,服务器硬件型号涉及6个厂家约50个硬件型号。

(3)软件平台

每个硬件厂商均有特定的操作系统、数据库软件。操作系统主要有Solaris、Unix、Windows、Linux四大类,数据库软件有SqlServer、Sybase、Oracel三大类,两类软件之间也存在两两互相组合的问题。

3 主要存在的问题

传送网的建设、运营成本支出已经逐步接近、甚至超越无线网,为了降本增效,各大运营商均在积极探索降本增效的改革措施。在此大背景下,上述分散模式建设的传送网OMC主要存在以下问题:

(1)软、硬件版本和型号繁多,维护工作量大。系统问题需要协调多个厂家进行支持,系统维保成本每年很大且有较快的上升趋势。

(2)机房空间资源占用严重。按照一个标准机柜安装两台服务器测算,某省级运营商OMC服务器(主机+显示器)占据了约90个标准机柜,严重占用空间资源,阻碍后续业务发展。

(3)功耗高,电费成本支出大,不利于节能降耗工作的卡展:按照单机功耗1KW测算,上述运营商165套EMS每小时功耗为165KW,EMS为24h不间断运行,按照一年365天、每度工业用电1元估算,一年电费成本约145万。

(4)软件版本管理难度大。上述运营商全省165 套EMS总计约68个版本,软件版本管理难度大,无法满足每个产品1~2个版本的管理要求。大量软件版本也导致上层OSS集成难度大、周期长、费用高,而且严重影响OSS系统的稳定运行。

(5)对于跨多地市的电路等故障,每次故障预处理需要打开多套网管且在多套之间来回切换,效率低下。

4 管理要求与关键技术分析

4.1管理要求

通过集中化运维变革实现维护专业降本增效是运营商维护部门一直在努力做的工作,这方面中国移动相比其他两个主要运营商的力度大。中国移动已经实现以省为单位的全专业集中监控,可在省NOC实现对全省网络的监控及自动派单,部分业务专业也实现了集中维护,集中运维变革打响了相对坚实的一步。

传输专业因属地化属性较强,目前部分运营商实现了集中监控与自动派单。现有运维架构下一步到位实现集中维护,不符合客观情况。为了提升整体运维效率及降低成本,需要在分散运维与集中维护中寻找一个过渡方案,这个方案可以解决目前分散维护的痛点,同时也可为集中维护创造有利的推进环境。

基于上述分析,通过进行传输OMC的以省为单位集中是破解目前难题的一个最佳选择。通过IT的集中降低各项成本,提升效率,为一线减负,进而支撑业务的发展,并可以为后续的集中维护打下坚实的IT基础。

4.2关键技术

(1)刀片服务器技术

刀片服务器是一种HAHD(High Availability High Density,高可用高密度)的低成本服务器平台,是专门为特殊应用行业和高密度计算机环境设计的,其主要结构为一大型主体机箱,内部可插上许多“刀片”,其中每一块刀片实际上就是一块系统母板,类似于一个个独立的服务器,它们可以通过本地硬盘启动自己的操作系统。

刀片服务器支持Linux、Windows等不同操作系统。刀片中心包含了交换机模块和独立的管理模块,可以极大地减少所需线缆和外部交换机。它的优点主要如下:

●大大降低运行管理费用;高处理能力密度,节省宝贵空间和占地费用。

●低耗电降低电费;低散热减少空调费用。

●可靠性设计更加完善,减少停机时间;冗余电源、风扇。

●冗余交换模块和电缆连接。

刀片服务技术为解决传输OMC硬件型号繁杂、软硬件版本多、能耗与空间占用大等问题提供了技术基础。正确为:RedundanArrayof InexpensiveDisk。

(2)磁盘阵列技术

盘阵列的全称是:Redundan Array of Inexpensive-Disk,简称RAID技术,意为“独立磁盘构成的具有冗余能力的阵列”之意。磁盘阵列是由很多价格较便宜的磁盘组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。磁盘阵列技术的主要优点如下:

●提高传输速率。RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput)。

●通过数据校验提供容错功能。普通磁盘驱动器无法提供容错功能,如果不包括写在磁盘上的CRC(循环冗余校验)码的话。RAID容错是建立在每个磁盘驱动器的硬件容错功能之上的,所以它提供更高的安全性。

磁盘阵列技术为大量用户并发进行数据访问以及海量数据安全创建了条件。

(3)VMVARE虚拟机技术

虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。主流的虚拟机软件有VMware (VMWare ACE)、Virtual Box和Virtual PC,它们都能在Windows系统上虚拟出多个计算机,业界最为著名的是VMware的产品。VMware产品主要的功能有:

●不需要分区或重开机就能在同一台PC上使用两种以上的操作系统。完全隔离并且保护不同OS的操作环境以及所有安装在OS上面的应用软件和资料。

●不同的OS之间还能互动操作,包括网络、周边、文件分享以及复制粘贴功能。有复原(Undo)功能。

●能够设定并且随时修改操作系统的操作环境,如内存、磁碟空间、周边设备等。热迁移,高可用性。

虚拟机技术可以充分利用刀片服务器的计算资源,做到资源共享,把资源的价值最大化。

(4)容灾技术

基于刀片服务器及VMware的容灾技术主要有以下3种:

●分布式本地HA能力——本地vSphere HA保护方案

HA(High Availability)原理:虚拟机数据存储在共享存储上,刀片服务器提供虚拟机运行所需要的CPU、内存、网络等计算资源,当一台刀片服务器故障,备机刀片会分配新的CPU、内存、网络等计算资源给虚拟机,并重新启动虚拟机。集群HA功能,可以保证集群中任意一台刀片服务器故障时,其上运行的虚拟机能够在集群中的备用刀片重新启动,减少服务中断时间(15m)。

●分布式异地HA能力——异地数据库1+1冷备保护方案

支持搭建一套与主用站点完全一样的应用系统,将两套系统通过工具配置为异地冷备份高可用性系统。通过工具配置异地冷备份高可用系统,应用将主站点Backup节点的数据定时同步到远程备站点,实现数据自动化同步、自动恢复。当主站点发生故障或者灾难时,在备站点上直接启动应用式系统,接管现网络。

●分布式异地HA能力——异地1+1SRM温备方案介绍

主站点和备站点配置完全一致。使用VMware SRM(Site Recovery Manager)技术,主备节点之间数据实时同步。当主站点发生故障或者灾难时,备用站点启动应用式系统,接管现网络。

3种容灾方案优劣对比情况如表1所示。

表1 3种容灾方案对比

可见,异地1+1SRM异地温备方案相对效果最好,但软件投入相对较大。完善的容灾方案为集中建设大容量OMC提供了安全保障,确保了方案具备工程应用价值。

5 传送网OMC发展技术要求

基于管理要求及关键技术分析,通过IT集中实现以省为单位的OMC集中是传输专业中长期传输运维效率提升的一个重要手段及方向。为了扎实推进此项工作,传输OMC需要在以下技术领域进行研究与突破。

(1)OMC应具备大容量网络设备管理能力。目前,单个OMC最大只有2万等效规模的管理能力,中期需要具备8~10万等效网元的管理能力,长期来看需要具备15~20万等效网元的管理能力,一套OMC不仅可管理多个地市、甚至全省的网络设备。一套OMC可管理单专业的多种制式的网络设备,如传输专业OMC可管理SDH、OTN、PTN/ATN、PON等网络设备。

(2)OMC系统应全部采用通用X86硬件平台。全部软件模块可部署在通用X86物理主机或虚拟主机上,采用主流商用操作系统,如Windows、UNIX、Linux等。OMC软件模块指设备厂商及第三方提供的各类软件,包括但不限于OMC应用软件、数据库、中间件等。中长期来看硬件平台应该和运营商自有网管云平台融合。

(3)为提高系统可靠性和可扩展性,OMC系统应用服务器、数据处理服务器、数据库等核心软件模块应采用负荷分担的集群架构。实现单点故障不影响系统整体运行,并通过水平扩展硬件的方式,满足被管设备和信息处理不断扩展的需求。具体要求如下:

●支持动态、均衡地将任务分配到多个处理主机节点。

●支持在线、不停机地增加或减少应用主机节点。

●主动发现处理主机节点故障,自动进行任务迁移,确保数据完整性和准确性。

(4)原则上全部应用软件采用B/S架构,监控类、指令操作类可采用C/S架构。C/S架构的客户端软件,应提供客户端软件在线安装和自动更新功能,应可适用于操作系统的最新版本。

(5)OMC系统应设置时间同步服务器,或使用公共的时间同步服务器。OMC系统的每台服务器必须采用北京标准时间。OMC系统应提供图形化操作界面及指令化操作界面。涉及网元配置设置、网元参数查询、网元参数修改、网元告警查询等网元操作以指令化操作界面为主且必须提供指令化操作界面;网络拓扑展示、告警监控、性能查询等功能以图形操作界面为主。OMC系统应支持中、英文两种操作界面。

(6)集中OMC因管理海量网元,需具备强大的告警处理能力,能接入大量用户,能处理大量用户的并发操作。集中OMC需具备完善的分权分域功能,考虑短期内不会改变最终用户的运维习惯,集中OMC尤其要具备分级admin功能,即省级admin用户可以管理各个地市的admin用户、各个地市的admin用户不能互相管理、地市admin只能管理特定地市的非admin用户。

(7)集中OMC需具备强大且安全的接口,包括corba接口,文件接口等,以支持上层OSS繁重的采集任务。

(8)集中OMC需逐步集成各厂家提供小运维工具以及性能分析系统,将OMC打造成传输网络专业运维平台。

图1 集中OMC建设的示意图

6 集中OMC实现方式、部署策略及主流厂家成熟度

集中OMC建设的示意图如图1所示,目前其主要有两种实现方式:

(1)OMC物理集群(目标方式)。提升OMC硬件扩展能力,基于负荷分担的集群技术实现真正的一套OMC系统管理全省网络设备。

(2)OMC逻辑一套(过渡方式)。在现有的软件结构中,在多套OMC系统基础上引入集中化服务。将已部署的每一个OMC系统服务器作为独立接入点隐藏在集中化服务之后,由集中化服务对不同OMC系统服务器和各种工具进行统一管理。集中化服务中网元与实际归属OMC间的映射工作由集中化服务完成,运维人员实际使用过程中,在不切换系统的前提下实现全省网络设备的管理,用户登录一次可完成全部操作,包括网络设备操作和数据集中呈现等。

现网部署方面,考虑到4G业务快速发展以及即将到来的5G业务,建议推进策略如下:

(1)PTN、ATN和OTN优先推进集中化:LTE业务的快速发展,将带动PTNATN和OTN网络加速建设,维护压力将不断增加,集中化将有助于缓解压力,提高效率。

(2)SDH暂缓推进集中化:SDH承载的2G业务增长放缓,SDH后续将逐渐停止扩容,老旧设备逐渐规模化退网,待退网进程基本稳定后再择时开展集中化。

(3)PON暂不推进集中化:PON主要承载家客,以本地维护为主,且规模巨大,可暂不集中。

当前OMC系统普遍没有达到每个省同一设备厂家同一专业采用一套OMC系统的要求,可先采用“OMC逻辑一套”的过渡方式,逐步过渡到目标方式。主流设备厂家中华为目前采用方案一,中兴采用方案二。华为方案现阶段可实现5万等效的管理能力,17年可实现8万等效的管理能力,后续管理能力如需继续突破的话,方案一的结构需要进一步重构。中兴目前方案的管理能力较强,但负荷分担方面不够完善,需要继续突破。两个主流厂家中华为现网部署的推进节奏相对较快。

7 集中OMC现网部署的价值

一个大容量OMCde管理能力对中西部城市来说可以做到1:15收敛比,对业务量大的东部城市可做到1:8的收敛比,折中按照1:10的收敛比测算1套集中型OMC部署价值如下:

(1)机房占用空间可节省90%;电费每年可节省约10万元。

(2)软硬件维护成本按照每机器每年30万测算,每年可节省约270万。

(3)软硬件版本可归一化,使运营商省级维护单位具备了对市级公司进行技术支持和生产管理的强大手段。

8 现网部署案例

中国移动在运维集中化方面的探索相比中国电信、中国联通来说,走的相对靠前,在已实现核心网以省为单位集中维护、无线网以省为单位集中优化的基础上,正在攻坚传送网的集中运维。在中国移动31个省级公司中,江苏、浙江、广东3家分公司对传输专业的集中运维变革思考相对走在前列,目前均都在优先开展IT手段的集中,期望为后续的整体运维集中化打下良好的基础。以广东移动为例:目前已经实现了烽火OTN/PTN以省为单位的OMC集中,正在同步开展存量最大的华为、中兴两个厂家PTN/OTN设备OMC以省为单位的集中改造,预计在2017年完成后将可称为全国乃至全球最大的省级传输OMC。

9 结束语

随着各厂家大容量OMC技术的不断完善与发展,传送网OMC以省为单位集中将在2~3年内得到快速发展,这将有效地消除传送网目前分层、分地域部署带来的运维屏障,为后续传输专业集中配置、处理、业务调度的实现以及运维降本增效等变革措施带来强力的IT支撑。

猜你喜欢
集中化刀片运维
基于APKT150412-MM型号废旧刀片的研究实验及二次利用
卧式青核桃脱皮机链板输送机构的设计与有限元分析
圆盘剪高速剪切时的刀片温度分析
运维技术研发决策中ITSS运维成熟度模型应用初探
圆刀片切削力计算方法
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
商贸流通业对我国产业结构合理化与集中化的影响
内蒙古移动故障管理系统运行成效分析
配电线路的运维管理探讨