本刊记者|张鹏
在过去一年中,国内运营商在网络转型方面步伐加速,较为突出的是vBRAS资源池落地并得以验证,移动核心网的M-CORD快速推进,云专线、SD-WAN等逐一实践。在此基础上,2018年运营商将更进一步,通过实践论证CT入云整体架构的可行性。
SDN/NFV作为全新的网络技术,能够帮助传统网络实现智能化、开放化和虚拟化的功能,但与此同时也引入了一些全新的挑战,比如在网络运维方面,传统的网元管理和纵向专业划分,在传统CO不断DC化的过程中遭遇了挑战,当网络被横向切分,网络自下而上开始分层,运营商的网络运维也要重新规划?
运营商说
史凡:从纵向到横向,从硬件到软件
我认为主要区别有两点,首先,跨传统专业,从纵向转为横向,NFV打破了现有运维管理以专业(与不同承载网络关联)为主的纵向模式,转向以横向(与不同网络层次相关)功能为主。
其次,强调面向IT和云的运维管理,从硬件运维转向了软件运维。在ETSI的MANO标准架构中,由VIM(虚拟化基础设施管理)、VNFM(虚拟网络功能管理)和NFVO(网络功能虚拟化编排器)组成。软件横向分层突破了传统网管的界限,管理范围更广。另外在NFVI层面,需要更加关注虚拟化软件、故障定位等软件层面的问题。
胡杰:MANO是NFV的关键组件
过去网络设备都是基于专用硬件构建,相当于“黑盒”,维护起来按照固定的规范和流程进行,同时采用相应的网管工具,这样也形成了运营商运维、数据、交换、无线、传输等专业化分工。但随着NFV化,一方面电信设备NFV化,基于X86部署,采用于云计算的基础技术,云网深度融合,由CT进入了IT。另一方面NFV MANO已成为NFV的关键组件,增强了对网元生命周期管理以及网络服务的编排能力,可以实现自动化的网络服务管理与部署,这对运营商也提出了新的挑战,所以应该选择MANO部分关键组件进行自主研发,推动运营商向“软件公司”的转型。AT&T去年表示其持续的SDN和NFV方面的投资已经带来了成本节约的优势,并且节省下来的成本正在成为推动虚拟化工作发展的资金,为我们提供了很好的借鉴。
张昊:传统看护式运维将彻底改变
传统的运维模式,运营商主要是看护式运维,重点是监控网元和网络在运行过程中状态,当发生异常情况时,主要依赖厂商进行相关问题的定位、解决。
NFV的三层解耦架构给运维带来的影响,总体的变化是从传统的看护式运维转变为围绕全局的编排和调度的设计。引入NFV架构后,VNF部署在虚拟资源上,当发生硬件、虚拟资源、VNF软件故障时,VNF和虚拟资源等通过自身机制可以最大程度上实现自动化的自愈、迁移等,运维人员不必太关注出了故障怎么办,因为都可以自愈。所以运维的重点是如何结合设计态和运行态的理念,做好设计态的相关模板设计、策略设计,尤其是当发生故障时的故障恢复策略制定。
设备商说
陈鼎:NFV打开了传统网络的“黑盒子”
传统网络中的组网设备对于运营商而言实际上是“黑盒子”,运维需要做的是确保输入正确,关注输出结果。在NFV架构下,网络不仅仅是组网这项工作,运营商还需要打开“黑盒子”,看看哪些结构可以标准化直通上游产业链,哪些部分需要有技术积累的厂家来做,哪些可以自研,从而将整个网络做到低成本和业务的快速灵活交付。
NFV架构下的网络对于运营商而言是机遇也是挑战,需要运维管理层面拥有更强大跨专业、跨厂家、各组件版本配套的集成能力和研发的投入。另外,从运维管理业务系统来讲,也需要考虑NFV下,基础设施和CT网元的融合运维能力,便于各专业之间的分工与协作。
何伟:五方面全面颠覆传统网络运维
传统网络是以用户规模来驱动,TTM长,整个系统复杂而且封闭,所以网络运维是半自动烟囱式管理,故障处理周期长,最主要的特点是“只监不控”;而NFV网络是由业务能力来驱动,是可编排、敏捷化的动态网络,系统是开放、开源的。VNF架构下的运维对比传统运维,有着环境、理念、组织、工具和价值五个方面的变化。
运维环境变革:从封闭系统到数字生态
运维环境不再是在单一、专业要求高的环境里通过标准流程进行业务保障,而是在多业务数字生态环境里,借助高度的自动化和AI技术,进行端到端的的业务运维运营。
运维理念变革:从ITIL到DevOps
DevOps理念的出现,改变了过去开发、运营(以及质量保障)为各自为政的局面,建立了更合理的合作模式,实现了持续部署。
运维组织变革:从烟囱式到切片式
通过新的业务运维组织架构,可以打破传统烟囱式的运维管理模式,将分散在一个个业务运维小组的能力集中起来,构建新的平台化运维运营体系。
运维工具变革:从自动化到智能化
运维工具从自动化向智能化演进,通过大数据及AI技术进行自我分析判断、自我决策和执行完成运维保障。
运维价值变革:从可用性保障到创造业务价值
传统运维重点在后端对网络可用性进行保障,在新的运维管理里,前后端拉通,实现按需DIY的“Service On-Demand”,可以直接对接用户需求来创造价值和利润。
运营商说
史凡:把自己看作一名“集成”工程师
全新的网络架构对于运营商运维团队也提出了全新的挑战,这需要IT人员突破传统专业限制,具备IT+CT的专业知识能力,仅掌握IT或者CT一种技术能力已经不能够满足未来云网融合架构的需求;在运维工作中,IT人员需要具备全局视角,不能只关注自己所在的领域,要把自己作为一名“集成”工程师。
胡杰:ICT人才是运营商的巨大挑战
网络云化之后,从横向看,网络运维各个专业间的壁垒被打破了,运营维护需要跨越物理和虚拟两网,同时还需要实现跨专业业务的编排、实现端到端的策略管理;从纵向看,过去的运维都是软硬件一体化的,系统相对较封闭,而网络云化后采用通用x86云化基础设施部署,设备由“硬”变“软”,网络与云深度融合。
在人才方面对运营商来说是个巨大的挑战,现有的网络运维工程师大多基于传统设备,网络云化之后需要将软件开发团队和人才引入到运维体系中,需要进一步加速软件快速迭代开发能力,提升网络和业务的创新能力,有条件的基础上还需要培养对开源代码的掌控力,未来懂网络、懂运营、懂IT的融合型人才将成为运维人员转型的方向,对于维护服务的理念也从关注网络KPI,转向以QOE、业务KPI为驱动的运维服务。
张晓光:联合业务做端到端综合分析
对运维人员的需求,其实和系统的架构密切相关,首先传统模式下,对运维人员的需求以纵向专业为主,按照网元功能划分运维角色,NFV网络转型后,由于是分层水平架构,运维角色也发生变化,首先是NFVI的平台运维角色,主要负责虚拟资源和物理资源的运维管理;其次是各个专业网元的运维角色,主要专注于网元自身逻辑的运维管理;最后引入了统一的编排调度运维角色,实现资源、网元、网络的端到端协同编排与调度。
对单个网元的运维而言,更加关注网元运维本身内容,而平台的运维一方面需要处理其本身的问题,另一方面在帮助网元业务做综合处理的时候,需要和业务联合起来做端到端的分析,比如故障关联分析的时候,需要结合NFVI、网元和NFVO的信息综合定位。也就是说未来的平台需要具备端到端的运维处理能力。
设备商说
陈鼎:NFV需要全套运维响应的新流程机制
用来承载通信云的DC基础设施以及电信级云平台,是按照一个通用电信级资源池在进行建设,目标是服务于网络云化之后各专业的网元,例如vIMS、vEPC、vBRAS等等。
对于运营商的IT运维人员而言,传统IT设备和平台需要服务的对象是更高可靠性要求的通信网元,因此从资源分配快速灵活性、低时延、实时性和可靠性上都相较于传统IT业务私有云和公有云提出了更高要求。不仅是NFVI的基础设施维护要求更高,而且一旦IT维护界面内的设施出现故障需要避免对上层通信云业务的影响,需要有一整套运维响应的新流程新机制来进行保障。
在有些NFV环境中,例如启用了SR-IOV网卡时发生在NFVI层的故障,传统的虚机迁移这类模式是没有办法起作用的,需要在故障定位和故障恢复的过程中与上层通信网元的运维团队紧密配合。另外,网络云化提供给运营商更多的自主权,不仅是运营商IT运维人员,对整个运维团队都会提出DevOps的发展方向要求,自己参与编排层的需求导入和功能开发,这也是运维人员所面临的新的挑战。
何伟:运维人员需要具备业务分析开发能力
在网络云化后,运维工作逐步与业务设计工作融合,运维工作范围扩大,要求运维技能与业务开发技能逐步融合,人员能力要求显著提升。随着网络架构的横向分层,运维人员的职能从网元层面上升到业务层面,这也要求运维人员需要具备对业务的分析开发能力。
因为未来软件定义的网络屏蔽了底层硬件差异,IT运维人员只有具备了敏捷、协作、有创造力的软件快速迭代开发能力、对开源代码的掌控能力以及网络和业务创新能力,才可以在按需进行业务相关的VNF/NS设计编排、SLA/KPI设计及测试部署的同时,承担数字化营销/客户体验管理的重要责任。
运维人员的团队建设也要考虑网络的演进过程,充分发挥原CT中高级专家“懂网络、懂业务”的优势,培养业务设计及跨层故障排查、数据分析的网络架构师团队。
Q3NFV三层解耦加剧了网络碎片化,新网络该如何规划运维管理能力?
运营商说
史凡:NFVO和VIM具备解耦和自研条件
VNFM和VNF关联紧密,短期内可能不得不绑定同一个厂商。NFVO和VIM均可以由第三方提供,与别的部分没有必然的耦合关系,并且运营商已开展了自研。Hypervisor和虚拟化软件应该与硬件解耦,但是部分能力的最优,还存在一定的耦合关系,即“特定Hypervisor+特定硬件”在某些应用种的效果最好。
胡杰:从两方面提升运维管理能力
在传统网络运营模式下,厂商和运营商之间、运营商和客户之间基本采用简单的“销售”模式,主要依赖于流程化的工程建设和网络维护,未来网络需要能够支持客户对网络服务的定制,具备可迭代开发的能力,同时还能够引入合作伙伴共同进行集成创新,这都对网络运维管理能力提出了较高的要求。
未来网络运维管理能力的提升主要包括两个方面,一方面NFV架构对于运营商网络的维护将产生很大的影响,从机房、设备管理、故障处理、质量保障等方面均提出全新的要求,需要加强对NFV架构的虚拟资源管理,包括相应的调度软件、云资源池硬件、云站点IP网络的维护等。另一方面运营支撑管理系统本身的SDN/NFV化,新一代运营支撑系统会在现有的OSS系统中引入SDN/NFV的控制器、业务编排和网络协同器,打破现有OSS系统的封闭性,形成对实体网络和虚拟网络跨专业、跨网络的统一运营管理。
张昊张晓光:网络运维向横纵两维度发展
NFVO/VNFM/VIM构成了NFV的编排管理体系。从运维管理角度,NFVO实际上包含了资源管理、资源监控,甚至包含部分OSS的内容,VNFM/EMS实现网元层面的资源管理和监控,VIM不仅是虚拟基础资源的运维管理也包含PIM硬件资源的运维管理,在未来网络规划中运维管理实际上需要综合考虑以上内容,主要包含两个维度。
第一维度是水平分层,VNFM/EMS的网元业务管理和VIM的资源管理需要各自定义和负责自己的运维监控内容,这些监控内容有两部分,一部分只和自己相关,不影响其他组件,一部分和其他组件相互影响,对于互相影响的联动问题处理,尤其需要NFVO/OSS进行智能处理。
第二个维度需要从垂直维度进行运维关联定义,这部分内容比较复杂,需要各层联动,比较突出的是故障关联处理、做端到端的可靠性、性能、安全性分析等。之所以说碎片,可能主要是由于采用三层解耦架构后,把原本清晰的运维管理界面打破了,但其实就网络运维的总体内容而言没有变化,只是需要根据架构的变化,调整相应的运维管理模式。
设备商说
陈鼎:网络重构后需要融合式、主动式运维
就MANO部分的规划而言,主要思路是NFVO由运营商自研,VNFM由各VNF厂家提供,VIM层面采用基于开源的商用版本或者自研的思路都有。
另外一个很重要的是——新华三的重构整体解决方案考虑了IT和CT融合环境下的运维的拉通,在新华三的解决方案中Carrier Director提供了IT基础设施和CT网元的融合运维,帮助运营商来做主动式的运维。
作为重构转型的运维工具,新华三的Carrier Director能够协助运营商,在网络重构的初期快速实现对现网重构业务的整体运维。在运营商网络重构的长期规划中,下一代的运维管理系统与业务编排系统将是运营商自研的重头戏,是运营商网络重构的灵魂。目前也有很多标准化组织在做运维方面的开源工作,新华三也是其中的贡献者,新华三在2017年加入了ONAP组织,会将不断贡献新华三在现网积极实践所积累的可行性方案,以及软件开发多年所积累的经验。
何伟:三阶段部署未来网络运维能力
中兴通讯对与未来网络运维能力构建的核心原则是以用户为中心,构建敏捷高效、智能开放的运营平台。
中兴通讯充分考虑运营商的网络演进及投资需求,顺势而为,通过2018年之前NFV的软硬件解耦,单厂家自动部署的验证实践,对未来网络运维管理能力的构建总体规划了三个演进阶段:第一阶段实现应用和资源统一管理,跨厂家自动化部署,统一运维门户;第二阶段实现业务设计编排,业务自动化开通,以及基于策略的闭环保障;第三阶段实现切片按需构建,可以智能优化及自愈,具备能力开放。
未来的网络运维管理将具备切片编排管理、AI、大数据分析能力,具有智能运维的特点,而且将以开放的数字生态系统架构,满足5G时代的车联网、NB-IoT等新型产业对新连接、新通信的高质量服务需求。