袁 林,蔡 超,黄庠奇(.中国联通重庆分公司,重庆 40;.中国联通网络技术研究院,北京 00048)
随着2019 年6 月6 日5G 商用牌照的正式发放,我国进入5G 商用阶段。5G 时代使用的无线频率高,相比4G 时代单个基站的覆盖减小,为了满足覆盖需求,基站将会非常密集,网元数几倍乃至几十倍的增量为运营商的运维工作带来了巨大的挑战,相比4G时代网络复杂性提升了一个数量级。另一方面,5G时代带来的不仅仅是网络架构的变化,更是业务形态的变化。5G通过灵活的网络切片渗透到网络社会的各个角落,使能各种差异化的新业务,包括高清视频、车联网、工业物联网等,成为垂直行业数字化转型的利器和未来万物互联数字社会的基石。
面对网络全云化,控制面、用户面分离的分布式网络架构演进,网络运维在5G 时代会面临较大的挑战,电信运营商需要通过运维转型来提升网络运维效率,降低网络运维成本。
5G 时代云网络运维的对象从传统的专用设备转变成基于NFV 的分层网元。图1 简单地描述了NFV的分层结构。
NFV 网络的3 层架构包括上层的VNF 层,功能与传统的CT 网元功能一样;中间层的Cloud OS,实现向上提供基础资源,向下管理通用硬件;下层的通用硬件层,包括物理的计算、存储和网络资源。
图1 传统CT设备与NFV分层结构对比
NFV 的各层之间是解耦的,解耦方式如图2所示。其中“完全解耦”是NFV 发展的方向和业界趋势,运营商可以摆脱对个别厂家的依赖,降低网络建设成本。“完全解耦”部署和维护较复杂,但资源可以做到统一管理和调度,其最根本特征是各层间使用标准接口,但当前协议和标准进展缓慢。
面临NFV 分层解耦的场景,传统的核心网工程师难以独立运维如此复杂的系统,所以运维转型就成为运营商要探讨的一个重要课题。
围绕5G时代云化网络运维转型,下面将从业务与基础设施分层运维、维护团队人员融合、集中监控以及自动化智能化运维4个方面进行分析和探讨。
如图3 所示,当前的运维模式有3 种:统一运维、分层运维和统一管理、分层运维管理。
在运营商云化转型初始阶段,对于少量NFV 新建或者替换场景,由于NFVI 运维工作量较小而不必要设置专职的I 层工程师,如果没有相应的规划,运营商通常会选择模式1,由传统的核心网工程师掌握NFVI的技能,统一负责VNF和NFVI的运维。
对于云化部署模式,因为NFVI 运维工作量增加,需要有专职的NFVI 运维工程师来负责这部分的运维工作,而VNF 运维依旧由传统的核心网工程师来负责,即分层运维。但是在管理层面,可以选择由核心网统一负责问题和变更的管理,或者分别由各自的团队来负责管理(此种情况就要面临如何协同管理VNF和NFVI的问题)。
从NFV 长期发展的角度来看,分层运维是一个大的趋势。将NFV 运维团队分为业务管理、运行维护团队、基础设施管理和运维团队,人员分工和技能更为聚焦和专业,能力继承性好,维护效率更高(见图4)。
随着云化技术的发展,未来NFV 的私有云需要满足电信5 个9 的可靠性要求。作为VNF 运维工程师,需要关注上层业务的快速部署和故障处理,而不必关心下层使用的Cloud OS 是FS、Redhat Openstack 或者是Vmware。当业务出现故障的时候,VNF工程师很容易通过上下层系统接口的状态监控来判断是否是下层出现了问题,快速通知NFVI 团队进行问题处理。而对于专业的NFVI 运维工程师来说,只需专注于Cloud OS 和硬件资源的运维,确保可以为上层业务提供充足可靠的资源,在这种情况下可做到电信云和IT云统一运维,随着云规模快速扩大,I 层的运维效率也会得到很大提高,甚至可向互联网厂商进一步看齐。
图3 当前可见的3种运维模式
图4 NFV分层运维模式转变
在网络云化场景下增加了NFVI 的运维,会要求维护团队要有具备I 层运维能力的工程师,即经常提到的ICT 融合。按照当前的情况,运营商面临要求每个工程师进行相应的ICT 技能融合,还是把CT 工程师和IT工程师进行人员的融合的问题。
先讨论技能融合。当前NFV 主要应用还是核心网场景,核心网按照业务可以分为CS和PS,CS业务包含固网NGN、移动核心网CS、IMS 等,PS 业务包含USN、UGW、IGW、HSS 等。目前负责核心网运维的工程师一般都是CS 和PS 分开设立的。CT 和IT 相比,二者之间的差别比较大,在当前情况下要求一个核心网工程师去熟练掌握NFVI 的运维是非常困难的。如果在NFV 运维场景下,要求核心网工程师去掌握NFVI的运维技能,基本上就是要求其具备5 级工程师的技能水平。从运维成本和效率的角度来看,这种融合的方式并不是最优的方案。
再看人员融合的方案,按照NFV 的分层解耦,上层的VNF 和之前传统核心网网元的功能一样,这部分的运维仍然由传统的核心网工程师来负责;下层NFVI的运维是新引入的,同IT 产品运维相似,运维就由专职的IT 工程师来负责。这种情况对当前工程师来说转型的难度较小,但是在遇到跨层问题的时候,如果VNF 层和NFVI 工程师互相不了解,就会带来故障难以定界的问题,这时候就还是需要有融合VNF 和NFVI技能的专家工程师来协助解决故障。
所以,综合起来看,VNF 和NFVI 人员的融合是比较适合的方案,可以保持较高的运维效率;同时依然需要高级别工程师在技能上也做到VNF 和NFVI 的融合。
对于传统核心网工程师,图5 描述了建议的专业技能融合方向。
对于有志于向ICT 运维专家发展的工程师来说,图6 中包含的四大领域6 个能力模块都是需要学习和发展的。
图5 传统核心网工程师专业技能融合方向
图6 ICT运维专家能力模型
在运维活动中,告警、性能和日志的监控处理是非常重要的日常活动。在NFV 分层解耦的场景,每一层都有独立的监控工具。例如华为的产品,VNF 层使用EMS(U2000),NFVI 有FusionSphere OpenStack OM,v-center,硬件层有eSight。因为运维入口数量较多,运维工程师要频繁切换运维工具。在故障处理,特别是跨层故障定界定位时,由于各个运维平台的不统一,会带来极大的困难。
因此,在NFV 场景下,集中的监控运维平台也会提升运维效率。目前华为可以提供小闭环和大闭环的集中监控运维方案,分别针对华为VNF 的场景和多厂家分层运维的场景(见图7)。其他厂家也有类似的方案,实现NFV分层解耦情况下的集中监控。
传统的CT 运维基本上依赖于工程师的经验和技能,自动化程度很低,更不要提智能化。目前运营商和设备商都普遍认同网络全面云化后,面对海量的运维数据,传统人工的运维方式已无法满足NFV 运维的需求。电信运营商需要参考IT 互联网运维,利用大数据分析、机器学习等技术实现运维自动化和智能化。
NFV 场景跨层告警关联就是一个自动化和智能化的实例,通过机器学习对海量告警数据的分析,可以自动梳理出NFVI 告警和VNF 告警的关联关系,再把这些关联关系作为规则,EMS 或者IES 系统可以自动对告警进行关联和压缩。通过这种方式,运维工程师可以比较快速地查找到根因告警(见图8)。
目前NFV 自动化和智能化运维处在起步阶段,与互联网厂商的自动化和智能化相比还有很长的路要走,这个也是未来NFV运维解决方案开发的重点。
网络云化是5G发展的基础,电信网络将会面临前所未有的发展契机,而中国目前正处于5G发展的启动期。尽管运营商在5G 网络部署和运营过程中会面临各种挑战,但是5G网络的灵活切片能力和对垂直行业数字化、智能化改造的强大潜力将给运营商带来更大的机遇。电信运营商需要积极推进运维转型,加大力度构建云化网络运维能力,提升运维效率,为即将到来的5G市场快速发展期打下良好基础。
图7 华为小闭环和大闭环的集中监控运维方案
图8 NFV场景下自动化跨层告警关联示例