周 晶,王德政,洪 科(中兴通讯股份有限公司,江苏南京 210012)
2020年3月工信部发布《关于推动5G加快发展的通知》,国家确定了加快建设5G网络、发展5G 用户和5G 业务的方针。5G 网络的建设也是新基建重要组成部分。AI 人工智能技术这几年得到大力发展,算法、应用、芯片等技术水平不断提高,投资出现快速增长。
5G+AI已经成为数字化技术的关键环节。对于在5G 网络中如何采用AI 人工智能技术,运营商和很多企业都在进行尝试和探索,特别是在网络智能化运维、效率提升、资源优化、自动化排障、性能预测等方面,以实现高效运营管理。
a)网络要求高:5G网络在流量密度、连接数密度、时延等方面的要求均发生质的变化,需满足更宽的带宽、更多的用户容量、更快的上网速率、更高的频谱效率等,未来通信网络流量势必爆炸式增长。5G 主要KPI提升要求如表1所示。
表1 5G主要KPI提升要求
b)业务多元化:5G 主要业务包括增强移动宽带(eMBB)、海量机器类通信(mMTC)、超高可靠低时延通信(uRLLC)、车载通信技术(C-V2X)等,这些新业务使视频、AR、VR、直播、万物互联、车联网等业务需求日益增长。
c)业务类型更加多样化、网络要求及组成越发复杂,同时网络基于开放架构、网络功能虚拟化(NFV)、弹性、云化技术,软件硬件解耦,系统要求更加灵活,网络运维也变得更加困难。
5G 网络业务类型的多样化、网络复杂性、NFV 的需求、云化的要求等等,会使运营成本不断攀升。
边缘云移动边缘计算(MEC)和网络切片的引入,使网络也更加复杂,既有中心,也有边缘;业务多样化,用户和业务还需要切片管理,使系统管理变得更加复杂。
5G 网络时代,面对网络的高质量要求、业务多样化要求以及既有中心又有边缘的复杂网络,如何保障用户服务等级协议(SLA)质量,如何使网络资源分配更加合理、运维及定位问题更加高效,这些都是运营商面临的全新挑战。
而3G、4G 传统的运维方式是以人工运维管理方式为主,存在对运维团队的人员需求量大和专业要求高,故障问题定位困难,数据收集零散、核心网、承载及无线运维中心不统一等问题,缺乏端到端定位问题的手段。面对5G如此复杂的网络和业务,如何能节约运维成本,如何使故障分析更加智能和快速、资源分配更加合理,这些都对运营商提出了更多的挑战。
采用5G+AI 可以逐渐实现网络智能化运维,帮助运营商实现高效运营管理。
AI 智能平台可以提供网络智能化应用。AI 智能平台架构如图1所示。
图1 AI智能平台架构
AI 智能平台分为3 层:数据采集层、AI 算法框架层、应用层。
a)数据采集层:采用ETL(Extract-Transform-Load)、Loader、接口采集等采集各种数据,例如数据库、文本、日志数据等,可以包含结构化数据以及非结构化数据。
b)AI 算法框架层:支持多种主流算法框架,例如深度学习框架Tensorflow、Caffe,机器学习框架如Sklearn、Spark MLlib,提供模型设计、可视化、AI 在线训练、AI 离线训练、轻量化推理、模型市场、模型管理等功能模块,同时,可以将AI模型作为服务开放。
c)应用层:系统具有丰富的预测模型,可以为无线、有线、核心网等提供AI 服务,适用多种5G 网络运维的场景,例如容量预测、指纹定位、流量预测、告警根因分析、视频分析、KPI 预警、意图网络、切片智能等。
AI 智能平台,实际是一个以大数据为中心的平台,支持跨云边端多形态部署、云边端协同机制,采集网络运行的各类数据,融合、汇聚、分析、预测,为5G网络提供人工智能的服务。
3.2.1 AI智能平台包含以下主要功能模块
a)分析挖掘:该模块采用机器学习、深度学习和强化学习技术,用户通过可视化建模界面,实现包含数据采集、模型设计、模型训练、模型管理、模型部署的功能。该模块支持丰富的算法库,例如Spark MLlib、Tensorflow、Sklearn或者自研算法。同时,在边缘端资源受限的情况下,可以支持轻量化推理引擎。
b)数据管理:该模块为系统提供整体的管理能力,包含大规模多集群管理、配置、安装部署、升级、多版本控制、智能巡检、智能排障、系统资源监控、日志管理等功能。同时系统支持从中心到边缘的管理和部署。
c)计算存储:系统支持分布式计算存储,包含分布式存储技术HDFS、HBase、Hive,支持分布式计算MR、Spark,实时流处理Storm、Flink、SparkStreaming,支持Solr、ES(Elasticsearch)搜索,以及交互式SQLSparkSQL。
d)安全管理:该模块具有完整的安全管理框架,支持用户权限管理,支持数据加密保护、数据隐私保护、支持静态脱敏和动态脱敏,并且同时支持交互式、实时、离线数据的脱敏。系统具有完善的数据访问安全能力,遵从通用数据保护条例(General Data Protection Regulation,GDPR)隐私数据的保护。
3.2.2 预测分析过程
5G 的运维中心支持云化,大数据中心成为云中心,收集网络运维以及运营的各类数据,利用大数据进行AI预测分析,为网络运行提供完善的服务。大数据中心支持海量数据的采集、海量数据的分布式存储、异构数据的融合管理、超大规模的集群管理能力、跨云边端多形态部署的能力。利用大数据AI 预测分析如图2所示。
图2 利用大数据AI预测分析
3.3.1 超大集群管理技术
智能平台采用AI及大数据技术,支持超大规模集群能力和管理能力,支持6 000+超大规模集群管理的能力,系统支持分布式、弹性部署,支持云化K8S(Kubernetes)或物理机部署,部署灵活、方便。系统提供高性能、高可靠的大数据集群,支持高IO、高负荷、大数据量的大型集群,并支持集群快速部署/删除/伸缩等特性。智能平台支持云边协同部署能力,支持边缘节点的轻量化部署。系统支持资源配置、监控、管理,可以监控任务和租户的资源使用,提供完善的日志管理以及大数据智能巡检、智能排障等能力。
3.3.2 云边协同技术
如图3所示,智能平台支持云边协同技术,将中心云到边缘云协同运作,中心云支持AI 算法中心、模型市场,边缘云支持边缘推理轻量化、服务开放等模块,在中心云、大数据中心进行训练,形成模型,发布到模型市场,边缘端可以到中心云获取轻量化模型引擎,为业务实现服务,完成从中心云到边缘云的云边协同。
图3 云边协同架构中应用AI
3.3.3 硬件加速技术
系统采用高性能硬件,支持GPU 硬件加速技术,采用较高的运算能力提升AI 训练性能。平台支持分布式多GPU 环境来并行执行任务,从而快速完成模型训练、评估和优化等工作。系统具有资源自动优化方案,可以以数据并行、模型并行、混合并行等不同方式自动执行。
3.3.4 轻量化推理技术
智能平台为支持网元的智能化,例如边缘计算、基站、核心网网元等,提供了轻量化推理技术,设计了轻量化智能引擎(Lite Smart Engine,LSE),旨在为网络设备提供轻量级智能引擎。LSE 采用微服务方式,包含计算推理模块、共享存储模块和服务接口模块,其中计算推理模块为系统提供算法推理能力,共享存储模块用于存储轻量化推理算法,服务接口模块为业务层提供统一的接口服务。LSE 通过这3 个模块的配合提供在线推理能力。LSE模块如图4所示。
图4 LSE模块
3.3.5 租户及数据安全技术
系统支持租户管理及数据安全保障技术,完善的用户管理及数据访问安全控制,保障用户使用系统及数据的安全;同时系统支持大数据脱敏框架,采用分布式框架,遵从GDPR 隐私数据及数据脱敏标准,具有较低的性能开销;系统提供数据开放服务能力。
在5G 网络的设计研发及实验中,应用AI 技术提升5G 智能运维的能力,例如在全域故障定位、资源智能调度、边缘智能等方面均做了一些尝试。下面分别就这些场景进行描述。
a)全域故障定位将系统中多种类型的数据进行采集,例如收集配置、告警、日志、性能KPI、系统资源、用户感知异常、投诉、历史运行等各类信息。
b)统一的全域故障定位系统同时兼具预测模块、智能分析模块以及智能巡检模块:其中预测模块提供系统容量超限、资源不足、节假日峰值等的预测,系统提供丰富的预测模型;智能分析模块可以对网络故障进行分析,例如告警溯源分析、网络故障根因分析、关联分析;智能巡检模块支持一键式巡检方式,系统可以通过运维人员运行一键收集功能,获取系统设备实时运行状态,提升运维效率。
c)基于AI进行智能故障诊断:系统通过采集数据并进行大数据分析和AI分析完成故障诊断和定位,实现运维智能化。
d)全域故障定位可以融合无线、承载、核心网通信系统中的多种数据,采用分域及全域协同能力,进行告警压减、根因分析,并支持需要全域协同定位的情况,根据系统的告警、日志、资源等的协同分析,来精准定位故障的原因,实现网络智能化。
AI在全域故障定位中的应用如图5所示。
图5 AI在全域故障定位中的应用
5G 的网络中基站更加密集,同时在网络边缘也会设置较多的边缘节点MEC。无线资源以及MEC 之间存在资源共享调度的需求,这些情况下,可以考虑资源的智能调度。将资源的规划、调度和流量监测以及实际业务历史的模型相互配合,实现动态调整资源、合理共享资源、管理策略优化。AI 在资源智能调度中的应用如图6所示。
图6 资源智能调度中应用AI
在边缘侧引入人工智能,实现MEC 的智能应用。智能MEC 边缘云不需要到中心云去处理,而是在边缘云近用户端/基站的位置,进行业务处理,这样可以更有效地减少业务时延、提升实时性响应,特别是在近用户端进行人工智能的赋能,例如边缘侧的视频分析、人脸识别、安防、智慧调度等业务,还有工业流水线产品的质量检测、远程医疗中的增强现实(Augmented Reality,AR)、虚拟现实技术(Virtual Reality,VR)、车联网等智能化应用,势必会推进5G 行业的应用。
MEC 边缘端支持轻量化AI 引擎,以适应MEC 边缘端资源受限的环境。轻量化AI 引擎也是轻量化推理引擎,为业务提供基于微服务的推理能力。
a)网络数据分析功能(Network Data Analytics Function,NWDAF)融合AI 技术。NWDAF 是5G 核心网智能架构新增加的功能,采集网络功能、OAM 和应用层的数据,利用人工智能技术进行分析。例如从接入和AMF(移动管理功能)、SMF(会话管理功能)等采集运行数据、性能数据、负载数据等,利用AI+大数据进行分析预测,再将算法模型应用到5G网络中。
b)切片智能。在5G网络切片系统中引入AI分析系统,该系统以租户需求数据、网络切片运行数据等为数据源,通过智能分析算法计算得出能够匹配租户业务需求的网络能力,进而动态调整网络切片的服务能力。在切片智能系统中,通过NWDAF 和AI,获取网络切片的体验评估,进行AI 分析之后,再进行网络切片的资源配置优化等能力。
NWDAF、切片智能相关的标准仍在讨论之中,也会随着5G网络的建设得以实践、完善和应用。
随着5G 网络的发展,在网络智能运维中应用AI和大数据技术越来越成为可能。AI 智能平台以大数据云中心为基础,采集海量数据,并且具有超大规模的集群管理能力以及跨云边端多形态部署、云边协同技术、硬件加速技术、轻量化智能引擎、租户及数据安全技术的能力,在5G网络建设中为多种场景提供支撑服务,例如全域故障定位、资源智能调度、边缘智能、NWDAF、切片智能等多种场景。所以,在5G 时代,AI智能平台势必为5G的建设提供智能运维的支撑,帮助运营商和用户实现更大的价值。