杨 平,裴 霁(.中博信息技术研究院有限公司,江苏南京 00;.中国移动江苏公司常州分公司,江苏常州 3000)
近年来,AI 技术应用于通信网络的研究取得了重大进展,在网络运营编排、运维管理、智能化网元3 个层次上,挖掘出越来越多的场景。但在针对5G所要求的快速响应业务变化、简化网络运维管理、提升网络资源利用效率等爆发性需求,运营商还要能够持续增加业务收入、降低运维成本、优化投资收益,AI则成为电信运营商在应对这些挑战时必须利用的工具之一。
因此,如何最大化地利用AI 工具使能5G,推行一种使能5G 的AI 深度学习训练与服务平台已成当务之急。
5G 端到端切片智能编排,即AI 工具通过采集数据掌握网络的实时运行状况,根据历史数据和实时数据对网络业务以及相应的资源需求进行预测和评估,给出适当的建议措施(如网络切片的扩容、缩容、变更等)。
5G 端到端切片智能运营,即可以通过AI 完成智能化的端到端切片业务开通和按需变更。同时引入智能客服,能够提供智能化的交流、咨询、切片套餐推荐服务。
5G 引入Massive MIMO 技术后,无线侧配置参数的pattern组合有了指数级的增加,从3G的几百种配置到5G 的上万种配置。AI 可以实现5G 大规模天线复杂参数的智能化配置。
a)智能权值搜索和监控。基于UE 的分布情况,根据覆盖用户数最多的原则,搜索和预测最优的水平/垂直波瓣宽度、方位角和下倾角。
b)UE 位置估算和预测。基站周期性收集一段时间内小区内所有UE 的位置信息,基于收集的信息可以估算UE的位置及分布。
c)场景自学习。利用测量信息描绘出终端的大致分布,进一步利用分布识别场景。根据不同场景,推荐最优权值,并将最终的权值反馈到场景识别模块,使得推荐不断进化。
边缘计算具备支持AI运算的能力,使得可以在边缘节点上,配合中心的DC 以及用户的终端来做AI 业务的智能优化。
a)本地缓存。基于AI 对用户的业务流和用户移动模式进行预测分析,有针对性地确定预存内容和推送内容,从而提高内容分发效率。
b)智能定位。通过位置已知的终端测量的各无线通信系统信号特征,借助AI、大数据收集分析和边缘计算节点的实时计算能力,利用指纹信息指导实际应用中的终端定位。
c)频谱感知。边缘计算节点基于不同无线系统的频谱测量结果,利用AI技术对各无线系统在不同区域的无线环境特征、用户行为特征进行分析建模,支撑具体应用场景。
d)业务感知。在边缘节点上部署高算力的硬件解析资源,结合AI和大数据能力,分析挖掘数据、业务和无线环境之间的内在关联,提供更为准确的业务特性识别。
a)网络健康度检查。基于大数据和人工智能技术的网络健康度分析,预测网格内未来某周期内的小区网络质量并进行预警,针对质差小区,分析引起质差的关键指标及可能的原因。
b)网络告警关联和故障定位。传统网络运维管理人员分析网络警告、判断告警原因、查找告警根源、定位并排除故障,耗时耗力。神经网络系统通过不断学习和训练,计算、翻译和调整分布于神经网络当中的连接权值,以整体的方式表达关联规则和故障诊断结果,准确定位网络故障。
c)基于AI 的智能基站节能。在5G 基站中,通过AI 辅助的业务分析、场景识别建立一个流量变化模型,来控制载波的智能关断,从而降低基站功耗。
基于AI 的深度学习训练与服务平台利用AutoML等相关技术,通过硬件虚拟化、算法服务化以及软件平台化等相关技术,在支持Tensorflow、Torch/Pytorch、MxNet、PaddlePaddle 等深度学习框架的基础上,提供通用的网络模型(如VGG、LSTM、seq2seq、Inception-Net、mobileNet)支持,并支持多种不同数据结构的数据预处理和标注。
整个平台包括硬件层、数据/算法层、模型训练层以及模型部署层,以及贯穿各个不同层次管理相关功能,如图1所示。
硬件环境层主要通过虚拟化的方式提供本地的GPU计算环境,或者直接访问云端的相应计算环境。
数据与模型层主要包括样本数据中心和模型算法管理中心。样本数据中心从样本的种类来说,支持图像样本数据和文本样本数据,从数据模型角度来说,支持文档数据、图数据库、对象数据库等。模型算法管理主要包括模型库和相关的模型配置库。模型库中的模型支持tensorflow、pytorch、Caffe 以及CNKT等多种不同的深度学习框架,并涵盖了多种常用的网络结构。平台将提供对样本数据以及模型的相关管理功能,如查询、更新、新建、导入导出等。
模型训练与优化层主要是算法的开发人员根据应用需求,检索相应的模型以及模型配置信息,采用相应的数据标注工具,生成特定的标注数据,并基于此数据,选定特定的模型以及相应的实现框架,通过人工或自动的方式对模型的超参数进行选择,并对模型训练结果进行相应的评估,来实施对模型超参数(如学习率、隐含层层数,卷积核大小等)的调节,从而构建出最优化的深度学习模型。
图1 平台总体框架
模型部署与服务提供层主要针对最终的模型用户。该层主要将模型训练层所得到的最佳模型进行打包部署。部署的模式有2种:基于WebAPI的部署和离线SDK 部署。基于WebAPI 的部署将模型部署在平台环境中,并利用平台所提供的软/硬件环境和相关的计算资源,为用户提供服务,用户可通过OpenAPI的方式来调用和使用服务。离线SDK 将和模型运行相关的所有软件环境打包,并通过SDK 的方式部署到用户的生产环境中,利用用户自身的硬件资源来进行计算。离线SDK可以脱离本平台环境独立使用。
端到端的深度学习训练和服务平台将在分析现有模型和框架的基础上,为用户提供统一的模型和框架选择结构,并进一步给出模型所需要设定的超参数集合以及参数的选择范围。主要包括以下功能。
a)数据处理与数据标注。完成对样本数据的标注处理,并将标注后的数据根据模型需要转换成特定的格式。深度学习模型的训练和应用依赖于海量的数据积累,特别是对于模式有监督学习,还需要对海量数据进行标注。深度学习所采用的网络模型和算法根据确定样本数据的格式和标注方法,我们将通过分析现有的模型和样本数据的关系,建立起常用的数据格式,并提供相应的样本标注工具来生成相应的标注数据。项目将根据业务的需求构建多种不同的样本标注工具,包括图像的标注工具,文本的标注工具(包括文本的意图标注、文本的情感标注、文本的命名实体标注、文本的语言模型标注等)。
b)模型选择与优化。根据应用需求,选定相应的深度学习框架和网络模型结构,并对模型的超参数进行调优,内容涉及模型的训练、评估、对比以及模型调参。随着深度学习技术的不断发展,深度学习框架越来越多,不同的框架所生成的模型都有所不同,需要支持这些不同框架所提供的深度学习模型。另一方面,为了满足业务的需求,研究人员已经提出了大量的网络模型。针对不同的业务需求,开发人员需要对网络机构和深度框架进行选择,该选择需要开发人员具有全面的网络和框架基础。平台在分析现有模型和框架的基础上,为用户提供统一的模型和框架选择结构,并进一步给出模型所需要的设定的超参数集合以及参数的可能选择范围。
c)模型的部署和服务。根据应用的需求,将训练好的模型进行一键部署,为用户提供WebAPI 或者离线SDK供客户端调用。
平台针对特定的5G应用领域,提供端到端的深度学习训练和服务,降低深度学习模型构建和训练的门槛,重点解决了以下问题。
a)标准化的数据管理与数据标注,为深度学习提供标准的数据样本。
b)智能化的模型选择与模型优化,实现深度学习模型超参数的自动选择和优化。
c)自动化的模型部署与服务提供,提供模型的部署意见,并按需提供模型服务功能。
平台使用户可以快速地基于自己的数据来构建并训练得到满足用户需求的最佳深度网络模型,最终开发5G领域的人工智能应用。
实际应用案例为某省运营商的基于训练服务平台的智能电话机器人系统。
本系统是智能机器人+呼叫系统+报表展示三位一体的智能调研应用,助力企业提升用户回访效率,降低成本,实现降本增效。模型的核心是让机器人正确理解用户所希望表达的意图,并基于理解的结果根据业务逻辑作出相应的反馈,目前在意图识别中采用了基于CNN、RNN/LSTM 等多种不同的模型结果,如图2所示。
图2 智能机器人模型
为了实现业务逻辑和算法之间松散耦合性,我们利用有限状态机的方式来对不同的业务场景进行建模,如图3所示。
图3 业务场景建模
系统模拟测试用例:某省运营商综合满意度回访,问卷内容为综合满意度、NPS、各服务环节满意度+不满原因追问,成功样本量达到1 000本。
经过测试,达到以下指标。
a)机器人电话接通率与人工相当,达到50%。
b)机器人问卷成功率为14%,略高于人工(10%)。
c)机器人成功样本平均用时6 min,低于人工的7~8 min。
d)机器人4 条线路,每条线路日均成功量30 个,日均成功量共计120 单,执行周期从原来13 天(4 个人工客服)压缩为8天。
本文研究并实现了一种使能5G 的AI 深度学习训练与服务平台。该平台经通信实际项目应用检验,具备海量、高并发、安全可靠的运行能力,可广泛应用于5G建设与维护领域。