一种面向5G网络的人工智能平台

2020-11-18 08:12:48高有利刘贤松中国联通网络AI中心上海00050科大国创软件股份有限公司安徽合肥30000
邮电设计技术 2020年10期
关键词:建模算法用户

尹 俊,高有利,刘贤松,盛 刚(.中国联通网络AI中心,上海 00050;.科大国创软件股份有限公司,安徽合肥 30000)

0 引言

AI已经成为国家战略,同时也是数字经济发展的重要引擎。AI对于运营商网络的重要性不言而喻,不管是在规划、建设、维护、优化,还是面向市场的支撑方面,都发挥着重要的作用。

当前,运营商的各个部门围绕生产经营中的热点和痛点,纷纷进行了一些人工智能领域的探索和尝试[1-4]。但是在取得这些成果的同时,我们也看到网络AI的需求比较多,覆盖也比较广,在部署过程中依然存在一些问题。第一是网络AI开发的难度比较大,运营商当前的人才储备难以满足大规模AI开发的需要;第二是AI的应用场景还有待丰富,相对于传统AI领域,运营商的网络AI应用场景更为广泛;第三是AI部署的协同不足。运营商的特殊组织架构关系,导致了集团公司与省分公司之间协同不足,省分和省分之间协同也不强,可能一个省分自己做了AI应用,没有办法共享经验,没有办法简单地应用到其他省公司,这样可能会造成一定的重复开发与资源的浪费。

所以,急需一个面向运营商网络的人工智能平台去解决上述问题,推动网络AI做深做透做出规模。

1 人工智能平台的发展现状

随着人工智能技术的不断发展,各大厂商都投入相当大的资金与精力到AI的开发与研究之中,这其中互联网企业首当其冲。作为展示其AI能力,提供落地化产品的重要手段,AI开放平台成为了各大企业的标配。而作为当前互联网行业公认的三大巨头百度、阿里、腾讯(BAT)的AI开放平台有着相对最为丰富的内容和资源。

百度AI开放平台有着最为完整的AI生态体系[5]。从AI开放能力,到开发平台以及行业应用,同时包括AI硬件产品以及AI教学支持等,形成了从线上到线下,从研究到开发到落地的一整套体系。

阿里云开放平台,依托阿里云服务器,形成了一套以云服务器为特色的AI开放平台。从基础服务器到上层应用,阿里开放平台能够以具体行业为定制目标,形成一套完成的从部署到应用的AI应用体系。

腾讯AI开放平台[6],依托其三大AI实验室,AI LAB、腾讯优图、微信实验室,为AI应用提供了强大的技术支持,能够提供较为完善的通用能力体系并提供以硬件为依托的智能应用平台。

除了互联网企业外,通信设备厂商、运营商等也有包含各自特色的AI开放平台。华为NAIE便是一个将AI引入网络领域[7],解决网络业务预测类、重复性、复杂类等问题,提升网络资源利用率、运维效率、能源效率和业务体验,使能自动驾驶网络的AI平台[8]。而中国电信和中国移动分别有以“灯塔”和“九天”为主打品牌的AI开放平台,为各自的网络AI业务赋能。

2 中国联通网络AI平台的功能架构

中国联通网络AI平台的核心功能规划紧紧围绕AI开发者和AI服务的使用者构建。平台的主要功能架构如图1所示。

2.1 基础资源层

图1 平台主要功能架构图

基础资源层是整个AI平台的算力基础、数据基础和算法基础。基础资源层提供了数据挖掘、深度学习等计算所必须的CPU、GPU、内存等IT硬件基础设施。在IT基础设施之上,平台提供了资源虚拟化、环境隔离等资源管理工具,方便模型训练和推理动态地申请、分配以及释放资源,实现整个IT资源利用率的最大化。同时通过环境隔离,解决了不同算法之间的运行环境的冲突问题。数据存储为上层的模型、应用、数据提供了稳定冗余的存储环境,保证平台数据和模型的安全。AI框架为虚拟化的容器资源提供了AI算法所依赖的最基础的算法框架,比如cuda/cuDNN、tensorflow[9]等。

2.2 模型开发层

模型开发层为AI开发提供了一套完整的可视化的流程。传统的AI模型开发包括数据获取、数据清洗、特征工程、模型构建、参数调优、模型训练、模型评估、模型封装、AI能力开放等环节,而模型开发层则是将这些底层繁琐冗杂的开发细节全部屏蔽,用户只需要关注需要处理的数据、算法以及需要调整的参数即可,模型开发层的功能关系如图2所示。

图2 模型开发层的功能关系图

2.2.1 自动学习

自动学习包括了图像分类[10]、预测分析、时间序列预测、关联规则挖掘等算法的自动学习。图像分类自动学习提供了alexnet、inceptionV4、resnet等预置算法,用户可以根据自己的业务数据选择相应的算法,进行简单的迭代次数调整即可提交训练任务。预测分析针对结构化数据的分类和回归,基于xgboost、svm等主流算法,通过内置贝叶斯超参数搜索算法和模型预评估选举策略,帮助用户自动地从候选算法中选择一组最优的参数进行模型构建。

2.2.2 可视化开发

可视化开发相对于自动学习较为灵活,可视化开发通过托拉拽的形式配置一个完整的算法开发流程。主要包括数据集加载、数据预处理、特征工程、机器学习、预测、评估等类型的节点。其中,数据预处理和特征工程针对数据提供了缺失值填充、异常值处理、删除重复行、删除列、数据拆分、随机采样、数据过滤、归一化、标准化、数值化映射等功能节点。机器学习则涵盖了分类、回归、聚类等类别下的逻辑回归、lightGBM、SVM、Xgboost、岭回归、KMeans聚类等算法[11]。

2.2.3 在线开发

在线开发为专业的AI开发者提供了独立隔离的代码开发、调试、运行环境。在线开发集成了jupyter-Lab工具,预置了sklearn、pandas等常用算法开发包以满足常见的算法开发需求。同时,平台支持自定义开发环境以满足特殊算法环境下的开发和测试。

算法开发调试完成后,平台会接管模型训练,生成的模型会自动按照平台标准封装成模型。平台支持多种模型封装标准,除了平台本身定义的模型封装标准之外,还兼容了AcumosAI、普通SpringBoot微服务等格式。平台的模型以标准压缩包、docker镜像2种方式存储和管理。其中docker模型镜像不仅仅封装了已经训练完成的模型和调用脚本,还集成了运行该模型所依赖的Runtime。模型镜像在通过kubernetes调度拉起为Deployment实例后,经过ingress代理,开放为标准RESTFul风格的模型接口服务。服务再经过API网关的注册,对外进行AI能力开放以及鉴权控制。

2.3 应用开发层

应用开发层是以开发层生成的AI能力为基础能力,结合元数据开发、界面定制开发、流程开发等工具,快速地基于平台生成一个创新AI应用。

2.4 数湖

数湖是模型开发的基础。数湖为模型开发提供了丰富的标准网络侧数据集,用户可以通过平台提供的数据集开发网络侧的AI模型而不再需要自己准备数据。平台提供针对图像和结构化数据进行图像分类标注和结构化数据标注的功能。对于平台不具备的原始数据,可以基于标注功能通过多人协作完成数据的人工打标签,然后生成为标准化的数据集。用户自己创建的数据集可以自己使用,也可以经过脱敏后开放给其他用户使用。

2.5 小U集市

小U集市为AI服务使用者提供了面向网络的智慧运营、面向市场的能力开放、面向客户的感知运营、面向经营的效能洞察4个方面的典型网络AI应用和网络AI能力,包括3G/4G/5G无线小区价值度预测、网络信号预测、OLT上联口流量预测、KPI异常检测[12]等AI能力。此外,为了满足省分公司开发创新应用,平台还封装了语音识别、OCR[13]、身份证检测、二维码/条形码识别[14]、人脸识别和比对等通用的AI能力。用户可以在线查看这些能力和应用的业务场景、接入方式、调用文档,在线体验模型效果,并且申请使用这些模型能力。

3 中国联通网络AI平台的技术架构

人工智能技术和应用的快速发展给人工智能平台带来了强烈需求,也要求平台能够快速地解决计算能力的供应、多样化数据的处理、算法模型的迭代开发、以及模型的封装部署等一系列问题。在其技术上,主要分为平台基础技术、算法优化技术以及模型封装开放技术。

3.1 平台基础技术

平台基础技术是作为搭建整个平台的必备条件,从技术架构上可以将基础技术分为数据存储层、资源调度层、AI计算层、能力开放层以及平台DevOps和安全管理功能。具体技术架构如图3所示。

图3 技术架构图

3.1.1 数据存储层

数据存储层为平台提供结构化数据存储、对象存储以及文件存储功能。采用传统的关系型数据库提供对结构化业务数据的查询和存储;依托于大数据技术和分布式数据采集组件,完成对外部数据源的适配接入与存储;使用分布式文件系统MooseFS与虚拟化容器环境结合的形式,实现对平台内标准数据集、模型文件以及训练部署模型中间结果的存放和处理工作,满足AI平台的高扩展性、高可用性等的存储需求。

3.1.2 资源调度层

平台基于虚拟化和容器技术,提供弹性资源的计算。采用docker技术将模型封装成虚拟镜像,使用Harbor为平台提供模型镜像仓库,利用YARN的资源调度功能实现对CPU、内存以及GPU等资源分配和智能调度,基于kubernetes对容器的管理操作技术,完成对算法模型训练、开发或部署过程中需要的容器进行统一管理和监控工作。

3.1.3 AI计算层

AI计算层为平台提供核心的机器学习和深度学习算法框架,平台利用成熟的算法框架和5G网络领域大规模的数据集提供预先训练调优好的专业化预置模型,帮助运营商的5G网络AI应用快速落地。例如用于图像分类的Inception V4、darknet_53、ResNet_v2_50等视觉处理预置模型,检测物体类别和位置yolo V3、faster rcnn、inception_resnet_v2等图片处理预置模型,还有包括分类LightGBM、SVM、XGBoost等众多的机器学习预置模型,这些模型不仅可以直接使用,还可以在其基础上再迭代训练,方便用户根据特定业务数据对模型进行优化调整。

3.1.4 能力开放层

平台采用分布式微服务架构,根据功能划分使用springcloud微服务套件将每个功能模块做成独立的微服务对外开放。使用Nacos作为注册中心和位置中心,用于微服务的注册、发现和动态配置组件;Feign为微服务提供声明式WebService,让微服务调用更加简单;Ribbon实现微服务调用的负载均衡;Hystrix解决底层服务的故障有可能引发级联故障的雪崩问题;SpringCloud gateway作为所有微服务的统一网关路由,为每个微服务提供身份认证与安全控制,保证整个平台的安全稳定。

3.1.5 DevOps和安全管理

平台采用Gitlab管理代码、Jenkins持续集成、Selenium自动测试、禅道问题反馈与项目管理、Ansible自动部署等组件相结合的方式,实现系统的DevOps。同时在平台层面,使用包括shiro安全认证、RSA签名加密完成自身安全验证控制,在服务器层面,使用IDS、WAF、RASP等技术实现系统整体的安全防御。

3.2 算法优化

近年来,随着人工智能的不断发展,相关机器学习和深度学习框架层次不穷,特别是Tensorflow、Caffe、Torch、MXNet、PyTorch等主流深度学习框架广泛用于各个领域,这使得平台需要适应多样化的算法框架。平台根据目前市场上常用的算法框架内置了一批已经优化后的基础运行镜像,用户在开发、训练、部署算法时,无需再考虑其环境资源问题,只需根据算法框架选择对应的运行镜像资源即可完成算法开发工作,使得平台更高效易用,大大提升模型优化速度。

3.3 模型封装开放

为了进一步降低使用门槛,平台针对传统的模型开放API进行了系统封装,制定了模型开放入口和请求参数规范,用户只需按照规范编写算法代码,系统会自动采用Flask完成对模型的封装,并且适配多种请求参数类型,如普通文本、文件流以及文本+文件流组合形式。针对市场上广为流传的AcumosAI模型,平台也做了无缝兼容,无需任何改造即可直接加载至平台中使用,并且平台提供与AcumosAI模型相互转换的快捷方式,便于与第三方人工智能平台的交流合作。

4 平台的创新点

本文针对中国联通面向网络的AI平台的设计与实现进行了探讨,中国联通网络AI平台的建设初衷并不是只为拥有深厚AI经验的用户提供服务,而是通过降低AI建模门槛,为广大非专业AI开发者和AI服务使用者提供一个易上手、体验好的人工智能平台。

考虑到AI建模流程的严谨性、复杂性,如果不具备一定AI基础的话,想训练一个自己的建模十分困难。本平台为了降低用户的AI建模门槛,采用“自动学习”和“可视化开发”的方式帮助用户快速建模。如果用户不具备AI基础的话,可使用“自动学习”的建模方式,只需设置一些基本的参数,平台便会自动进行模型训练并最终得到一个最优模型;如果用户具备一定的AI基础,“可视化开发”的建模方式将建模过程中涉及到的各个环节均封装成了“黑盒”形式,用户根据实际需要进行各个环节的自由组合,在快捷建模的同时,帮助用户更加深刻理解建模流程。

许多用户都面临着手中有数据但自己进行AI建模困难大的问题,使用平台的“模型生成服务”,可以参考平台已有的相同或相似模型。用户只需按照已有模型的要求将数据上传到平台,平台便可基于上传的数据并仿照已有的模型训练得到用户自己的模型,实现定制化建模。

建模不是目的,利用模型解决生产生活中的问题才能体现模型的价值。但不同的AI开发者使用的算法、编程语言以及拥有的模型运行环境不尽相同。通常,用户在本地训练的模型可能换个环境就无法运行,利用模型解决实际问题便无从谈起。针对这个问题,平台提供了标准化的模型封装和部署功能。如果用户是在平台中进行建模,建模完成后便可立即部署模型,平台会根据模型功能生成相应的API接口以供调用;如果用户在本地建模,只需按照平台的要求,在本地对模型进行封装后上传到平台进行部署以生成API接口,如此,不论模型需要什么样的运行环境,其他用户都可通过平台提供的API接口使用模型提供的能力。本平台通过这种方式打通了算法开发和工程应用之间的壁垒,更好地体现了模型的价值。

5 平台上线成果与未来展望

网络AI平台在2020年5月15日举办的智网创新中心智网中台发布会上正式发布。截至2020年7月21日,平台累计访问量23万次,用户量1 115个。

5.1 模型研发与上线

自平台上线以来,已累计研发上线AI模型78个(含前期模型自研成果)。涵盖了面向网络的智慧运营、面向市场的能力开放、面向客户的感知运营、面向经营的效能洞察四大维度。高热度模型如表1所示。

表1 高热度模型列表

5.2 开发平台使用

自平台上线以来,吸引了大量算法开发人员以及AI技术爱好者使用。具体项目数量如表2所示。

表2 开发平台项目数量表

从项目数量上来看,在运营商的人员体系下,简易化的自动学习功能更受开发者的欢迎。依托平台的架构以及强大的CPU&GPU算力支持,极大地提升了开发者的开发效率。

5.3 未来展望

本次开发的基于5G网络人工智能平台主要面对运营商常见问题,另外数湖中的行业数据是人工离线上传到平台中,下一步将研究如何将数湖中数据规模扩大,如实时在线连接到更多行业数据库,解决更多领域、更多用户切实需要解决的问题,从而服务更多的人群,实现更大的价值,也实现AI的服务能力、解决能力。

猜你喜欢
建模算法用户
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于PSS/E的风电场建模与动态分析
电子制作(2018年17期)2018-09-28 01:56:44
不对称半桥变换器的建模与仿真
关注用户
商用汽车(2016年11期)2016-12-19 01:20:16
关注用户
商用汽车(2016年6期)2016-06-29 09:18:54
一种改进的整周模糊度去相关算法
关注用户
商用汽车(2016年4期)2016-05-09 01:23:12