董振江 中兴通讯云计算及IT研究院副院长
随着各种应用和带宽的快速增长,在大数据、云计算和机器学习特别是深度学习的推动下,人工智能技术获得了长足进步,成为当今的热门,在众多领域得到了实际应用,效果良好。国内外的运营商都在发力如何利用人工智能技术,从网络规划与优化、应用与管理的智能化与智能运维、运营和服务等多个维度思考,已经产生了积极的成效,这些影响在范围和深度上不断地扩大,利用好这波人工智能热潮的运营商很可能就此脱颖而出[1]。
本文通过对人工智能技术和应用的分析,探讨人工智能在智能运维、智能运营、智能服务和网规网优等领域的发展趋势。
运营商网络规模越来越大、越来越复杂,承载的业务愈来愈多样,系统面临三方面需求:一是提升运营商资源利用率的优化问题;二是如何提升部署、运维和运营的高效性,出现问题后能快速解决;三是如何为内外部客户提供优良智能服务的问题。
从发展阶段上已经历三个阶段,正在向第四个阶段快速发展中,如图1所示。
图1 运维发展阶段
1)专业人员运维阶段。专业运维人员负责日常的安装、升级、监控、故障处理等工作,随着产品或者产品服务的用户规模增长对运维人员的需求线性增长,人员成本高,复杂问题处理困难,而日常大部分运维工作本身低效重复,急需提升效率。
2)自动化运维阶段。日常维护工作具有明显的重复性,这些重复性的运维工作可由自动化工具或者脚本来实现,在条件符合时,工具和脚本能够被重复调用和自动触发,大大减低人工误操作风险,也极大地减少人力成本,提高运维的效率,这就是自动化运维。
3)DevOps(Development和Operations的组合运维)阶段。传统的运维体系中将运维与产品开发人员分开:产品开发人员负责研发用户需要的新功能,运维人员负责日常维护。据统计,现场出现的大部分故障是配置变更和升级操作导致的,而且问题出现后故障根因定位困难,大多是因为运维人员不了解产品的实现细节。为了做好软件产品的交付和运维服务,急需开发运维一体化:运维人员早期参与研发,研发时充分考虑监控、系统部署和运行过程中发生的异常,运维人员了解产品研发,能够快速地找出根因。DevOps应运而生,它是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合[2]。
4)AIOps(Algorithmic IT Operations,基于算法的IT运维)阶段。随着整个业务系统规模的急剧膨胀,以及服务类型的复杂多样,“基于人为定义规则”专家系统的自动化运维和单纯地研发与运维人员的协同日渐力不从心。自动化运维依赖于专业运维的经验,由专家发现规律形成规则,实现自动化运维。大规模运维的问题往往需要众多专家协助才能完成,周期长、协作困难、成本高。随着人工智能的发展和各种海量运维数据的产生,可以利用机器学习的方法,来分析、预测和决策,以解决日益复杂和变化的问题,在更高维度上实现自动化运维—智能运维便应运而生了。据Gartner预测,AIOps的全球部署率将从2017年的10%增加到2020年的50%。AIOps继承了自动化和DevOps的优点,利用机器学习提升智能性和效率[3]。
AI在运营商领域的应用前景非常广泛,下面介绍一些典型应用场景。
1)网络规划与优化。传统的网规网优主要依靠各种测试数据及经验来操作。效果和成本难以做到最优,虽然也有模拟工具来协助,但是这种做法常常是一次性的,无法做到根据实际情况的变化动态进行调整。采用机器学习/深度学习的方法,能够做到整体的优化,做到在线学习在线实施,经过不断地迭代,收集实际策略实施效果持续地改进;并由一般传统的被动优化转化为主动优化,将离线优化转变为在线优化,将阶段优化转化为持续优化。这依赖于领域专家、多维大数据和算法的配合及持续改进。
应用范围不仅限于基站的无线覆盖、无线资源管理、载波聚合、干扰协调、拥塞控制/负载均衡,还包括接入、传输、承载、核心网、CDN(内容传送网)与业务网,随着SDN(软件定义网络)/NFV(网络功能虚拟化)的逐步深化,智能控制的粒度会加深,端到端的网规网优成为常态,主动预测并提前分配资源,并结合实际成效快速度量和调整,优化的实时性更强,走向实时自治系统。
2)系统本身故障分析与纠错。采用机器学习的方法重点集中在异常发现、故障定位、根因分析、故障预测四个方面。传统的方法是通过数据的标注,利用传统的监督学习实现;未来的趋势是采用深度学习与监督学习、半监督学习、无监督的方式,并与知识库知识图谱结合,在推理上走得更深远,从而更好地发现异常,深入快速进行故障定位和根因分析,并逐步走向故障的提前预测,如CDN中硬盘故障等,与调度结合,提前行动,减少故障行为的发生,由传统的以解决故障为主,转变为主动预防,主动设计。
3)网络访问异常。网络在使用的过程中,会出现各种异常现象,如应用市场单IP刷单行为、短信彩信诈骗、新的内容出现后的访问量骤升等等。通过机器学习判断常规模式与异常模式的不同,实时准实时检测出异常,并自我决策或者通知管理人员决策,快速进行调度或者采取行动。
4)用户行为分析与推荐。这是人工智能发挥能力的关键场景,在互联网领域得到了广泛应用,取得了非常突出的效果。运营商掌握最真实的身份数据、最实时和广泛的信息,在这里面可以做的事情非常多,不只是简单的用户行为分析和推荐。在群体行为、个性行为和网络业务结合、对外信息脱敏后的开放上都大有可为。
5)基于NLP(自然语言处理)的智能服务。分为两部分,一部分是对内服务,如各种知识信息的分享与积累,不仅是知识的传递,还有助于专家解决问题,这部分目前的挖掘还远远不够;第二部分是利用NLP对外服务,典型的方式如呼叫中心中自动坐席和人工坐席的替代,为用户提供7×24小时的服务、基于语音识别语音合成的NLP自动外呼服务、各种在线服务(微信公众号服务、短信服务、彩信服务等)、基于NLP知识库的专家服务等等。
人工智能在运营商的应用,在技术领域面临如下挑战。
1)海量数据实时性处理的挑战。实时网络运维需要实时处理和海量数据的建模,在用户行为、网络数据域环境不断变化的情况下,需要快速地分析和决策;需要解决好两个问题,高速实时并行化算法设计和流式数据的分析处理,可以利用Storm/Spark Steaming等流处理系统,开源算法本身性能不高,针对性的优化是关键。另一方面在预测性上多下工夫,构建预测性分析基础能力,全面提升分析处理效率。
2)数据的稀疏性难题。高质量的标注数据数量稀少,很多情况下在某个具体问题上样本数据本身就非常稀少,而原因又复杂多样。在具体的实施时可考虑:①采用树状层级结构,逐步的细化;②利用各种方法生成数据,如月度、周等周期数据或者多种数据的组合,进行数据的增强;③利用监督、半监督机器学习,在少数准确标注的数据学习分类模型;④专家协助的主动学习,将专家引入模型的训练过程,在模型难以准确判断时,由专家人工分析补充。
3)标注数据的工作量巨大,人工难以提取特征。传统的机器学习建立在专家的特征提取能力上,对待各种复杂和未知场景,这方面的特征提取挑战更为严峻,比较典型的算法有逻辑回归、关联关系挖掘、聚类、决策树、随机森林、支持向量机、蒙特卡洛树搜索、隐式马尔科夫模型等。DNN、RNN、CNN等深度学习方法的引入,极大提升了特征的提取能力。深度学习与多示例学习、迁移学习和传统机器学习(特别是数据量少的情况下)结合,将是未来的主流方式,互联网等行业实践已见成效。
4)在线学习的挑战。网络日渐复杂,应用越来越多样,很难有成熟的办法应对持续不断的变化,这就要求系统具有自我学习、在线学习、自我迭代的能力。在构建系统时要充分考虑两种情况:一是随着数据的变化,快速调整寻找新的规律的能力;二是面向新的问题在线学习的能力。这是个长期的挑战。
5)不同领域的迁移挑战。运营商需要面向不同的行业用户,如何利用已有的知识,服务于新的行业,如何冷启动,快速地进行知识迁移是重大挑战。
6)在NLP领域面临的挑战。在人工智能领域有一个共识,NLP被誉为人工智能皇冠上的明珠,也是最难的。NLP难点集中在普遍存在的不确定性、语言知识处理的复杂性、输入的不规范性等三点。技术发展趋势体现在以下5点。①语义表示从符号表示到分布表示。基于分布式向量的方式对词语、句子、段落和篇章进行表示成为主流方向。②学习模式从浅层学习到深度学习。传统方法需要对输入文本顺序进行分词、词性标注、命名实体识别等工序,才输出最终结果,深度学习方法采用端到端的方式,输入原始文本直接得到输出结果。③语言知识从人工构建到自动构建。在知识图谱构建过程中,当前仍需大量人工投入,成本高周期长,知识图谱的半自动化构建和全自动化构建已经是科研界和产业界重点发力的方向。④文本的理解与推理,从浅层分析向深度理解迈进。⑤文本的生成,从规范文本到自由文本。国内外已有文本自动生成的成功应用,但距离带情感和上下文感知乃至个性化的文本生成还有相当长的一段路要走。
7)多维数据融合的挑战。日志数据、用户数据、网络数据、文本数据、图像/视频数据和位置数据等多种类型的数据,和不同设备、不用业务、不同层次、不同用户的数据如何融合使用,发挥出更大的成效是未来重要的挑战,需要我们根据场景逐步解决。
AI在运营商的领域应用,将全面渗透到网络、业务和运维运营的各个层级,将从简单地提升效率逐步过渡到AI主导,从被动处理走向主动预测,从人工到自动化再到AI的自主化智能化,从辅助决策最终走向自主决策,这要求我们引入人工智能方法论时也要有一定变化。主要体现在以下几点。
1)系统与全流程的思路。当前AI应用大多为头痛医头脚痛医脚的方式,未来需要我们从系统的高度统一思考,如何端到端地考虑问题,类似于DevOps打破开发与运维的界限,未来AI的设计一定是用户、业务人员、开发与运维一体的方式,各个角色和流程都要方便参与,才能将AI效能发展到极致,谁这方面做得好,更好更快地满足用户需求,拥有更高效更智能的运营网络和业务,谁将会在这轮AI驱动的变革中脱颖而出。
2)更自然的交互方式和更灵活的图形化展示。AI驱动的智能运营和运维,将更重视与用户的自然交互方式,可以通过自然语言,以语音、手势等多种方式更好地交互,同时系统间也会发展出超NLP的适应机器交流的方式;在结果的展示上,图形化甚至与AR/VR结合的富媒体交互方式将成为基本方式。
3)满足用户自设计和自我定制的需求。用户的需求多变、业务形态多变、接入方式多样,加上用户和业务的个性化需求,要求我们的AI设计一定要在满足基本的准确度和高效稳定的基础上,更关注个性化定制的需求,满足用户/客户自我设计的要求。从以设计为中心到以用户为中心的变化,软件定义网络、软件定义产品,做到产品的千人千面。
4)开放与生态。体现在技术的开放与开发的开放两个方面,各项技术的实现一定要紧跟开源的发展趋势,不能闭门造车,要能做好选择拿来为己所用,在开源的基础上做好创新,同时注意IPR风险,在内部的研发也要做好共享与开放,提升研发效率,减少无谓的浪费;今后业务的实现一定是多方参与的结果,要在生态打造上多投入,特别是以AI为主或者牵引的业务,从技术和商业上都能促进多方的参与,能够真正做到共赢,业务模式才能长久,才能得到健康发展。
AI在运营商智能运维、智能运营和智能服务方面的应用刚刚启动,前景非常广阔,不仅是提高网络运营效率、提升服务质量的重要工具,而且将是改变收入模式和运营模式的重要支撑。很多技术需要突破,结合场景的应用实践是关键,急需我们不断从技术、商业模式、思维方式上进行创新突破,充分利用AI及相关技术全面提升产品竞争力和用户体验,任重而道远。
[1]吕达,董振江,杨勇.M-ICT应用发展趋势及其关键技术分析[J].中兴通讯技术,2017,23(2):50-55
[2]裴丹,张圣林,裴昶华.基于机器学习的智能运维[J].中国计算机学会通讯,2017,13(12):68-72
[3]Liu D,Zhao Y,Xu H,et al.Opprentice:Towards Practical and Automatic Anomaly Detection Through Machine Learning[C]//Proceedings of the 2015 Internet Measurement Conference.New York: ACM Press,2015:211-224