从庆平,张 莉,刘继平
(中国石油天然股份有限公司长庆油田分公司数字化与信息中心,西安 710018)
随着网络技术不断发展和网络用户逐渐增多,网络面临着架构复杂化、业务多样化、体验多元化等诸多挑战。网络用户对网络性能的要求越来越高。依靠专家经验的传统网络发展模式已无法适应当前时代的需求。与此同时,云计算、虚拟化技术、5G 通信、人工智能等新兴技术逐渐成为大数据时代社会发展和经济增长的核心力量。人工智能技术正在和网络行业深度结合。能够支持资源动态分配、功能灵活部署、自动优化网络配置等功能的智能化网络已成为科研院所的研究热点。
根据中兴软件公司的分析,网络智能化水平可分为4 级,即初级智能化、中级智能化、高级智能化和完全智能化[1]。而我国当前网络智能化水平介于初级和中级之间。智能化网络结合各项高新技术,可按需、灵活地支撑全行业应用及其业务场景,满足当前时代对网络的需求。这些需求包括但不限于:①支持网络即服务(Network as a Service,NaaS),实现2G、3G、4G、5G 等通信技术规格的共存和协同发展[2];②支持云化、虚拟化或在专用硬件中部署,以灵活适应各种应用场景;③支持在云环境或虚拟化环境中,网络资源按需、动态、全局性、自动化地调度,以实现网络的自动优化;④支持各个网络节点和基站之间协调合作,复杂环境下抗干扰,以提高网络结构的鲁棒性;⑤支持将部分功能下沉至网络边缘,即支持边缘计算能力,以降低网络延时,提高用户体验;⑥支持网络故障自动识别、自动定位、网络状态自动感知,以降低网络管理和优化的复杂度。
人工智能在网络智能化中的应用可分为3 个层次:分析层、调度层和感知层,如图1 所示。分析层负责从网络流量包、网络拓扑信息、用户行为信息等原始数据中挖掘分析出有用信息,调度层和感知层依据分析层的输出结果对网络进行深层次的调度与感知。
网络流量是网络负荷的直接反馈指标。精准可靠的网络流量预测结果可使相关人员迅速掌握网络流量的规律和趋势并及时地进行调控,能够有效地提升网络资源利用率。网络流量不同于其他流量数据,具有很强的非线性、随机性、自相似性、多分形性和潮汐性[3]。传统的线性预测模型无法精确地预测网络流量,预测误差较高。而人工智能中的神经网络拥有较高的泛化性与预测能力,是目前流量预测的主流方法。其中,循环神经网络(Recurrent Neural Network,RNN)及其衍生网络在该应用场景中表现最为出色。RNN 以网络流量序列数据为输入,其结构具有记忆性,即可在预测时考虑过去时刻数据和未来时刻数据对当前时刻数据的影响,故在处理流量预测这类时间序列预测问题时具有一定的优势。
门控循环单元(Gate Recurrent Unit,GRU)、长短期记忆网络(Long-Short Term Memory,LSTM)、双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)等循环神经网络在该应用场景中已有诸多成果。但在实际网络环境中,网络流量存在极强的突发性。目前的RNN 难以学习到数据中的突发性,导致对突发时刻及该时刻后的网络流量预测时误差较大。未来需研究可精确预测突发网络流量的方法。
告警关联是网络故障自动定位中的一项重要技术,其基本思想是通过关联多个告警信息为某单一告警信息过滤不必要的、不相关的信息,为相关人员提供合理的告警事件清单,以快速地识别故障源。基于人工智能的告警关联最常用的是基于Apriori 算法和基于FP-Growth 算法的关联规则挖掘模型,通过对物理主机内存超载、虚拟主机严重负载、网卡端口异常、磁盘可用空间不足等告警信息进行关联分析,与某一具体故障进行绑定,从而形成告警事件清单。一个小型网络的入侵检测系统(Intrusion Detection System,IDS)等网络安全设备每天可收集GB 甚至TB 级的告警信息,人工智能所带来的大数据挖掘能力是实现自动故障分析、故障自愈等网络智能化运维手段的必备手段。但现有的告警关联案例库仍需继续丰富,且应研究告警关联与增量学习技术的结合以赋予关联规则挖掘模型持续学习新告警信息样本的能力。
用户行为分析的目标是根据抓取到的网络用户所处环境、上网日志、上网行为等数据智能分析出用户的个性、特点和预计使用的网络服务等,为网络服务优化提供决策依据。自然语言处理(Natural Language Processing,NLP)是人工智能的一个分支,同时也是国内外学者分析网络用户行为的常用方法。通过NLP 中的文本分类、文本聚类、信息抽取、文本相似度计算等技术,用户行为可分为有意识行为、无意识行为、正常行为、异常行为、流量行为和协议行为,从而可以利用人工智能技术进一步对网络用户进行分类。目前,国内外学者们已提出了不少用于分类、聚类用户行为文本的模型,其准确率仍有提高空间。进一步提高用户行为分析模型的性能是该应用场景下一步的研究方向。
网络切片技术是网络智能化中实现网络功能和硬件设备的解耦。其结果可看作是针对不同的应用需求而产生的独立虚拟网络。保证较高的服务等级协议(Service-Level Agreement,SLA)和可接受的频谱效率可视为智能网络切片的两个约束条件。针对以上两个约束,以人工智能领域中的强化学习(Reinforcement Learning,RL)为代表的智能网络切片方法实现了支持虚拟网络的动态资源分配。RL 不需要先验的网络环境知识,即在制定切片策略时不需要结合专家知识,可降低网络运维成本。而在实践中,执行网络切片需暂时切断部分网络服务,故需额外考虑RL 的效率以增加基于人工智能的智能网络切片的实用性。
用户对云服务质量的要求越来越高,云计算的需求呈指数型增长。为了提升用户体验、保证服务质量,虚拟机资源调度技术日益引人关注。虚拟机调度可优化服务器运行,其优化目标包括中央处理器(Central Processing Unit,CPU)、内存、存储等资源,贪婪算法、启发式算法等传统方法难以在可接受的时间内计算出调度策略。目前已研究利用人工智能中的RL 构建虚拟机资源调度学习模型,将服务延迟指标作为奖赏函数来学习优化策略。RL 提供了一个可行的且可不断更新的虚拟机调度方案,但还需要进一步研究如何提高RL 的学习效率,并缩小RL 所需的状态存储空间。
基于人工智能的攻击预测通常基于当前IDS 观察到的恶意行为,预测某个攻击发生的概率、正在发生的攻击的策略、网络环境中资产面临的威胁,并对预测到的攻击进行攻击意图判断,以制定防御方案。传统方法基于马尔可夫模型和攻击图推断某个攻击转换成某种状态的概率,再根据网络中关键资产的价值和攻击成本推断攻击意图。但这种方法难以扩展到实时的大规模应用场景,故学者提出利用机器学习中的动态贝叶斯网络(Dynamic Bayesian Network,DBN)和决策树学习实现攻击预测。DBN 拥有对攻击样本的学习能力,通过计算网络中各节点的先验风险概率,从而对攻击预测概率进行静态评估,可辅助网络管理员评估网络安全风险。机器学习方法具有较好的泛化性和容错能力,但网络攻击的方法和种类日新月异,DBN 这种基于历史数据的机器学习方法无法有效地预测新型网络攻击。需研究能够做到快速响应新攻击、及时学习新的攻击活动样本和及时更新功能的人工智能模型。
挑战和机遇总是并存的。人工智能技术的研究和网络智能化的发展都是一个长期过程。在未来,人们应研究二者进一步融合的方法,将人工智能技术与基于网络结构提出的雾计算、边缘计算、联邦计算等新型计算范式结合,再反哺于网络智能化研究,打造网络智能化新生态。