芈小龙 陈俊 周智勇 杨娜
摘要:运维管理系统的发展有两大促进因素,一是需求驅动,二是技术驱动。新型网络架构的出现以及被管对象新特征对运维提出了新的管理需求,同时人工智能和虚拟化等新技术的出现,对于提升运维管理的智能性奠定了基础。针对上述问题,结合OODA思想,研究了运维管理的自感知、自决策、自配置及自优化等智能管控能力,同时研究了基于信息熵的探针和探测站点选择,结合实际需求研究远程运维和自动巡检,提升管理的时效性。
关键词:自感知;自决策;自配置;自优化;虚拟网络功能编排
中图分类号:TP393文献标志码:A文章编号:1008-1739(2019)17-57-4
0引言
无人值守智能运维是实现网络有效管理与监控、资源动态分配与优化的重要手段。在网络运行过程中,需要实时监控网络资源的状况和就绪程度,并根据协商确定的服务等级协议提供服务质量保障,然后根据需要调整网络运行,以提供尽可能好的服务。通过网络有效和高效运行,满足快速变化的用户需求,努力确保信息通信支撑网能力构想实现,提升运维管理的智能性和自主性[1]。通常运维管理的智能性和自主性体现在一下几个方面:
①面向用户敏捷运维的需求。②自动规划和快速开通能力。③面向任务的网络按需构建与动态调整能力。④网络实时监控,故障零延时处理能力。
通过分析细化上述智能运维能力,借鉴OODA[2]思想,智能运维从自感知、自决策、自配置、自优化等方面进行设计实现。
1智能运维
1.1应用需求感知
能够提供可视化、人性化易理解操作界面,引导操作人员通过界面输入应用需求,进而自动获取应用需求,包括应用业务类型、业务优先级、业务量大小、业务对带宽、时延等的要求,为基于应用的按需资源调控提供前提和基础。
1.2基于探针的网络环境自感知
AI的本质就是机器学习,而对于机器学习来说,数据决定一切。因此真正的满足4V要求的大数据是AI的前提和基础,而数据需要实时采集、实时分析。目前针对运维数据的采集有2种途径,一是通过额外部署在网络中的采集节点捕获选定类型的数据;二是利用设备自身在运行中上报的参数和告警消息。部署采集节点需要根据网络拓扑结构设计最佳部署算法,智能自主运维管理系统通过与多个探针管控系统进行信息交互,实时感知骨干节点、接入节点的流量情况,为避免网络拥塞和实现资源优化调控提供数据支撑。
研究高效的针对高动态网络状态感知的探针选择方法,通过高效的故障探针信息增益计算方法,降低探针选择的计算复杂度。该方法利用了条件熵的性质,简化探针信息熵增益的计算过程。探针的信息熵可以分解为2个条件熵之差:其中一个条件熵在探测过程中不发生改变,可在离线环境下提前计算并存储,之后每次进行探针的信息增益更新时直接使用;另一个条件熵可利用近似推理的方法计算。
步骤8:将已发送的探针返回的结果作为故障诊断的输入,利用相应的故障诊断进行故障诊断和定位。
本方法将探针的信息熵增益化简为2个条件熵时差,分别在在线和离线环境下计算,节省了大量的在线计算时间和计算复杂度。因此提出的面向高动态网络状态感知的网络故障探针的选择机制有2个优点:
①探针的信息增益计算被分为2个条件熵之差,其中一个条件熵可以在离线环境下提前计算出来,节省了很多在线计算的时间;
②另一个条件熵的计算可以使用近似推理的算法计算,计算复杂度低。
1.3自决策
自决策是基于感知的应用需求和实时获取的网络资源能力,生成按需资源调控策略的过程,是沟通上层应用和底层网络能力的桥梁。智能运维的自决策主要是按需资源调控策略的生成和网络功能虚拟化编排。
网络功能虚拟化NFV利用IT虚拟化技术将现有的网络设备功能整合进标准的服务器、存储器和交换机等设备,以软件的形式实现网络功能,以此取代目前网络中私有、专用和封闭的网元设备。突破了专有硬件架构下的功能缺陷,实现了网络功能的灵活部署,降低了运维复杂性。
智能运维系统对上获取应用需求,然后将应用需求分解为对网络能力要求的QoS策略,基于资源调控策略实现对交换资源、存储资源、计算资源、服务资源、传输资源和安全资源的编排,满足不同应用的资源按需调控。网络功能虚拟化和虚拟网络功能编排可以高效解决网络行为和用户行为动态变化的资源按需调度问题。主要目标是为了优化物理网络中节点与链路上的资源利用率,同时也保证服务端到端时延的可控,实现资源最大利用基础上的智能调控。
在通信环境中,由于地理位置、通信能力及网络状态等因素,一个通信任务可能需要由多个网络域的通信资源协调支持,因此涉及到跨域网络功能编排。智能运维需要解决跨域虚拟网络功能编排问题。
对网络综合效能进行评估,评估结果可以对自决策提供数据支撑。
模型的建立主要分为3个步骤:网络性能感知指标预处理、单个业务评价模型的建立和网络效能评价。
首先,针对各个网络中以带宽为代表的正指标以及诸如丢包率与时延的负指标,做如下归一化处理。
通过实时感知对比参数值,与门限值进行对比,从而触发相应的策略,进而实现基于自感知的自配置。
同时在网络异常或发生告警时,一方面通过声音、光、电、短消息等多种手段进行告警,通过设定不同级别的声音对应不同级别的告警等级;提示操作管理员,同时联动告警经验库和策略库,已有策略匹配的直接基于策略进行告警处理,尚未匹配策略的,为操作员提供相似的告警经验处理建议,进行告警定位和关联分析,同时进行告警联动处理。
具备资源虚拟化和对虚拟资源的管控,在不改变硬件状态基础上,通过软件升级,简化设备操作配置,降低对操作使用人员的技术素质要求;通过路由分层隔离,取消路由聚合、路由重分布等专业性较强的网络参数配置;通过设备互联接口自适应,取消繁杂的接口参数配置,方便用户使用。
1.5自优化
对采集和感知的多种数据基于大数据进行分析、融合、评估,针对资源使用量、资源利用率、流量趋势、异常流量、流量越限、告警预测、网络运行趋势、网络健康度进行评估,基于评估结果设定优化调控策略,基于策略触发自优化调控。
动态策略模型有助于自优化实现,动态策略模型如下:
policyID @ { targetID
{ object }
{ action }
{ conditions }
①策略标识:定义和标识一个策略规则。
②监控对象:策略监控对象是能够表示网络当前运行状态的特征值。
③策略执行点:策略的执行点可以是网络中有访问控制能力的任何通信设备。理论上,策略的执行点应该选择最有效的地点。
④策略触发条件:预先定义的触发策略的网络状态,比如链路带宽小于某个阈值、误码率大于某个阈值、链路中断时间大于某个时间阈值等。策略事件触发机制、策略事件及策略条件,尤其是针对复杂的、组合的策略事件和条件的解析方法。
⑤策略操作:根据策略条件所要执行的调整动作,如设备速率调整、更改频率和带宽调整等。策略执行就是当满足某个策略的condition时,执行该策略的action,策略操作是基于實时感知的网络状态,进而动态执行配置动作。
网络健康度包括网络可靠性、安全性、通信能力、实时性、覆盖性、通信质量、通信业务、通信生存能力、抗干扰能力、通信覆盖范围及通信组网能力等多个一级指标,每个一级指标下可细分多个可测量、可采集的二级指标。从网络本身以及使用网络的应用终端与用户(QoE)等多角度不同层次出发,全面整体地审视监控网络健康状态,从而为网络健康度评估提供完善的指标体系。
在建立指标体系的基础上,针对网络通信运行数据,采用深度学习精准预测模型对网络健康度进行预测,结合高性能的分布式计算技术,实现网络预测模型的高效率和强鲁棒性;针对流式运行数据,研究深度学习神经网络模型的参数自适应调整方法,研究网络监控指标体系所表征的网络参数告警阀值动态更新方法,为实现不同网络场景和任务场景下的资源按需规划、网络健康度实时监控和精准告警提供支撑,进而实现网路自优化配置。
2实验仿真
以Ad Hoc网络智能运维为例,说明自感知、自决策、自配置和自优化的管控流程。Ad Hoc网络可划分为7个管理域,每个管理域包含若干节点,每一个管理域设置一个群首,全网配置一个网管中心。其中一个管理域的网络拓扑如图1所示。
①自感知:体现在节点能够感知自身的实时运行状态,同时上报本群群首;也体现在群首能够进行群内节点的离开、加入和失效状态,感知的最终结果体现在拓扑结构的变化上。感知内容包括:节点的离开、节点加入、节点状态、链路带宽利用率和端口流量;感知方法包括:主动探测、被动测量、主被动相结合的感知探测、基于定时器、基于消息线程。
②自配置:体现在群首根据群内节点的实时状态对群内节点进行配置,无需上报网管中心;
③自决策:体现在群首能够对本群的各种管理进行决策,只有涉及到全网或跨管理域的管理时,才需要网管中心进行决策。
决策策略:流量越限调控、带宽利用率越限调控和节点状态变化调控等策略。
针对节点加入/离开策略:启动定时器,基于消息线程,加入新的管理群;
针对节点状态变化:失效后,如果节点是群首,则进行群首委任,重新生成群首;
针对链路带宽利用率增加:进行负载均衡;
针对流量越限:进行流量调控。
④自优化:体现在能够基于动态策略模型,进行资源按需调控、流量拥塞解决等网络优化操作。
3结束语
随着大数据、云计算、人工智能、网络虚拟化一系列新技术的诞生和应用,以及新型网络架构的出现,对运维管理也提出了越来越高的新管理需求;另一方面运维管理要适应网络架构、被管对象新特征(资源虚拟化、网络功能虚拟化)等的变化进而在管理架构、管理技术上也进行适应性改进,同时运维管理也要引入虚拟化、大数据和人工智能等新技术,与时俱进,提升管理的自动性、主动性和智能性,实现真正的无人运维、零延时网络异常处理等,为网络高效可靠自主运行提供支撑。
参考文献
[1]薛明.基于SNMP局域网流量监测系统的应用研究[D].郑州:郑州大学,2006.
[2]李涛,张亚群,刘岱平.面向服务的校园网流量监控系统设计与实现[J].现代计算机(专业版),2009(1):154-156.
[3]宋进红,沈云琴.使用CactiEZ轻松构建校园网络流量监控系统[J].河南城建学院学报,2009,18(4):57-59.
[4]段宗涛,林莎.基于SNMP的网络流量监控系统的设计与实现[J].微型机与应用,2001(11):25-27.