基于OODA的智能自主运维管理研究

2021-11-16 20:08商英俊刘岩尹广彬
计算机与网络 2021年18期

商英俊 刘岩 尹广彬

摘要:运维管理系统的发展有两大促进因素,一是需求驱动,二是技术驱动。新型网络架构的出现以及被管对象新特征对运维提出了新的管理需求,同时人工智能和虚拟化等新技术的出现,对于提升运维管理的智能性奠定了基础。结合OODA思想,研究了运维管理的自感知、自分析、自决策、自优化等智能管控能力,同时研究了基于信息熵的探针和探测站点选择,结合实际需求研究远程运维和自动巡检,提升管理的时效性。

关键词:自优化;虚拟网络功能编排;远程运维;自动巡检

中图分类号:TP393文献标志码:A文章编号:1008-1739(2021)18-61-3

0引言

智能运维是实现网络运行状态实时监控、资源按需动态调控、故障快速定位诊断的重要手段。在网络运行过程中,需要实时监控网络运行状态和资源使用情况,基于应用需求,按需动态调控资源,及时排除故障。通过网络的有效和高效运行,满足多样化业务的高要求。

1自感知

1.1应用需求感知

操作人员通过可视化向导式人机界面,在应用和网络能收稿日期:2021-06-24力之间形成映射关系,转化为对网络资源的需求,包括源和目的地址、带宽、优先级、安全等级和时效性。

1.2多手段网络状态感知

网络状态感知的手段主要有:①定时轮询,基于配置文件灵活设定轮询时间和参数,定期进行重要关键参数的采集和感知。②主动上报,网络被管设备基于trap機制主动上报自身运行状态和活跃告警消息,全方位细粒度的数据采集是精准全面分析的基础。③采集点部署流量探针等进行流量信息的实时采集和监视,在采集节点部署探针需要根据网络实时动态拓扑调整探针设备最佳部署位置,即探针的动态部署算法。

探针动态部署方法步骤[1-3]描述如下:

步骤1:基于多维感知手段实时监测网络运行状态。

因此,可以用信息熵增益A、B表示每个探针信息熵增益。其中,信息熵增益B可在离线环境下计算并存储,信息熵增益A基于计算推理的算法进行计算,可大幅度降低探针信息熵增益计算的在线计算复杂度,减少计算时间。

步骤6:备选探针集合中信息增益最大的探针,进行信息发送。

步骤7:计算网络中剩余的不确定度( | ),代表网络中所有节点,如下:

如果网络中剩余的不确定度小于设定的阈值,表明探针已经将网络运行情况探测明白,结束探测;否则返回步骤4,继续选择和发送探测任务。

步骤8:将已发送探针的返回结果作为故障诊断的输入,进行故障诊断和定位。

本方法将探针的信息熵增益简化为2个条件熵之差,分别在离线和在线环境下计算,节省了在线计算时间,降低了计算复杂度。因此高动态网络的故障探针的部署方法具有如下优点:

①用信息熵增益A和B的差的绝对值来表示探针的信息增益,为了减少在线计算时间,一个条件熵可以在离线模式下计算;②为了降低计算复杂度,另一个条件熵基于近似推理法计算获得。

1.3自决策

自决策[7-9]是基于网络运行过程中的动态应用需求,实时更新网络资源状态,或者根据网络效能评估结果,进行资源优化调控策略的动态生成。同时,智能运维需要调控位于不同地理位置、具有不同通信能力及属于不同管理域的资源,需要进行跨域网络功能编排,需要运维管理中心协同不同的管理域共同完成跨域的或者端到端的资源调控。

1.4自配置

自配置体现在两方面,一是网络开通前的静态筹划和快速开通,另一个是网络运行过程中的动态调控配置。静态筹划和快速开通,提供向导式可视化一键开通配置。

同时在网络运行过程中进行资源动态调控,灵活设定多参数阈值,并制定对应的资源调控策略。在网络运行过程中,基于设定的阈值,当发现流量带宽越限或节点链路故障等网络异常事件发生时,自动触发策略决策,实现网络资源动态调控和自配置。

1.5自优化

基于大数据对主动上报和被动感知的多维数据进行数据清洗、去重、标注、分析、融合和评估,分析网络流量趋势、基于任务的资源分配情况、故障率等,建立评估指标体系是网络效能评估的第一步,选择评估算法,评估体系的选择也可以是客观指标,以网络健康度为例,评估指标体系包括实时性、资源利用率、快速组网能力、抗毁生存性、抗干扰性等多个一级指标,同时每个一级指标可以根据实际需要进行分解和细化。同时评估指标体系还可以从用户的主观角度进行设定,即基于用户(QOE)的主观评估。

在感知获取的多维网络数据的基础上,基于网络运行状态和历史数据,利用深度神经网络模型进行训练和预测,最终实现网络态势预测,进而实现前瞻性的运维管控。

1.6 KVM和自动巡检

通过智能化和自动化运维管理,减少管理员管理和操作负担,提高管理效率。通过灵活设定和定时轮询被监控对象的告警参数阈值,实现告警精准定位、故障诊断和前瞻性预测,实现“零延时”运维[10]。提高管理的实时性、准确性和自动化程度。

基于远程运维实现对远程机房内的路由器、交换机、服务器等运行状态实时监视和远程操作控制。设定自动巡检任务、任务开始时间、任务结束时间及巡检对象,设定定时器,自动触发自动巡检任务,同时基于巡检结果生成巡检任务工作报告,分发推送至不同的值班首长。让值班首长实时掌握值班岗位网络情况,零时延处理网络问题。

2结束语

运维管理系统的发展遵循需求牵引和技术驱动。一方面大数据、云计算、人工智能等一系列新技术,以及高动态弹性网络架构的出现,上述因素对运维管理提出了新的智能化的管控需求。另一方面,运维管理要适应新的弹性网络架构,在管理体制、管控流程、管理架构等方面进行适应性提高,同时虚拟化、大数据和人工智能等新技术也要引入运维管理,提升管理的智能性和主动性,实现真正的零接触、零延时运维,实现无人值守运维。

参考文献

[1]薛明.基于SNMP局域网流量监测系统的应用研究[D].郑州:郑州大学,2006.

[2]李涛,张亚群,刘岱平.面向服务的校园网流量监控系统设计与实现[J].现代计算机(专业版),2009(1):154-156.

[3]宋进红,沈云琴.使用CactiEZ轻松构建校园网络流量监控系统[J].河南城建学院学报,2009,18(4):57-59.

[4]段宗涛,林莎.基于SNMP的网络流量监控系统的设计与实现[J].微型机与应用,2006(11):25-27.

[5]董加敏,王斌.基于SNMP协议的高校网络流量监控管理系统的研究[J].广州大学学报(自然科学版),2009,8(1):53-57.

[6]张彤,吴世荣.基于SNMP计算机网络流量监控系统研究[J].计算机技术与发展,2011,21(1):88-91.

[7]徐鹤,王汝传.一种P2P流量监控系统的设计及实现[J].计算机技术与发展,2009,19(10):6-10.

[8]赵英,黄九梅,董小国.网络流量监控系统的设计与实现[J].计算机应用.2004(24):32-33.