满都拉
(内蒙古电力培训中心,内蒙古 呼和浩特 010011)
随着SDN技术的快速发展和应用范围的增加,采用SDN构建的通信网越来越多。采用SDN技术可以实现数据控制和数据转发功能的分离,并通过可编程技术极大地提升网络建设和运营的效率[1]。SDN技术给网络带来资源利用率提升的同时,也给网络故障管理带来了新的挑战[2]。为解决故障决策算法性能低的问题,Xia等[3]提出采用层次分析法提高网络决策的准确率。Xu等[4]提出采用K均值近邻算法对网络流量进行监测,为维护人员提供决策依据。Gavrilut等[5]提出采用音视频流和时间敏感流的联合路由策略,提升网络的服务质量。Novaes等[6]提出采用长短期记忆对网络流量进行预判,提高异常事件的预测准确率。Novaes等[7]提出基于生成对抗网络的网络流量检测机制,提升算法对网络环境的适应性。Borgiani等[8]提出采用网络划分的策略,解决大规模场景中终端监测效率低的问题。
通过对已有研究分析可知,为提升网络服务质量,网络故障管理领域已经取得较多的研究成果。但是,随着网络攻击数量和类型的增加,网络故障管理领域存在的问题也逐渐增加。为解决网络攻击导致故障决策机制的安全性低、效率低的问题,本文提出了基于网络特征的安全高效通信网故障决策机制。在性能分析环节,验证了本文提出的故障决策机制在故障管理决策机制的安全和效率两个维度上具有较好的性能。
为了保证提出的故障决策机制符合网络环境和适应网络运维需求,本文首先对SDN环境下的故障管理平台进行构建。根据网络环境特点,本文构建的故障管理平台架构如图1所示。该架构包括故障决策平台、全局控制器、SDN控制器、转发器4种类型的设备。其中,故障决策平台的设计是本文的主要工作。因为故障决策平台需要与全局控制器、SDN控制器、转发器3种类型的设备进行对接,所以需要满足特定的功能需要。详细的功能需求在决策机制的设计过程中进行描述。故障决策平台需要实现的功能包括故障预测、故障定位、故障恢复。首先,在故障预测方面,故障决策平台通过对网络运营数据的分析,实现故障预测。其次,在故障定位方面,故障决策平台通过对告警数据分析,实现故障定位。最后,在故障恢复方面,故障决策平台根据故障预测和故障定位结果,实现故障恢复。因为网络具有分布式架构的特点,故障决策使用算法的模型需要多方协作。
图1 故障管理平台架构
基于故障管理平台的架构,以保障故障决策机制的安全性和高效率为目标,本文设计了通信网故障决策机制,具体流程如图2所示,主要包括创建安全的数据通信通道、监测告警数据、监测异常数据、启动故障定位和故障预测机制、启动故障恢复机制5个步骤。下面对各个步骤进行详细描述。
图2 故障决策机制的流程
故障管理是决定网络服务质量的关键工作,因此故障管理中涉及的数据安全是故障管理工作的前提和保障。为防止故障管理数据被篡改或伪造,本文采用安全通信密钥的方式,为数据通信双方创建安全的通信通道。
从故障管理平台架构可知,故障管理相关的重要管理组件包括故障决策平台、全局控制器、SDN控制器3种类型设备。SDN控制可以获得自身管辖域内转发器的设备特征;全局控制器可以对所有的SDN控制器运行数据进行监测;故障决策平台可以对全局控制器的运行数据进行监测。为满足故障管理对数据的安全要求,本文设计的安全数据通信密钥包括故障决策平台与全局控制器的通信密钥、SDN控制器与故障决策平台的通信密钥。通信密钥的创建和使用属于成熟技术,可以使用已有技术进行创建。由于SDN控制器与故障决策平台的通信需要通过全局控制器进行转发,所以转发过程采用VPN技术或隧道技术。
监测告警数据包括全局控制器、SDN控制器、转发器3种类型设备的告警数据。全局控制器和SDN控制器的告警数据由故障决策平台进行监测,数据通信使用安全通信密钥加密。转发器设备的告警数据由所在域的SDN控制器进行监测。当发现转发器设备出现告警时,所在域的SDN控制器将告警数据提交给故障决策平台进行分析。通过上述分析,故障决策平台可以得到全局控制器、SDN控制器、转发器3种类型设备的告警数据,从而为故障定位提供安全和全面的运维数据,为故障管理决策提供数据支撑。
监测异常数据的过程与监测告警数据的过程类似,主要区别是设备的异常数据获取方式与告警数据获取方式不同。告警数据可以通过网络运维经验和设备数据转发过程的阈值设置获得,设备的异常数据需要根据不同的场景进行分析。为提升设备异常数据的利用价值,本文在下一节提出基于TOPSIS的算法对异常数据进行分析。
故障定位机制的主要功能是根据告警数据的关联性分析,挖掘出产生告警的根本原因,从而确定发生故障的网络设备或网络链路位置。故障预测机制的主要功能是根据异常数据的深入分析,确定可能产生故障的设备或链路的位置。相对于故障定位机制,故障预测机制的难度较大。已有故障定位和故障预测研究成果较多,当前的发展趋势是基于人工智能技术对问题进行建模,其难点主要是相关数据收集比较困难。本文的故障决策机制架构可以为人工智能算法提供安全可靠的网络运维数据,从而提升故障定位和故障预测机制的性能。
采用故障定位机制和故障预测机制可以定位疑似故障和潜在故障设备、链路资源。在故障决策平台获得这些信息后,可以通过故障恢复机制对相关设备进行恢复,从而减小或避免故障设备对网络性能的影响。为提升网络服务质量,通常将故障预测机制与资源备份机制进行融合,避免或降低潜在故障的发生对网络服务质量的负面影响。
从监测异常数据步骤分析可知,异常数据的准确性和全面性决定了故障预测结果的准确性和及时性。为了提高异常数据监测结果的性能,本节提出基于TOPSIS的异常数据分析方法。
异常数据需要从全局控制器、SDN控制器、转发器3种类型设备获取,在获取异常数据时,需要解决获取哪些类型的数据、什么时候获取数据两个关键问题。对于获取哪些类型数据的问题,主要考虑数据是否可以反映网络异常事件的发生;对于什么时候获取数据的问题,主要考虑获取数据的触发条件,避免过多或者过少的获取数据事件的发生;在获取数据类型方面,基于网络运维经验和故障预测机制的分析,本文以网络节点为研究对象,将网络节点的抗攻击能力、转发数据延迟、异步消息数量、异步消息间隔4个指标作为采集数据的类型。
通过上述分析可知,网络节点的抗攻击能力、转发数据延迟、异步消息数量、异步消息间隔4个指标对网络节点的异常识别都具有较好的参考价值。随着运维经验的积累,能够反映网络节点异常的指标数量和类型会逐渐增加。为了充分利用这些分析指标,需要采用科学有效的指标分析机制,才能根据指标的重要性对网络节点的异常情况进行分析。
首先,将网络节点和其包含的相关属性构建为属性矩阵如公式(1)所示。其中,每个元素aij表示第i个网络节点的第j个属性的取值。对于每个网络节点,本文包含4个属性,所以j的取值为4个。
(1)
其次,由于每个属性值的取值范围不同、属性表示的含义不同,不能对每个属性值进行公平的分析。所以,需要使用公式(2)的方法,对每个属性值进行归一化处理,从而便于网络节点的属性值的重要性分析。
(2)
最后,根据网络运维经验,给每个属性值设置一个权重wl,可以对属性值进行有效分析,如公式(3)所示。此时,每个节点是属性取值之和越大,网络节点发生异常的概率越大。但是,具体哪些节点属于异常节点,缺少一个好的评价标准。通过对已有研究成果分析可知,TOPSIS方法是评价多指标问题的常用方法,而且该方法分析的指标维度较多。所以,本文采用TOPSIS方法对指标的重要性进行分析。
(3)
TOPSIS方法通过公式(4)和公式(5)计算正理想点A+和负理想点A-的取值,并根据网络节点属性值与理想点的距离来判断节点的异常情况。网络节点属性值与理想点的距离可以使用公式(6)进行计算。当Ci的取值越大时,表明当前网络节点发生异常的可能性越高,需要快速反馈该节点的异常数据。
(4)
(5)
(6)
本文提出的基于网络特征的安全高效通信网故障决策机制,主要解决网络攻击导致故障决策机制的安全性低、效率低的问题。所以,在性能分析时,从故障管理决策机制的安全和效率两个维度进行分析。
在故障管理决策机制的安全性分析方面,从影响决策安全的因素进行分析。通过对已有研究分析可知,影响决策机制安全性的因素主要包括节点数据的安全性、数据通信的安全性。在节点数据的安全性方面,从异常数据、告警数据两个维度进行分析,本文的异常数据采用TOPSIS方法进行评价和触发,具有较好的科学性和公平性,能够保证数据的安全性;告警数据采用通用的网络管理触发机制,已经过多年的实践检验,可以保障告警数据的安全性。在数据通信的安全性方面,本文故障决策平台、全局控制器、SDN控制器3种类型设备在传输异常数据和告警数据时,采用通信密钥进行加密,可以有效解决通信链路攻击带来的数据篡改问题。
在故障管理决策机制的效率分析方面,主要从各个网络节点效率、整体流程效率两个维度分析。在各个网络节点效率方面,本文的网络节点包括故障决策平台、全局控制器、SDN控制器、转发器4种类型的设备。在故障决策平台方面,作为数据汇聚和故障分析的主要设备,可以专注于故障管理的特长,不需要关心网络设备的数据采集过程。所以,故障决策平台效率较高。对于全局控制器和SDN控制器,采用主从结构,可以显著降低单点控制器导致的拥塞问题和单点故障问题,从而提升网络节点控制的效率。对于转发器,采用分域管理策略,每个转发器可以时刻与其所属的SDN控制器进行交互,显著提升转发器和域内控制器的执行效率。在机制整体流程效率分析方面,本文将故障预测、故障定位、故障恢复3个故障管理功能融合到一个故障管理决策平台。该平台可以充分共享告警数据、异常数据。这种整体流程设计有效解决了传统机制中将故障预测、故障定位、故障恢复作为3个独立系统进行设计所带来的效率低下的问题。
综上所述,本文的故障管理决策机制在故障管理决策机制的安全和效率两个维度方面,有效解决了传统故障管理机制存在的安全性低、效率低的问题,具有较好的应用价值。
SDN技术给网络带来资源利用率提升的同时,也给网络故障管理带来了新的挑战。为解决网络攻击导致故障决策机制的安全性低、效率低的问题,本文提出了基于网络特征的安全高效通信网故障决策机制。根据网络环境特点,本文构建了故障管理平台,并以保障故障决策机制的安全性和高效率为目标,设计了通信网故障决策机制。在性能分析环节,验证了本文提出的故障决策机制在故障管理决策机制的安全和效率方面具有较好的性能。在性能分析环节可知,故障决策机制的优劣除了较好的决策平台架构,还需要在故障定位、故障预测、故障恢复方面具有较好的算法。下一步工作中,将对已有的故障定位、故障预测、故障恢复算法进行调研和分析,从而提出不同场景下可选算法的建议和策略,进一步提升故障决策机制的应用价值。