多层次数据中心网络流量异常检测算法

2017-03-27 08:11王佳欣
关键词:网络流量高阶数据中心

米 捷,王佳欣

(河南工程学院 计算机学院,河南 郑州 451191)

多层次数据中心网络流量异常检测算法

米 捷,王佳欣

(河南工程学院 计算机学院,河南 郑州 451191)

针对多层次数据中心网络容易发生流量拥塞的问题进行流量异常特征检测,以提高网络的稳定性.提出了一种基于高阶累积量后置搜索的多层次数据中心网络流量异常特征检测算法,构建多层次数据中心网络的流量传输结构模型,进行流量时频采样和时间序列分析.结合FIR滤波器进行流量抗干扰滤波预处理,利用高阶累积量的后置聚焦性,对输出的滤波数据进行高阶累积量特征提取改进和后置聚焦搜索,实现了流量序列中异常特征的准确检测和提取.仿真结果表明,采用该算法进行多层次数据中心网络流量异常检测的准确度较高,抗干扰能力较强,保障了网络的稳定和安全.

网络;流量;检测;数据中心;高阶累积量

在多层次数据中心网络中,由于流量处理的规模较大,容易出现网络拥堵和异常,需要对异常流量特征进行准确检测,实现对网络的实时监控和拥塞排查,提高网络的稳定性和可靠性.因此,研究多层次数据中心网络流量异常的检测算法具有重要意义.

对网络流量异常特征的检测建立在网络流量的时间序列分析和统计特征提取的基础上.多层次数据中心网络流量异常特征的产生因素众多,具有时变性和随机性,对网络流量异常特征的检测方法主要有定量递归分析法[1]、小波分析法、基于Wolf一步预测的流量异常检测法、高阶谱特征提取算法等[2-3].上述算法把多层次数据中心网络流量时间序列解析模型分解为含有多个非线性成分的统计量,实现多层次数据中心网络流量序列的矢量空间重构,进行多层次数据中心网络流量的特征提取和异常特征检测,但网络流量数据规模的扩大和干扰因素的增多,影响了检测的精度[4-5].针对上述问题,课题组提出了一种基于高阶累积量后置搜索的多层次数据中心网络中的流量异常特征检测算法,构建多层次数据中心网络的流量传输结构模型,进行流量时频采样和时间序列分析,然后进行高阶累积量特征的提取和后置聚焦搜索,以实现流量序列中异常特征的准确检测和提取.最后,通过仿真实验进行了性能测试,实验证明采用本算法进行多层次数据中心网络流量异常检测的准确度较高,具有一定的应用价值.

1 流量传输结构模型及时间序列分析

1.1 多层次数据中心网络流量传输结构模型

图1 数据中心网络流量数据传输结构模型Fig.1 Data center network traffic data transmission structure model

为了实现对多层次数据中心网络流量异常特征的检测,首先需要构建多层次数据中心网络流量采样和数据传输结构模型.结合时间序列分析方法,进行网络流量的统计分析.多层次数据中心网络流量是一组非线性时间序列,可以采用非线性时间序列分析方法进行网络流量的特征分析和异常特征的检测[6-8].在多层次数据中心网络模型中,中心节点为基站,传输结构模型为G(O)=(V,E,LV,LE,μ,η),η∶E→Lg是两个异构本体从边集到概念相关集的映射,通过簇首节点将数据转发,通过Chunk进行数据中心交互读取Slice数据,在流量的存储池进行流量特征的统计和数据收发,多层次数据中心网络流量数据传输结构模型如图1所示.

由图1可知,在多层次数据中心网络中,数据传输是一个三维连续的MIMO系统,采用时间-频率联合特征分析方法,构建多层次数据中心网络的信道模型,描述为

x(t)=Re{an(t)e-j2πfcτn(t)sl(t-τn(t))e-j2πfct},

(1)

其中,多层次数据中心网络流量传输的时间尺度脉冲响应可描述为

(2)

式中:an(t)是第n条数据中心网络传输信道上的异常特征主频特征;τn(t)为第n条数据传输路径传输时延;fc为多层次数据中心网络中的信道调制频率;sl(t)为单分量传递信息.设多层次数据中心网络数据传输节点的传递路径有P条,则认为数据中心网络在跨平台网络环境下的多径信道数据传递函数为

(3)

式中:ai和τi分别是多层次数据中心网络中流量的传播损失和传递时延.由此,得到多层次数据中心网络中流量传输模型的特征分布函数:

(4)

通过流量异常特征的分布空间重构,可得流量异常特征的频谱特征:

(5)

(6)

式中:k表示采样频率;v表示多层次数据中心网络的带宽;Wx为时间窗口函数.式(5)和式(6)分别表示多层次数据中心网络信道中流量时间序列的时域和频域的伸缩尺度.由此,实现了多层次数据中心网络流量传输结构的分析和信道模型的构建,为进行流量异常检测提供了模型分析的基础.

1.2 流量的非线性时间序列分析

采用非线性时间序列分析方法进行多层次数据中心网络中流量异常特征的检测,设网络中流量异常特征的信号幅度为A,输入的时间序列为x(t),采用时频特征分析方法进行检测.

多层次数据中心网络中流量异常特征的时域和频域特征分别表示为

(7)

(8)

式中:ξ为多层次数据中心网络信道的衰减系数;X为多层次数据中心网络中的流量非线性时间序列的时频特征;X*表示对时频特征取复共轭.对多层次数据中心网络中流量异常特征检测系统进行双曲调频分解,得到网络中流量时间序列在时频域中的总能量:

Ex=∫-∞+∞∫-∞+∞Wx(t,v)dtdv,

(9)

式中:Wx(t,v)表示多层次数据中心网络中流量异常特征的时变瞬时频率.对时间序列进行边缘特性分解得

(10)

式中:|X(v)|表示流量时间序列在时频特征空间子域内的短时窗函数.构建表达多层次数据中心网络流量的信息流模型:

xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn,

(11)式中:h(·)为多层次数据中心网络流量时间序列的多元数量值函数;ωn为多层次数据中心网络流量时间序列的观测或测量误差.通过前期统计测量,得到网络流量的时间序列{x(t0+iΔt)}并进行重构,其相空间重构模型为

X=[s1,s2,…,sK]n=(xn,xn-τ,…,xn-(m-1)τ),

(12)

式中:K=N-(m-1)τ,表示多层次数据中心网络流量时间序列的正交特征向量;τ为对多层次数据中心网络流量采样的时间延迟;m为在相空间中的嵌入维数;si=(xi,xi+τ,…,xi+(m+1)τ)T为一组标量采样序列.由此,实现了对网络流量非线性时间序列的分析.

2 网络流量异常特征检测算法的改进

2.1 干扰滤波预处理

在进行了上述流量传输结构模型及时间序列分析的基础上,提出了一种基于高阶累积量后置搜索的多层次数据中心网络中的流量异常特征检测算法,对流量的时间序列采用FIR滤波算法进行抗干扰滤波[9-11].假设多层次数据中心网络流量是由线性相关的非线性时间序列产生的,用以下的FIR滤波结构模型进行干扰抑制:

(13)

式中:a0为初始多层次数据中心网络流量的采样幅值;xn-i为具有相同均值与方差的多层次数据中心网络流量标量时间序列;bj为多层次数据中心网络流量的振荡幅值.对多层次数据中心网络流量数据信息流进行Fourier变换,得到x(k),在干扰滤波处理后得到多层次数据中心网络流量的振荡衰减:

(14)

式中:a为多层次数据中心网络流量的域间方差系数;BH(t)为多层次数据中心网络流量异常特征检测的相关函数.假设输入的序列x(k)为一组宽平稳的时间序列,滤波器的传输函数为

(15)

式中:

(16)

由此设计的多层次数据中心网络流量干扰抑制的FIR滤波器如图2所示.图2中,滤波器抽头系数的迭代公式为

图2 FIR级联滤波器Fig.2 FIR cascaded filter

(17)

通过FIR抗干扰滤波处理,多层次数据中心网络流量输出解析模型为

z(t)=x(t)+iy(t)=a(t)eiθ(t)+n(t),

(18)

式中:x(t)为多层次数据中心网络流量时间序列的实部;y(t)为多层次数据中心网络流量时间序列的虚部;a(t)为相位随机化幅值;n(t)为干扰向量.

对多层次数据中心网络流量时间序列进行Fourier变换,得到x(k),采用自相关函数特征匹配方法检验多层次数据中心网络流量的非线性成分生成的替代数据,对序列的替代数据x′(k)求Fourier逆变换,以此为基础进行流量异常特征的提取.

2.2 流量异常特征的高阶累积量后置搜索检测的实现

采用高阶累积量后置搜索方法进行多层次数据中心网络流量异常特征的检测,该特征具有非平稳时变特性,引入四阶累积量后置处理算子,高阶累积量切片对多层次数据中心网络流量异常特征具有能量聚集和噪声抑制的特性,高阶累积量切片为

(19)

式中:γ为流量异常特征的峰度;h(j)为对应的对角切片算子.采用高阶累积量后置路径搜索,得到多层次数据中心网络流量异常特征的分离过程,可描述为

x(t)=ej2πvx(t)t,

(20)

vx(t)=v0+2βt,

(21)

YP(u)=XP(u)+δ(v-(v0+βt)),

(22)

式中:vs(t)表示输出的多层次数据中心网络流量异常特征的频率交叉项;YP(u)表示流量异常特征检测输出的中心矩.若多层次数据中心网络流量时间序列中的噪声项w(n)为高斯噪声,则

(23)

若w(n)为非高斯色噪声,则构建多层次数据中心网络流量时间序列的约束指向性特征,对输出的滤波数据进行高阶累积量特征的提取和后置聚焦搜索,以实现流量序列中异常特征的准确检测与提取.

3 仿真实验与结果分析

为了测试本算法在进行多层次数据中心网络流量异常特征检测中的性能,进行了仿真实验.仿真实验的软硬件环境配置:Windows7操作系统的个人PC机,2.89GHz双核Core处理器,2GB内存.采用C++和Matlab7混合编程实现检测算法的设计,流量序列的原始样本数据采集于数据中心网络的中心交换机,采集时间为2016年3月20日至7月10日,采集时间间隔为5min,采样频率为fs=10×f0=10kHz,采样的样本长度为1 024字节,流量数据异常特征采集的训练集为频带4~10kHz、时宽2.4ms的线性调频信号.根据上述仿真环境和参数设定,进行网络流量异常特征的检测仿真.首先,进行原始的网络流量数据采样,然后进行干扰滤波预处理,得到采样时间段内的原始流量数据和滤波处理后的时域波形,如图3所示.

从图3可见,原始采样的多层次数据中心网络传输数据受到网络空间中耦合信息特征的干扰,难以有效实现流量异常特征的检测,采用本算法进行滤波处理后,能有效实现对干扰数据的滤波和抑制,提高流量时间序列的信息纯度.对输出的滤波数据进行高阶累积量特征提取和后置聚焦搜索,得到异常特征提取结果,如图4所示.

图3 多层次数据中心网络流量数据采样及滤波预处理Fig.3 Multi layer data center network flow data sampling and filtering pretreatment

图4 流量异常特征的高阶累积量频谱Fig.4 High order cumulative spectrum of flow anomalies

从图4可见,采用本算法进行多层次数据中心网络流量异常特征的检测,异常特征的频谱图具有明显的波束指向性,实现了异常流量的准确检测与提取.为了对比性能,以对流量异常特征的检测精度为测试指标,采用本算法和传统算法进行了10 000次MonteCarlo实验,得到了检测概率曲线,如图5所示.从图5可知,采用本算法进行流量异常检测的准确性和抗干扰性均优于传统方法.

图6给出了不同模型下进行流量异常检测的误差对比结果,对数据进行整理分析,结果见表1.

图5 流量异常检测性能对比Fig.5 Performance comparison of traffic anomaly detection

图6 误差分析Fig.6 Error analysis

迭代次数本模型文献[1]的定量递归分析方法文献[2]的Wolf方法10.2690.3590.464200.1820.2130.412400.1550.2120.410600.1420.1790.381800.1290.1620.3601000.1030.1410.3321200.0300.1150.3121400.0260.0680.26716000.0410.24118000.0310.229

由表1可知,随着迭代次数的增加,对网络流量异常检测的输出误差降低,本算法在160次迭代后检测误差为0,而传统模型的误差无法收敛于0,这充分展示了本算法的优越性.

4 结语

本课题进行了多层次数据中心网络的流量分析和异常检测,提出了一种基于高阶累积量后置搜索的多层次数据中心网络流量异常特征检测算法,构建多层次数据中心网络的流量传输结构模型,进行流量时频采样和时间序列分析.然后,进行流量时间序列的抗干扰滤波预处理,对输出的滤波数据进行高阶累积量特征提取和后置聚焦搜索,实现了流量序列中异常特征的准确检测.最后,通过实验分析得出,采用本算法进行多层次数据中心网络流量异常检测的准确度较高、误差较低、抗干扰性能强,优于传统方法.

[1] 陆兴华,陈平华.基于定量递归联合熵特征重构的缓冲区流量预测算法[J].计算机科学,2015,42(4): 68-71.

[2] 杨雷,李贵鹏,张萍.改进的Wolf一步预测的网络异常流量检测[J].科技通报,2014,30(2):47-49.

[3] 孙三山,汪帅,樊自甫.软件定义网络架构下基于流调度代价的数据中心网络拥塞控制路由算法[J].计算机应用, 2016, 36(7): 1784-1788.

[4] 邓罡,龚正虎,王宏.现代数据中心网络特征研究[J].计算机研究与发展,2014,51(2):395-407.

[5] 魏祥麟,陈鸣,范建华,等.数据中心网络的体系结构[J].软件学报,2013,24(2):295-316.

[6] 南洋, 陈琳.基于客观权重确定的数据中心网络性能评估方法[J].计算机应用,2015,35(11): 3055-3058.

[7] JIANG X,HARISHAN K,THAMARASA R,et al.Integrated track initialization and maintenance in heavy clutter using probabilistic data association[J].Signal Processing, 2014(94):241-250.

[8] HUANG L,ZHANG J,XU X,et al.Robust adaptive beam forming with a novel interference-plus-noise covariance matrix reconstruction method [J].IEEE Transactions on Signal Processing,2015,63(7):1643-1650.

[9] 马俊涛,高梅国,董健.基于稀疏迭代协方差估计的缺失数据谱分析及时域重建方法[J].电子与信息学报,2016,38(6):1431-1437.

[10]王跃飞,于炯,鲁亮.面向内存云的数据块索引方法[J].计算机应用,2016,36(5):1222-1227.

[11]JIANG X,HARISHAN K,THAMARASA R,et al.Integrated track initialization and maintenance in heavy clutter using probabilistic data association[J].Signal Processing,2014(94):241-250.

Research on anomaly detection algorithm of multi layer data center network traffic

MI Jie, WANG Jiaxin

(CollegeofComputer,HenanUniversityofEngineering,Zhengzhou451191,China)

Aiming at the problem that the data center network is prone to traffic congestion, the traffic anomaly feature detection is carried out to improve the network stability. A traffic anomaly characteristics of multi level data center network cumulant Post search in detection algorithm based on traffic transmission structure model of multi level data center network, flow frequency sampling and time series analysis. Flow disturbance filtering pretreatment with FIR filter, using high order filter data of the rear focusing accumulation on the output of high order cumulants improved feature extraction and post focusing search, to achieve accurate detection of abnormal flow characteristics in the sequence extraction. The simulation results show that the algorithm has high accuracy and strong anti-interference performance, and ensures the stability and security of the network.

network; traffic; detection; data center; high order accumulation

2016-09-15

国家自然科学基金(61301232);河南省高等学校重点科研项目(17A520025)

米捷(1981-),女,河南郑州人,讲师,主要研究方向为图像处理与计算机网络.

TP393

A

1674-330X(2016)01-0062-05

猜你喜欢
网络流量高阶数据中心
基于多元高斯分布的网络流量异常识别方法
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
基于神经网络的P2P流量识别方法
有限图上高阶Yamabe型方程的非平凡解
高阶各向异性Cahn-Hilliard-Navier-Stokes系统的弱解
滚动轴承寿命高阶计算与应用
关于建立“格萨尔文献数据中心”的初步构想
AVB网络流量整形帧模型端到端延迟计算
基于高阶奇异值分解的LPV鲁棒控制器设计