基于改进型决策树算法的网络流量监测研究

2015-07-26 02:29王启明赵凯时合生
微型电脑应用 2015年8期
关键词:网络流量暂态决策树

王启明,赵凯,时合生

基于改进型决策树算法的网络流量监测研究

王启明,赵凯,时合生

针对网络异常流量特征扰动性和暂态性特点,提出一种基于改进型决策树优化跟踪算法算法。利用双正交提升小波分解得到的各层细节信号对暂态性扰动特征的敏感性,通过小波分解得到各层细节信号,将提取的小波分层细节信号的奇异值分解特征再返回到决策树主分量特征优化跟踪模型中,实现网络流量异常特征的定位提取和识别。试验表明,基于改进型决策树优化跟踪算法,暂态性异常特征谱图分辨能力提高,异常特征分布谱清晰可见,展示了较好的特征提取和状态识别性能。

跟踪算法;二叉回归;网络流量;小波分解

0 引言

决策树算法在数据挖掘和信号特征提取及分类识别中的应用和研究比较广泛,文献[1]中,王曙燕,耿国华等采用决策树算法对医学图像进行数据挖掘,主要是基于决策树算法设计了医学图像分类器,进行辅助医疗诊断;饶翔、王怀民等在云计算系统中,基于决策树模型进行特征建模,实现特征挖掘并应用到故障检测中[2];文献[3]中,采用小波分解的方法,结合数据挖掘中决策树算法,实现对电能质量扰动自动分类。陈辉林,夏道勋采用类型变量求解决策树,并引入优化的分裂函数,创建二叉决策树,进行数据挖掘实现[4]。综合传统研究成果可见,决策树算法是数据挖掘和特征分类算法的一个重要延生分支,挖掘的数据特征,通过决策树算法实现分类整理,实现对数据的合理利用[5~7]。然而传统上采用决策树算法进行数据挖掘和分类识别中,由于网络异常流量数据扰动性和暂态性较强,传统的决策树算法不能有效对网络流量的暂态性异常特征进行提取和定位识别[8]。

针对上述问题,本文结合小波分解得到的各层细节信号对暂态性扰动特征的敏感性,提出一种基于小波分解的二叉分类回归决策树主分量特征优化跟踪特征提取算法,实现对网络流量异常特征这类暂态性和扰动性强的信号的有效检测和跟踪定位识别,最后,通过实测网络流量信号进行仿真实验,检验方法的可行性和优越性。

1 二叉分类回归决策树主分量特征建模

1.1 问题描述与决策树的构造

决策树算法在数据特征分类研究和分类器设计中广泛使用的分类算法,数据分类是数据挖掘技术的必然延生和归属,常见的数据分类器有BP神经网络分类器、贝叶斯分类器、SVM分类器、线性分类器、级联分类器等,决策树分类技术因简单有效而被广泛使用,特别是在海量特征数据聚类设计中,决策树分类器有着广泛的应用前景[9]。具体来说,决策树模型结构包括3种节点模式,并由节点和边组成的层次结构模型,3种节点模式分别为:根节点、内部节点和叶节点。其中,根节点与内部节点为决策树内部层次属性检验集条件,叶节点为决策树属性标识。决策树分类经典算法为ID3算法,但ID3算法需要实现目标测试数据所含属性离散处理,且各组训练测试样本数据集标识具有确定性,为此,本文引入二叉分类回归决策树算法,实现对ID3决策树算法的改进,主要包括如下两个方面:

(1)实现对网络流量序列连续数据集属性离散化处理;

(2)把数据主特征建模和特征提取分类与决策树剪枝处理同步进行,在决策树建构过程中实现剪枝;

决策树构造过程采用了自顶向下和分治的方法。其构造方式如下,令A= {a1, a2, … , an}为网络流量序列训练集的属性集,B = {b1,b2, … , bm}为决策树的类别集,ai的属性值为{c1,c2,… , ck}。首先从将训练集与它们所属的类别进行关联。其次从训练集的属性集中利用信息增益 Gain选出属性集中的最优分裂属性。可以通过公式(1)~(3)产生信息增益。网络流量序列决策树构造信息增益表达式为公式(1)、(2)、(3):

根据最优分裂属性的值将训练集划分为若干个子集。然后在每个子集中递归的选取新的最优分裂属性,并将该子集进行分裂,直到无属性划分或最终的子集都属于一个类别,通过上述方法得到信息增益为二叉分类回归决策树主分量特征建模提供特征导向,其中i p是指训练集中属于bi类的元素所占比重。jB表示在训练集中含有xa属性中的vc值的元素集合。

1.2 二叉分类回归决策树主分量特征优化跟踪提取

通过上述过程进行决策树构造,设置了训练集合属性集,并在此基础上,构建二叉分类回归决策树,进行主分量特征优化跟踪建模设计,提取网络流量序列的暂态性异常特征,设数据集测试数据待测试窗口的特征向量表示为公式(4):

考虑网络流量异常特征的暂态扰动性特点,在numFolds,seed,BinarySplits参数设置上设定为默认值,原始数据集特征空间属性为2维空间,无需进行2进制数值转换,参数设置中,confidenceFactor和minNumObj设置对决策树的特征具有决定作用,提取暂态性特征空间,采用自回归模态跟踪技术进行数据集预处理,实现对网络流量特征的提取定位,在决策数据模型状态提取过程中,将训练样本,输入特征数据优化跟踪状态识别器,产生数据跟踪状态序列集,导入数据特征跟踪状态验证器进行状态识别验证,最后输出,判断是否作为网络流量的异常特征。

通过测试数据集进行8次决策树数据测试,得到的网络流量数据主特征决策树分叉图,对应的定位跟踪属性取值{0,1}映射到决策树中表现为映射值{No,Yes},对应特征跟踪数据时候出现,在本文算法实现过程中,对数据集中的异常特征采用小波分解方式进行提取,充分利用小波分解各层细节信号对暂态性扰动特征的敏感性,通过双正交提升小波构造,对网络流量序列多轮分解更新,求解各层细节信号,通过细节信号较好地展现暂态性扰动特征。最后将提取的小波分解特征再返回到决策树主分量特征优化跟踪模型中,实现网络流量异常特征的定位识别。

2 小波分解细节信号暂态性扰动特征提取算法

2.1 双正交提升小波变换和细节分解

在二叉分类回归决策树主分量特征建模的基础上,需要提取网络流量序列的异常特征在送回决策树进行模式识别,由于网络异常流量数据扰动性和暂态性较强,传统的决策树算法不能有效对网络流量的暂态性异常特征进行提取和定位识别,本文采用小波分解的方式对网络流量序列的细节信号进行展示,充分体现信号的暂态性和扰动性,实现特征有效提取的定位识别。算法描述具体如下:

采用双正交提升小波在欧氏空间内通过基底平移和伸缩构造小波基,在提升小波变换中,小波由某一母小波通过平移和伸缩得到。网络流量序列的双正交小波形式为公式(5):

A(t)t为,K表示流量序列的信号包络,θ( t )为扰动偏移相位,参数0确定如公式(6):

f0为小波双正交变换的算术中心频率,B为异常流量扰动带宽。双曲调频小波的瞬时频率为公式(7):

小波函数为公式(8):

流量序列基地平移瞬时频率为公式(9):

取τ*= (1 - a)t0,得公式(10):

对双正交提升小波小波而言,随着细节信号尺度算子a变化,其等效于母小波在二维空间伸缩平移,从而把异常特征信号的暂态性扰动特征映射到小波变换的双正交空间中进行自小波计算。得到自小波变换为公式(11):

得到双正交提升小波在欧氏空间内对应异常扰动特征的轨迹为:

式中,网络流量序列的尺度因子a、带宽B和中心频率f0,它们之间呈现一种定量分解关系。式(13)表明轨迹为一条直线,展示了信号尺度和时延耦合,通过双正交提升小波可以用来消除耦合,进行细节信号分解,最终可得到特征性较强的细节信号设网络流量序列x(k ),k=0,1,2,...,N -1,可以得到多层小波分解细节信号表示为公式(14):

经过多轮细节分解运算后,最终得到偶数序列对应小波分解实际的低频细节分量,奇数序列对应小波分解的高频细节分量,对每层细节分量进行异常扰动信号特征提取。

2.2 奇异值分解特征提取

在采用双正交提升小波进行小波变换和细节分解的后,接着采用奇异值分解方法提取多层小波细节信号特征,充分展示网络流量信号异常特征的暂态性。根据矩阵论相关知识,奇异值分解进m行 ×小 n波细节信号特征提取描述如下:设A是 的实矩阵,有m阶正交矩阵U和n阶正交矩阵V,使得公式(15)、(16):

综上分析和处理,将提取的小波分层细节信号的奇异值分解特征再返回到决策树主分量特征优化跟踪模型中,实现网络流量异常特征的定位识别。

3 仿真实验与结果分析

仿真实验中,通过采集我校校园网网络中心监测原始数据进行数据分析处理,采集样本每天为一段,作为一组样本实验集,采样总长为期1个周,采集方法是等时间间隔监测网络流量的数据包个数和数据量信息,采集采样时间间隔为1min。组成一组时间序列。流量监测的数据包括用户进行网页浏览,下载传输,文件传送等与产生流量相关的一切信息流。采用MATLAB仿真平台构建二叉分类回归决策树主分量特征优化跟踪分类模型,进行网络流量序列的异常特征定位识别。首先通过采集得到原始网络流量序列,通过双正交提升小波变换和细节分解得到分层细节信号如图1所示:

图1 通过双正交提升小波变换后分层细节信号

最后采用奇异值分解特征提取方法对上述分层细节信号进行特征提取并在使用决策树主分量特征优化跟踪,得到网络流量暂态性异常特征定位识别分布谱图如图2所示。

图2 本文方法得到的网络流量暂态性异常特征定位识别分布谱图

而采用传统方法,不对信号特征进行小波细节分解,直接使用原始信号进行特征提取并采用决策树算法进行特征优化跟踪定位识别得到的网络流量暂态性异常特征定位识别分布谱图如图3所示:

图3 传统方法得到的网络流量暂态性异常特征定位识别分布谱图

对比两者结果可见,采用本文方法,对网络流量异常特征能够准确有效定位识别和提取,原始决策树方法受扰动的影响较大,抗干扰能力和分辨率有所下降,对暂态性异常信号的识别能力不足,谱图的奇异值分解特性难以分辨。而改进型决策树优化跟踪算法提高了谱图在扰动中的分辨率,充分利用了小波分解各层细节信号对暂态性扰动特征的敏感性,网络流量序列异常特征信号的奇异值分解的特征分布谱清晰可见,展示了本文算法在对网络流量序列特征提取和定位识别的优越性能。

4 总结

本文结合小波分解得到的各层细节信号对暂态性扰动特征的敏感性特点,提出一种基于二叉分类回归决策树主分量特征优化跟踪特征提取算法,实现对网络流量异常特征这类暂态性和扰动性强的信号的有效检测和跟踪定位识别,最后通过实测网络流量信号进行仿真实验,检验方法的可行性和优越性。结果表明采用本文方法,能有效准确地对网络流量异常特征进行特征提取和定位识别跟踪,改进型决策树优化跟踪算法提高了谱图在扰动中的分辨率,充分利用了小波分解各层细节信号对暂态性扰动特征的敏感性,异常特征分布谱清晰可见,展示了本文算法在对网络流量序列特征提取和定位识别的优越性能,在网络安全防御和网络流量信息监控等领域具有很好的应用价值。

[1] 王曙燕,耿国华,李丙春.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报(自然科学版),2005,35(3): 262-265.

[2] 饶翔,王怀民,陈振邦,等.云计算系统中基于伴随状态追踪的故障检测机制[J].计算机学报,2012,35(5):856-870.

[3] 孔英会,车辚辚,苑津莎,等.基于小波分解和数据挖掘中决策树算法的电能质量扰动识别方法[J].电网技术,2007, 31(23): 78-82.

[4] 陈辉林,夏道勋.基于 CART 决策树数据挖掘算法的应用研究[J].煤炭技术,2011,30(10):164-166.

[5] 刘捡平,黄勇,周西柳.云计算科技服务系统平台设计研究[J].科技通报,2012,28(10):19-21.

[6] 王龙,万振凯.基于服务架构的云计算研究及其实现[J].计算机与数字工程,2009,37(7):88-91.

[7] 马建仓,孟凡路.多小波在振动信号降噪中的应用[J].计算机仿真,2010,27(8):48-51.

[8] 韦新丹.模糊 C算法在网络入侵防护中的仿真研究[J].科技通报,2012,28(12):221-223.

[9] 冯贵玉,赵琪,张可黛.多源信息融合认知机理与模型研究[J].计算机与数字工程,2013,280(2):182-184.

TP392文献标志码:A

2015.01.19)

1007-757X(2015)08-0031-03

王启明(1980-),男(汉族),河南鲁山人,平顶山学院,计算机科学与技术学院,讲师,硕士,研究方向:软件工程算法和物联网,平顶山,467000;赵凯(1982-),男(汉族),河南平顶山人,硕士,平顶山学院,讲师,研究方向:向量机、工作流引擎研究,平顶山,467000时合生(1977-),男(汉族),河南郾城县人,平顶山学院,计算机科学与技术学院,讲师,硕士,研究方向:计算机软件与理论,平顶山,467000

猜你喜欢
网络流量暂态决策树
基于多元高斯分布的网络流量异常识别方法
基于李雅谱诺夫直接法的电力系统暂态频率稳定分析
基于神经网络的P2P流量识别方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电力系统全网一体化暂态仿真接口技术
AVB网络流量整形帧模型端到端延迟计算
基于决策树的出租车乘客出行目的识别
基于LabVIEW的暂态电路虚拟实验分析
基于肺癌CT的决策树模型在肺癌诊断中的应用