基于滑动时间窗的置信区间流量异常检测算法研究

2013-06-28 03:10骆文亮
重庆三峡学院学报 2013年3期
关键词:网络流量置信区间滑动

邓 绯 张 勇 唐 权 陈 印 骆文亮 赵 萍

(四川职业技术学院计算机科学系,四川遂宁 629000)

随着Internet技术的迅速发展,网络已经成为人们生活中不可缺少的部分.Internet也正演变成为一个复杂的系统,网络DDos攻击、网络蠕虫攻击等等时有发生.网络的不正常运行会引起网络的严重拥塞,造成不必要的损失.而对网络流量的异常检测,可以帮助管理员及时发现可能存在的入侵或攻击等行为,从而可以提前做出防范,起到对网络安全管理的作用.本文针对网络流量常常,提出一种基于滑动时间窗的置信区间的方法,可以有效地对网络异常流量进行检测,给出安全告警.

1 网络流量异常算法综述

对网络流量的异常检测,常用的有以下几种[1]:基于阈值检测方法,该方法用阈值来确定网络流量是否异常,但主要存在阈值确定的合理性的缺陷;基于统计的方法,通过对用户的使用习惯进行统计,但假设的统计模型在实际中往往很复杂;数据挖掘方法则是从大量随机数据中,提取信息、抽象出特征模型,再根据相应算法对网络流量的异常进行判断,但是比较难以维护,在一些情况下,并不能代表多种信息,训练速度慢且开销较大,工作量大.还有小波分析方法,基于机器学习的方法,自相似特征方法等.

其中基于统计的异常流量监测方法具有很好的一般性和适应攻击手法改变的能力[2]312-321,本文将主要采用基于统计的网络流量异常检测方法,引入置信区间,利用网络流量的历史行为检测当前的异常活动和网络性能下降.

2 置信区间流量异常算法

2.1 置信区间的引入

如何能够准确判断流量是否正常,一直是网络流量异常检测中的一个难题.阈值方法通常是指设定一个阈值[3],网络流量在正常阈值内则正常,超出阈值范围则属不正常.但是阈值范围难以确定,太小或太大的阈值会产生误报或者漏报.而不同网络数据在不同场合具有不同特点,在某些网络中,有可能因用户流动性大或特性不固定,即使数据变动较大,数据也是正常的;而在有些极规律的环境下,有可能不太大的波动就是异常[4][5].在研究了许多网络流量异常算法之后,根据数据特点,结合数据的置信区间和预测区间,提出了结合数据的置信区间和预测区间的新方法.

2.2 算法过程

本文采用的网络流量异常算法将根据流量的历史记录,进行流量正常与否的判断[6].难点在于,由于流量的绝对数值时刻在变动,所以进行判断的上下确界范围也在变动.本算法采用滑动时间窗动态采样,再进行动态的置信区间估计,根据动态置信区间进行判断.

根据流量的历史记录,可以得到流量的稳定分布.因此,可以通过估计流量分布的均值置信区间来确定正常流量的范围,在一个时间窗口内得到的数据与估计值相比,差值在置信范围内为正常,超过这个区间则认为异常,给出报警.再用新时间窗的数据代替原来的数据,进行新的估计,得到新的置信区间,用来判断再下一个时间窗内的数据正常与否,做到在滑动时间窗下的动态置信区间的估计,从而更好地对流量异常做出判断,如图1所示.

图1 网络流量异常检测流程图

在大量的样本空间下,任何分布都近似满足正态分布,我们假定流量也如此,但均值和方差不可知.由概率论理论,利用枢轴量构造置信区间的方法步骤如下:

(1)根据待估参数构造枢轴量Q,一般可由未知参数的极大似然估计量改造得到;

(2)对于给定的置信水平1-α,利用枢轴量Q的分布的上α分位点求出常数a,b,使P{a

按照上述步骤,在方差σ2未知的情况下,均值μ的置信区间求解过程如下,

考虑用σ2的无偏估计来代替,其中n为样本大小,Xi为每个样本值,为样本平均值.即可得到

易验证T为关于μ的枢轴量,即T=Q.由关系式

进行恒等变形,即可得到置信度1-α为的置信区间为:

2.3 算法步骤

根据上述模型,结合网络系统,得到具体算法步骤如下:

Step1.确定时间窗口的大小,也即确定了样本n的大小.根据网络流量的历史记录,取最近的n个流量值作为样本.

Step3.根据样本值计算样本均值和置信区间.

Step4.取网络的实际流量值,与置信区间比较,在区间内,则流量正常,在区间外,则流量不正常.如果高于置信区间上界,则给出异常报警,再检查是否为攻击等;如果低于下界,则再判断是否设备失效等.

Step5.将原样本的最远一个值去掉,剩下的值向前滑动一个位置,最后一个位置用新读取的流量值填充,构成新的样本.(完成时间窗口的向前滑动)

Step6.循环Step3~Step5,进行下一个流量值的判断.

根据算法,得到图2.

图2 基于置信区间的流量异常检测流程

2.4 置信区间的使用

选用置信区间比简单阈值作为异常检测的参考值更为合理有效,通过对网络数据的检测,网络流量异常检测系统可以从前面的预测子系统得到其置信区间,将这个置信区间的上下波动值作为预测值的置信区间的波动值范围,这样可以有效减少误报率,同时提高异常检测的精度.

3 结束语

本文针对已有的网络流量异常算法,针对各种算法的优缺点,提出了一种基于滑动时间窗的置信区间的方法,该算法可以有效地对网络异常流量进行检测,给出安全警告.

[1]吕军,李星.一种网络流量异常检测算法[J].计算机应用研究,2006(11):217-218.

[2] J MIRKOVIC,G PRIER,P REIHER. Attacking DDOS at the source [C]// Network Protocols 2002 Proceedings 10th IEEE International Conference,2002.

[3]李勇.园区网络流量监测系统研究与设计[D].合肥:合肥工业大学,2007.

[4]葛洪伟,彭震宇,岳海兵.基于混合优化算法的网络流量有效测量点选择[J].计算机应用研究,2009(4):1480-1483.

[5]王银花.网络流量监测算法的研究及其实现[D].南京:南京邮电大学,2009.

[6]邓绯.基于代理的网络流量监控与调整算法[J].齐齐哈尔大学学报,2013(2).

猜你喜欢
网络流量置信区间滑动
基于多元高斯分布的网络流量异常识别方法
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
基于神经网络的P2P流量识别方法
多个偏正态总体共同位置参数的Bootstrap置信区间
一种新型滑动叉拉花键夹具
列车定位中置信区间的确定方法
Big Little lies: No One Is Perfect
AVB网络流量整形帧模型端到端延迟计算
滑动供电系统在城市轨道交通中的应用