杜洁 苏文伟 彭秋霞
摘 要
电力综合数据网的深化应用对异常流量的检测和分析提出了更高的要求。本文通过对电力综合数据网的流量数据结构进行分析,验证了电力综合数据网正常单位流量具有稳定的信息熵。在此基础上,提出了通过对数据流量五元组熵值的分析来判断异常流量的方法,并对综合数据网流量结构进行建模,提出应用支持向量机的算法对异常流量进行识别。
【关键词】综合数据网 异常流量 支持向量机
1 某电网综合数据网流量分析现状
目前某电网公司综合业务数据网以主数据中心和同城灾备中心为核心,与全省各地供电局的综合数据网络核心形成互联,互联链路采用万兆以太网传输技术,形成一个电网综合数据业务传输的承载网平台。具体网络拓扑如下所示:
该电网公司综合数据网络核心日常数据流量已超过1GB,流量监控使用ARBOR流量分析设备来完成,通过Netflow的方式监测骨干层各中心汇聚设备连接到省中心的端口。
目前,该电网公司流量分析系统具备的主要功能包括:
(1)能够得到端到端用户体检的量化数据,包括端到端的全过程响应时间。
(2)能够得到网络传输时延的数据,并考虑到不同数据包大小情况的网络传输时延。
(3)能够得到应用系统各个交互过程的响应时间的数据。
(4)能够根据时间迅速定位流量,并根据地址、端口等信息迅速将所需网络流量数据包检索并抽取出来进行分析。
由以上功能点的统计分析,可以得知,目前该电网的流量分析系统能做到对网络流量的统计及性能分析,但对网络流量异常的做不到良好的预警。
2 流量异常检测方法
自Denning研究异常检测模型以来,网络异常检测方法的研究就一直受到学术界的极大关注。白玉峰研究致力于利用流量大小(如流数、分组数或字节数)来检测网络异常并获得巨大成功,但是这类方法面临的问题是:并非所有的异常都会引起流量大小的显著变化;此外,采用不同的流量测度可能会识别出不同的流量异常,因此仅仅采用一种流量测度并不能识别蕴含在流量数据中的所有异常。
近年来的大量研究表明,不管是局域网还是广域网,网络流量都具有明显的突发性和长相关性,而网络的自相似性特性可以很好地描述流量这些特性,所以,自相似性已成为网络流量的重要特性并以此作为流量异常检测的基础。现今已有大量计算机学科领域的算法和模型被使用在网络流量的异常检测方面,文献采用小波分析方法利用网络流量在时间尺度上的多重分形,在小波域内对网络流量进行分解,通过计算网络流量的Hurst指数,根据正常与异常流量Hurst指数的偏差来检测异常,但该方法Hurst指数与时间尺度紧密相关,只对突发性的流量具有较好的检测效果;文献[1]提出一种融合k-means的聚类检测算法,该文增量地构建流量矩阵,增量地使用PCA主成分进行异常检测,这些方法在全网流量异常时检测效果非常明显,但算法相对过于复杂使其在实时性上较差;文献[2] 使用一种基于信息熵的特征选择算法,降低了检测数据的维数,但增量学习的限制条件比较多,增量学习效率较低。
3 综合数据网流量异常检测
通过上述分析可以看出,数据流五元组的熵值较为稳定,可以通过熵值的变化情况来区分正常流量和异常流量。因此综合数据网异常流量的检测问题也就是通过对数据流量五元组熵值的分析来做出正常或异常的判断。
3.1 异常流量检测模型
针对上文中对流量特性的分析,综合数据网异常流量的检测问题可以理解为通过已有的流量特征据,将现有的流量分类为正常或异常。模式识别理论是利用已有的信息,按照某种特定的规则确定未知的样本的类别属性,模式识别往往被看作是分类问题,让机器自身从环境中分离出某种模式并对未知样本的归类做出合理的判断。因此,可以将模式识别应用于综合数据网的异常力量检测,通过对己有的数据流量的熵值样本进行学习,建立规律模型,利用该模型对未知样本进行分类。
3.2 异常检测算法
首先使用一定数量的正常流量和异常流量数据作为训练样本输入到支持向量机之中,根据这些训练数据输出一个模型,这个模型实际上就是通过样本构造的决策函数。然后将测试数据输入该模型进行分类。
3.2.1 训练阶段
根据信息熵的定义,对样本流量的五元组分别求熵,建立样本流量的五维熵值向量。使用核函数将向量从五维变换到高位,再将数据作为训练样本输入到支持向量机之中,根据这些训练数据构造的一个决策函数。
3.2.2 检测阶段
将检测流量输入模型进行检测,分类结果为1则为正常流量,分类结果为-1即为异常流量。
4 结束语
本文通过对电力综合数据网的流量数据结构进行分析,验证了电力综合数据网正常数据符合重尾分布,且正常单位流量具有稳定的信息熵。在此基础,对综合数据网流量结构进行建模,采用支持向量机的识别算法对异常流量进行识别。实验结果表明,在异常流量比例大于5%的条件下,算法能够检测出网络中的异常数据。
下一步的工作是深入研究电力综合数据网异常流量的类型以及各种异常流量对流量结构的影响,改进检测算法,进一步提升算法的精度。
参考文献
[1]DENNING D.An intrusion-detection model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[2]TORRES R,HAJJAT M,RAO SG,et al.Inferring undesirable behavior from P2P traffic analysis[A].SIGMETRICS[C].USA,2009,231-242.
[3]GU G,PERDISCI R,ZHANG J,et al.BotMiner:clustering analysis of network traffic for protocol and structure-independent botnet detection[A].USENIX Security[C].USA.,2008,67-76.
作者单位
云南电网公司信息中心 云南省昆明市 650217endprint