基于改进FCM的网络异常流量检测

2019-09-10 03:09龙颖袁明兰胡雪
科学导报·学术 2019年9期
关键词:聚类

龙颖 袁明兰 胡雪

摘要:针对正常上网所产生的网络流量远远大于攻击、入侵等非正常手段产生的异常流量的特点,通过对传统FCM算法进行改进,引入新的聚类中心矩阵计算方法来计算落入平均半径范围内的流量数据的对象数量,根据该数量更新聚类中心矩阵,对流量数据进行聚类,并识别出网络异常流量。对改进FCM算法、传统FCM、HCM的效果进行比较分析发现,改进FCM虽然处理时间较HCM长,但对噪声抑制较好,错分率较低。

关键词:FCM;流量检测;聚类

随着网络带宽逐渐增加、存储介质的容量逐渐增大、服务器计算能力逐渐增强,促使了数据产生的成本越来越低,从而造成网络数据急剧膨胀。如何快速、准确对网络流量进行识别和分类是网络入侵检测中亟待解决的问题。基于模糊集的FCM算法作为一种无监督的分类方法[1],表现了样本与样本之间的联系,建立了数据样本对类别的不确定性描述,已广泛应用于机器学习、数据挖掘、图像分割、海量数据分析等领域[2]。在网络流量检测中,往往基于以下假设,即网络正常流量的数量远远大于异常流量,异常流量在数据中将会呈现出比较特殊的性质,FCM能通过识别正常类别比例来确定异常的类别。

1传统FCM算法描述

设有待分类的样本集为 ,n是样本集合中的元素个数,q是特征空间维数。将样本集X划分为c类,然后将n个样本分别属于c个类的隶属度矩阵记为 ,其中 表示第k个样本 属于第i个类别的隶属度, 应

满足:

在目标函数中,样本与类别的聚类距离度量的一般表达式为:

M为 阶的对称正定矩阵。聚类的准则为取 的极小值 。

为 阶矩阵,表示聚类中心矩阵

为第i类的聚类中心

2改进FCM获取初始聚类中心和聚类中心矩阵

对于给定的数据集 ,定义 为欧式距离,在聚类初期,不断更新数据对象间的平均距离Mean_d,若以 点为中心,Mean_d为半径范围内落入的数据对象越多,表明该对象作为聚类中心的可能越大。计算出每个数据对象以Mean_d为半径,落入该区间的数据对象数目,将区间內数据对象数目最多的一个对象作为初始聚类点 ,对于任意 如果

3异常判定

在聚类中心矩阵生成后,对每个聚类中心Mean_d范围内的数据对象数量进行判断,依据经验,在网络访问所产生的流量中,正常流量的数量是远远大于异常流量,那么正常流量聚类所产生的类所包含的数据对象数目应远远大于异常流量所聚成的对象的数目。因此可以对聚类中心矩阵中每类的数据对象数目进行简单排序,聚类中心中所含数据对象远远少于正常值的即为异常流量。

4结果与结论

为验证算法有效性,利用matlab2018a对数据进行仿真,运行环境为win10,Intel®Core™i7-8750H,CPU@2.4Ghz,RAM16GB。从HTTP DATASET CSIC数据集中,按4:1的比例对正常流量数据和异常流量数据进行分别抽样,随机抽取一万条记录进行数据清洗和规范化,并通过数据规约对数据进行降维采样,尽量保持原有数据集的有关特性,减少需要处理的数据量,最终形成五组HTTP DATASET CSIC的六维子集。将改进后的P_FCM算法与传统FCM、HCM算法进行性能比较,模糊权重指数为2。分别对数据样本进行聚类,聚类结果如表4.1所示

比较三种算法对数据样本集的聚类结果,三种算法聚类效果比较接近,本文算法的运行时间大于FCM算法和HCM算法,但准确率高于FCM和HCM,由于HCM是硬划分的聚类分析技

术,聚类时间较低,算法效果不及基于模糊划分的FCM和本文算法。

对数据集添加5%的噪声,比较三种算法对噪声的抑制能力,添加噪声后的数据样本聚类结果如表4.2所示。

因传统FCM对初始数据敏感[3,4],对于含噪数据的识别效果不佳,迭代次数增加后算法处理时间迅速增加,错分率有所上升。HCM算法运行速度快,但错分率较高。本文算法聚类中心矩阵是通过多次迭代生成的,在对噪声的抑制上比传统FCM和HCM表现好。

通过理论分析和实验发现,在模拟实验环境下,基于改进FCM算法的网络异常流量检测具有聚类速度较快,分类好的特点,算法鲁棒性较好,能正确、及时发现网络异常流量,为网络异常流量实时检测提供技术支持。

参考文献:

[1]  刘丽珍,宋瀚涛,陆玉昌.无标记训练样本的Web文本分类方法[J].计算机科学,2006(03):200-201+211.

[2]  宋国权,李金锋.基于聚类算法的脑部MR图像分割[J].中国医疗设备,2017,32(01):26-29.

[3]  L. Parsons,E. Haque,and H. Liu. Subspace Clustering for High Dimensional Data:A Review[J]. SIGKDD Explorations,2004,6(1):90-105.

[4]  K. Beyer J. Goldstein,R. Ramakrishnan. When is Nearest Neighbor  Meaningful [A]. Proceeding of the CIDT[C]. 1999,pp. 217-235.

作者简介:龙颖(1988-),女,讲师,研究方向为模式识别与智能计算。

基金项目:重庆市教育委员会科学技术研究项目(No.KJ1751484)

猜你喜欢
聚类
K-means算法概述
K-means聚类方法在图像色彩中的应用
基于模糊聚类和支持向量回归的成绩预测
一种基于广域测量信息的在线同调分群方法
针对Kmeans初始聚类中心优化的PCATDKM算法
基于流形学习的自适应反馈聚类中心确定方法
交通监控中基于模糊聚类的无线传感网MAC协议
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
K—means算法研究综述