融合多智能技术的网络入侵检测模型

2014-04-29 09:36兰远东高蕾
网络空间安全 2014年4期
关键词:入侵检测

兰远东+++高蕾

【 摘 要 】 网络入侵检测的关键问题是要使得检测准确率最大化,误警率最小化。为了解决这个问题,提出了集成多种智能学习范型的入侵检测模型。该模型融合了线性遗传规划,自适应神经模糊推理系统和随机森林学习算法。在分类前,使用两层的特征选择过程来约简特征,并在分别评估了每种学习算法的性能基础上,给出了融合规则。实验表明:融合多智能技术的入侵检测系统的性能要优于任何一个单一的分类器。

【 关键词 】 入侵检测;多分类器系统;模式分类;遗传规划

1 引言

互联网在快速膨胀的同时,也引发了有关安全的许多问题。研究者提出了各种安全策略,来保障互联网络的安全。单独使用防火墙作为一个基本的包过滤器,不足以提供一个安全的网络环境。

入侵检测系统配合防火墙,可以提供一个更好、更安全的网络。一般来说,入侵检测系统(Intrusion Detection System, IDS)可以通过分析网络流量,寻找潜在的威胁。两种主要类型的入侵检测系统是误用检测和异常检测。误用检测寻找已知的攻击,例如攻击签名,而异常是基于正常的模式而言。与正常参考模式存在显著偏差,就表明可能存在潜在威胁。误用检测和异常检测都有缺点,误用检测需要签名的频繁更新,以确保良好的检测,而异常检测容易导致较高的误警率。因此,面临的挑战是避免这两个问题并拿出解决方案,可以提供一个良好的精度,同时保持较低的误警率。

各种智能模型已经用于入侵检测,其中包括神经网络,支持向量机和人工免疫系统;也有研究者通过统计方法来解决入侵检测问题的;也有使用图方法的,比如联合树对于隔离正常模式和攻击模式非常有效,联合树的优点是它能够说明属性之间的相互关系。

近年来,集成多分类器的方法被广泛地用来解决许多分类问题,包括入侵检测系统。只要有适当的投票机制和权重分配,多分类器系统能够提高分类精度。但是,当处理诸如网络流量巨大的领域问题时,计算资源和时间会受到很大的影响。

本文的目的是为了解决入侵检测系统的准确性和误警率问题,我们采用两种方式。首先是选择表达网络流量模式的主要特征,然后基于不同的学习范型构建多个分类器,最终形成一个集成分类器模型。选择了三种智能计算技术来开发分类器,它们分别是线性遗传规划(Linear Genetic Programming, LGP)、自适应神经模糊推理(Adaptive Neural Fuzzy Inference System, ANFIS)和随机森林(Random Forest , RF)。

2 智能计算技术

网络流量数据通常与大容量、多领域相关联,需要入侵检测系统的仔细分析和辨别。为了减轻开销问题,在对数据分类前先进行特征选择。此外,必须要选择表达每个流量类别的显著特征以找到入侵模式的共同特性。但是这些特征往往隐藏在不相关的特征中,有的特征还存在假相关,其中的一些特征也可能是多余的。

因此,特征选择的目的是从一些看似无关紧要的特征中揭露那些隐藏的显著特征。这样就可以实现一个快速、准确的分类器。然后,使用三种不同的机器学习技术来构建集成多分类器系统,这三种技术是线性遗传规划(LGP)、自适应神经模糊推理系统(ANFIS)和随机森林(RF)。综合这几种智能技术,旨在提高入侵检测系统的性能。

下文将简要介绍一下这些技术。

2.1 预处理

在本文的研究工作中实施的特征选择过程,使用了粗糙集(Rough Set)技术和二进制粒子群优化算法(Binary Particle Swarm Optimization),采用分层方式,形成一个二层的特征选择过程。特征是基于每一个特定的类而获得的,每一个类有一个特征集。二进制粒子群优化算法采用启发式技术,初始候选特征为41维,粗糙集技术被用于消除冗余特征,保留每个流量类(Normal、Probe、DoS、U2R、R2L)的最显著的15维特征,这15维特征称为原始特征的约简。

2.2 二进制粒子群优化算法

粒子群优化算法是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。每个粒子与速度有关,当粒子在搜索空间中飞行时,粒子的速度根据每个粒子的历史行为和邻居而调整。因此,粒子具有朝着越来越好的搜索区域飞行的趋势。粒子的速度和位置的计算说明如下:

Vid=wVid+C1·rand()(Pid-Xid)+C2·Rand()(Pgd-Xid) (1)

Xid=Xid+Vid (2)

C1和C2是正数常量,叫做学习速率;rand()和Rand()是两个随机函数,取值范围为[0,1];w是惯性权重,合适的权重可以取得全局与局部之间探索平衡;Xi=(xi1,xi2,…,xid)代表第i个粒子,Pi=(Pi1,Pi2,…,Pid)是第i个粒子的前一个最优位置。

本文使用两层粒子群优化算法来决定每个特征是否应该被选择出来作为分类的特征。先使用基于粗糙集的离散粒子群优化算法(Discrete Particle Swarm Optimization),来挑选显著特征,将每个类的初始42维特征缩减到15维。然后在此基础上使用二进制粒子群优化算法,最终的特征维数在6到8之间,大约缩减了80%的特征。

2.3 多智能集成分类

集成多分类器的有效性依赖于决策融合函数,在确定决策函数时,需要考虑分类器的差异性。本文通过集成三种不同的机器学习技术来构建集成多分类器系统,这三种技术是线性遗传规划(LGP)、自适应神经模糊推理系统(ANFIS)和随机森林(RF)。综合这几种智能技术,旨在提高入侵检测系统的性能。决策融合函数的确定,是基于各个单分类器的检测性能,及整个系统的准确率。

2.3.1 线性遗传规划endprint

最近在遗传规划方面的事态发展,包括通过使用线性基因构建机器代码指令来提高速度,以及同源交叉运算激发了研究者在网络安全问题方面的应用研究。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法,是进化算法的一种。

这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优,而不能达到全局最优。

线性遗传规划是遗传规划的一个变种,是遗传规划使用计算机程序的一个特定的线性表示。与基于树的遗传规划相比的主要不同是进化单元不是功能性编程语言的表达式,而是命令式的语言程序。文献[5]进一步证明了三种遗传规划变种算法在入侵检测系统中的识别能力,其中多表达式编程在除了对Probe和DoS攻击的其他情况下表现出较高的识别能力。

同时,遗传规划算法还能获得较低维数的显著特征,分类精度可以达到95%以上。文献[4]还指出,由于具有较快的检测速度和较高的检测精度,遗传规划可以应用于实时检测领域。如果种群规模、交叉率、变异率等参数选择恰当,线性遗传规划要优于支持向量机和人工神经网络。

2.3.2 自适应神经模糊推理系统

由于特征和网络流量数据的本质之间存在复杂的关系,正常数据和入侵数据之间存在灰色边界。因此,近年来模糊推理系统被部署在入侵检测系统中,作为入侵检测的重要方法之一。

模糊推理是从不精确的前提集合中得出可能的不精确结论的推理过程,又称近似推理。有两种基本的模糊推理系统:Mamdani模糊推理模型和Sugeno模糊推理模型,两者的主要区别在于对输出的界定。Mamdani模糊推理模型通过事先掌握的一组推理规则,实现从输入到输出的推理计算,从而建立准确的辨识系统。下面给出一个Mamdani模糊推理规则的例子:if (x is high) then (y is small),它是一种语言形式。

与Mamdani模型相似,Sugeno模型的推理规则的前提部分是语言形式,但是规则的结论部分却是一个非模糊的等式,如:if (x is high) then y=f(x),其中f(x)是模糊输入变量x的函数。

本文的自适应神经模糊推理系统采用Sugeno模型。与Toosi和Kahani的工作相似,之所以采用自适应神经模糊推理是因为对不同的数据变种,成员函数参数的选择非常困难。自适应神经模糊推理是一种融合了神经网络的学习能力的近似推理方法,学习机制采用混合监督学习方法,自适应神经模糊推理的结构如图1所示。

自适应网络是一个多层前馈网络,分为五层,其中的方形节点需要进行参数学习。

第一层计算输入变量的匹配度,即模糊化过程;

第二层计算当前输入对各条规则的激励强度,采用对规则前件部分各模糊变量的隶属度作乘积运算;

第三层对激励强度进行归一化;

第四层计算每条规则的输出,一条规则的输出是给定输入对该条规则的激励强度与结论部分的乘积;

第五层计算模糊系统的输出,总的输出是所有规则输出之和。

2.3.3 随机森林

随机森林是未修剪的分类树或回归树的集合,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

Leo Breiman和Adele Cutler发展出随机森林的算法,随机森林学习算法如下:

1)用 N 来表示训练例子的个数,M表示变量的数目;

2)使用数m,用来决定当在一个节点上做决定时,会使用到多少个变量,m应小于M;

3)从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样),并使用这棵树来对剩余预测其类别,并评估其误差;

4)对于每一个节点,随机选择m个基于此点上的变量,根据这m个变量,计算其最佳的分割方式;

5)每棵树都会完整成长而不会剪枝。

由于随机森林学习算法具有低的分类错误率,以及对特征的排序等特点,随机森林被用于多个领域,比如建模、预测以及入侵检测系统。

3 实验设置

实验采用KDD Cup 1999数据集,是KDD竞赛在1999年举行时采用的数据集。收集了9周时间的TCP dump网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCP dump采集的原始数据被分为两个部分:7周时间的训练数据,大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。

一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(Normal)或异常(Anomaly),异常类型被细分为四大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

四种异常类型分别是:

1)DoS (Denial-of-Service)拒绝服务攻击,例如ping-of-death, syn flood, smurf等;

2)R2L (Remote to Local)来自远程主机的未授权访问,例如guessing password;

3)U2R (User to Root)未授权的本地超级用户特权访问,例如buffer overflow attacks;

4)Probe (Probing and Surveillance)端口监视或扫描,例如port-scan, ping-sweep等。endprint

实验中选择了5092个样本作为训练集,6890个样本作为测试集。样本的组成保持了KDD Cup 1999的真实分布,具体情况如表1所示。

实验流程如图2所示,获取显著特征的过程离线完成,每一个分类器(线性遗传规划LGP,自适应神经模糊推理系统ANFIS,随机森林RF)都使用相同的训练集。

用离散粒子群优化算法(Discrete Particle Swarm Optimization)来挑选显著特征,将每个类的初始42维特征缩减到15维。然后在此基础上使用二进制粒子群优化算法,特征选择的过程可以参见。得到的特定类别特征如表2所示,最终的特征维数在5到8之间,大约缩减了80%的特征。

表格3给出了ANFIS分别在迭代100、300和500次时的错误率,可以看出最佳的迭代次数是300。迭代次数在300以上时,错误率并没有因为迭代次数的增加而降低。实验中采用钟型隶属函数,并将其实验结果与其他两种类型的隶属函数(梯形隶属函数和高斯隶属函数)对比,结果表明钟型隶属函数更适合本文的研究工作。

分别使用5个自适应神经模糊推理系统来处理5种类型的网络流量数据,由于通过特征选择阶段的处理,特征被显著约简,推理规则数目从25-28,规则的数目远低于Toosi and Kahani的241。推理规则的数量,对分类时间具有较大影响。

对于线性遗传规划分类器使用的参数如表4所示。

实验中限制1000代的编码进化,每一代平均运行20次。在对U2R攻击类型分类时,当进化到90代时就基本稳定了,更多的进化迭代并没有改善分类精度,实验结果如图3所示。

在随机森林算法的实验中,使用3维特征作为建树时的节点分裂因子。在分类器融合前,对每一个分类器单独进行性能评估。在分类器融合时,根据独立分类器的性能,进行权重分配。独立分类器的性能,如图4和图5所示。在尝试了多种权重分配的实验后,得出下面的权重分配融合模型是最优的。

Dprob=(0.5×LGPprob)+(0.1×ANFISprob)+(0.4×RFprob)(3)

其中,0.5、0.1和0.4是权重,Dprob是LGPprob、ANFISprob和RFprob三个分类器的累积决策。

4 结果与讨论

每个独立分类器以及最终的集成多分类器系统的实验结果,如表5所示。其中精度(Accuracy)、误警率(False Positive)和准警率(True Positive)的计算公式如下:

Accuracy=(4)

False Positive= (5)

Ture Positive= (6)

其中TP是对入侵数据的正确分类,TN是对正常数据的正确分类,FP是对入侵数据的错误分类,FN是对正确数据的错误分类。

每个单独分类器对每种类型的流量数据的分类精度曲线如图4所示,类别1代表正常数据(Normal),类别2代表嗅探攻击(Probe),类别3代表DoS攻击,类别4代表U2R攻击,类别5代表R2L攻击。总体来看,线性遗传规划的(LGP)的性能要优于ANFIS和RF。3种分类技术对DoS攻击的识别性能都较差,可能是由于特征选择过程中DoS攻击的显著特征选择不够完整,也可能是因为DoS攻击的样本数量不平衡。

每个单独分类器对每种类型的流量数据的准警率曲线如图5所示。从图中可以看出,LGP和ANFIS对U2R攻击的识别率较差,RF相对较好。从图4和图5可以看出,对DoS攻击和U2R攻击的识别较为困难。DoS攻击数据的样本数量占总样本的58.96%,而U2R具有最少的样本,占比0.53%。两种数据的样本数量分处两个极端,导致数据不平衡问题,也直接导致了最终的识别性能较差。RF算法对5种流量数据的总体识别性能相对较为稳定,而LGP和ANFIS在处理样本数量不平衡的类别时性能较差。

集成3种智能技术的分类器的分类精度与3个单独的分类器中最好的LGP的分类性能对比如图6所示。由于集成分类器中的每个分类器之间性能的互补性,从图中可以看出,集成分类器的性能优于LGP,集成分类器模型能够保持较低的误警率的同时获得较好的分类精度。

5 结束语

在本文中,我们集成三种不同的智能学习范型来提高入侵检测的精度。通过对每种学习范型设置相应的权重来融合3个分类器。在实验中我们发现LGP在对各种类型的网络流量数据(U2R除外)分类时,分类精度最高。而RF在对U2R流量数据分类时,取得了相对较高的准警率。因此,综合了RF、ANFIS和LGP的集成分类系统具有更好的入侵检测能力。在集成多分类器系统中,各个单独的分类器的权重取值相当重要。

下一步的研究工作,是寻找更系统的方法来确定各个分类器的权重,并研究权重对最终分类结果的影响。

参考文献

[1] Pinzón C I, De Paz J F, Herrero ?, et al. idMAS-SQL: intrusion detection based on MAS to detect and block SQL injection through data mining[J]. Information Sciences, 2013, 231: 15-31.

[2] Krawczyk B, Wozniak M. Accuracy and diversity in classifier selection for one-class classification ensembles[C]//Computational Intelligence and Ensemble Learning (CIEL), 2013 IEEE Symposium on. IEEE, 2013: 46-51.endprint

[3] S. Chebrolu, , A. Abraham, and J.P. Thomas. Feature Deduction and Ensemble Design of Intrusion Detection Systems [J]. International Journal of Computers and Security, 2005, 24(4): 295-307.

[4] S. Monteiro, T.K. Uto, Y. Kosugi, N. Kobayashi, E. Watanabe and K. Kameyama. Feature Extraction of Hyperspectral Data for Under Spilled Blood Visualization Using Particle Swarm Optimization [J]. International Journal of Bioelectromagnetism, 2005,7(1), : 232╞235.

[5] 李慧,胡云,李存华.基于粗糙集理论的瓦斯灾害信息特征提取技术[J].山东大学学报:工学版,2012, 05: 91-95.

[6] A.N. Toosi, and M. Kahani. A new approach to intrusion detection based on a evolutionary soft computing model using neuro-fuzzy classifiers [J]. Journal of Computer Communications, 2007, 30 : 2201-2212.

[7] L. Breimann, 2001, Random Forests [J]. Journal of Machine Learning, Kluwer Academic, Netherland, 2001,45, : 5-32.

[8] 詹曙,姚尧,高贺.基于随机森林的脑磁共振图像分类[J].电子测量与仪器学报,2013, 11: 1067-1072.

[9] 王鑫,汪晋宽,刘志刚等.基于随机森林的认知网络频谱感知算法[J].仪器仪表学报,2011, 11: 2471-2477.

[10] 王象刚.基于K均值随机森林快速算法及入侵检测中的应用[J].科技通报,2013, 08: 11-15.

[11] A. Zainal, M.A. Maarof and S.M. Shamsuddin, Feature Selection Using Rough-DPSO in Anomaly Detection [M]. LNCS 4705, Part 1 Springer Hiedelberg, 2007 : 512-524.

基金项目:

惠州市科技计划项目(No.2011B020006002, 2012B020004005);惠州学院自然科学基金项目(No.2012YB14)。

作者简介:

兰远东(1975-),男,华南理工大学,博士研究生,惠州学院,讲师;近3年在模式识别与机器学习领域发表了论文十余篇,多数被EI检索;主要研究方向和关注领域:模式识别与机器学习。

高蕾(1976-),女,华南理工大学,硕士研究生,惠州学院,讲师;近3年在无线传感网络安全及网络优化领域发表了论文5篇;主要研究方向和关注领域:无线传感网络、网络优化等。endprint

[3] S. Chebrolu, , A. Abraham, and J.P. Thomas. Feature Deduction and Ensemble Design of Intrusion Detection Systems [J]. International Journal of Computers and Security, 2005, 24(4): 295-307.

[4] S. Monteiro, T.K. Uto, Y. Kosugi, N. Kobayashi, E. Watanabe and K. Kameyama. Feature Extraction of Hyperspectral Data for Under Spilled Blood Visualization Using Particle Swarm Optimization [J]. International Journal of Bioelectromagnetism, 2005,7(1), : 232╞235.

[5] 李慧,胡云,李存华.基于粗糙集理论的瓦斯灾害信息特征提取技术[J].山东大学学报:工学版,2012, 05: 91-95.

[6] A.N. Toosi, and M. Kahani. A new approach to intrusion detection based on a evolutionary soft computing model using neuro-fuzzy classifiers [J]. Journal of Computer Communications, 2007, 30 : 2201-2212.

[7] L. Breimann, 2001, Random Forests [J]. Journal of Machine Learning, Kluwer Academic, Netherland, 2001,45, : 5-32.

[8] 詹曙,姚尧,高贺.基于随机森林的脑磁共振图像分类[J].电子测量与仪器学报,2013, 11: 1067-1072.

[9] 王鑫,汪晋宽,刘志刚等.基于随机森林的认知网络频谱感知算法[J].仪器仪表学报,2011, 11: 2471-2477.

[10] 王象刚.基于K均值随机森林快速算法及入侵检测中的应用[J].科技通报,2013, 08: 11-15.

[11] A. Zainal, M.A. Maarof and S.M. Shamsuddin, Feature Selection Using Rough-DPSO in Anomaly Detection [M]. LNCS 4705, Part 1 Springer Hiedelberg, 2007 : 512-524.

基金项目:

惠州市科技计划项目(No.2011B020006002, 2012B020004005);惠州学院自然科学基金项目(No.2012YB14)。

作者简介:

兰远东(1975-),男,华南理工大学,博士研究生,惠州学院,讲师;近3年在模式识别与机器学习领域发表了论文十余篇,多数被EI检索;主要研究方向和关注领域:模式识别与机器学习。

高蕾(1976-),女,华南理工大学,硕士研究生,惠州学院,讲师;近3年在无线传感网络安全及网络优化领域发表了论文5篇;主要研究方向和关注领域:无线传感网络、网络优化等。endprint

[3] S. Chebrolu, , A. Abraham, and J.P. Thomas. Feature Deduction and Ensemble Design of Intrusion Detection Systems [J]. International Journal of Computers and Security, 2005, 24(4): 295-307.

[4] S. Monteiro, T.K. Uto, Y. Kosugi, N. Kobayashi, E. Watanabe and K. Kameyama. Feature Extraction of Hyperspectral Data for Under Spilled Blood Visualization Using Particle Swarm Optimization [J]. International Journal of Bioelectromagnetism, 2005,7(1), : 232╞235.

[5] 李慧,胡云,李存华.基于粗糙集理论的瓦斯灾害信息特征提取技术[J].山东大学学报:工学版,2012, 05: 91-95.

[6] A.N. Toosi, and M. Kahani. A new approach to intrusion detection based on a evolutionary soft computing model using neuro-fuzzy classifiers [J]. Journal of Computer Communications, 2007, 30 : 2201-2212.

[7] L. Breimann, 2001, Random Forests [J]. Journal of Machine Learning, Kluwer Academic, Netherland, 2001,45, : 5-32.

[8] 詹曙,姚尧,高贺.基于随机森林的脑磁共振图像分类[J].电子测量与仪器学报,2013, 11: 1067-1072.

[9] 王鑫,汪晋宽,刘志刚等.基于随机森林的认知网络频谱感知算法[J].仪器仪表学报,2011, 11: 2471-2477.

[10] 王象刚.基于K均值随机森林快速算法及入侵检测中的应用[J].科技通报,2013, 08: 11-15.

[11] A. Zainal, M.A. Maarof and S.M. Shamsuddin, Feature Selection Using Rough-DPSO in Anomaly Detection [M]. LNCS 4705, Part 1 Springer Hiedelberg, 2007 : 512-524.

基金项目:

惠州市科技计划项目(No.2011B020006002, 2012B020004005);惠州学院自然科学基金项目(No.2012YB14)。

作者简介:

兰远东(1975-),男,华南理工大学,博士研究生,惠州学院,讲师;近3年在模式识别与机器学习领域发表了论文十余篇,多数被EI检索;主要研究方向和关注领域:模式识别与机器学习。

高蕾(1976-),女,华南理工大学,硕士研究生,惠州学院,讲师;近3年在无线传感网络安全及网络优化领域发表了论文5篇;主要研究方向和关注领域:无线传感网络、网络优化等。endprint

猜你喜欢
入侵检测
多Agent的创新网络入侵检测方法仿真研究
基于入侵检测的数据流挖掘和识别技术应用
艺术类院校高效存储系统的设计
基于关联规则的计算机入侵检测方法
无线传感器网络发展历史及安全需求及技术挑战
无线传感器网络入侵检测系统综述
人工神经网络的改进及其在入侵检测中的应用
基于Φ—OTDR的分布式入侵检测系统的应用综述
一种基于数据融合的新的入侵检测框架