混沌免疫遗传算法的网络入侵检测模型

2014-09-12 11:17贾花萍李尧龙史晓影

计算机工程与应用 2014年21期

关键词：约简特征选择遗传算法

贾花萍，李尧龙，史晓影

1.渭南师范学院数学与信息科学学院，陕西渭南 714099

2.渭南师范学院物理与电气工程学院，陕西渭南 714099

混沌免疫遗传算法的网络入侵检测模型

贾花萍1，李尧龙1，史晓影2

1.渭南师范学院数学与信息科学学院，陕西渭南 714099

2.渭南师范学院物理与电气工程学院，陕西渭南 714099

为了有效地提高入侵检测系统的检测率并降低误报率，提出采用属性约简方法对高维入侵检测数据进行特征选择，剔除无关的属性输入来提高检测效果，将混沌免疫遗传算法引入神经网络学习过程用以进行入侵检测，与传统BP神经网络检测结果进行比较，实验结果表明，将该方法用于入侵检测是切实可行的。

混沌；免疫网络；遗传算法；入侵检测

1 引言

Aderson在1980年发表Computer Security Threat Monitoring and Surveillance的文章，提出利用审计跟踪数据来监视入侵活动的主体思想，即入侵检测概念的提出[1]。入侵检测技术是对入侵行为的检测，主要利用网络收集信息进行分析，从而发现危害系统安全的行为，防止数据外泄或被破坏，起到保护信息安全的作用，可以有效地解决传统的被动防御体系所不能解决的问题，提高了信息安全基础结构的完整性，因此越来越受到人们的重视。

目前，入侵检测主要采用的算法有神经网络、数据挖掘、计算机免疫学、演化计算、遗传算法、支持向量机（SVM）等。现有的入侵检测方法存在明显不足：如可扩展性差，如采用神经网络等方法的检测系统，要依赖于特定类型的操作系统或依赖于特定的网络结构。可移植性差，现在的检测系统都是为某个单一的环境构建的，很难直接应用于其他坏境，并且存在检测效率低和可维护性差的缺点。目前，大部分入侵检测产品是基于网络的。该入侵检测系统的优点：能够检测那些来自网络的攻击，能够检测到超过授权的非法访问，不需要改变服务器等主机的配置。但是该入侵检测系统也有其自身的弱点：只检查它直接连接网段的通信，不能检测在不同网段的网络包。只能检测出普通的一些攻击，很难实现一些复杂的需要大量计算与分析时间的攻击检测。

现有的入侵检测技术存在着很多不足，如误警率较高，检测速度慢，时效性低，与其他信息安全技术交互性不强等。因此在入侵检测技术中，软计算方法是检测技术发展的趋势。Debar等人[2]提出的递归型BP网络，在所搜集的审计记录的基础上，对系统用户的各行为方式进行建模，并同时结合专家系统进行入侵检测，但BP神经网络用于入侵检测执行速度较慢。Song[3]提出聚类和多个单类SVM的无监督异常检测方法。Mulay[4]提出了一种基于决策树支持向量机的入侵检测算法。Srinoy Surat[5]提出一种基于粒子群优化和SVM的入侵检测方法。SVM用于入侵检测的效果虽好，但核函数及其参数的选择只能凭经验获得，训练时间及检测时间太长。有学者提出了新的入侵检测方法，也有学者将遗传算法、神经网络、增量学习理论，SVM方法结合进行入侵检测，取得了较好的效果。如付玉珍提出了混沌免疫克隆选择规划的网络入侵检测方法[6]。许春等提出基于免疫危险理论的新型网络入侵检测方法[7]。Aggarwal[8]提出的基于遗传算法确定相关特征的入侵检测方法。薛严冬等人[9]提出了基于Snort的分布式协作入侵检测系统等，这些方法在提高入侵检测效率的基础上，降低了误报率。

针对高维入侵检测数据，文中拟采用属性约简方法进行特征选择，约简掉冗余属性来提高检测效果，然后将混沌免疫遗传算法引入神经网络的学习过程中，提高神经网络的全局搜索和泛化能力，用该方法进行入侵检测。

2 入侵检测系统的基本结构

入侵检测系统结构有四个基本的功能部件，分别是事件产生器、事件分析器、事件数据库和事件响应，其结构如图1所示。事件产生器主要负责原始数据的采集，将其转换为事件，并提供给系统的其他部分。事件分析器对接收事件进行分析，判断是否为入侵行为或异常现象，最后将判断结果转变为警告信息。响应单元根据事件分析器的结果采取相应的措施，即根据警告信息做出反应。事件数据库根据事件产生器和事件分析器提供的分析结果，供系统分析时使用。

图1 入侵检测系统的基本结构

3 混沌免疫遗传算法的神经网络模型

将混沌免疫遗传算法引入神经网络的学习过程，提高神经网络的全局搜索和泛化能力。采用三层网络结构，输入层、隐含层和输出层。各层神经元个数分别为n，m，l，具体网络的训练过程如下[10]：

步骤1隐含层权值W1，阈值θ1和输出层权值W2，阈值θ2，采用混沌随机序列生成[0，1]之间的随机数，初始化N组权值和阈值，作为混沌免疫遗传算法初始种群的N个个体。

步骤2选用Sigmoid函数作为隐含层与输出层激活函数。

ylk为网络的期望输出，yk为网络的实际输出，1≤k≤l。

步骤4计算遗传算法的适应度函数：

步骤5按照免疫调节的选择过程，根据公式：

构造选择概率，其中0≤α≤1，0≤β≤1；pf为适应度概率，pd为浓度抑制概率，f(Ui)为抗体的适应度函数；ci为抗体Ui的浓度，抗体浓度表示抗体与其他个体的相似程度，高浓度的抗体受到抑制消除，这样可以保证抗体群的多样性。

步骤6利用公式

计算变异概率；其中，k1≥0，k2≤1，k3≥0，k4≤1且均为常数，交叉的个体适应度中较大的一个为f，favg为群体平均适应度，fmax为群体最大适应度，变异个体适应度为fl。

步骤7对经过选择、交叉、变异后的群体(U1, U2,…,UM)提取构造疫苗H=(h1，h2，…，hn)，并对种群进行免疫接种，产生新一代种群。

步骤8重复步骤6～步骤7，直到平均误差达到给定的误差精度。

步骤10保存权值与阈值，将其应用于网络入侵检测模型。

4 实验

4.1 实验数据

实验数据来自http：//kdd.ics.uci.edu/databases/kddcup99/，是美国高级计划研究局在1999年用于评估入侵检测系统的基准数据集KDDCUP1999。该数据集中数据量大，属性较多。数据中的入侵被分为四种类型：DoS（Denial of Service，拒绝服务攻击），指的是攻击者通过合理的服务请求来占用服务资源，导致合法用户的服务请求无法得到响应的攻击方式，是黑客常用的攻击手段之一。Probe（各种端口扫描和漏洞扫描），通过扫描计算机发现已知的系统漏洞，如IP地址、活动端口号等漏洞。R2L（Remote to Local，远程权限获取），指通过发送数据包的方式来获得目标主机的本地访问权限的攻击方式。U2R（User to Root，各种权限提升）是指攻击者利用普通用户身份登录系统，通过系统漏洞获得系统根权限的行为。实验从数据集中随机抽取训练样本和测试样本，对其连续属性进行离散化后得到实验样本如表1所示。

表1 入侵检测实验样本集

4.2 数据特征选择

高维的入侵检测数据中存在无关属性及冗余属性，会影响数据分类的准确性，增加训练和检测的运算量，降低检测速度[11]。特征选择的目的就是从高维数据中剔除冗余属性，提取入侵行为的最优特征子集，提高检测率和检测速度。蒋加伏等人[12]提出顺序搜索策略改进的多目标进化的入侵检测特征选择方法。倪霖[13]等人用免疫粒子群算法进行入侵检测特征选择；以上算法能够有效获取优化特征子集，但是针对大规模数据集上的特征选择，该方法收敛速度慢且时间复杂度较高。Mitra等人[14]提出的非搜索性策略，时间复杂度相对较低，但得到的特征子集中有较多冗余特征，影响了分类准确率。

1982年，波兰科学院院士Z.Pawlak发表了经典论文Rough Set（粗糙集理论）[15]，粗糙集理论中的属性约简方法是在保持分类能力的基础上，从全体条件属性中删除掉无关属性和冗余属性，留下重要的属性。用粗糙集属性约简方法对入侵检测的样本数据属性集进行约简，为入侵检测中数据的特征选择提供了新的路径。数据集中的每条记录包括41种属性值，如此多的属性，若不进行约简，会极大地影响检测效果。先对41个属性进行约简，去掉冗余属性来提高检测效果。其特征子集的产生采用图2所示方法。

图2 特征子集产生流程图

利用图2所示方法进行特征选择后，得到最优特征，41个特征属性经过约简，四种攻击类型的属性数目分别为5，15，6，7，得到四种攻击类型的特征选择结果如表2。

表2 特征选择结果

4.3 检测结果

对于入侵数据的检测效果，即实验结果进行评估，考虑检测率、误报率、误警率作为评价指标。其定义如下：检测率=正确分类的攻击样本数目/攻击样本总数× 100%；误报率=被错误分类的正常样本数/正常样本总数×100%；误警率=（实际入侵次数-正确报警数）/实际入侵次数。

本次实验环境为Windows XP Professional，平台为Matlab7.0。从数据集中随机抽取数据作为训练样本和测试样本。利用传统BP神经网络模型和文中提出的混沌免疫遗传算法神经网络模型对KDDCUP1999数据集进行检测，检测效果如表3所示。

从表3的检测结果可以看出，采用传统BP神经网络方法，除U2R攻击的检测率稍高，其他攻击类型的检测率明显低于本文所提出的方法；在对入侵检测系统的误报率、误警率的检测中，本文方法明显低于传统BP神经网络；在四种攻击类型中，对DoS类型的检测率最高，而Probe攻击类型的误报率和误警率最高。

表3 两种入侵检测算法对比结果（%）

本文提出的混沌免疫遗传算法的网络入侵检测模型，通过在公开样本集上进行测试，结果表明该方法的多个指标都优于现有方法。然而，对于入侵检测而言，算法所消耗的内存空间以及算法的计算复杂度都是很重要的指标。从计算所需的时间复杂度和空间复杂度来看，传统BP神经网络算法的时间复杂度与网络的规模有关，其时间复杂度为O(n)，n为网络规模，空间复杂度为O(1)。对入侵检测数据进行特征选择采用属性约简算法，其时间复杂度为max{O(|C||U|)，O(|C|2|U/C|)}，其中，U表示对象的非空有限集合；C表示条件属性的非空有限集。

神经网络识别网络的入侵行为已经应用已久，现在，该技术己经具备相当强的攻击模式分析能力，并且能较好地处理带噪声的数据，分析速度很快，可以用于实时分析。但是，该方法存在收敛速度慢，易陷于局部极小的缺点。本文所提出的方法能够有效地对入侵检测特征数据进行约简，且效率较高；将混沌免疫思想融入遗传算法中，以避免遗传算法陷入局部最优，文中提出的方法在入侵检测中具有明显优势，因此，将该方法用于入侵检测是切实可行的。

5 讨论

随着计算机网络技术的日益发展，网络安全变得非常重要，目前入侵检测技术存在很多问题，如性能问题、对分布式攻击的检测能力问题、体系结构问题、标准化问题、与其他安全技术的协作问题、自身的健壮性和主动防御能力问题以及评测标准问题。针对各种现存问题，各国学者提出了新的入侵检测算法，如将各种智能方法应用到入侵检测中，增强入侵检测技术的学习能力和检测能力，将各种智能方法进行融合应用到入侵检测中以降低误警率和提高对复杂攻击行为的检测能力也是目前的研究热点。文中采用粗糙集属性约简方法得到最优特征子集，将混沌免疫遗传算法引入神经网络学习过程进行入侵检测，取得了较好的检测率和较低的误警率。

[1]Anderson J P.Computer security threat monitoring and surveillance[R].Fort Washington，PA：J P Anderson Company，1980.

[2]Debar H，Becker M，Siboni D.A neural network component for an intrusion detections system[C]//IEEE Symposium on Security and Privacy.Okland：IEEE Computer Society，1992：256-266.

[3]Song Jungsuk，Hiroki T.Unsupervised anomaly detection based on clustering and multiple one-class SVM[J].IEICE Transactions on Communications，2009，E92-B（6）：1981-1990.

[4]Mulay S A，Devale P R，Garje G V.Decision tree based support vector machine for intrusion detection[C]//Proc of the International Conference on Networking and Information Technology，2010：59-63.

[5]Surat S.Intrusion detection model based on particle swarm optimization and support vector machine[C]//Proc of the 2007 IEEE Symposium on Computational Intelligence in Security and Defense Applications，Honolulu，HI，United States，2007：186-192.

[6]付玉珍.混沌免疫克隆选择规划的网络入侵检测方法[J].茂名学院学报，2010，20（3）：47-49.

[7]许春，李涛，刘孙俊，等.基于免疫危险理论的新型网络入侵检测方法研究[J].南京邮电大学学报：自然科学版，2006，26（5）：80-85.

[8]Aggarwal N，Agrawal R K，Jain H M.Genetic algorithm to determine relevant features for intrusion detection[C]// Proc of the IADIS European Conference on Data Mining and Part of the IADIS Multi Conference on Computer Science and Information Systems，2009：75-82.

[9]薛严冬，韩秀玲，戴尚飞.基于Snort的分布式协作入侵检测系统[J].计算机工程，2010，36（19）：165-167.

[10]杨蕾，林红.基于混沌免疫遗传算法的神经网络及应用[J].智能计算机与应用，2011，1（2）：10-13.

[11]Chou T S，Yen K K，Luo J.Network intrusion detection design using feature selection of soft computing paradigms[J].International Journal of Computational Intelligence，2008，4（3）：196-208.

[12]蒋加伏，吴鹏.基于多目标进化算法的入侵检测特征选择[J].计算机工程与应用，2010，46（17）：110-138.

[13]倪霖，郑洪英.基于免疫粒子群算法的特征选择[J].计算机应用，2007，27（12）：2922-2924.

[14]Mitra P，Murthy C A，Pal S K.Unsupervised feature selection on using feature similarity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24（3）：301-312.

[15]Pawlak Z.Rough set[J].International Journal of Computer and Information Scienses，1982，11：341-350.

JIA Huaping1,LI Yaolong1,SHI Xiaoying2

1.College of Mathematics and Information Science,Weinan Normal University,Weinan,Shaanxi 714099,China
2.College of Physics and Electrical Engineering,Weinan Normal University,Weinan,Shaanxi 714099,China

In order to effectively improve the detection rate of intrusion detection system and reduce the false alarm rate, the method of attribute reduction of high-dimensional data in intrusion detection feature selection is proposed.Attribute input irrelevant is weeded out to improve the detection effect.The chaos immune genetic algorithm is used in neural network learning process for intrusion detection.Compared with the traditional BP neural network detection results,the experimental results show that the method used in intrusion detection is feasible.

chaos;immune network;Genetic Algorithm（GA）;intrusion detection

TP18

10.3778/j.issn.1002-8331.1401-0423

JIA Huaping,LI Yaolong,SHI Xiaoying.Network intrusion detection model of chaos immune genetic algorithm. Computer Engineering and Applications,2014,50（21）：96-99.

陕西省自然科学基础研究计划项目（No.2011JM1010）；陕西省教育厅专项科研计划项目（No.14JK1256）。

贾花萍（1979—），女，讲师，研究方向：计算机网络，神经网络；李尧龙（1970—），男，博士，教授，研究方向：计算机算法；史晓影（1977—），女，副教授，研究方向：计算机算法。

2014-01-26

2014-04-08

1002-8331（2014）21-0096-04

CNKI出版日期：2014-07-02，http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1401-0423.html