基于改进自组织特征映射的网络入侵检测

2015-05-08 01:22钱景辉李荣雨
自动化仪表 2015年10期
关键词:邻域权值神经元

钱景辉 成 伟 李荣雨

(南京工业大学电子与信息工程学院,江苏 南京 211816)

基于改进自组织特征映射的网络入侵检测

钱景辉 成 伟 李荣雨

(南京工业大学电子与信息工程学院,江苏 南京 211816)

针对如何提高网络入侵检测率并进行正确分类的问题,提出了一种改进的自组织特征映射(SOM)网络算法。该算法通过对竞争机制的自适应调整来减少过度学习,并采用灰关系分析的动态权值机制降低邻域神经元中杂质的影响。KDDCUP99数据集的试验结果表明该方法具有更高的准确率。

自组织特征映射 神经网络 自适应竞争机制 灰关系 入侵检测

0 引言

随着信息技术的发展,网络安全问题越来越受到人们的关注。传统的网络安全防范主要是使用控制技术和防火墙来抵御网络入侵。尽管这些被动的防御技术在内网和外网之间提供了一定的安全保障,但它们无法有效解决内部用户滥用权力、自身存在的设计缺陷等问题。入侵检测作为一种主动防御技术,它根据网络或者计算机系统中所采集的特征信息的分析,判断是否存在非法行为,不仅可以应付外来的入侵,也可以检测出内部的攻击行为。

目前,常见的入侵检测方式有专家系统、统计分析、神经网络和计算机免疫学这四种方法。本文的入侵检测采用的是有监督的自组织特征映射(self-organizing map,SOM)神经网络,对传统“胜者全得”的竞争机制进行了自适应调整,防止由于某一类样本过多导致的过度学习现象[1]。同时,采用灰关系系数来动态更新权值的方法[2],进一步去除邻域中的杂质,提高网络的精确度。

1 自组织特征映射网络

1.1 SOM网络基本结构

自组织特征映射网络[3-4]是芬兰赫尔辛基大学教授Teuvo Kohoen提出的一种通过自组织特征映射调整权值,从而收敛于一种表示形态的自组织竞争神经网络,又称为Kohoen网络。该网络结构通常为包含输入层和竞争层两层的前馈神经网络,在有监督的学习中,还会额外包含一个输出层。其中输入层的神经元个数与输入样本的维数N一致,竞争层则包含有M个神经元,这些神经元往往位于二维矩阵或者六边形网格中[5-6]。有监督的SOM网络拓扑结构如图1所示。

图1 有监督的SOM网络拓扑结构

竞争层中的每个神经元都与输入层的神经元相连,连接权值的维数都与输入层神经元数量相同,即权值wi=(wi1,wi2,…,win) (i=1,2,3,…,m)。初始化的连接权值往往是根据权值范围随机赋予的。当进行学习时,首先需要计算输入向量X=(x1,x2,…,xN)与竞争层神经元之i间的欧氏距离di,它可以表示为:

(1)

SOM网络采用“胜者全得”的竞争机制,即根据与输入向量欧式距离最小的神经元来调整权值。该神经元被称为获胜神经元c,它可以表示为:

(2)

获胜神经元和周围的邻域神经元的权值更新公式如下所示:

(3)

式中:t为学习的迭代次数;hc,i为邻域函数,用来获得获胜神经周围的节点。

本文采用的邻域函数是高斯函数,表示为:

(4)

式中:||ri-rc||为网格中节点c和节点i的距离;α为学习率;σ为对应邻域函数的半径。

a和σ这两个参数随着时间而减少,一般采用以下公式:

(5)

(6)

从式(4)可以看出,作为选择邻域节点的邻域函数hc,i是一个递减函数,它随着迭代次数的增加而不断降低邻域范围。事实上,传统SOM网络在每个训练周期中,学习率和邻域半径都是相同的,它取决于迭代的次数,而不是训练的误差。这样的机制使得样本集中占比例较大的主成分样本在训练过程中不断被训练,而占比例较小的次成分样本由于学习率和邻域半径与前者一样,训练次数远低于前者,从而没有得到充分的训练。再加上胜者全得的机制,使得竞争层中更多的神经元学习主成分样本的特征。这样的学习通常会存在冗余,并导致算法的恶化,甚至产生过拟合的现象。对此不少学者进行了探讨,他们希望通过对SOM的参数的调整来降低这种情况带来的弊端。

常用的改进方法是通过增加神经元的数量使从非主成分样本中获取特征的质量得到提高。但是,这样的方法也会减少有效的特征,因而获得更多冗余的特征。同时更多的迭代也会进一步恶化SOM的性能。除此以外,一些学者认为固定的网格划分难以正确地表达输出空间的分界面,提出更新权值的同时还应该更新输出空间坐标的观点,例如DSOM网络和AC网络。这种方法无疑给SOM网络增加了大量的计算量,当发生待更新的权值位于两个聚类中间时,学习就会变得很不稳定。

针对主成分过度学习、次成分学习不足的情况,Chen L P等人[1]提出了一种改进的竞争机制,针对每个神经元的特征,采用不同的学习率和权值更新方法,从而减少主成分的学习,加强次成分的学习。本文根据这一思想,在SOM网络中加入了自适应竞争机制和动态权值更新机制,对传统的SOM进行了改进。

1.2 自适应竞争机制

(7)

(8)

从式(7)~式(8)可以看出,通过竞争获胜的神经元的学习率和邻域半径在同一个训练周期中是不同的,这个取决于它与学习样本间的距离。当输入向量与权值接近时,σc(t)≈σ(t)(1+ε)-1,αc(t)≈α(t)(1+ε)-1,此时Xj的学习就变弱了;反之,如果输入向量与权值相差很大,那么σc(t)≈σ(t),αc(t)≈α(t),此时Xj的学习就会正常。这样使得整个竞争过程不同于过去的“胜者全得”原则,而是根据自身的情况,自适应地获得不同的资源。在某种情况下,次成分的一个周期的学习将会超过主成分多个周期的学习量,从而得到更多的学习。

相比较传统SOM网络而言,次成分被给予了更多的机会与主成分竞争,使得它们可以被更好地分类。主成分经过多次训练之后,学习被进一步弱化,避免了过度学习造成的冗余。ε为弱化学习参数,通过对它的调整,可以有效控制弱化学习的程度。本文选取了一个拥有13组二维数据的样本集,每个样本表示成(xi,yi)的形式,采用传统SOM网络和改进SOM网络进行学习,竞争行为效果对比图如图2所示。

图2(a)表示训练样本分布图,从图中可以看出,第七个训练样本点与其他点之间存在一个较大的距离。图2(b)表示传统神经网络训练效果图,显示了这些点通过传统SOM训练的一个可能的分布情况。在图2(b)中,中间的点是最接近第七个训练样本的点,但是由于主成分的过度学习,使得它得不到充分训练。图2(c)显示了一个改进SOM网络的训练中间过程,对于本算法,当训练第七点的向量时,因为存在较大的训练误差,学习将会正常,而其他点的学习就会降低。图2(d)显示了一个改进SOM网络的训练结果,从图2(d)可以看出,最大距离或者训练误差都小于传统的SOM。

图2 传统SOM与改进SOM训练效果对比图

1.3 基于灰关系分析的动态权值

在SOM网络学习过程中,通过竞争获胜的节点来调整邻域节点的权值,以加强聚类效果。邻域节点的选择,一般是根据获胜节点周围六边形区域或者高斯函数获得,而权值更新的依据仅仅是学习率和输入模式。这些方法将输入的向量与待更新的单个神经元孤立看待,忽略了与其他共同参与竞争的神经元的关系。这种关系可以使用部分关系明确、部分关系不明确的灰关系来表示。

灰色系统理论是一种以灰色朦胧集论为基础、灰色关联为依托的理论体系[7]。其中灰关系分析可以通过定量的描述系统之间的因素,发现它们之间的关联性。将输入的向量X作为参考模式,权值Wi(i=1,2,…,n)作为比较模式,则它们之间的灰关系系数可以表示为:

(9)

其中,λ(0<λ<1)为判别系数,并且有:

(10)

(11)

Δij=||xj-wij||

(12)

灰关系系数ξij表示的是输入向量和权值在不同维数上的关联度。当Δij→Δmin时,ξij→1,说明此时的Wij相比较于其他神经元的权值而言,与Xj的关联度较强;反之,则说明关联度较弱。通过这种关联度,可以区分出邻域中与本次输入关系较小的神经元。在传统SOM中,邻域中的各个神经元仅根据与输入向量的欧式距离来更新权值,而没有考虑各个神经元之间的关联度。所以,在进行权值更新时引入灰关系系数ξij,根据与其他竞争神经元的关系,对权值进行动态修改,公式如下所示:

Δwij=α(t)×F(ξij)×[xj-wij(t)]

(13)

根据上式可以看出,输入向量与权值关联度小的神经元的更新权值将被降低,从而减少了成员中那些杂质的影响,提高了网络的聚类效果。

2 网络入侵检测试验及分析

本文选用的试验样本是KDDCUP99数据集,它来自于美国林肯实验室进行的一项入侵检测评估项目。一条样本数据代表一次网络连接,表示成某个时间段内的TCP数据包序列的形式。该序列一共有41个特征值,分为3大类:TCP基本特征(如连续持续时间、协议类型等)、内容特征(如访问控制文件次数、文件创建次数等)、流量特征(如单位时间内与相同主机连接数、连接中SYN错误数量等)[8-9]。同时,对访问数据依次进行标记,判断是否属于网络入侵行为。

样本中入侵行为的数据一共有4大类[10],分别是:拒绝服务攻击(denial of service,DOS),指的是用户使用非法的手段占用了大量共享资源的行为;远程主机未授权访问(remote to user,R2U),指的是没有账号的用户通过攻击主机安全缺陷,获得当地访问权限的行为;本地未授权用户特权访问 (user to root,U2R),指的是本地用户利用系统漏洞获得高级权限的行为;端口监视或扫描(probing),指的是对服务器或者网络进行扫描以获取安全漏洞的行为。同时,这4大类又可以细分为24小类。本文选取的学习样本中正常访问数据占37.5%,probing和DOS攻击各占25%,U2R占10%,R2U占2.5%,并使用Matlab作为仿真平台,具体试验流程框图如图3所示。

图3 试验流程框图

在定义阶段,首先需要对数据进行预处理。由于存在大量的特征值,每个特征值的度量也不同,这种差异会对检测结果造成影响,所以需要进行归一化处理,公式如下:

(14)

式中:xnew为归一后的数据;x为其原始值;Xmax、Xmin为该类数据中的最大值和最小值。

然后再将网络进行初始化,输入层为41个神经元,竞争层为42个神经元,输出层为5个神经元,同时对这些神经元的连接权值采用随机数进行赋值。在竞争阶段,分别计算各个神经元权值与输入的距离,竞争出获胜神经元,然后进入学习阶段获取自适应的学习率和邻域半径,同时计算各个邻域神经元与输入的灰度关系系数,动态调整获胜神经元和邻域神经元的权值。当训练结束时,形成最终的SOM网络,再将测试数据输入,就可以得到分类结果。

为了评估试验结果,使用分类率、检测率和误报率作为评估的标准。正确分类率指的是正确分5类数量在总体样本中的比例,检测率是指发现的攻击总数在攻击样本总数中的比例,误报率是指误判的正确样本总数在样本总数中的比例。同时为了验证试验的有效性,将改进SOM网络与传统SOM网络进行比较,试验结果如表1所示。

表1 实验结果对比表

通过试验对比可以发现,改进SOM网络在分类率和检测率方面都要优于传统的SOM网络,尽管误报率有所提升,但还属于可以接受的范围。

3 结束语

在SOM神经网络中,改变传统单个周期内固定学习率和邻域半径的方法,引入自适应的机制,可以有效减少主成分的冗余学习。同时,使用灰关系来分析输入模式与权值的关联度,进行动态权值的调整,从而有利于去除杂质和提高聚类的性能。在今后的工作中,将使用非固定的神经元数量,并引入非对称邻域的机制来进行进一步的研究。

[1] Chen L P,Liu Y G,Huang Z X,et a1.An improved SOM algorithm and its application to color feature extraction[J].Neural Computer & Application,2014,24(7-8):1759-1770.

[2] Hsu W Y.Embedded grey relation theory in hopfield neural network:application to motor imagery EEG recognition[J].Clinical EEG and Neuroscience,2013,44(4):257-264.

[3] Kohonen T.Self-organizing maps[M].3rd edition.New York:Springer-Verlag Berlin and Heidelberg GmbH & Co.K,2001.

[4] Jagric T,Zunko M.Neural network world:optimized spiral spherical SOM[J].Neural Network World,2013,23(5):422-426.

[5] 杨雅辉,黄海珍,沈晴霓,等.基于增量式GHSOM神经网络模型的入侵检测研究[J].计算机学报,2014,37(5):1216-1224.

[6] 任军号,吉沛琦,耿跃.SOM神经网络改进及在遥感图像分类中的应用[J].计算机应用研究,2011,28(3):1170-1172,1182.

[7] 潘志松,陈松灿,张道强.一般化的灰SOM模型及其性能评估[J].计算机学报,2004,27(4):530-534.

[8] 王洁.基于神经网络的入侵检测系统的设计与实现[J].计算机应用与软件,2013,30(5):320-322.

[9] 陈颖悦.一种基于聚类算法的网络入侵检测应用[J].厦门理工学院学报,2014,22(1):70-74.

[10]徐国栋.基于数据挖掘算法的入侵检测研究[D].武汉:武汉科技大学,2013.

Network Intrusion Detection Based on the Improved SOM Algorithm

For enhancing network intrusion detection rate and implementing correct classification, the improved self-organizing map (SOM) algorithm is proposed. With this algorithm, excessive learning is decreased through adaptive adjustment of competitive mechanism, and the influence of impurities in neighborhood neurons is reduced by dynamic weights mechanism of grey relation analysis. The result of test based on KDDCUP99 data set shows that this method features higher accuracy.

Self-organizing map (SOM) Neural network Adaptive competitive mechanism Grey relation Intrusion detection

江苏省高校自然科学基金资助项目(编号:12KJB510007)。

钱景辉(1978-),男,2003年毕业于新加坡国立大学计算机科学与技术专业,获硕士学位,讲师;主要从事计算机控制与智能算法等方面的研究。

TP393

A

10.16086/j.cnki.issn1000-0380.201510017

修改稿收到日期:2014-11-02。

猜你喜欢
邻域权值神经元
一种融合时间权值和用户行为序列的电影推荐模型
基于混合变邻域的自动化滴灌轮灌分组算法
尖锐特征曲面点云模型各向异性邻域搜索
强规划的最小期望权值求解算法∗
跃动的神经元——波兰Brain Embassy联合办公
程序属性的检测与程序属性的分类
基于细节点邻域信息的可撤销指纹模板生成算法
基于权值动量的RBM加速学习算法研究
ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用
毫米波导引头预定回路改进单神经元控制