徐 彬,黄春麟,吴 迪,滑 斌
(宁夏大学信息工程学院,宁夏 银川 750021)
网络安全[1]问题日益凸显,网络危机一旦发生,将给用户、企业甚至整个国家带来无法预估的损失,社会负面影响巨大。因此在问题出现之前,对网络入侵进行检测与防御,是规避网络安全威胁的重要环节。网络入侵检测[2]实验测试方法,是测试网络入侵检测方法性能的关键。
文献[3]方法提出基于改进的深度信念网络的入侵检测方法。该方法利用改进的DBN算法对网络数据进行无监督学习;在算法中加入自适应学习速率缩减模型训练时间,使用softmax分类方法对网络数据进行分类,依据分类结果识别网络攻击数据,实现网络的入侵检测。该方法由于未能在入侵检测前进行数据去噪处理,导致该检测方法的攻击正确识别比例低。文献[4]方法提出基于集成深度森林的入侵检测方法。该方法首先依据卷积神经网络建立一个网络检测模型,使用Bagging集成策略分析网络模型隐藏层结构,依据分析结果引入随机森林机制,重构模型隐藏层;再依据拼接向量机完成数据特征分类,结合优化后的神经网络模型,完成网络入侵数据的检测。该方法在重构模型时存在问题,导致该方法的数据正确分类样本比例低。文献[5]方法提出基于支持向量机方法的网络入侵检测实验研究。该方法依据对网络规则信息、边界信息以及攻击信息的界定划分数据攻击类型;通过支持向量机完成网络数据的分类,实现入侵数据的检测。该方法在进行数据攻击类型划分时存在问题,所以该方法的检测性能差。
为解决上述网络入侵数据检测过程中存在的问题,提出面向分布式网络入侵检测的实验测试方法。
在对分布式网络进行入侵检测前,需要通过网络数据的去噪结果提取网络入侵数据特征。
首先设定网络数据信号的母小波为L2(R),母小波函数为δ(x),数据信号的连续小波变换过程如下式所示
(1)
式中,网络数据连续小波变换结果表述成αf(a,χ)形式,尺度因子为a,位移因子为χ,符号因子为〈f(x),δ(x)〉,小波系数用α表述。
为简化信号变换计算流程,对获取的信号尺度进行二进制离散处理,小波变换[6]的二进制离散过程如下式所示
(2)
式中,i、k为常数。在信号处理过程中,使用Lipschitz指数计算网络数据信号局部奇异值[7],过程如下式所示
|f(x)-f(x0)|=b|x-x0|β
(3)
式中,小波系数在网络初始数据信号处的奇异指数标记为β,奇异函数用|f(x)-f(x0)|表示,噪声指数用b表述。函数平滑结果越好,说明该位置数据信号的奇异指数越高。
由于分布式网络数据中白噪声信号分布较大,且为随机分布形式,因此设定小波系数为f(x)∈L2(R),∀x∈εx0,且母小波函数满足连续变换特性,从而获取网络数据信号的l阶消失矩,结果如下式所示
(4)
式中,信号极大模值用|αf(a,x)|表述。最后依据上述计算结果完成网络数据信号的小波去噪。
依据数据去噪结果,使用Fisher理论[8]提取网络入侵数据特征。
2.2.1 获取数据Fisher分值
Fisher理论是基于样本数据距离提取样本数据特征的特征选择算法,当数据样本特征类别距离差最大,同类数据样本距离最小时,可依据Fisher理论寻找数据的最佳样本特征。
设定网络入侵数据训练集为C={(p1,q1),(p2,q2),…,(px,qx)},特征维度空间表述为d形式,通过整合,将网络入侵数据训练样本集分成正负两个数据集类别,划分过程如下式所示
L=wb/ws
(5)
(6)
2.2.2 基于支持向量机的特征抽取
基于上述获取的数据Fisher分值[9],使用支持向量机分类算法计算数据训练集,寻找网络数据最佳权值e。首先依据数据Fisher分值建立网络数据的权值代价函数[10],过程如下式所示
(7)
式中,建立的网络数据权值代价函数用ming(e)表述,网络入侵数据分别表述成qi、pi形式。通过函数转换,将网络入侵数据的二次规划问题,转换成数据的对偶问题,转换过程如下式所示
(8)
式中,数据的对偶函数标记为minE(φ),对偶因子标记为μi。最后基于上述计算结果,获取数据的最优分类函数,完成数据的特征抽取,过程如下式所示
(9)
通过上述网络入侵数据特征的提取,建立网络入侵数据的马尔可夫检测模型[11],依据数据的训练结果,确定数据的攻击行为,并使用该模型完成网络数据的入侵检测。
设定网络数据入侵特征为r,数据训练样本标记为A=A1+A2,且A1为正常样本数据,A2为入侵样本数据,基于隐马尔可夫模型固定语法,建立隐马尔可夫模型,标记为M=(W,H,K),其中,数据状态集表述成W形式,状态转移矩阵表述成H,状态输出矩阵表述成K形式,模型输出概率获取结果如下式所示
P(sH|M)=∑wT∈Wsp(L-w1)
p(w1↑s1)p(w1-x2)…p(wM↑sM)
(10)
式中,WT为数据状态序列值,状态集合标记成Ws。
基于贝叶斯原理[12],设定模型得到最大后验概率为P(M|A),依据相关模型语法完成后验概率的获取,过程如下式所示
(11)
若式中模型概率已知,通过计算可获取数据集A的元素概率乘积P(ai|M),结果如下式所示
(12)
由于模型的复杂度会影响模型状态以及状态转移数据量的大小,所以要通过对P(M)=(N+1)NH+NK的计算获取模型的最佳先验概率值。其中,模型最佳状态值标记为N,状态转移向量表述成NH形式,状态输出标记为NK。
基于上述分析结果可知,模型的求解问题可看作为模型的迭代过程,通过整合获取的模型状态向量值,完成模型的求解。设定模型迭代序列为{M1,M2,…,Mk,Mk+1},通过迭代计算,寻找出模型的最佳状态,实现模型的训练。
设定模型的异常测度为sH,获取结果如下式所示
η(sH)=-lnP(sH|M)
(13)
式中,获取的数据异常测度标记为η(sH),网络数据的状态概率用P(sH|M)表述。设定网络数据状态概率P(sH|M)的最佳取值范围为[0,1],异常测度值为[0,∞],以此获取数据的异常类型值,过程如下式所示
A1=arg min[P(A0|A1,τ)+P(A1|A0,τ)]
(14)
式中,划分系数标记为τ,数据异常概率值标记为P(A1|A0,τ),正常概率标记为P(A0|A1,τ)。
分布式网络的入侵数据检测[13,14]流程如下:
1)采集分布式网络数据,使用小波变换方法获取数据信号奇异值,完成数据信号的去噪处理。
2)使用Fisher理论提取网络入侵数据特征。
3)通过上述网络入侵数据特征[15]的提取,建立网络入侵数据的马尔可夫检测模型。
4)通过对模型先验概率以及后验概率的获取,完成模型的训练。
5)将网络数据放入训练好的模型中进行分类,寻找其中的网络入侵数据,完成网络入侵检测。
为了验证上述分布式网络入侵检测方法的整体有效性,需要对此方法进行测试。
分别采用面向分布式网络入侵检测的实验测试方法(所提方法)、基于改进的深度信念网络的入侵检测方法(文献[3]方法)、基于集成深度森林的入侵检测方法(文献[4]方法)进行测试。
在进行分布式网络入侵检测时,可依据检测到的网络异常数据量以及正常数据量完成检测方法的检测性能。通过网络入侵检测时网络攻击的精准检测数量σ、正确数据误报数量ω、检测正确数量η以及错误攻击节点估计成正常节点数量λ的整合,获取网络入侵数据异常检测方法的性能检测指标,分别为网络数据遭受攻击时的正确识别比例(DR),数据正确分类样本比例(Accuracy)以及检测出的攻击数据中真正产生攻击行为的数据比例(precision),获取过程如下式所示
(15)
采用上述三种网络入侵检测方法进行网络入侵检测,基于上述三种性能检测指标,完成检测方法的检测性能测试。
1)检测方法的DR值对比
DR指标是测试网络入侵检测方法检测性能的重要指标之一。DR值越大,说明检测方法的检测性能越好,反之则越差。采用上述三种网络入侵检测方法进行网络入侵检测时,测试三种方法的DR值,检测结果如图1所示。
图1 不同检测方法的DR值测试结果
分析图1可知,网络数据量的增加会影响检测方法的DR值。所提方法在进行网络入侵检测时,检测出的DR值高于文献[3]方法以及文献[4]方法的DR值测试结果,文献[3]方法测试结果远低于所提方法,略高于文献[4]方法测试结果,文献[4]方法的测试结果不理想。这主要是因为所提方法在进行网络入侵检测前,使用小波变换方法对网络数据进行了去噪处理,所以该方法进行网络入侵检测时的DR值高。
2)检测方法的Accuracy值对比
在进行网络入侵检测时,Accuracy值同样为检测性能的重要指标,检测方法的Accuracy值越高,说明检测方法的检测性能越好,反之则越差。基于上述三种检测方法进行网络入侵检测,对比三种方法的Accuracy值,测试结果如图2所示。
图2 不同检测方法的Accuracy值测试结果
分析图2可知,数据量的增加会降低检测方法的Accuracy值。所提方法测试出的Accuracy值会随着测试数据量的增加而有所下降,但是当数据量超出一定范围后,所提方法会将Accuracy值测试结果稳定在固定范围内。文献[3]方法在测试前期测试结果高于文献[4]方法的测试结果,但是随着测试的进行,当网络数据增加至30万条时,文献[4]方法测试结果反超文献[3]方法,仅次于所提方法。由此可知,所提方法进行网络入侵检测时的Accuracy值高。
3)检测方法的precision值对比
使用所提方法、文献[3]方法以及文献[4]方法进行网络入侵检测,测试三种检测方法的precision值,测试结果如图3所示。
图3 不同检测方法的precision值对比结果
分析图3可知,随着数据量的增加,三种检测方法的precision值都出现了不同程度的下降趋势。所提方法测试出的precision值高于文献[3]方法以及文献[4]方法测试结果,文献[3]方法略低于所提方法,高于文献[4]方法测试结果,文献[4]方法测试结果最差。由此可知所提方法进行网络入侵检测时的precision值高。
针对传统网络入侵检测方法中存在的问题,提出面向分布式网络入侵检测的实验测试方法。该方法首先依据数据去噪结果提取数据特征值;再使用隐马尔可夫理论建立网络入侵检测模型;最后通过该模型完成网络的异常数据识别,实现网络的入侵检测。经过实验验证,得出所提方法具有较好的检测性能。