线性判别分析优化孪生支持向量机的网络入侵检测

2023-07-17 02:12周湘贞
关键词:降维检出率网络安全

周湘贞, 李 帅, 隋 栋

(1.郑州升达经贸管理学院 信息工程学院, 河南 郑州 451191;2.北京航空航天大学 计算机学院, 北京 100191; 3.北京建筑大学 电气与信息工程学院, 北京 102406)

万物互联技术发展迅速,加入网络的数据资源不断增加,基于因特网的衍生服务增量明显。不论是对于传统网络服务,还是新生的创新网络服务,网络安全问题都是无法规避的重要问题,直接影响多样化的网络服务在各行业的推广。网络入侵检测作为被动应对网络入侵的主要策略方式[1],凭借其效率高且入侵检出率高等优点,在大规模网络数据服务的安全保障中具有重要地位。通过与常用网络入侵类型深度匹配,采用网络入侵检测技术确定网络数据的入侵种类,可以采取合理的应对措施,实时有效阻截常见网络入侵。由于能够解决大部分网络入侵问题,因此网络入侵检测技术一直是网络安全问题研究的热点。

网络入侵检测算法在网络安全中的作用与其性能密切相关[2], 优秀的网络入侵检测算法能够分辨正常数据和攻击数据, 而且能够在较短时间内准确地辨认不同入侵类型, 从而为有效阻截各种网络入侵提供有效依据。 肖耿毅[3]采用加权核极限学习机算法进行入侵检测, 运用稀疏主成分空间嵌入方法进行网络数据特征处理, 构造出适合极限学习机分类的样本类型, 实现常见入侵类型的有效分类检测。 王运兵等[4]采用多核最小二乘支持向量机(LSSVM)进行网络入侵检测, 运用混合粒子群优化(HPSO)进行LSSVM参数寻优, 结果表明, HPSO-LSSVM算法的参数求解复杂度较低且检测准确率较高。

上述研究均获得了较高的入侵检测及分类准确率;但是由于检测算法复杂度高,因此无法快速实现大规模网络数据的实时入侵类型检测,对于海量网络数据快速入侵检测的适用性较差。本文中提出一种基于线性判别分析(LDA)优化孪生支持向量机(TWSVM)的网络入侵检测算法,通过LDA对复杂异构网络数据进行降维处理,降低TWSVM运算复杂度,提高TWSVM在大规模网络数据入侵实时分类检测中的适用性。

1 LDA数据降维

由于接入网络设备类型差异、服务类型多样化及网络结构的异构化等特点,造成网络入侵检测数据分析的特征数量多而且结构复杂,因此在采用TWSVM算法进行入侵类型分类之前,有必要对网络数据进行降维处理。本文中采用LDA进行数据降维,具体数学描述如下。

设包含n个样本的数据集X的类别数为C。X的类内和类间散度分别为Sw和Sb。X经过LDA降维后的变量q的推导方程[5]为

(1)

Sw和Sb计算公式[6]为

(2)

(3)

式中:ni为i类样本个数;μi为第i类类内均值;xij为i类中第j个样本。

第i类样本类内均值的计算公式为

(4)

总均值的计算公式为

(5)

J(q)的求解转化[7]为

(6)

(7)

2 基于LDA-TWSVM算法的网络入侵检测

2.1 TWSVM

设包含n1+n2个不同类样本的数据集经过TWSVM分类, 其对应的一次规划(TWSVM-1)分解和二次规划(TWSVM-2)分解的数学描述[8]为

(8)

式中上标(1)和(2)分别对应TWSVM-1分解和TWSVM-2分解,x为TWSVM的样本变量。设A为TWSVM-1对应的样本变量,B为TWSVM-2对应的样本变量,那么可以对TWSVM-1、 TWSVM-2分别进行替代求解[9]。

(9)

(10)

式中: 偏差参数ζ和η均大于或等于0;c1和c2为控制常量;w、b为超平面的参数。

对式(2)进行拉格朗日乘子运算[10],

c1ζ+α(-(Bw(1)+b(1))+ζ)-βζ,

(11)

对w(1)、b(1)和ζ分别求偏导[11-13],得到

A(Aw(1)+e2b(1))+βα=0,

(12)

c1-α-β=0。

(13)

通过求解w(1)和b(1),从而确定TWSVM-1,即xw(1)+b(1)=0。

类似上述过程,通过求解w(2)和b(2),从而确定TWSVM-2,即xw(2)+b(2)=0。

2.2 基于LDA-TWSVM算法的网络入侵检测流程

在本文中提出的基于LDA-TWSVM算法的网络入侵检测方法中,首先对网络样本进行LDA处理,获得样本特征降维变量;然后,将特征降维变量输入TWSVM算法进行分类检测。基于LDA-TWSVM的网络入侵检测流程如图1所示。

图1 基于线性判别分析(LDA)优化孪生支持向量机(TWSVM)的网络入侵检测流程

3 实例仿真

本文中选取4个常用公共网络安全测试数据集, 如表1所示。 首先, 分别采用TWSVM和LDA-TWSVM算法对4个数据集进行入侵检测仿真, 验证LDA降维对TWSVM的网络入侵检测性能影响; 其次, 分别采用LDA-SVM算法和LDA-TWSVM算法对表中的4个数据集进行性能仿真, 比较不同SVM类型的检测性能;最后,采用卷积神经网络(CNN)[14]算法、 特征加权的Jensen-Shannon散度与反类别频率改进朴素贝叶斯(JRNB)[15]算法、混合粒子群优化多核最小二乘支持变量机(HPSO-LSSVM)算法与LDA-TWSVM算法进行仿真对比,验证不同算法对于这4个数据集的网络入侵检测的适用性。

表1 常用公共网络安全测试数据集

3.1 LDA对TWSVM算法的网络入侵检测的影响

分别采用TWSVM算法和LDA-TWSVM算法进行网络入侵检测,对4类样本的检测性能见表2。由表中数据可以看出:经过LDA优化之后,网络入侵检测样本的数据维度更小,TWSVM算法的入侵检测适用度增强。与TWSVM算法相比,LDA-TWSVM算法的检出率提升明显,其中在KDD Cup99数据集中的检出率最高,为98.21%;在HTTP DATASET CSIC数据集中的检出率最低,为96.25%。相比之下,TWSVM算法在KDD Cup99数据集中的检出率最高,为90.37%;在HTTP DATASET CSIC数据集中的检出率仅为87.67%。

表2 不同算法对4个公共网络安全测试数据集的网络入侵检测性能

经过LDA优化之后,网络入侵检测样本的数据维度更小,TWSVM算法的入侵检测稳定性提升明显,LDA-TWSVM算法在HTTP DATASET CSIC数据集中的检出率均方根误差(RMSE)值最小,LDA-TWSVM算法在4个数据集中的检出率RMSE均小于1.14,而TWSVM算法的均大于1.17,表明LDA-TWSVM算法在这些数据集中的网络入侵检测性能更稳定。

综合而言, 对网络入侵检测样本进行LDA降维处理, 能够有效提高TWSVM算法的检出率和稳定性, 从侧面说明TWSVM算法对样本的维度依赖程度较高, 并不适合于对高维度样本的网络入侵检测。

TWSVM算法和LDA-TWSVM算法的检测时间差距较小,结果显示在Masquerading User Data数据集中的检测时间差距最大,仅为2.77 s。

3.2 TWSVM算法与SVM算法的检测性能比较

分别选择LDA-SVM算法与LDA-TWSVM算法对4个数据集进行网络入侵检测性能仿真,结果见图2。

从图2(a)可以看出,同样进行网络特征LDA降维,SVM算法和TWSVM算法对不同数据集的检出率差异较大,其中LDA-SVM算法的网络入侵检出率维持在0.88~0.92,而LDA-TWSVM算法的检出率均大于0.96。两者在HTTP DATASET CSIC数据集中的检出率差距最小,在ADFA IDS Datasets数据集中的检出率差距最大,表明TWSVM算法在各类数据集中的网络入侵检测适应性更强。

从图2(b)中可知, SVM算法和TWSVM算法对不同数据集的网络入侵检测稳定性差异较大, 其中LDA-SVM算法的检出率RMSE均大于1.25且变化较大, 在HTTP DATASET CSIC数据集的稳定性最好, 在Masquerading User Data数据集的稳定性最差, 表明该算法的检测稳定性对网络样本的敏感度较高; 而LDA-TWSVM算法的检出率RMSE均在1.13左右, 且不同数据集的RMSE差异非常小, 表明该算法对数据集的敏感度更低, 在不同数据集的网络入侵检测中的稳定性更高。

3.3 4种网络入侵检测算法的性能对比

分别采用不同算法对4个公共网络安全测试数据集进行网络入侵检测性能仿真,结果见图3。由图可以看出,当4种网络入侵检测算法稳定时,LDA-TWSVM算法的检出率最高, HPSO-LSSVM算法的次之。 4种算法在 KDD Cup99数据集中的检出率最高, 接近于100%, 在HTTP DATASET CSIC数据集中的略差。 从检测时间来看, JRNB算法具有明显优势, 在50 s时就可以获得最佳的检测率, 原因是该算法的迭代运算量小。 相比之下, CNN、 HPSO-LSSVM算法的检测时间长, 均需65 s以上的时间才能获得最佳的检测率, 主要原因是两者都需要多次迭代网络参数, 大幅增加了检测时间。

为了进一步验证、 比较4种算法对不同网络入侵类型的检测性能, 选取常用的Normal、 DOS、 R2L、 PROBE、 U2R共5个入侵类型进行检出率统计, 结果见表3。 从表中可以看出, 4种算法对不同网络入侵类型的检出率差异较大, 对DOS类型的检出率最高, 其次是U2R类型, 对R2L类型的检出率最低。 对于同一种入侵类型, 4类算法的检出率各不相同, 其中LDA-TWSVM算法的检出率均最高, 且对DOS、 U2R类型的检出率分别高达0.994 3、 0.991 8,而对R2L类型的检出率较低,为0.960 3,此时CNN算法的检出率仅为0.883 5。

表3 不同算法对不同网络入侵类型的检出率

分别对4个网络入侵检测算法的检出率RMSE进行仿真, 统计算法稳定时的RMSE, 结果见表4。 从表中可以看出, 对于同一数据集, LDA-TWSVM算法的检测RMSE最小, HPSO-LSSVM、 JRNB算法的次之, CNN算法的最大。 相比于CNN, LDA-TWSVM算法的RMSE值平均减小了约0.2。 针对不同的数据集, 4种算法的检测RMSE差异较小, 表明这些种算法的检测稳定性受样本本身的差异影响很小。

表4 不同算法对4个公共网络安全测试数据集的网络入侵检测均方根误差

4 结语

采用LDA方法对样本特征进行降维处理,降低了TWSVM算法的网络入侵检测复杂度,提高了TWSVM算法的网络入侵检出率,与LDA-SVM算法或者TWSVM算法相比,LDA-TWSVM算法均表现出更优的网络入侵检测准确率和RMSE性能。后续研究将进一步优化LDA方法,提高网络入侵特征降维效率,缩短LDA-TWSVM算法的检测时间,进一步增强该算法的网络入侵检测的适用性。

猜你喜欢
降维检出率网络安全
混动成为降维打击的实力 东风风神皓极
QCT与DXA对绝经后妇女骨质疏松症检出率的对比
安宁市老年人高血压检出率及其影响因素
长程动态心电图对心律失常的检出率分析
降维打击
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
山东产品抽查:文胸婴幼儿服装不合格率居前
我国拟制定网络安全法