一种基于RF—SVM网络安全态势感知算法的应用研究

2014-11-12 06:19余文芳敖云涛
无线互联科技 2014年10期

余文芳++敖云涛

摘 要:随着网络用户规模的大幅度增加,网络用户使用计算机的水平参差不齐,导致网络安全事故频频发生,提升网络安全态势感知已经成为研究的重点。本文提出了一种基于RF-SVM的网络安全态势感知算法,该算法引入回归思想,在网络入侵感知过程,充分地参考历史网络攻击数据,预测未来网络数据流中潜在的威胁,实验证明该算法能够有效地提升网络安全感知的准确度,降低预测误差。

关键词:SVM;回归预测;网络安全态势

1 引言

随着网络的普及和发展,网络用户呈现规模化上升,不同的网络用户使用计算机的水平各不相同,参差不齐,导致网络受到的潜在威胁更加严重,网络安全态势感知已经成为亟需解决的问题之一。目前,经过许多计算机学者的研究,已经诞生了许多较好的网络安全态势感知算法,比如日志审计与性能修正算法、基于DS证据理论、基于混杂模型、基于神经网络、多维数据流挖掘算法、Markov博弈模型等,已经在网络态势感知过程中得到了较好的验证,并且取得了良好的效果。同时,也建立了许多的网络安全态势评估模型,如层次化网络安全威胁态势量化评估方法、信息融合评估模型、复杂网络评估模型等,促使网络安全态势预测更加客观和准确。

SVM算法进行网络安全态势评估时,无法充分地参考历史数据,仅能依据当前的数据判断网络安全态势,准确率较低。为了解决这个问题,本文引入了回归预测的思想,该思想可以记忆历史数据,充分地考虑过去的网络攻击事件,结合3当前的数据流,判断网络安全态势,能够大幅度提升网络安全态势预测的准确度。实验结果证明该方法运行效率较高,运行结果与实际值相比,误差较低,精确性较高。

2 RF-SVM算法设计

2.1 RF-SVM理论

支持向量机是一种数据挖掘技术,其可以从海量数据中发现隐藏的模式,挖掘数据隐藏的信息,将相关的信息提供给系统,便于系统识别系统数据的时间序列或者发展趋势。支持向量机在线性可分的标准下,其可以在解空间中寻找最佳的分类平面;在线性不可分的情况下,其可以通过引入部分变量,采取非线性映射的方法,有效的将处于低纬输入空间的样本映射到高纬空间中,这样就可以将解空间变为线性可分的情况,在高维解空间中寻找最优解。同时,支撑向量机使用结构风险最小化的基本原理,可以在向量的解空间中寻找最优解,满足求解的需要。

为了能够更加有效地预测网络安全态势,本文引入了回归预测的思想,提出了RF-SVM算法,其基本原理如下:

假设给定样本集(x,y)服从概率分布P(x,y),设定回归函数如公式(1):

同时引入结构风险函数(2):

公式(2)中, 表示描述函数,C为常数,f()表示复杂度的项,公式(2)可以平衡经验风险和模型复杂度,以便能够取得一个折中的平衡。

在上述公式中可以引入不敏感损失函数ε的项,其可以具体定义为公式(3):

公式(3)表示不惩罚偏差小于ε的项,能够大幅度增加回归函数的鲁棒性。

公式(4)体现了引入回归预测思想的支持向量机的核心思想,其既可以控制训练误差,又可以控制模型复杂度,以便能够获取一个小的期望风险,提高模型的泛化能力。其最小代价泛化函数为公式(5):

公式(5)中, 表示引入的松散变量,以便能够利用拉格朗日函数和对偶原理,以便得到函数(6):

公式(6)中, 表示拉格朗日算子,求解可以得到:

不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。b可由约束条件 求解,由此求得的最优分类函数是:

其中sgn()为符号函数。

2.2 算法设计及参数设置

RF-SVM设计过程中,关键问题包括两个,首选需要选择一个合适的核函数和参数,其次是训练得到算法的模型。

RF-SVM回归模型的控制方法包括三种,分别是容量控制因子C、损失函数和核函数,这些方法均可以实现RF-SVM回归模型得到有效的控制和实现回归。为了能够更加有效的验证本文算法的有效性,RF-SVM算法采用Vapnik的ε不敏感损失函数实施控制,并且同时采用高斯径向基函数作为核函数,设置ε=0.008,不限定控制因子C的取值,在模型训练的过程中,可以设置高斯径向基函数σ=0.2完成算法训练。

为了能够更好地预测网络攻击态势的指标,RF-SVM算法实现包括两个模块,攻击态势预测训练模块和预测模块。每一个模块的功能如下所所述。

2.2.1 RF-SVM训练模块

算法执行过程中,RF-SVM训练模块由总控模块、数据库读取模块、态势评估模块和训练模块四部分集成,完成攻击态势预测训练学习功能,具体执行步骤包括以下几个方面:

⑴设置输入训练数据时间序列化条件,确定时间序列,统计时间序列的取值范围;

⑵调用数据库读取控制函数和网络攻击态势评估函数,完成统计时间序列的工作,并且评估各项数据的攻击态势,并且将按照时间序列分类,将每一类的评估值存入变量LIST中;

⑶将LIST数据传入到预测模型训练模块,生成一个预测模型。该训练模型根据24小时的历史数据预测未来1h的攻击态势,以此前30天的数据为基础,设计一个30组的时间序列,每个时间序列包括24项,每一项的取值为1h的网络攻击态势评估指标。

2.2.2 RF-SVM预测模块

RF-SVM预测模块的功能是根据近期一段时间内网络攻击历史数据,使用RF-SVM算法预测网络攻击态势,RF-SVM预测模块以训练模块为基础。预测模块包括以下执行步骤:

⑴根据输入条件确定训练数据的时间序列,设定时间序列的统计时间范围;

⑵完成统计时间序列的工作;

⑶调用攻击态势预测模块,根据(2)统计的时间序列和训练模块生成的模型,预测网络攻击态势;

3 实验环境及结果分析

3.1 实验环境及数据

为了能够评估RF-SVM算法的有效性,构建了一个功能强大的入侵检测系统,该系统拥有两台FTP服务器和一台Web服务器,20台计算机终端和6台模拟攻击计算机,2014年1月1日——2014年3月10日,选择收集7万条日志报警信息、10万条网络报警信息、8万条设备报警信息、5万条代理报警信息等共计30万条入侵攻击报警信息,按照网络态势的分级标准,将其分类,分别是4万条一级报警信息、8万条二级报警信息、8万条三级报警信息、10万条四级报警信息。

由于不同的时间段内,网络的攻击数据集非常大,为了避免训练数据集时算法产生较大的误差,针对计算得到的网络攻击态势值实施归一化处理。

归一化处理公式如(5)所示:

公式(9)中的x表示当前网络态势值, 表示归一化后的网络态势值,xmax和xmin表示网络最大态势值和网络最小态势值。

将2014年1月1日——2014年2月28日的数据作为训练数据集,完成RF-SVM算法的学习和训练;将2014年3月1日——2014年3月10日的入侵攻击数据作为验证数据,以便验证算法的准确性和可靠性,具体数据如表1所示。

3.2 实验结果分析

使用RF-SVM算法对2014年3月1日——2014年3月10日的入侵攻击数据进行预测,预测结果如表1所示。另外,为了更好地验证RF-SVM算法的有效性,本文同时与SVM算法预测的结果进行比较,RF-SVM算法能够很好地提高网络攻击态势的预测准确度,降低预测误差,如图1所示。

4 总结与展望

本文分析了SVM算法实施网络态势感知过程中存在的不足,即其仅能独立地分析当前网络中的数据流,无法记忆历史数据流,导致网络安全态势感知准确度较低。因此,经过努力,本文引入了回归预测的思想,提出了RF-SVM算法,该算法能够充分考虑网络历史攻击事件及当前网络数据,预测网络安全态势,实验证明该算法能够降低网络安全态势感知误差,提升准确度。RF-SVM算法未来工作的重点包括改进核函数,优化设置参数,以便实现自动预测网络安全态势。

[参考文献]

[1]龚正虎,卓莹.网络态势感知研究[J].软件学报.2010,21(07):1605-1619.

[2]韦勇,连一峰.基于日志审计与性能修正算法的网络安全态势评估模型[J].计算机学报.2009,32(4):763-772.

[3]石波,谢小权.基于DS证据理论的网络安全态势预测方法研究[J].计算机工程与设计.2013,34(3):821-825.

[4]李闻,戴英侠,连一峰,冯萍慧.基于混杂模型的上下文相关主机入侵检测系统[J].软件学报.2009(01).

[5]仲兆满,李存华,管燕.基于神经网络的实时入侵检测系统的研究和实现[J].计算机工程与应用.2007(30).

[6]毛国君,宗东军.基于多维数据流挖掘技术的入侵检测模型与算法[J]. 计算机研究与发展.2009(04).

⑶调用攻击态势预测模块,根据(2)统计的时间序列和训练模块生成的模型,预测网络攻击态势;

3 实验环境及结果分析

3.1 实验环境及数据

为了能够评估RF-SVM算法的有效性,构建了一个功能强大的入侵检测系统,该系统拥有两台FTP服务器和一台Web服务器,20台计算机终端和6台模拟攻击计算机,2014年1月1日——2014年3月10日,选择收集7万条日志报警信息、10万条网络报警信息、8万条设备报警信息、5万条代理报警信息等共计30万条入侵攻击报警信息,按照网络态势的分级标准,将其分类,分别是4万条一级报警信息、8万条二级报警信息、8万条三级报警信息、10万条四级报警信息。

由于不同的时间段内,网络的攻击数据集非常大,为了避免训练数据集时算法产生较大的误差,针对计算得到的网络攻击态势值实施归一化处理。

归一化处理公式如(5)所示:

公式(9)中的x表示当前网络态势值, 表示归一化后的网络态势值,xmax和xmin表示网络最大态势值和网络最小态势值。

将2014年1月1日——2014年2月28日的数据作为训练数据集,完成RF-SVM算法的学习和训练;将2014年3月1日——2014年3月10日的入侵攻击数据作为验证数据,以便验证算法的准确性和可靠性,具体数据如表1所示。

3.2 实验结果分析

使用RF-SVM算法对2014年3月1日——2014年3月10日的入侵攻击数据进行预测,预测结果如表1所示。另外,为了更好地验证RF-SVM算法的有效性,本文同时与SVM算法预测的结果进行比较,RF-SVM算法能够很好地提高网络攻击态势的预测准确度,降低预测误差,如图1所示。

4 总结与展望

本文分析了SVM算法实施网络态势感知过程中存在的不足,即其仅能独立地分析当前网络中的数据流,无法记忆历史数据流,导致网络安全态势感知准确度较低。因此,经过努力,本文引入了回归预测的思想,提出了RF-SVM算法,该算法能够充分考虑网络历史攻击事件及当前网络数据,预测网络安全态势,实验证明该算法能够降低网络安全态势感知误差,提升准确度。RF-SVM算法未来工作的重点包括改进核函数,优化设置参数,以便实现自动预测网络安全态势。

[参考文献]

[1]龚正虎,卓莹.网络态势感知研究[J].软件学报.2010,21(07):1605-1619.

[2]韦勇,连一峰.基于日志审计与性能修正算法的网络安全态势评估模型[J].计算机学报.2009,32(4):763-772.

[3]石波,谢小权.基于DS证据理论的网络安全态势预测方法研究[J].计算机工程与设计.2013,34(3):821-825.

[4]李闻,戴英侠,连一峰,冯萍慧.基于混杂模型的上下文相关主机入侵检测系统[J].软件学报.2009(01).

[5]仲兆满,李存华,管燕.基于神经网络的实时入侵检测系统的研究和实现[J].计算机工程与应用.2007(30).

[6]毛国君,宗东军.基于多维数据流挖掘技术的入侵检测模型与算法[J]. 计算机研究与发展.2009(04).

⑶调用攻击态势预测模块,根据(2)统计的时间序列和训练模块生成的模型,预测网络攻击态势;

3 实验环境及结果分析

3.1 实验环境及数据

为了能够评估RF-SVM算法的有效性,构建了一个功能强大的入侵检测系统,该系统拥有两台FTP服务器和一台Web服务器,20台计算机终端和6台模拟攻击计算机,2014年1月1日——2014年3月10日,选择收集7万条日志报警信息、10万条网络报警信息、8万条设备报警信息、5万条代理报警信息等共计30万条入侵攻击报警信息,按照网络态势的分级标准,将其分类,分别是4万条一级报警信息、8万条二级报警信息、8万条三级报警信息、10万条四级报警信息。

由于不同的时间段内,网络的攻击数据集非常大,为了避免训练数据集时算法产生较大的误差,针对计算得到的网络攻击态势值实施归一化处理。

归一化处理公式如(5)所示:

公式(9)中的x表示当前网络态势值, 表示归一化后的网络态势值,xmax和xmin表示网络最大态势值和网络最小态势值。

将2014年1月1日——2014年2月28日的数据作为训练数据集,完成RF-SVM算法的学习和训练;将2014年3月1日——2014年3月10日的入侵攻击数据作为验证数据,以便验证算法的准确性和可靠性,具体数据如表1所示。

3.2 实验结果分析

使用RF-SVM算法对2014年3月1日——2014年3月10日的入侵攻击数据进行预测,预测结果如表1所示。另外,为了更好地验证RF-SVM算法的有效性,本文同时与SVM算法预测的结果进行比较,RF-SVM算法能够很好地提高网络攻击态势的预测准确度,降低预测误差,如图1所示。

4 总结与展望

本文分析了SVM算法实施网络态势感知过程中存在的不足,即其仅能独立地分析当前网络中的数据流,无法记忆历史数据流,导致网络安全态势感知准确度较低。因此,经过努力,本文引入了回归预测的思想,提出了RF-SVM算法,该算法能够充分考虑网络历史攻击事件及当前网络数据,预测网络安全态势,实验证明该算法能够降低网络安全态势感知误差,提升准确度。RF-SVM算法未来工作的重点包括改进核函数,优化设置参数,以便实现自动预测网络安全态势。

[参考文献]

[1]龚正虎,卓莹.网络态势感知研究[J].软件学报.2010,21(07):1605-1619.

[2]韦勇,连一峰.基于日志审计与性能修正算法的网络安全态势评估模型[J].计算机学报.2009,32(4):763-772.

[3]石波,谢小权.基于DS证据理论的网络安全态势预测方法研究[J].计算机工程与设计.2013,34(3):821-825.

[4]李闻,戴英侠,连一峰,冯萍慧.基于混杂模型的上下文相关主机入侵检测系统[J].软件学报.2009(01).

[5]仲兆满,李存华,管燕.基于神经网络的实时入侵检测系统的研究和实现[J].计算机工程与应用.2007(30).

[6]毛国君,宗东军.基于多维数据流挖掘技术的入侵检测模型与算法[J]. 计算机研究与发展.2009(04).