面向大数据的BiGAN网络入侵检测

2019-05-30 06:08
关键词:架构网络安全样本

李 洋

(西华师范大学 计算机学院,四川 南充 637002)

0 引言

伴随着计算机网络、移动通信网络和其他杂合的信息网络的发展,使得网络安全由传统的局域网的网络安全转换成大数据背景下的网络安全.大数据背景下的网络安全指的是在超出了可控制规模,网络管理员或网络入侵防御软件不易在用户可容忍的时间内收集、存储、维护、管理、分析、阻断的网络攻击[1].目前大数据具有具有海量(Volume)、高速(Velocity)、多变(Variey)3个较为突出的特点[2],而面向大数据的网络入侵呈现出短时间的突发性、爆发等非线性的状态,同时网络入侵和网络攻击手段具有多样化、变种快和自学习性等特点.入侵检测系统是网络安全的第二到闸门,与防火墙联动应对网络攻击,是网络安全防护的技术之一[3].

网络入侵检测主要包含误用入侵检测与异常入侵检测,两者的区别在于前者的检测效率较高,缺点是不能发现变种的入侵行为,而后者可以弥补前者的缺陷,所以目前在大数据环境下主要是对异常入侵检测进行研究[4].传统地通过网络安全专家处理在大数据网络安全问题下,对入侵检测判断在时效性、高误报率和受专家自身的经验上具有较大的相关性.相反人工神经网络在非线性模拟能力、学习能力和自适应能力上表现良好,近年来,神经网络在网络入侵检测取得了广泛的应用,但在实际的入侵检测仍存在一些不足.例如文献[5]采用OC-SVM检测入侵源节点和时间段节点,建立集群制的入侵检测模型,虽然获得了检测精度的提升,但时间效率降低了.又例如文献[6]利用SVM替代GRU分类函数Softmax,提高了检测效率,但入侵检测的准确率较低.

针对上述存在的问题,提出了一种面向大数据的BiGAN网络入侵检测的方法.通过双向GAN(BiGAN)的协同机制,有效地提高了检测效率,降低了时间复杂度.最后使用KDD CUP99数据集对该模型进行测试.

1 双向生成对抗网络架构

1.1 生成对抗网络原理

GAN起源于博弈论中的纳什均衡[7],最初的生成对抗网由两个神经网络:生成器模型(generator model,简称G)和鉴别模型(discriminative model,简称D).生成器模型的输入通常是二维高斯分布或者均匀分布的随机向量z,以此输出向量z的分布域G(z),而鉴别模型则是区分真实数据样本xi在生成器模型生成的分布域G(z)相似的概率.其中的博弈体现在G通过最大化的学习真实数据样本的分布以提高欺骗D,D则通过最大努力的训练提升鉴别能力以避免G的欺骗.GAN的学习过程是G和D两者之间的一种博弈过程[8],过程可以描述为min-max公式即式(1).

(1)

其中V(G,D)为价值函数,Px为真实数据样本x的数据分布域,Pz为生成数据样本z的数据分布域.GAN整个学习过程包含了前向传播阶段和反向传播阶段两个阶段,前向传播阶段包含了模型的输入和模型的输出,反向传播阶段包含了优化目标、鉴别器损失函数和生成器损失函数.

1.2 双向对抗网络架构

图1 BiGAN网络架构

鉴于GAN存在一些缺陷,如JS divergence距离偏差问题,导致最终的GANs学习到的数据样本分布域与真实的数据样本分布相差较大;另外GAN训练速度较慢尤其是D的训练速度影响较大(在样本数据样本较大的前提下).由此提出了BiGAN(Bidirectional GAN),BiGAN架构在GAN架构的基础上增加了编码器E(Encoder,Decoder),将数据样本输入encoder中产生对应的编码域,其次定义一个与encoder无交集的decoder,通过输入编码域,输出对应的数据样本,最后通过鉴别模型D进行鉴别.对应的双向生成对抗网络架构如图1所示.

BiGAN对GAN训练进行了优化,即将价值函数定义为式(2).

V(Dxz,Dxx,Dzz,E,G)=V(Dxz,E,G)+V(Dxx,E,G)+V(Dzz,E,G) .

(2)

其中Dxz,Dxx,Dzz为对应的鉴别器,另一方面为了BiGAN的稳定性,这里将利用分类评分函数A(x)[9],即式(3).

(3)

其中fxx(x,x)表示Dxx的激活函数,如果样本的分类评价函数A(x)过大,则可能为异常,反之则为正常.综合上述描述BiGAN网络模型算法如下

BiGAN Anomaly Detection

Inputx,~PXtest(x),E,G,fxxwherefxxis the feature layer ofDxx

OutputA(x),whereAis the anomayly score

1 procedureINFERENCE

5 return ‖fδ-fα‖

6 end procedure

2 面向大数据的BiGAN网络入侵检测模型

网络入侵检测系统在进行网络入侵检测的同时,本身也成为了网络攻击的对象,如何有效地避免入侵检测系统发生突发性故障事件,如网络攻击、木马病毒入侵、软硬件系统宕机等,潜伏网络可以较好地解决突发性故障事件,潜伏网络拓扑结构如图2所示[10].

图2 潜伏网络模型

面向大数据的BiGAN网络入侵检测模型通过在潜伏网络模型内嵌BiGAN网络,即通过在潜伏网络模型中的重要分析组件内嵌BiGAN网络,从而实现了对大数据类型的网络入侵的应急、转移攻击、减缓攻击和网络犯罪取证等功能.一方面通过分布式系统架构的部署从逻辑降低了对于网络入侵检测的时间开销和空间开销;另一方面潜伏网络是基于Docker容器建立的,使得面向大数据的BiGAN网络入侵检测系统能够在多平台上进行搭建,具有跨平台性.

3 实验与结果分析

3.1 数据集

实验采用美国麻省理工学院林肯实验室公布的KDD_Cup99数据集[11],广泛应用于模拟入侵检测.其中包含500多万条数据,每条数据有41个特征属性,其中有34个为连续,7分类特征(离散),其中7个分类特征如表1所示.

表1 分类特征

3.2 数据预处理

3.2.1 数据集选取

由于KDD_Cup99数据集较大,存在大量的重复数据且有噪声数据较多,这里选用kddcup.data_10_percent_corrected数据集,避免了重复的计算带来的额外开销影响和预测精度的降低.

3.2.2 数据标准化

为了减轻不同的量纲对比较运算带来的误差,这里采用one-hot(独热)编码后,进一步用min-max标准化(离差标准化).

3.3 实验环境

本文中实验环境由实验平台和实验环境配置构成,实验平台和实验环境配置的具体信息如表2所示.

3.4 实验结果分析

实验采用了GAN入侵检测与面向大数据的BiGAN入侵检测的超参数通过了人工赋值见表3.

表2实验环境

实验平台描述操作系统Ubuntu 16.04 64位内存4GBCPUIntel Corei5 2.6GHz编译语言Python 3.5.3深度学习框架Tensorflow 1.6.0

表3两种神经网络中的超参数

超参数GAN面向大数据的BiGANBatch Size5050Latent Dim3232Learning Rate1e-51e-5

为了进行评估,将本文的方法与同OC-SVM,IF和GAN分别运行10,并在精确率(Preccison)、召回率(Recall)和F1分数(F1-Score)进行比较,结果如表4所示.

表4 实验结果

由上述实验可以看出上述的模型对实验数据集检测的准确率都达不到100%,但提出的面向大数据的BiGAN网络入侵检测模型,一方面比OC-SVM,IF,GAN等模型在准确率、召回率、F1-Score取得了较好的效果;另一方面能够快速部署和实施;使得能够更好地解决在大数据网络背景下短时间的突发性、爆发的网络安全问题.

4 结束语

本文提出的面向大数据的BiGAN网络入侵检测模型的低误报率、高准确率、高效率,是一种较为可行且有效的网络入侵检测方法,同时为网络取证和攻击溯源提供了方便.然而实验数据KDD_Cup99与真实数据还存在一些差距,模型的部署还较为依赖目前主流的TCP/IP协议.有待在后续加强对非TCP/IP协议的支持和兼容IPV6协议,将该模型运用于实际的网络中,并利用网络中的反馈来改进该模型.

猜你喜欢
架构网络安全样本
基于FPGA的RNN硬件加速架构
用样本估计总体复习点拨
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
网络安全
规划·样本
上网时如何注意网络安全?
随机微分方程的样本Lyapunov二次型估计
网络安全监测数据分析——2015年11月
VoLTE时代智能网架构演进研究