基于MHA-BiLSTM的网络流量异常检测方法

2024-04-14 02:12叶文冰詹仕华
现代信息科技 2024年2期
关键词:深度学习

叶文冰 詹仕华

DOI:10.19850/j.cnki.2096-4706.2024.02.015

收稿日期:2023-05-29

基金项目:福建省高等学校教育技术研究会基金项目(H2000134A);福建农林大学横向科技创新基金项目(KHF190015)

摘  要:针对传统的网络流量异常检测方法存在识别准确率低、忽略特征之间的相互关系等问题,提出一种基于多头注意力机制(MHA)和融合Highway连接的双向长短时记忆网络(BiLSTM)的网络流量异常检测方法。通过使用多头注意力机制学习数据之间的特征关系,实现对不同维度特征关系的提取,接下来采用多层BiLSTM进行长距离依赖特征提取,并利用Highway连接来缓解深层网络训练中的梯度消失问题。通过NSL-KDD数据集,验证了该方法的准确度和有效性。

关键词:异常流量;多头自注意力机制;双向长短时记忆网络;Highway连接;深度学习

中图分类号:TP183;TP393.0    文献标识码:A    文章编号:2096-4706(2024)02-0065-05

Anomaly Detection Method of Network Traffic Based on MHA-BiLSTM

YE Wenbing1, ZHAN Shihua2

(1.College of Mechanical and Electrical Engineering, Fujian Agriculture and Forestry University, Fuzhou  350108, China; 2.College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou  350028, China)

Abstract: A network traffic anomaly detection method based on MHA and BiLSTM connected with fused Highway is proposed to address the issues of low identification accuracy and neglect of inter-feature relationships in traditional network traffic anomaly detection methods. Through utilizing the MHA mechanism to learn feature relationships among data, the feature relationships of different dimensions are extracted. Subsequently, multiple layers of BiLSTM are employed for capturing long-term dependency features, while the Highway connections are utilized to alleviate the issue of gradient vanishing in deep network training. The accuracy and effectiveness of the proposed method are validated through the NSL-KDD dataset.

Keywords: abnormal traffic; multi-head self-attention mechanism; BiLSTM; Highway connection; Deep Learning

0  引  言

隨着计算机技术的迅猛发展,互联网的数据规模不断扩大,网络环境也日益复杂,导致网络安全问题如入侵攻击和网络病毒等日益严重。为了解决这些问题,保障网络安全已经成为迫切的任务,吸引了学术界的广泛关注。在网络流量异常检测中,传统的机器学习算法如K近邻算法[1]、支持向量机[2]、随机森林[3]和决策树[4]等已经被广泛应用。这些算法在网络流量异常检测中取得了一定的准确率提升,但仍存在表达复杂函数能力有限和泛化能力不强的问题[5]。为了进一步提高网络流量异常检测的性能,近年来,深度学习算法如卷积神经网络[6]、循环神经网络[7]和深度自编码器[8]等也被引入网络流量异常检测领域,并在实验中表现出了很好的性能。相比传统的机器学习算法,深度学习算法具有更强的表达能力和更好的泛化能力,可以更准确地检测出网络流量中的异常行为。文献[9]提出了一种结合了数据时空特征的卷积神经网络和双向长短期记忆网络(BiLSTM)的网络流量异常检测模型,并取得了良好的结果。文献[10]提出了一种基于自注意力机制(Self-Attention)的模型来提取网络流量数据多特征的相关性,提高了检测率并降低了误报率。然而,自注意力机制仅考虑了当前特征与其他特征的相关性,无法捕捉到更复杂的关系和模式。对此,本文提出一种结合多头注意力(MHA)机制和融合Highway连接的双向长短期记忆网络(BiLSTM)的异常网络检测方法。多头注意力机制通过引入多个注意力头,可以从多个维度提取网络流量的非线性变化,增加对不同特征之间的关注,发掘特征之间的内在联系。同时,使用双向长短时记忆网络可以提取特征之间的长距离依赖关系,并利用Highway连接来缓解深层网络训练中的梯度消失问题。最后,采用Softmax分类器对输出进行分类。

1  模型介绍

1.1  相关技术

1.1.1  多头注意力机制

传统的神经网络模型在处理序列或图像等数据时,通常是通过局部感受野和固定的权重来对输入进行处理。这种方法存在一个限制,即模型只能关注输入数据的局部信息,而无法捕捉全局信息的联系和依赖关系。多头自注意力机制最初在自然语言处理(NLP)领域被引入[11],并被广泛应用于多个场景。本文中,使用多头注意力机制通过多个并行计算的注意力机制获得异常网络流量数据中每个特征的加权注意力分数,这样的注意力分数允许模型对输入数据的不同特征进行加权关注,使模型过滤无用特征,关注重点特征。通过多个头的并行计算,提供多个不同的关注点和特征表示,可以从多个维度理解和挖掘信息,提高模型的表达能力和泛化能力。多头注意力结构如图1所示。

在注意力机制中,使用的是缩放点积注意力(Scaled Dot-Product Attention),它通过计算查询(query)和键(key)之间的相似性得到分配给每个值(value)的权重分数。这些分数经过Softmax函数归一化后,与对应的值相乘,得到加权和作为输出。使用点积注意力可以并行计算,从而减少训练时间。其计算式(1)如下:

(1)

式(1)中Q、K、V分别表示Query、Key、Value三个矩阵,dk表示它们的维度。为了提取更丰富的特征,本文引入了多头注意力。每个注意力头都有自己的可学习参数,计算式(2)如下。其中,,, 表示可学习的参数。其中Qi表示第i个注意力头的查询矩阵,Ki表示第i个注意力头的键矩阵,Vi表示第i个注意力头的值矩阵。

(2)

多头注意力机制通过创建多个不同的注意力头,从不同的特征子空间中学习不同的特征信息。计算式如(3)所示,其中i表示多头注意力中的头数,headi表示第i个特征子空间中学到的特征:

(3)

最后,将每个头的输出进行拼接操作并做线性变换,得到包含多维信息的向量矩阵。如式(4)所示,其中Concat表示拼接操作:

(4)

1.1.2  双向长短时记忆网络

长短时记忆神经网络(LSTM)[12]循环神经网络RNN,通过门控机制解决长序列中的远距离信息丢失、梯度爆炸和梯度消失问题等问题,LSTM网络能够保留有价值的信息,删除冗余记忆,具有较强的建模能力。LSTM结构如图2所示。图中“×”表示内积操作,“+”表示加操作,“σ”表示sigmoid激活函数,“tanh”表示双曲正切激活函数。

LSTM结构包括输入门It、遗忘门Ft和输出门Ot,以及临时记忆状态 、当前记忆状态Ct和最终隐藏层状态Ht。计算式(5)~(10)描述了LSTM中的計算过程,其中包括各个门的计算和状态的更新。

(5)

(6)

(7)

(8)

(9)

(10)

然而,传统的LSTM神经网络只能学习到前向数据的依赖关系。为了更好地捕捉序列中的长期依赖关系,引入了双向长短时记忆神经网络(BiLSTM)。BiLSTM由前向LSTM和反向LSTM组成,分别对输入进行前向和后向计算,并获得前向和反向的所有信息。这样可以更全面地理解序列数据,提供更准确的特征表示。图3展示了BiLSTM的结构。

在BiLSTM中,将前向和反向的最后一个输出进行拼接,作为下一层的输入。拼接后的输出可以包含前向和反向信息的综合表示。这样的结构可以为异常网络检测提供更准确的预测条件。式(11)描述了输出的拼接过程:

(11)

其中,ht表示t时刻经前向输出和反向输出拼接后的最终输出结果。

1.1.3  Highway网络

相对于传统的RNN,LSTM网络在一定程度上能够缓解梯度消失的问题。然而,再深层网络中,随着网络层数的增加,梯度信息在网络传播中容易受到阻碍,导致训练过程变得困难[13]。为了应对这个问题,本文采用了Highway连接来连接各层的BiLSTM网络。

Highway网络利用门控机制来控制信息的流动。在传统的神经网络中,每一层的输出经过非线性函数变换。而在深层模型中引入Highway连接,将输入的一部分特征经过非线性变换,而另一部分则直接传递到下一层网络,从而实现特征信息在多个层之间的传递。为了实现这一目的,为每一层的输出添加转换门(transform gate)和携带门(carry gate),形成了Highway网络。Highway网络的定义(12)如下:

(12)

其中y表示Highway网络的输出,x表示输入,W表示权重参数,T(x,WT)表示转换门状态,C(x,Wc)表示携带门状态。通过控制转换门和携带门的权重,Highway网络可以灵活地调节特征信息的传递和保留,从而更好地训练深层模型。

1.2  本文模型

本文提出的模型利用多头注意力机制和融合Highway连接的双向长短时记忆网络的协同作用提取数据的特征。该模型由6个部分组成:数据预处理部分、Embedding层、多头注意力模块、双向长短时记忆模块、全连接层和Softmax层,模型结构如图4所示。首先,原始数据经过数据预处理阶段进行预处理,然后被输入到Embedding层,Embedding层将离散的输入映射到连续的向量空间,以更好地理解输入的语义和特征信息。接下来,经过多头注意力模块对特征进行分析,该模块能够计算特征的重要程度,并筛选出关键特征,得到丰富的多维特征信息。然后,经过4层融合了Highway连接的BiLSTM网络,这种网络在缓解梯度消失问题的同时获取前后特征之间的联系且保留其时序信息,之后通过全连接层对特征进行融合,最后将融合后的特征输入到Softmax分类器中,得到最终分类结果。

2  实验与分析

在本实验中,在公开数据集NSL-KDD上验证了基于多头注意力机制(MHA)和融合Highway连接的双向长短时记忆网络(BiLSTM)的网络流量异常检测方法的有效性,并使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-score作为评估指标来评估模型的性能。还与多种传统机器学习算法以及1D-Conv、Transformer算法模型进行了性能比较,实验结果表明:本文提出的基于多头注意力机制和融合Highway连接的双向长短时记忆网络的网络流量异常检测方法表现出较好的性能。

2.1  实验环境

实验环境基于windows 10操作系统,使用了Intel Core第12代处理器i5-12400F和NVIDIA 3060 Ti 8 GB显卡,内存容量为16 GB。并使用Python 3.10.9编程语言和PyTorch 2.0.0深度学习框架来实现本文提出的异常检测方法。

2.2  评估指标

本文使用混淆矩阵来表示评估指标,如表1所示。混淆矩阵中,真正例(True Positive, TP)表示分类器将正类样本预测为正的样本数量,真负例(True Negative, TN)表示分类器将负类样本预测为负类的样本数量,假负例(False Negative, FN)表示分类器将正类样本预测为负类样本的样本数量,假正例(False Positive, FP)表示分类器将负类样本预测为正类样本的严样本数量。

常用的评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-score。其中,Accuracy表示模型能够正确分类的样本数量占总样本数量的比例,定义如式(13)所示:

(13)

Precision表示被正确分类的正类样本数量与其中实际正类样本数量的比例,定义如式(14)所示:

(14)

Recall表示被正确分类的正类样本数量与真实正类样本数量的比例,定义如式(15)所示:

(15)

F1-score是Precision和Recall的调和平均数,定义如式(16)所示:

(16)

2.3  实验数据集

本文使用NSL-KDD数据集进行实验。该数据集是基于KDD CUP 99数据集进行改进和精简的新数据集,去除了大量冗余记录。数据集包含4个子数据集:KDDTrain+、KDDTrain+_20Percent、KDDTest+、KDDTest-21。其中KDDTrain+_20Percent和KDDTest-21是KDDTrain+和KDDTest+的子集。数据集中包含41个特征属性和1个类型标签。类型包括正常行为(Normal)以及4种攻击行为:侦察(Probing)攻击行为、拒绝服务(Dos)攻击行为、远程到本地(R2L)攻击行为、用户到根(U2R)攻击行为。在本实验中,使用KDDTrain+_20Percent作为训练集,KDDTest+作为测试集。各类型数据信息如表2所示。

2.4  数据预处理

由于神经网络无法直接处理文本信息,而NSL-KDD数据集中存在字符型数据,不符合神经网络的输入格式要求。因此,在数据预处理阶段,首先需要将非数值数据转化为数值型数据,使用独热编码(One-Hot Encoding)将离散特征映射为二进制向量,从而将特征向量的维度转变为126维。独热编码的目的是消除离散特征之间的大小关系和数值偏好,使得神经网络能够更好地处理这些特征。此外,由于原始数据中的一些特征可能具有不同的分布和取值范围,为了保证模型的稳定性和收敛性,本文还对特征进行了归一化处理,使得不同特征之间的数值范围相对统一。

同时,NSL-KDD数据集存在数据不平衡问题,即多数类数据的样本数量远远大于少数类数据的样本数量。如果直接进行模型训练将会导致分类结果偏向于多数类数据而忽视少数类数据。因此,本文采用过采样以及欠采样算法对数据进行数据预处理,使得实验中使用的数据集多数样本和少数样本相对均衡,从而增加模型对于少数类数据的分类准确率。

2.5  实验参数设置

在本实验中,设置了以下参数:每次训练的批次大小(batch_size)为1 024,训练轮数(epochs)为40,学习率(learning rate)为0.000 1,我们采用了8个注意力头(attention heads)的多头注意力机制,使用Adam优化器和交叉熵损失函数。本实验的双向长短时记忆网络(BiLSTM)包含4层,每层节点数为128。

2.6  结果分析

为了评估模型的性能,本文采用了控制变量的方法,对比了不同算法在相同机器环境上的运行结果。為了消除准确率、精确率、召回率和F1-score值的随机性,本文对每个模型进行了10次实验,并计算其平均值作为最终结果。

首先,进行了消融实验,验证了Highway网络和多头注意力机制对模型性能的影响。实验结果如表3所示。从表3可以看出,在BiLSTM网络基础上融合Highway连接后,模型的准确性提高了2.26%,准确率提高了3.98%,召回率提高了1.4%,F1-score提高了1.97%,这表明了Highway连接对模型有着重要作用。Highway连接通过门控机制帮助网络更好地学习输入数据中的重要特征,避免信息的损失和失真,从而提升模型性能。之后,在BiLSTM网络中融合多头注意力机制后,模型的准确率、召回率和F1-score各提升了1.63%、7.21%和2.17%。多头注意力机制通过并行计算多个注意力头,每个注意力头专注于不同的子空间,同时捕捉多个不同的关注点和关联模式,从而提升模型的表达能力和泛化能力。实验结果表明多头注意力机制有效提升了模型的性能。

接下来,通过与传统机器学习算法、1D-Conv和Transformer模型进行对比实验,进一步验证了本文提出的模型的性能。实验结果如表4所示。

实验结果显示,本文模型的准确率达到90.29%,召回率达到93.04%,F1-score达到91.49%,均优于其他对比算法模型。相比于只学习浅层特征的传统机器学习算法,本文模型表现更优越。与1D-Conv和Transformer模型的比较结果也验证了本文模型的准确性和有效性。

3  结  论

本文构建了一种网络流量异常检测算法,结合了多头注意力机制(MHA)和融合了Highway连接的双向长短期记忆网络(BiLSTM)。MHA模块能够有效地捕捉不同特征之间的联系,并提取更丰富的特征表示;BiLSTM模块能够捕捉网络流量数据的长距离依赖和时序信息,从而更好地建模数据的动态性。Highway连接允许信息在网络中快速传播,通过添加门控机制来选择性地传递信息,从而保持梯度的有效传递,进一步提高模型性能。同时,通过对比是否添加Highway网络或多头注意力机制的模型实验结果,证明了Highway网络的重要性和多头注意力机制的有效性。最后和多种模型在公开数据集NSL-KDD上进行对比实验评估,实验结果表明,本文算法在网络流量异常检测任务上取得了良好的性能表现。未来的工作中,将进一步解决网络流量数据集不平衡问题,这可能涉及采样策略、类别权重调整或生成合成样本等方法。此外,还将致力于优化模型结构和参数设置,以提高模型的准确率和鲁棒性。

参考文献:

[1] KACHAVIMATH A V,NAZARE S V,AKKI S S. Distributed denial of Service Attack Detection Using Na?ve Bayes and K-Nearest Neighbor for Network Forensics [C]//2020 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA).Bangalore:IEEE,2020:711-717.

[2] DONG S. Multi Class SVM Algorithm with Active Learning for Network Traffic Classification [J].Expert Systems with Applications,2021,176:114885.

[3] ELMRABIT N,ZHOU F X,LI F Y,et al. Evaluation of Machine Learning Algorithms for Anomaly Detection [C]//2020 International Conference on Cyber Security and Protection of Digital Services (Cyber Security).Dublin:IEEE,2020:1-8.

[4] HENRIQUES J,CALDEIRA F,CRUZ T,et al. Combining K-Means and XGBoost Models for Anomaly Detection Using Log Datasets [J].Electronics,2020,9(7):1164.

[5] LIU L,WANG P C,LIN J,et al. Intrusion Detection of Imbalanced Network Traffic Based on Machine Learning and Deep Learning [J].IEEE Access,2020,9:7550-7563.

[6] 杭梦鑫,陈伟,张仁杰.基于改进的一维卷积神经网络的异常流量检测 [J].计算机应用,2021,41(2):433-440.

[7] 邓华伟,李喜旺.基于深度学习的网络流量异常识别与检测 [J].计算机系统应用,2023,32(2):274-280.

[8] 张国梁,郭晓军.基于自编码器的网络异常检测研究综述 [J].信息安全学报,2023,8(2):81-94.

[9] SINHA J,MANOLLAS M. Efficient Deep CNN-BiLSTM model for Network Intrusion Detection [C]//Proceedings of the 2020 3rd International Conference on Artificial Intelligence and Pattern Recognition.Xiamen:ACM,2020:223-231.

[10] 皇甫雨婷,李丽颖,王海洲,等.自注意力的多特征网络流量异常检测与分类 [J].华东师范大学学报:自然科学版,2021(6):161-173.

[11] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [J/OL].arXiv:1706.03762 [cs.CL].(2017-06-12).https://arxiv.org/abs/1706.03762.

[12] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.

[13] SRIVASTAVA R K,GREFF K,SCHMIDHUBER J. Highway Networks [J/OL].arXiv:1505.00387 [cs.LG].(2015-05-03).https://arxiv.org/abs/1505.00387.

作者簡介:叶文冰(1998—),男,汉族,福建福州人,硕士研究生在读,研究方向:人工智能;通讯作者:詹仕华(1968—),男,汉族,福建福安人,副教授,本科,研究方向:网络通信与信息安全。

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究