人工智能技术在网络安全检测中的应用研究

2024-07-26 00:00:00虢莉娟
科技资讯 2024年11期

摘要:传统的网络安全检测技术难以解决新网络流量无标签、未知攻击以及标签稀缺等问题。为此,将人工智能技术应用到上述场景的网络安全入侵检测中,使用无标签网络安全检测方案解决目标网络域和源网络域间特征分布不同的问题。针对未知网络攻击的问题构建一个未知攻击网络安全检测模型,针对标签稀缺问题将半监督学习和主动学技术结合起来,构建一种标签稀缺网络安全检测算法。

关键词:网络安全人工智能入侵检测数据集

中图分类号:TP18

ResearchontheApplicationofArtificialIntelligenceTechnologyinNetworkSecurityDetection

GUOLijuan

YiyangOpenUniversity,Yiyang,HunanProvince,413000China

Abstract:Traditionalnetworksecuritydetectiontechnologiesaredifficulttosolvetheproblemsofunlabelednewnetworktraffic,unknownattacksandlabelscarcity.Therefore,artificialintelligencetechnologyisappliedtothenetworksecurityintrusiondetectionofabovescenarios,andunlabelednetworksecuritydetectionsolutionsareusedtosolvetheproblemofthedifferentfeaturedistributionsbetweenthetarget&nb1c2e779a5d5ead574d1f02f54af16e774f364a2f3268528a28fc568c6aefa6efsp;networkdomainandthesourcenetworkdomain.Fortheproblemofunknownnetworkattacks,anetworksecuritydetectionmodelforunknownattacksisconstructed,andfortheproblemoflabelscarcity,semi-supervisedlearningandactivelearningtechniquesarecombinedtoconstructanetworksecuritydetectionalgorithmforlabelscarcity.

KeyWords:Networksecurity;Artificialintelligence;Intrusiondetection;Dataset

随着云计算、容器等新兴技术的发展,计算机网络攻击也向着智能化、平台化发展,传统的网络安全技术在检测新型网络攻击行为时通常会存在检测准确率低、行为特征提取精度差等问题[1]。

入侵检测是一种网络安全检测技术,其目的是通过对网络流量的分析来检测到对计算机网络的非法访问。入侵检测系统主要用于检测计算机网络中的恶意行为,并尽可能地阻止端口扫描等可能威胁计算机网络安全的行为。入侵检测系统通常可以区别来自系统内、外的攻击,为了达到这一目的,需要对网络包进行特殊的拆分及组装操作。

传统的入侵检测技术在训练及测试数据集时都是遵循相同分布的条件建立的,但由于计算机网络环境复杂多变,即使网络环境出现细微的改变都会导致已有的入侵检测模型无法适应[2]。随着新型网络攻击的不断出现,传统入侵检测技术对其也力不从心,对已有恶意样本提取的特征难以适用于未知或新出现的恶意样本。因此,无标签问题或者标签稀缺问题都是网络入侵检测中的难点。

人工智能和网络技术的结合已经渗透到计算机的各个子领域,将人工智能和网络入侵检测技术结合起来势必能够解决一些网络安全领域中存在的安全问题。

1无标签网络安全检测

传统的网络安全检测技术需要一个前提,即训练数据集与测试数据集需要有相同的特征分布,然而如果网络环境发生变化传统的检测技术将不再适用[3]。为解决这一问题,本文提出一种无标签网络安全检测方案。

1.1数据集及数据处理

无标签网络安全检测方案的目标是解决目标域(新网络数据)和源域(训练网络数据)之间特征分布不同的问题,所以两个域要使用不同的数据集。本文选择CICIDS2017数据集和KDD99数据集。

CICIDS2017数据集不仅包含正常的网络流量,还包括目前常见的攻击流量,而且附有真实网络环境中的pcap文件数据,pcap文件数据根据捕获的数据流打了标签。本文在检测过程中发现如果CICIDS2017数据集包含所有攻击种类可能会发生负迁移现象,因此本文将其分成3个子数据集,每个子数据集包含不同的攻击类型。KDD99数据集包含大量的攻击流量,其中的数据都来自真实网络流量,基本能够反映真实网络情况。

CICIDS2017数据集是以pcap文件形式存在的,所以不能直接使用模型进行训练,需要先对其进行预处理。本文使用基于flow的流量原始特征分类方法[4],将pcap文件中具有相同五元组的网络包划分成为一条flow。网络包中Ethernet层的几个字段是基于硬件本身特征而不是网络流量特征,因此本文的数据不使用此层信息;网络包中网络层的tcpversion及differentiatedservices字段一般都是固定的,对网络包分类并无帮助,所以本文仅使用网络层的其余字段。这样一来每条flow就能够提取到具有41个特征维度进行后续检测。

网络流量的原始数据中含有影响安全检测精度的噪声,因此需要经过均值移除、范围缩放以及归一化预处理。其中均值移除会把每个样本数据的特征值减去样本所有特征的均值,其作用是消除不同数据样本特征间的偏差;范围缩放把不同单位的样本特征按照比例进行放大或缩小,以削弱不同样本特征间大幅度变化产生的检测精度影响;归一化作用是统一所有样本特征的统计分布,从而消除奇异样本产生的误差。

1.2检测模型

假设已经标记标签的源域网络流量数据集DS的特征输入为XS,对应的标签集合YS,目标域网络流量数据集DT的特征输入为XT,对应样本标签未知。由于源域网络和目标域网络的特征分布不同,因此无法通过训练源域模型来进行目标域的网络安全检测。本文的解决思路是找到一个数学变换,使得源域流量数据可以近似转换为目标域流量数据,这样就可以借助源域网络流量数据及对应的标签得到的分类器对目标域网络流量数据进行分类,从而检测其中的异常网络流量,这种网络安全入侵检测模型流程如图1所示。

源域到目标域数学变换的本质就是找到二者特征分布之间的最小距离,根据刘莉[5]的研究,本文使用如下变换公式:

其中n1和n2分别是源域和目标域网络的样本数。

如此一来,计算出源域和目标域特征分布之间的最小距离,就可以借助源域训练好的分类器对目标域无标签数据进行网络异常流量检测。

2未知攻击网络安全检测

目前还没有专门针对未知网络攻击的有效数据集,为有效检测未知网络攻击,本文使用CICIDS2017数据集与CTU数据集构造专门用于未知网络攻击的数据集,来构建一个未知攻击网络安全检测模型——NewCNN。

2.1数据集及数据处理

CTU网络流量数据集中包含了大量的攻击流量,其目标是对混杂了正常流量的异常流量网络进行大规模捕获。此数据集中包含了若干不同的异常流量样本场景,如果某网络访问行为符合特定场景就可以认为是存在恶意入侵行为。

本文随机选择CPU数据集中的正常流量以及8种类型的攻击,作为训练NewCNN模型的已知类,CPU数据集中其他未被选择的攻击被视为未知攻击。另外,为增加攻击来源还选择了CICIDS2017数据集中的4种攻击类型作为未知攻击。为保证NewCNN模型评估结果的客观性,在进行实验前对未知攻击进行了下采样处理。

数据预处理时也采用基于flow的流量原始特征分类方法,先将具有相同五元组的网络包划分到一个flow,再借助splitcap切分flow,然后从中提取原始流量特征。实验中发现流量特征转换为40×40的灰度图时,能够最大程度地区分不同流量,因此本文选择将流量特征转换为40×40的灰度图进行可视化处理。

2.2检测模型

NewCNN模型的基本思想是借助已知的正常网络流量和攻击流量数据来训练模型,并将训练数据集中从未出现的未知攻击样本划分成未知类。由于未知流量的标签向量无法包含所有的未知类别,因此就需要设置一个阈值并将超过此阈值的流量标记为入侵流量。威布尔(Weibull)分布满足数据未知类型多样性的情形,这完全满足入侵检测的场景。

NewCNN模型实际上是一个M+1的类分类模型,也就是通过M个已知训练类来得到1个未知类。模型中使用了两个卷积层对原始数据进行特征提取,第一层采用5×5的卷积核,第二层采用3×3的卷积核,然后连接了两个全连接层。为了防止在检测过程中出现过拟合,模型中还使用dropout操作使全连接层的部分神经元失活。最后,将威布尔分布应用到最后一层全连接层的激活向量,并使用OpenMax函数输出包含未知类别攻击流量的概率。NewCNN模型用于未知攻击网络流量检测的过程如图2所示。

在对NewCNN模型和传统的CNN模型对未知攻击的检测进行比对后,得到如表1所示的检测准确度结果。

从表1可以明显看出,和传统CNN模型相比,NewCNN模型的检测准确度有了明显提高。

3标签稀缺网络安全检测

目前对于网络流量中样本稀缺问题通常的解决方案是借助半监督学习或者主动学习技术,其中半监督学习无须人工标注,直接使用学习器自动对未标注样本进行标注即可;主动学习会根据一定标准挑选出信息量最丰富的样本进行人工标注。本文将半监督学习和主动学技术结合起来,构建一种标签稀缺网络安全检测算法。

主动学习的目标是仅从目标域的所有未标记样本中选择信息量高的样本进行人工标注,从而以更低的人工标记成本实现较高的检测性能;半监督学习的思想是借助训练集中有标签数据训练出的模型对无标签数据打标签(伪标签),然后将这样的伪标签作为训练集的一部分继续训练,直到没有无标签数据。基于主动学习和半监督学习的思路,本文构建的标签稀缺网络安全检测算法主要步骤是:(1)使用主动学习技术进行标注时,首先为主动学习设置一个样本挑选阈值下限,然后仅对分类预测概率最大和第二大的差值小于阈值下限的样本进行打标签操作,不满足阈值的样本直接丢弃;(2)半监督学习设置阈值上限,将上一步人工标记的样本作为新的有标记数据,所有的有标签数据重新进行训练;(3)有标签数据从未标记样本集中删除;(4)迭代上述过程,直到不存在无标签数据。

实际检测时本文选择CICIDS2017数据集和CTU数据集,共进行了3种类型的实验:(1)使用主动学习算法,选择满足最小阈值的信息量丰富的样本,然后对测试集检测;(2)使用半监督学习算法,选择预测概率满足阈值的样本和对应的伪标签进行检测;(3)使用本文提出的集合了主动学习和半监督学习的检测算法,共同从未标记样本中选择样本进行检测。通过对比这3种类型实验的结果发现,结合了主动学习和半监督学习的标签稀缺网络安全检测算法在准确率、精确度以及召回率上都比传统的检测算法具有更好的效果。

4结语

本文将人工智能技术应用到网络安全入侵检测中,针对新的网络流量数据没有标签、标签数据稀缺以及未知网络攻击的问题,分别提出对应的检测方案,使用基于人工智能的网络安全检测技术,解决了异构网络间的异常检测;在标签数据稀缺时融合了主动学习和半监督学习技术,能够显著提高入侵检测的效果。

参考文献

[1]王皓阳.基于区块链技术的网络数据安全治理探究[J].网络空间安全,2024(2):113-117.

[2]孙瑜.基于大数据及人工智能技术的计算机网络安全防御系统设计分析[J].网络安全和信息化,2024(2):143-145.

[3]耿倩.人工智能技术在大数据网络安全防御中的运用研究[J].网络安全技术与应用,2023(12):164-166.

[4]樊华.人工智能技术在大数据网络安全防御中的应用[J].中国高新科技,2023(11):50-52.

[5]刘莉.基于人工智能技术的计算机网络安全防御系统设计[J].办公自动化,2023(6):19-21.