杨立圣 罗文华
摘 要:流量分类模型在更新过程中易受数据污染的干扰而降低模型性能,现有基于数据清洗的防御方法需依赖专家经验和人工筛选,且无法有效应对利用未知分布样本构造的投毒攻击。针对上述问题,受分布外检测和判别主动学习的启发,设计一种基于样本分布特征的数据投毒防御方法,通过二分类判别器筛选每轮新增样本中的已知及未知分布样本。对于新增的已知分布样本,通过模型预测与标注结果一致率评估新增样本的数据质量,决定是否进行模型更新;对于新增的未知分布样本,则利用基于标注正确率的少样本抽检评估样本可用性。实验结果表明,该方法在抵御数据投毒攻击的同时可以保证模型准确率,并有效识别利用未知分布樣本构造的数据投毒攻击。
关键词:AI安全;流量分类模型;数据投毒攻击;样本分布特征
中图分类号:TP309 文献标志码:A
文章编号:1001-3695(2023)09-045-2845-06
doi:10.19734/j.issn.1001-3695.2023.01.0025
Data poisoning defense based on sample distribution characteristics
Yang Lisheng,Luo Wenhua
(School of Public Security Information Technology & Intelligence,Criminal Investigation Police University of China,Shenyang 110035,China)
Abstract:The traffic classification model is vulnerable to the interference of data pollution in the update process and reduces the performance of the model.The existing defense methods based on data cleaning need to rely on expert experience and ma-nual screening,and cannot effectively deal with the poison attack constructed by using unknown distributed samples.In view of the above problems,inspired by out-of-distribution detection and discrimination active learning,this paper designed a data poisoning prevention method based on sample distribution characteristics,and used the binary classification discriminator to screen out the known and unknown distribution samples in each new round of samples.For the new known distribution samples,it used the concordant rate of prediction and annotation to evaluate the data quality of the new samples and determine whether to update the model.For the new unknown distribution samples,it used the small sample sampling based on the labeling accuracy to evaluate the sample availability.The experimental results show that this method can guarantee the accuracy of the model while resisting the data poisoning attack,and effectively identify the data poisoning attack constructed by using unknown distribution samples.
Key words:AI security;traffic classification model;data poisoning attack;sample distribution characteristics
0 引言
深度学习技术的快速发展正改变网络空间安全领域的格局。其中,基于深度学习的流量分类模型可有效检测出各类网络安全威胁[1],其已成为保护网络系统安全的重要手段之一。流量分类模型虽可保护目标网络系统免遭网络攻击[2],但其模型自身亦存在巨大安全风险[3],这些安全风险存在的根本原因是模型在设计之初并未考虑相关安全威胁,使得模型的预测结果容易被恶意攻击所影响[4]。数据投毒攻击作为一种新型的持续破坏模型可用性和完整性的攻击方式,可对流量分类模型造成严重的安全威胁。流量分类模型遭受数据投毒攻击后,分类性能会下降,丧失对恶意流量的识别能力。因此,如何高效识别数据投毒攻击对流量分类模型安全具有重要意义。
目前已有国内外学者对入侵检测模型的安全性及防御方法展开了相关研究,现有工作提出了增强模型鲁棒性和数据清洗等防御方法。
Ibitoye等人[5]提出一种自归一化神经网络,该模型具有更强的鲁棒性,可以防御对抗攻击。Khamis等人[6]提出一种应用鞍点法来训练入侵检测系统以防御对抗攻击的方法,有效提高了基于DNN的入侵检测模型的鲁棒性,并指出使用主成分分析对数据集进行降维有助于降低规避率。Anthi等人[7]针对入侵检测模型提出了一种对抗机器学习的防御方法,采用基于雅可比矩阵的显著图攻击生成对抗样本,并利用对抗样本进行对抗训练,以提高模型的鲁棒性,实现对对抗攻击的防御。基于鲁棒性学习的防御方法虽在一定程度上增强了模型的安全性,但也存在一定的局限。经过对抗学习的模型只能对特定攻击样本产生防御效果,对新型攻击样本并不能起到防御作用[8]。采用鲁棒性学习的方法不仅会降低模型精度,而且可能会带来瞬态误差、条件误差、系统性错误等新的安全问题[9]。而且鲁棒性学习主要应对由对抗样本和噪声带来的攻击问题,对标签翻转式数据投毒攻击的防御效果并不理想。
Apruzzese等人[10]提出一种针对网络入侵检测系统模型投毒攻击的防御方法,该方法在训练数据集上引入数据转换,使攻击者注入的投毒样本经过数据转换后得到的特征与攻击者所期望的特征不同,以减轻投毒攻击对模型的影响。Bao等人[11]提出Februus方法可以精准地去除输入样本的异常扰动,以防御数据投毒攻击。Tang等人[12]提出了一种基于表征分析及统计属性的后门检测方法,设计了统计污染分析器,利用每个类别的全局信息统计分析来判断模型是否遭受后门攻击,并对中毒样本进行过滤。然而由于存在概念漂移现象,在实际场景中流量分类模型需及时更新以适应新的样本分布。上述工作并未考虑到模型更新场景,且集中于识别单独样本的毒性,会引起较高的误报率,模型复原代价较高[13]。而在更新过程中新增数据分布识别依靠专家经验,也会导致模型更新后的准确率反而降低的情况[14]。最近,刘广睿等人[15]提出了一套针对智能入侵检测系统的污染数据过滤的通用模型更新方法,使用EdgeGAN算法及模糊测试拟合模型的边缘样本分布,通过对比新增样本与原模型的MSE值及更新后模型对旧边缘样本的Fβ分数,从而识别被污染样本。该方法虽在模型更新的场景下进行研究,但并未考虑攻击者利用新型恶意流量构造数据投毒攻击的情况,无法识别未知分布样本的数据投毒攻击[16],而攻击者极易利用该部分样本构造针对流量分类模型的“0day”攻击。
为了解决上述问题,实现流量分类模型的安全稳定更新,设计一种基于样本分布特征的数据投毒防御方法。首先,设计模型预测与标注结果一致率指标,借助更新前的良性模型对新增训练样本的质量进行评估。其次,对于未知分布的恶意流量样本,模型对其分类性能较差,此时仅依靠模型预测与标注结果一致率指标会引起误报。为避免誤报,受分布外检测[17]和判别主动学习[18]思路的启发,将已知分布样本和未知分布样本的判别转换为二元分类任务,并据此设计新增样本空间分布判别器,以区分已知分布样本和未知分布样本,防止攻击者利用未知分布样本进行数据投毒攻击。
1 方法设计
由于流量样本类别情况会随时间而发生变化,流量分类模型需频繁更新,但数据驱动的流量分类模型自身存在脆弱性,导致其在模型更新过程中极易受到数据投毒攻击。在此场景下,需要实现:a)以自动化的流程完成样本筛选,并利用筛选好的干净样本进行模型更新;b)以较小的代价快速、便捷地实现未知分布样本识别,防止攻击者利用此部分样本构造针对流量分类模型的“0day”攻击;c)及时发现投毒数据样本,并对投毒样本进行有效过滤。
为了实现上述目标,设计一种基于样本分布特征的数据投毒防御的方法。首先需要实现未知分布样本的判别,即需要对训练样本和新增样本进行分布外检测。在此场景下,需快速、高效地完成未知分布样本和已知分布样本的二分类任务,故可将解决无标注集和有标注集分类任务的判别主动学习的思路迁移到新增样本分布判别任务中。过滤未知分布样本后,可保证剩余样本的分布与训练样本相比不会发生剧烈变化。因此可根据未更新模型的预测结果与标注结果的一致性判别该批新增样本的数据质量,以实现对投毒数据样本的检测。
基于样本分布特征的数据投毒防御方法流程如图1所示。对于每批用于模型更新的新增样本,首先经过新增样本分布判别器的判别,从该批新增样本中筛选出与自身训练集数据分布差异较大及分布差异较小的样本,这两部分样本对于模型而言可分别认为是未知分布样本和已知分布样本;若为未知分布样本,则触发少样本抽检判断样本是否符合质量,如果符合质量,则将该部分样本作为模型更新训练样本;若不符合质量则决定丢弃该部分样本。对于已知分布样本,通过计算模型预测与标注结果一致率判断其是否符合样本更新要求。如果符合,则使用该部分样本对模型更新,否则就丢弃该部分样本。若整个过程没有符合条件的新增样本,则不对模型进行更新。关于流程中的关键部分,将在1.1节和1.2节中详细阐述。
1.1 模型预测与标注结果一致率
对于预训练好的流量分类模型来说,模型需要频繁更新以识别不断变化的恶意流量[19],故其数据投毒安全风险存在于模型更新阶段。记模型预训练的数据集为Dpretrain,模型训练过程可描述为:找到=Ψ(x),使得对于输入x∈Dpretrain,其标签为y,有较高概率成立=y。若新增训练样本中不存在投毒样本,即DpoisonDiter,则更新好的模型Ψ′(x)对于输入x∈(Dpretrain∪Diter) 有较高概率成立=y,且对于测试集中的数据x∈Dtest也有较高概率成立=y。若新增训练样本中存在投毒样本,即DpoisonDiter,则更新好的模型Ψ′(x)对于输入x∈(Dpretrain∪Diter) 有较高概率成立=y,但对于测试集中的数据x∈Dtest中成立=y的概率会下降,即模型的分类效果变差,故需设计方案保证流量分类模型的安全更新。
2.2 实验参数设置
实验使用的主机环境配置如下:处理器为Intel CoreTM i7-10870H CPU,显卡为NVIDIA GeForce RTX 3070 Laptop,显存大小为8 GB,运行内存为64 GB,操作系统为Windows 11 专业版,代码基于Python 3.9.6,深度学习框架主要使用PyTorch 1.12.0+CUDA 11.3版本,集成开发环境为PyCharm。模型设置的训练参数为:训练数据的batch大小设置为64,学习率设置为0.001,损失函数采用交叉熵损失函数,优化器选用Adam[26]。
2.3 新增样本空间分布判别器阈值的设定
实验构建的新增样本空间分布判别器网络结构如图3所示。
新增样本空间分布判别器由特征输入模块、特征提取模块、特征判别模块组成。特征输入模块由linear层和LeakyReLU层构成,用于将输入流量数据输入到判别器网络中;特征提取模块由两层linear层和LeakyReLU层构成,负责提取流量数据的未知分布和已知分布特征;特征判别模块由一层linear层和softmax函数构成,实现对未知分布样本和已知分布样本的分类判别。对于softmax函数得到分类的置信度结果[p0i,p1i],其中p0i为判别器对于样本xi预测 add_label标签为0的概率,p1i为判别器对于样本xi预测add_label标签为1的概率,p0i+p1i=1。由于Dpretrain中的add_label标签为1,Diter中的add_label标签为0,选用[p0i,p1i]中的p1i作为本实验阈值θ筛选的概率值依据,其中p1i的值越大,代表该样本xi与预训练样本的分布较为相似。对于新增样本空间分布判别器阈值θ的设定,进行如下实验。实验的数据选用数据集Dpretrain及新增样本数据Diter,为方便评估实验效果,对于Diter的数据保留BENIGE、DoS、PortScan、Brute Force、Web Attack、Bot的标注标签。预训练数据集Dpretrain中只包含BENIGE、DoS两类数据,故Diter中的PortScan、Brute Force、Web Attack、Bot类数据为相较于Dpretrain中数据的不同分布数据。首先从Diter中随机采样100 000条数据记为Dtest_discriminator,为了保证每次实验选取相同样本,对采样器设置相同的随机状态(random_state)参数。从Dtest_discriminator中再随机选取20%的数据,并同样设置随机状态,与Dpretrain数据混合,得到Dtrain_discriminator。将Dtrain_discriminator數据用于判别器模型训练,训练完毕后,将Dtest_discriminator数据输入模型中,并通过阈值θ,将Dtest_discriminator分为与预训练集数据分布类似的样本集合Dknown和与预训练集数据分布不同的样本集合Dunknown。再进行多次实验时,每次判别器训练完毕后的参数不保存,下次实验重新训练。
为了更好地评估不同阈值θ下的判别器效果,设计未知样本检测率(unknown samples detection rate,USDR)与误报率(false alarm rate,FAR)。
USDR=TrueUnknownTrueUnknown+FalseKnown(7)
FAR=FalseUnKnownFalseUnknown+TrueKnown(8)
式(7)(8)展示了USDR与FAR的具体计算方法,其中TrueUnknown为正确识别的未知分布样本数量;FalseUnknown为错误识别的已知分布样本数量;TrueKnown为正确识别的已知分布样本数量;FalseKnown为错误识别的未知分布样本数量。USDR表示在识别未知分布样本时,正确识别的样本占比;FAR表示识别为未知分布样本的集合中,错误识别的样本占比。不同阈值θ下USDR与FAR情况如表3所示。
根据表3可以得出,阈值θ越高,判别器的未知样本检测率越高,当阈值θ选定为0.8时,判别器的未知样本检测率最高,为0.921 2。但此时,模型的误报率也为最高,为0.078 9。综合考虑未知样本检测率及误报率,选用阈值θ为0.75较为合适,即置信度超过0.75的样本可以认为是已知分布的样本,置信度低于0.75的样本可认为是未知分布的样本。后续实验中,新增样本空间分布判别器阈值θ选定为0.75。
2.4 CRPA阈值的设定
CRPA是评估是否利用该批样本进行模型更新训练的重要评价指标,对于流量分类模型来说,在正常情况下模型对新增样本的预测结果与标注结果的差异不会过高[27],如果差异较大,则说明该批次样本存在数据投毒攻击的风险。为了确定CRPA阈值,进行如下实验:
对于流量分类模型,进行正常模型更新训练,每次更新模型时从Diter中选取n个样本,其中n∈{10 000,25 000,50 000,75 000,100 000},模型更新的总次数epochs取10,计算n取不同值时每一更新轮次的CRPA指标。
表4展示了在正常训练情况下n取不同值时,CRPA指标的最大值与最小值情况。根据表中数据可知,CRPA最小值在0.946 0~0.947 0波动,CRPA最大值在0.975~0.982波动。后续实验的CRPA的阈值选定为0.94,即对于一批新增样本,其CRPA指标小于0.94时,该批新增样本的数据质量不合格,不符合模型更新的要求,则丢弃该批样本;若CRPA指标大于0.94时,该批新增样本的数据质量合格,符合模型更新的要求,利用该批新增样本进行模型更新。
2.5 数据投毒防御效果
本实验的更新样本数据集采用Diter,测试数据集采用Dtest,总共进行n轮模型更新训练,每次更新训练从Diter新增样本池中随机抽取的样本集合,记为Di,其中i=1,2,3,…,n。Di中包含模型未知分布样本和已知分布样本。本实验将判别器的判别阈值θ设置为0.75,每轮的更新样本Di通过判别器判别可得到未知分布样本D_Unknowni以及已知分布样本D_Knowni。为了模拟少样本抽检过程,将每轮的未知分布样本D_Unknowni进行清洗。设置CRPA的阈值为0.94。对于已知分布样本D_Knowni计算CRPA指标,若CRPA指标小于CRPA阈值,证明该批新增样本Di中的D_Knowni数据集不符合模型更新的要求,丢弃该批D_Knowni样本,将清洗后的D_Unknowni样本与预训练样本Dpretrain混合构成训练样本D_traini,利用D_traini样本对模型进行更新训练;若CRPA指标大于CRPA阈值,则将清洗后的D_Unknowni与D_Knowni样本进行混合得到训练样本D_traini,利用D_traini样本对模型进行更新训练。本实验总共进行10轮模型更新训练,每次更新训练从Diter新增样本池中随机抽取100 000个样本,对前5轮的更新数据进行投毒,投毒的比例分别设置为10%和20%。
实验验证了本文方案对数据投毒攻击的防御效果,图4、5展示了投毒比例为0.1、0.2时使用该防御方法与未使用防御方法模型准确率变化情况。图6、7为投毒比例为0.1、0.2时的使用该防御方法与未使用防御方法模型CRPA指标变化情况。
模型在投毒比例为10%和20%时均展现了对数据投毒攻击的良好防御效果,在前5轮对模型进行投毒的训练轮次中,使用本文防御方法的流量分类模型,其准确率并未发生显著下降,而且与后5轮未投毒情况下的模型预测准确率差距不大,使用该防御方法可以保证模型在数据投毒攻击的情况下仍能保持较为良好的分类性能。对于20%的投毒比例,其对模型造成的破坏与10%的数据投毒比例相比,攻击效果是显著的,但该方法仍可保证流量分类模型的预测准确率在较小的范围内浮动,且与投毒比例为10%时的防御效果接近。从图6、7可以发现,在数据投毒攻击的轮数内,其CRPA指标较正常模型更新时差距明显。在投毒比例为10%的情况下,模型的CRPA指标下降到了92%左右,在投毒比例为20%的情况下,模型的CRPA指标下降更为显著,为87%左右,而在正常训练时模型的CRPA指标在94%以上。本文防御方法根据CRPA指标有效判断数据投毒攻击的攻击轮数,并对其数据投毒攻击进行拦截,防止模型利用被投毒的数据进行模型更新从而导致的模型性能急剧下降。
2.6 对比实验
在对比实验中,数据投毒攻击的基准防御方法选用最新的基于边缘样本的防御方法[15]。本部分实验总共进行10轮模型更新训练,每次更新训练从Diter新增样本池中随机抽取100 000个样本,对前5轮的更新数据进行投毒,投毒的比例设置为10%。图8展示了在流量分类模型前5轮投毒、正常更新以及采用基于边缘样本防御方法的MSE变化情况,通过观察正常训练以及投毒时的MSE变化情况,基准防御方法的MSE阈值设置为0.06。图9展示了分别使用基于边缘样本的防御方法和本文防御方法的流量分类模型准确率的变化情况,在投毒攻击的前5个轮次,可以观察到基于边缘样本的防御方法和新防御方法均对数据投毒攻击起到了防御的效果,新方法可以在保证抵御数据投毒攻击的前提下进一步提高模型的准确率,并且新方法在绝大多数数据迭代更新的轮次过程中,模型的准确率高于基于边缘样本的防御方法。
为了对比基于边缘样本的防御方法与本文方法在模型未知分布样本上进行数据投毒的防御情况,每次更新训练从Diter新增样本池中随机抽取100 000个样本集合Di,将Di中的未知分布样本D_Unknowni进行数据投毒,用来模拟针对流量分类模型的“0day”攻击。
图10展示了对于未知分布样本数据投毒攻击不同防御方法下的模型准确率变化情况,图11展示了本实验条件下的基于边缘样本的数据投毒防御方法的MSE值的变化情况。从图10可知,本文方法在面对未知分布样本的数据投毒攻击时仍能保持流量分类模型较高的准确率,且在10轮训练过程中,绝大多数轮次的流量分类模型准确率要高于基于边缘样本的防御方法。而在前5轮未知分布样本投毒攻击的轮次中,基于边缘样本的防御方法的模型准确率几乎保持在0.95左右,是因为此时的模型与预训练的流量分类模型一样,对于未知分布样本的分类性能较差,模型将绝大部分未知分布的恶意样本识别为良性样本,此时利用测试集对模型进行测试,得到的就是0.95左右的准确率。结合图11可知,基于边缘样本的防御方法并未有效实现防御。由于模型本身对未知分布样本的分类能力差,而此时针对未知分布的恶意样本进行了标签翻式的数据投毒攻击,模型预测结果与标注结果就会一致,这样MSE值就会低于阈值,基于边缘样本的数据投毒防御方法就会失效。而本文方法利用新增样本判别器将绝大数的未知分布样本进行过滤,有效抵御了基于未知布樣本的数据投毒攻击。
3 结束语
本文提出了一种基于样本空间分布的数据投毒防御方法,并设计了该方法的两个重要部分——新增样本空间判别器以及CRPA指标。对于新增样本空间判别器,详细论述了其原理及算法实现,并通过实验验证新增样本判别器的可行性及其判别效果。对于CRPA指标,论述了其计算方法及将其作为模型更新时的样本质量评估指标的依据。判别器阈值和CRPA阈值是影响防御方法效能的关键因素,通过对比实验,探究了不同条件下的判别器样本分布情况和CRPA情况,并确定了判别器阈值和CRPA阈值。最后通过实验验证了基于样本空间分布的数据投毒防御方法的有效性,并通过对比实验展现了本文方法对数据投毒攻击的良好防御效果,该方法可以在抵御数据投毒攻击的前提下保证模型的准确率高于基于边缘样本的防御方法,且可以有效识别利用未知分布样本构造的数据投毒攻击。未来会构造多种不同的数据投毒方式,完善本文方案,进一步提升针对流量分类模型数据投毒攻击的防御效果。
參考文献:
[1]张昊,张小雨,张振友,等.基于深度学习的入侵检测模型综述[J].计算机工程与应用,2022,58(6):17-28.(Zhang Hao,Zhang Xiaoyu,Zhang Zhenyou,et al.Summary of intrusion detection models based on deep learning[J].Computer Engineering and Applications,2022,58(6):17-28.)
[2]罗文华,许彩滇.利用改进DBSCAN聚类实现多步式网络入侵类别检测[J].小型微型计算机系统,2020,41(8):1725-1731.(Luo Wenhua,Xu Caidian.Using improved DBSCAN clustering to implement multi-step network intrusion detection[J].Journal of Chinese Computer Systems,2020,41(8):1725-1731.)
[3]陈宇飞,沈超,王骞,等.人工智能系统安全与隐私风险[J].计算机研究与发展,2019,56(10):2135-2150.(Chen Yufei,Shen Chao,Wang Qian,et al.Security and privacy risks in artificial intel-ligence systems[J].Journal of Computer Research and Development,2019,56(10):2135-2150.)
[4]隋然.网络空间安全与人工智能研究综述[J].信息工程大学学报,2021,22(5):584-589.(Sui Ran.Survey of cyberspace security and artificial intelligence research[J].Journal of Information Engineering University,2021,22(5):584-589.)
[5]Ibitoye O,Shafiq O,Matrawy A.Analyzing adversarial attacks against deep learning for intrusion detection in IoT networks[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2019:1-6.
[6]Khamis R A,Shafiq M O,Matrawy A.Investigating resistance of deep learning-based IDS against adversaries using min-max optimization[C]//Proc of IEEE International Conference on Communications.Piscataway,NJ:IEEE Press,2020:1-7.
[7]Anthi E,Williams L,Rhode M,et al.Adversarial attacks on machine learning cybersecurity defences in industrial control systems[J].Journal of Information Security and Applications,2021,58(8):102717.
[8]Koh P W,Steinhardt J,Liang P.Stronger data poisoning attacks break data sanitization defenses[J].Machine Learning,2022,111(1):1-47.
[9]Lechner M,Hasani R,Grosu R,et al.Adversarial training is not ready for robot learning[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2021:4140-4147.
[10]Apruzzese G,Colajanni M,Ferretti L,et al.Addressing adversarial attacks against security systems based on machine learning[C]//Proc of the 11th International Conference on Cyber Conflict.Piscataway,NJ:IEEE Press,2019:1-18.
[11]Bao G D,Abbasnejad E,Ranasinghe D.Februus:input purification defense against trojan attacks on deep neural network systems[C]//Proc of Annual Computer Security Applications Conference.Piscataway,NJ:IEEE Press,2020:897-912.
[12]Tang Di,Wang Xiaofeng,Tang Haixu,et al.Demon in the variant:statistical analysis of DNNs for robust backdoor contamination detection[C]//Proc of the 30th USENIX Security Symposium.Berkeley,CA:USENIX Association,2021:1541-1558.
[13]余正飞,闫巧,周鋆.面向网络空间防御的对抗机器学习研究综述[J].自动化学报,2022,48(7):1625-1649.(Yu Zhengfei,Yan Qiao,Zhou Yun.A survey on adversarial machine learning for cyberspace defense[J].Acta Automatica Sinica,2022,48(7):1625-1649.)
[14]Al S,Dener M.STL-HDL:a new hybrid network intrusion detection system for imbalanced dataset on big data environment[J].Compu-ters & Security,2021,110:102435.
[15]刘广睿,张伟哲,李欣洁.基于边缘样本的智能网络入侵检测系统数据污染防御方法[J].计算机研究与发展,2022,59(10):2348-2361.(Liu Guangrui,Zhang Weizhe,Li Xinjie.Data contamination defense method for intelligent network intrusion detection systems based on edge examples[J].Journal of Computer Research and Development,2022,59(10):2348-2361.)
[16]Truex S,Liu Ling,Gursoy M E,et al.Towards demystifying membership inference attacks[EB/OL].(2019-02-01).https://arxiv.org/abs/1807.09173.
[17]Yang Jingkang,Zhou Kaiyang,Li Yixuan,et al.Generalized out-of-distribution detection:a survey[EB/OL].(2022-08-03).https://arxiv.org/abs/2110.11334.
[18]Gissin D,Shalev-Shwartz S.Discriminative active learning[EB/OL].(2019-07-15).https://arxiv.org/abs/1907.06347.
[19]Otoum S,Kantarci B,Mouftah H.A comparative study of AI-based intrusion detection techniques in critical infrastructures[J].ACM Trans on Internet Technology,2021,21(4):1-22.
[20]Rosay A,Carlier F,Leroux P.MLP4NIDS:an efficient MLP-based network intrusion detection for CICIDS2017 dataset[C]//Proc of International Conference on Machine Learning for Networking.Berlin:Springer,2019:240-254.
[21]Shahraki A,Abbasi M,Taherkordi A,et al.A comparative study on online machine learning techniques for network traffic streams analysis[J].Computer Networks:the International Journal of Computer and Telecommunications Networking,2022,207:108836.
[22]Ahmad Z,Khan A S,Shiang C W,et al.Network intrusion detection system:a systematic study of machine learning and deep learning approaches[J].Trans on Emerging Telecommunications Technologies,2021,32(1):e4150.
[23]Li Yupeng,Liang Ben,Tizghadam A.Robust online learning against malicious manipulation and feedback delay with application to network flow classification[J].IEEE Journal on Selected Areas in Communications,2021,39(8):2648-2663.
[24]羅文华,许彩滇.基于改进MajorClust聚类的网络入侵行为检测[J].信息网络安全,2020,20(2):14-21.(Luo Wenhua,Xu Caidian.Network intrusion detection based on improved MajorClust clustering[J].Netinfo Security,2020,20(2):14-21.)
[25]Engelen G,Rimmer V,Joosen W.Troubleshooting an intrusion detection dataset:the CICIDS2017 case study[C]//Proc of IEEE Security and Privacy Workshops.Piscataway,NJ:IEEE Press,2021:7-12.
[26]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[27]Singh N B,Singh M M,Sarkar A,et al.A novel wide & deep transfer learning stacked GRU framework for network intrusion detection[J].Journal of Information Security and Applications,2021,61:102899.
收稿日期:2023-01-15;修回日期:2023-03-13 基金项目:国家重点研发计划资助项目(2018YFC0830600);中国刑事警察学院研究生创新能力提升项目(2022YCZD05)
作者简介:杨立圣(1999-),男,辽宁营口人,硕士研究生,主要研究方向为信息网络安全与电子数据取证;罗文华(1977-),男(通信作者),辽宁沈阳人,教授,硕导,硕士,主要研究方向为信息网络安全与电子数据取证(luowenhua770404@126.com).