张永东
(四川机电职业技术学院 四川 攀枝花 617000)
随着信息技术的飞速发展和网络规模的迅速扩张,网络安全问题日益成为互联网时代的焦点之一。恶意攻击、网络入侵等威胁不断进化,给网络通信和信息系统的安全性带来了更高的挑战[1-2]。在这一背景下,基于强化学习的网络流量分析与入侵检测引起了学术界和工业界的广泛关注[3-4]。强化学习[5-6]作为一种能够在未知环境中进行学习和决策的算法,为网络安全领域带来了新的思路与方法。深度Q 网络(deep Q network, DQN)[7-8]则作为强化学习的代表之一,通过深度学习技术在网络流量分析中展现出卓越的性能。
本研究旨在探讨一种创新性的网络安全架构,该架构以深度强化学习为基础,通过DQN 实现对网络入侵的检测。本研究将详细探讨DQN 的结构,深入研究该网络在网络入侵检测中的应用过程。通过对网络流量数据的智能学习和分析,DQN 能够自动识别潜在的入侵行为,提高网络安全的主动防御能力。为了验证所构建架构的有效性,本研究采用了NSL-KDD 数据集进行了充分的模型训练与测试。通过实验结果的分析,评估了所提出方法在网络入侵检测中的性能,并为未来的研究和实际应用提供有力的支持。
在强化学习的基本架构中,环境、智能系统、动作、状态和奖励是构成强化学习过程的关键组成部分,如图1所示。
图1 强化学习中的环境和智能系统
环境是智能系统所处的外部环境,它包含了智能系统进行学习和决策所需的一切信息。在网络入侵检测中,环境包括网络流量、通信协议等各种元素。智能系统是强化学习的主体,它通过与环境的交互学习,并基于学到的知识做出决策。在网络入侵检测中,智能系统即是用于分析网络流量和识别入侵行为的算法模型,如DQN。动作是智能系统在特定状态下可执行的操作,它影响智能系统与环境的交互。在网络入侵检测中,动作可以是调整模型参数、更新规则库或者改变监测策略等,以适应不断变化的网络威胁。状态是描述环境的一组变量,用于表示智能系统在决策过程中的信息。在网络入侵检测中,状态可以包括当前网络流量的特征、历史入侵记录等,智能系统通过观察状态来做出决策实现对网络入侵的及时响应。奖励是强化学习中用于评估智能系统行为优劣的指标。在网络入侵检测中,奖励是成功检测到入侵行为的正向反馈,惩罚表示未能正确识别入侵或发生误报的负向反馈。通过最大化累积奖励智能系统能够学到更为有效的网络安全策略。
DQN 用于解决具有高维状态空间的强化学习问题,其工作逻辑中通过巧妙地整合深度学习和强化学习的方法实现了对复杂环境下智能系统的高效学习与决策。
如图2 所示,DQN 的智能系统通过深度神经网络(deep neural network, DNN)[9-10]来逼近并学习一个状态值函数Q(s,a),其中状态s表示智能系统对环境的观察,动作a表示智能系统采取的行为。该函数估计了在给定状态下采取某一动作的长期累积奖励,即Q 值。DQN 的目标是通过学习Q 值函数,使得在特定状态下选择具有最大Q 值的动作,以最大化系统的累积奖励。
图2 深度Q 网络基本结构
环境是智能系统进行学习和决策的外部条件,其动态变化和复杂性对于智能系统的学习提出了挑战。状态s是智能系统对环境的抽象表示,通过观察状态,DQN 能够判断当前环境的特征。动作a是智能系统在特定状态下可执行的操作,通过选择不同的动作,智能系统影响环境的演变。
在DQN 中,为了实现对Q 值函数的学习,智能系统通过与环境的交互来收集经验数据,其中包括状态、动作、奖励和下一个状态。这些经验数据用于训练DNN,通过最小化Q 值函数的预测误差来不断优化模型参数。奖励R是智能系统在执行动作后从环境中获得的即时奖励,这个奖励是智能系统优化长期累积奖励的关键因素。
使用DQN 进行网络入侵检测时,首先定义网络入侵检测的状态空间,S表示网络流量特征的集合,其中st表示在时间进一步t处的状态:
然后,定义动作空间A,包括了在给定状态下可采取的所有可能动作。对于网络入侵检测,动作包括更新模型参数、调整规则库等:
奖励函数R用于衡量智能系统在执行动作后从环境中获得的即时奖励。在网络入侵检测中,奖励可以表示为成功检测到入侵行为的奖励或未能正确识别入侵的惩罚R(st,at)。
Q 值函数Q(st,at) 用于估计在状态st下采取动作at后的长期累积奖励,可以通过深度神经网络进行建模,即:
其中,E表示数学期望,θ是网络参数,θ-表示目标网络参数,γ是折扣因子,Rt是在时刻t获得的即时奖励。为了稳定训练过程,引入经验回放机制,通过存储并从经验池中随机抽样历史经验,减少样本间的相关性,优化目标函数:
通过随机梯度下降法最小化目标函数L(θ),更新深度神经网络的参数:
式(5)中,α是学习率。
本研究使用NSL-KDD 数据集[11]进行模型的训练与测试,该数据集是一个用于网络入侵检测研究的常用数据集,是对KDD Cup 1999 数据集的改进版本。该数据集包含了模拟真实网络环境中的正常流量和多种入侵行为,涵盖了22 个不同类型的网络攻击。相对于原始KDD Cup 1999 数据集,NSL-KDD 数据集通过去除重复样本和一些明显的错误,使得数据更具可靠性和一致性。
该数据集主要分为训练集和测试集两部分,其中训练集用于模型的训练,测试集则用于评估模型的性能。每个样本都包含了41 个特征,这些特征涵盖了网络连接的各个方面,如源IP 地址、目标IP 地址、协议类型等,以及每个连接的类别标签,标识了连接是正常还是包含某种入侵。
本实验使用的硬件和软件的环境配置分别如表1 和表2 所示。
表1 实验环境硬件配置
表2 实验环境软件配置
本研究采用的实验方案包括:
(1)数据预处理。对NSL-KDD 数据集进行预处理,包括数据清洗、特征选择和标签编码,确保数据集的质量和适应模型训练的要求。
(2)状态和动作定义。定义状态空间S和动作空间A,将网络流量的特征作为状态,定义可执行的网络安全操作为动作。
(3)初始化DQN。使用深度神经网络初始化Q 值函数,网络的输出为每个动作的Q 值。
(4)经验回放机制。实施经验回放机制,建立经验池,存储智能系统与环境交互的历史经验。
(5)目标Q 值计算。计算目标Q 值,用于更新网络参数。
(6)目标函数定义。定义DQN 的目标函数,使用均方误差损失函数来最小化目标Q 值和当前Q 值的差异。
(7)训练网络。通过随机梯度下降法,使用目标函数来更新深度Q 网络的参数,反复迭代该过程直至网络收敛。
(8)模型测试。通过观察模型在测试集上的表现,计算准确率、精确度、召回率等指标,评估网络入侵检测模型的有效性。
本实验使用准确率、精确度、召回率等指标对这个模型进行了评估,并对比了DNN 与DQN 的模型性能,如表3所示。
表3 实验结果评估
由表2 可得,从准确率来看,DQN 相较于DNN 实现了显著的提升,达到了0.92,而DNN 的准确率为0.85。这表明在模型训练和决策过程中,DQN 能够更准确地预测网络入侵行为,提高了整体准确性。进一步观察精确度和召回率两个关键指标,可以发现DQN 在精确度和召回率上也表现优异。其精确度为0.94,相比DNN 的0.88 有明显提高,这说明DQN 在预测正样本时更为准确。同时,DQN 的召回率为0.90,相对于DNN 的0.82 也有一定的提升,即DQN 更能有效地捕捉到真正的入侵事件。
实验结果的这些差异可能归因于深度Q 网络在强化学习框架下的特性,其能够通过智能系统与环境的交互来学习复杂的网络模式,从而提高网络入侵检测的性能。然而,也需要注意的是,实验结果可能受到数据集的影响,对于其他不同特性的数据集,模型性能可能会有所变化。
本研究围绕网络入侵检测,通过深度强化学习的引入,构建了一种创新性的网络安全架构。深度Q 网络(DQN)在网络流量分析中的应用,通过智能系统的学习与决策,显著提高了网络入侵检测的性能[12]。实验中使用NSL-KDD 数据集对比DNN 与所用模型的性能,结果表明DQN 在准确性和有效性上均表现出明显优势。这为网络安全领域提供了一种新的、高效的技术方案。然而,实验结果仍需在更广泛的数据集和复杂网络环境下进行验证,以全面评估该方法的适用性。总体而言,本研究为网络入侵检测领域的研究和实践提供了有益的启示,为未来深度学习在网络安全中的应用奠定了坚实的基础。