张佳佳
(湖南信息职业技术学院,湖南 长沙 410200)
随着信息技术的飞速发展,互联网已经成为人们日常生活、商业活动和政府机构运作的重要基础[1]。然而随着网络的普及和广泛应用,网络入侵事件日益严重,网络安全面临更严峻的挑战。网络入侵不仅会导致敏感信息泄露,而且可能对关键基础设施和服务造成严重威胁,因此网络入侵检测是当前网络安全领域的一个关键问题[2]。
为提高网络入侵识别的及时性和准确性,人工智能技术在网络安全领域受到广泛关注。文章旨在探讨基于人工智能的网络入侵检测方法,通过构建一个综合性的网络入侵检测系统架构,实现对网络流量中潜在入侵行为的有效监测和识别[3]。首先,介绍网络入侵检测的背景和相关工作;其次,提出一个结合卷积神经网络(Convolutional Neural Network,CNN)与K-means 聚类的网络入侵检测方法,并结合深度学习和聚类分析的优势来提高检测系统对入侵行为的敏感性和准确性;最后,通过对1998 DARPA数据集的实验测试,验证所提方法在实际网络环境中的有效性与可行性,为网络入侵检测领域的进一步探索和应用提供有益的参考[4]。
文章设计的网络入侵检测方法采用CNN 提取特征向量,再结合K-means 聚类进行入侵检测,系统架构如图1 所示。
图1 系统架构
数据输入层负责接收网络流量数据。CNN 层通过卷积、池化等操作,提取网络流量数据的特征[5]。CNN 能够捕捉数据中的空间关系,有效提取网络流量中的有用特征来构成特征向量。K-means 聚类层利用K-means 聚类算法对特征向量进行处理,实现数据聚类操作。K-means 算法通过迭代优化,将相似的特征向量聚集到同一类别,从而实现对网络入侵和正常流量的有效区分。输出层将最终的入侵检测结果反馈给系统用户或其他安全管理系统,实现对网络安全状态的实时监测与响应。
该系统架构结合深度学习和聚类分析的优势,实现对网络流量中入侵行为的高效检测。CNN 用于提取复杂的特征,而K-means 聚类能够有效集成这些特征,为入侵检测提供更精准的判定依据[6]。
文章提出的入侵检测方法采用CNN 和K-means聚类相结合的方式。
首先,通过CNN 卷积和池化网络流量数据,提取关键特征来构成特征向量[7]。设输入数据X的维度为N×M×C,其中N为数据样本数量,M为每个样本的空间尺寸,C为通道数。假设CNN 的卷积层参数为W和偏置项b,卷积操作可表示为
式中:Y为卷积层输出;Wi为第i个通道的卷积核;bi为第i个通道的偏置项;*为卷积操作符号,f为激活函数。
其次,采用池化操作采样卷积层输出,具体可表示为
式中:Z为池化层输出。
最后,通过全连接层将池化层输出转换为特征向量V。全连接操作可表示为
式中:Wfc为全连接层的权重;bfc为全连接层的偏置项;softmax(·)为激活函数。通过卷积、池化和全连接操作,从原始网络数据X中提取出具有抽象表示的特征向量V。利用K-means 聚类算法对这些特征向量进行分组,将相似的特征划分到同一类别。K-means聚类算法可表示为
式中:N为样本数量;K为聚类中心数量;vi为第i个样本的特征向量;cij为样本vi是否被分配到聚类中心j的指示变量;μj为聚类中心。K-means 的优化目标是最小化样本到其所属聚类中心的欧氏距离的平方和,通过迭代优化C和μ,实现对样本的划分和聚类中心的更新。K-means 的迭代步骤可以表示为
式中:arg mink为取使后面表达式最小的k值。通过多次迭代,K-means 将特征向量V划分为K个簇,每个簇代表一种模式或类别。通过设定适当的K值和判定阈值,系统可将入侵行为对应的特征向量判定为异常类别,有效检测网络入侵。
通过CNN 和K-means 聚类相结合,充分发挥深度学习和聚类分析的优势,提高网络入侵检测的准确性和敏感性[8]。在具体实现中,包括以下4 步。
第一,数据准备。收集并准备网络流量数据集X,确保数据包含有关正常和入侵行为的信息。每个数据样本Xi应包括时间序列、源地址、目标地址等网络信息。第二,CNN 特征提取。对每个数据样本Xi进行CNN特征提取。通过卷积、池化等操作,将原始的网络数据转化为抽象的特征向量Vi。该步骤利用深度学习的优势,提取数据中的关键特征,使其更具有判别性[9]。第三,K-means 聚类。将得到的特征向量集合输入K-means 聚类算法。通过迭代优化,将特征向量分为K 个簇,其中K 可根据具体需求设置。每个簇代表一类相似的特征向量。第四,簇分析与异常检测。分析K-means 聚类的结果,识别出具有异常特征的簇。这些异常簇可能包含网络入侵的特征向量。可以通过设定适当的阈值和规则,自动判定哪些簇属于异常类别,从而实现入侵检测。
文章采用1998 DARPA 数据集进行所提方法的网络入侵检测实验。1998 DARPA 数据集是由美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)赞助,用于评估网络入侵检测系统性能的公开数据集。该数据集包含模拟真实网络环境中的大量网络流量数据,涵盖多种正常和异常网络活动[10]。
实验步骤如下文所述。第一,数据预处理。从1998 DARPA 数据集中选择合适的子集,确保包含有关网络入侵的充分信息。对数据进行清洗、去噪和标准化等预处理步骤,确保实验的准确性和可重复性。第二,训练集与测试集划分。将预处理后数据集的70%和30%划分为训练集和测试集。第三,CNN 特征提取。利用训练集训练CNN,通过卷积、池化等操作提取网络流量数据的特征向量。第四,K-means聚类。利用CNN提取的特征向量K-means聚类训练集。通过迭代优化,将特征向量分为预设的聚类中心数量,形成簇集合。第五,异常检测与参数调优。通过分析K-means 聚类的结果,识别出异常簇。根据实验需求,调优K-means 的聚类中心数量等参数,提高系统的性能[11]。
在利用测试集测试训练好的模型后,评估网络入侵检测系统的性能。在指标方面,选择准确率、召回率、精确率等指标进行量化,结果如表1 所示。
表1 实验结果
准确率反映系统正确预测的样本占总样本的比例,其值越高表明系统整体性能越可靠。召回率衡量系统对正样本的识别能力,0.88 的召回率意味着系统能够较好地捕捉实际入侵行为。精确率表示系统在识别为正样本的情况下的准确性,0.94 的精确率说明系统在入侵检测方面的判断相对精准。综上所述,基于CNN 和K-means 聚类的网络入侵检测方法在综合性能上表现出色,为实际应用提供有力支持。
通过研究网络入侵检测的前沿技术,提出一种基于CNN 和K-means 聚类的网络入侵检测方法。实验表明,该方法在1998 DARPA 数据集上性能较好。凭借CNN 的特征提取和K-means 聚类的数据分类,实现对入侵行为的高效识别。在实验中,该方法表现出较高的准确性、召回率和精确率,证明了其可行性和有效性。未来的研究方向包括进一步优化模型、拓展适用性等,以更好地满足不断演化的网络安全需求。