海量冗余数据冲击下网络入侵检测方法

2023-11-21 14:12薛峪峰马晓琴罗红郊田光欣

电子设计工程 2023年22期

薛峪峰，马晓琴，罗红郊，田光欣

（国网青海省电力公司信息通信公司，青海西宁 810008）

网络技术的飞速发展，全面推进了我国国民经济的发展和社会的繁荣进步，但是各种网络安全问题也接踵而来，给人类生活带来十分严重的影响，严重威胁社会的稳定性。现阶段网络入侵防治技术不断提升[1-2]，采用防火墙以及神人认证等方式对网络入侵实行排查和防御，但是仍然存在一些比较难以防范的手段，威胁着网络的稳定以及个人利益。为了更好地实现网络安全管控，国内相关专家针对网络入侵检测方面的内容展开大量研究，如付子爔等人[3]将支持向量机和最近邻两者结合完成网络入侵检测。杨彦荣等人[4]对原始数据的预处理，采用GAN整体扩充的方式对少数类样本进行扩充处理，同时借助粒子群算法优化输入权重以及隐含层偏置，最终构建入侵检测模型。陈卓等人[5]优先建立时空图卷积网络，在复杂多变的数据中提取网络时空演变特征，同时引入支持向量机实行分类预测，最终实现网络入侵检测。在以上几种方法的基础上，提出一种海量冗余数据冲击下网络入侵检测方法。经实验测试结果证明，所提方法可以高效率、高精度地完成网络入侵检测。

1 网络入侵检测方法

1.1 海量冗余数据预处理

将海量冗余数据冲击下网络入侵检测问题作为一项分类预测任务[6-7]。针对数据集中存在某些特征无法通过计算获取数值特征的问题，通过以下独热编码方式实行编码处理，同时将其转换为数值类型特征。

优先扫描数据样本，发现数据集中类型为符号型的特征集合，针对每一项特征项赋予取值不同的标识数字，同时确定编码中取值为1 的位置，剩余位置用0 填充。

将经过独热编码后的数据进行归一化处理，归一化处理的主要目的就是将数据中每一个特征映射到0～1 之间，对应的计算式为：

在海量数据中，还存在比较多的冗余特征，这些特征会严重影响网络入侵检测结果的准确性。所以，需要全面提升数据质量，同时降低检测时间。

为了获取最优的变换变量，经过变换后的数据保持最大的区分度δ*，则采用以下公式进行求解：

式中，n代表样本总数；δ(a,b)代表变换向量；代表全部行样本的平均值；d代表数据维度；T代表数据特征的方差[8-10]。

1.2 改进K-means算法

一般情况下，将K-means 算法的主要思想划分为以下三个阶段[11-13]，分别为：1）设定共有m个测试样本，同时采用设定的数据样本代表簇的初始中心或者平均取值。2）分类处理全部数据样本，同时计算各个样本和聚类中心之间的距离，根据计算完成数据样本分配。3）重新调整新类，计算对应的聚类中心，如果聚类中心没有发生改变，则说明满足聚类收敛准则，需要停止计算，整个算法计算结束。

采用K-means 算法构建平方误差准则函数D，具体的表达形式如下：

式中，q代表空间中的点；mi代表第i个测试样本。

K-means 算法主要通过平均值方法获取聚类中心点，这样算法会过早陷入局部最优。为了有效防止K-means 算法陷入局部最优，通过随机梯度下降方法取代批量梯度下降。每次仅选取一个数据，采用欧式距离获取距离它最近的簇心，确保簇心在数据所在方向移动，有效避免聚类过程中陷入局部最优。详细的求解过程如下所示：

设定l(α) 和m(α) 分别代表拟合函数和损失函数，对应的表达式如下所示：

式中，αj代表迭代求解结果。

在计算的过程中，各个数据样本采用迭代计算的方式来不断更新αj的取值。当数据样本数量比较大时，梯度下降法只需要少量的数据样本就可以将αj值达到最优。

梯度下降法的寻优过程就是获取函数f(a)的最小值，则获取的函数最小值为：

通过以上分析，获取改进K-means 算法的详细操作步骤：1）手动确定多个簇心；2）在样本数据各自维度的最大值和最小值之间选择簇心向量对应的维度；3）每次选择一个样本数据，获取距离它最近的簇心，同时将簇心向样本数据所在的方向移动；4）每次将最近的簇心向数据项移动，同时乘以学习率；5）重复步骤2）-4）；6）更新簇心；7）直至簇心位置不再发生变动；8）通过数据量判断该簇是正常还是异常。

1.3 冗余数据冲击下网络入侵检测

为了提升支持向量机的收敛速度[14-15]，需要在迭代过程中选取最佳工作集U(xi,xj)，即获取合适的优化变量或者训练点，同时满足以下约束条件：

式中，(xi,xj)代表样本数据集。

使用支持向量机解决实际问题的过程中，还有一个十分重要的问题需要解决[16]，即核函数的选择和建立，详细的操作步骤如下所示：1）设定核函数。2）设定一个映射，主要由非空集合、实数空间以及数据点组成。3）根据转换关系获取线性组合。4）在线性空间内设定数据内积计算，同时将其转换到Hilbert 空间中。5）通过内积的定义，采用输入空间函数进行描述。通过式（7）计算两个异构数据点之间的距离d(i,j)：

式中，ds(i,j)和dt(i,j)代表两个异构数据点的连续性属性。在得到异构数据集中数据点之间的距离后，可以采用距离替换高斯径向基核函数的范数。通过上述分析，将改进K-means 算法和支持向量机两者相结合，进而检测海量冗余数据冲击下网络入侵。

2 仿真实验

为了验证所提海量冗余数据冲击下网络入侵检测方法的有效性，在设定环境下展开实验研究。利用表1 和图1 给出三种不同方法的网络入侵检测时间以及最小平均误差测试结果。

表1 不同方法得到网络入侵检测时间测试结果对比

分析表1 中的实验数据可知，各个方法的网络入侵检测时间会随着实验次数的变化而变化。在三种算法中，所提方法的网络入侵检测时间最短；文献[3]算法的网络入侵检测时间次之；而文献[4]算法的入侵检测时间最长。由此可见，所提算法可以以较快的速度完成网络入侵检测。

分析图3 中的实验数据可知，与另外两种方法相比，所提方法的最小均方误差明显更低一些。另外两种方法的最小均方误差偏高，需要进一步提升两种方法的性能。

随机选取200 个样本作为测试对象，分析在不同丢包率以及不同噪声比例下三种方法的检测率、误检率、误报率测试结果，如图2 和图3 所示。

分析图2 和图3 中的实验数据可知，所提方法可以有效提升检测率，降低误报率和误检率，获取更加精准的检测结果，全面提升检测结果的准确性。

3 结论

针对网络入侵检测方法存在的不足，提出一种海量冗余数据冲击下网络入侵检测方法。经实验测试结果表明，所提方法可以有效提升检测结果的准确性，同时还可以有效降低检测时间，具有良好的适应性。由于受到时间环境的限制，所提方法后续将针对以下几方面的内容展开研究：1）需要及时完善网络入侵行为，实时更新网络信息。2）在网络入侵检测过程中，需要将多种算法相结合，全面提升检测性能。