探究大数据下的K-means聚类算法在网络安全检测中的应用

2017-04-17 01:27林庆新

网络安全技术与应用 2017年3期

◆林庆新

◆林庆新

（福州大学至诚学院福建 350002）

随着我国计算机应用领域的不断发展，网络通信逐渐开始改变人们的学习与生活。因此，面对发展中的网络技术，必须认识到网络安全检测问题的重要性。同时，在网络安全检测作业中，突破传统防火墙技术、数据加密技术等静态安全防御技术的应用，引入新型的安全保障技术。但在新型安全保障技术引入过程中，为了避免入侵攻击危害系统、网络安全，必须运用改进过后的K-means聚类算法，最终由此提高网络安全检测性能。

大数据；K-means聚类算法；网络安全

0 引言

基于互联网信息时代冲击背景下，网络信息获取、交流沟通、商务交易等应用领域的使用越发频繁。同时，据CNNIC统计数据显示，我国域名总数已经达到了1470万个左右。但为了更好地发挥互联网信息获取功能，必须在互联网操控过程中做好网络安全检测工作。即在大数据网络环境中引入K-means聚类算法，继而有效控制软件漏洞增长和恶意程序泛滥等问题。以下就是对K-means聚类算法在网络安全检测中应用难点等相关问题的详细阐述。

1 大数据环境下的K-means聚类算法概述

聚类，即表示按照对象间的相似程度，将一组物理对象分为不定数目的组。其中，同一组数据对象间具备一定的相似性，而把相似程度较高的数据对象分为一组的行为就是聚类分析过程。就目前来看，聚类分析已经被逐渐应用于商业、生物学、万维网、地理研究等领域中。但大数据环境中的K-means聚类算法，可更好地满足数据庞大且数据结构复杂的网络数据处理需求。同时，K-means聚类算法作为一种以群分析的数据挖掘算法，可将数据集按照一定的要求，划分为若干个子集。其中，同一子集数据具备较高的相似性，而不同子集间属性差异较为明显。此外，从K-means聚类算法思想层面角度来看，K-means聚类算法也注重强调以层次的方式，对数据进行分类，并保证每一类数据具备一定的相似性，最终获取k个聚类[1]。另外，从K-means聚类算法工作过程角度来看，如若在网络安全检测工作中应用K-means聚类算法。同时，网络环境中数据多且结构复杂，那么应在网络大数据对象为n个的基础上，随机选择k个对象作为初始聚类中心，待初始聚类中心确定后，依据各个对象属性，进行类别划分。同时，以k个对象的距离为划分标准，将k个对象分配至最为相似的聚类。其次，待k个对象聚类分析处理后，计算新聚类中所有对象均值，并反复多次重复此计算过程，直至标准测度函数开始出现收敛。即大数据环境下K-means聚类算法与传统K-means算法相比，能更好的满足网络安全检测需求。为此，应提高对其的重视程度。

2 基于大数据下的K-means聚类算法改进

在网络安全检测工作开展过程中，为了达到最佳的K-means聚类算法应用效果，应做好数据预处理、初始中心选取、K值确定等工作。即：

（1）数据预处理。即由于网络数据共有2种：连续型、离散型。因而，为了更好的实现数据挖掘处理，需在数据预处理作业中，将离散型数据经预处理后，转换为数值型，由此达到最佳的数据预处理效果。但在离散型数据向数值型数据转换期间，需定义，如下：

定义1，D，是报警数据库，其拥有n个警告记录集，而警告记录集可用T={T1，T2，……，Tn}进行表示，其中，n≥1。同时，X是警告记录集的属性集，由m个特征属性构成。而其具体的属性集可用X={X1，X2，……，Xm}进行表示。此外，以对象间距离来表示对象间相似程度[2]。

定义2，如若警告记录中任意两条用Ti和Tj表示，那么Ti与Tj间相似程度可用Sim（Ti，Tj）=Simc（Ti，Tj）+Simd（Ti，Tj）（i≠j）。

定义3，设定C={Ci}（i=1，2，……，K）用来表示聚类集。

定义4，假定，若所处理的聚类是Ci，那么聚类中心则是mi，而mi=mid+mic。

（2）确定初始聚类中心。即当数据转换完成后，可从庞大的数据中选择符合类中心的样本点密度较高的聚类。同时，在聚类确定过程中，综合考虑密度、相似距离等因素对初始聚类中心的影响，而后，从D中随机抽取q个子集，并设定所抽取的子集为D1，D2，……Dq，且各个子集中拥有n条记录，继而待各项内容确定完毕后，由函数FindM处理子集，获取3个初始聚类中心。即m1、m2、m3[3]。

（3）确定K值。即当初始聚类中心确定后，应采取多次重复的计算方法，计算各个类间相似度距离最大值与最小值，且在聚类分析过程中，通过动态化处理方式，不断调整K值，最终达到归类目的。

3 K-means聚类算法网络安全检测模型设计

在网络安全检测过程中，为了利用K-means聚类算法提高大数据环境中算法效率，应设计K-means聚类算法网络安全检测模型。首先，在K-means聚类算法下网络安全检测模型设计过程中，应将其分为训练阶段和检测阶段。其中，训练阶段包括网络大数据、Hash函数、构建树形数据结构、数据训练等内容。而检测阶段包括Hash函数、网络数据基准库、待检测网络数据抓取、Hash函数处理网络数据、找出K的临近对象、直推式异常检测等内容。即训练阶段负责对正常数据进行提取，然后，将所采集的数据通过Hash函数处理方式，进行数据预处理。同时，将特征数据转换为数据模型，以便于利用K-means聚类算法对数据进行分类，且构建树形结构。此外，检测阶段主要负责对待检网络数据进行Hash函数处理。然后，利用K-means聚类算法，对数据进行分类。同时，探索树形结构中K临近对象，最终经直推式异常检测，判断数据是否存在异常现象，就此达到网络安全隐患检测目的[4]。

4 网络安全检测模型应用测试

为了更好的掌握到K-means聚类算法在网络安全检测中的应用效果，可在网络安全检测模型设计完成后，以KDD Cup99为模型数据采集参考，进行网络安全检测模型应用测试工作。而在实际应用测试作业中，可将DoS、Probe、R2L、U2R作为攻击类型[5]。同时，模型中所记录的属性值共有34个，字符属性是7个。但在所有字符属性中，正常数据占据总体的18.69%，异常数据占据总体的81.34%。而后，待数据确定后，进行安全模型应用测试。同时，在具体的性能评估工作开展期间，从这些数据中选择3组，用于样本分析。其中，这3组子集中每个子集都有1000记录，而记录中1.8%-2.0%是已知异常数据。即具体的样本数据如下：

表 1 样本

待样本处理处理后发现，改进后的K-means算法优于传统K-means算法。即试验结果如下：

表 2 检测结果比对

从表2中即可看出，在传统K-means聚类算法与改进过后的K-means聚类算对比中即可看出，改进过后的算法与传统算法相比，检测率提高约，而误检率约降低，检测时间相对节省。因而，在大数据背景下，应将改进过的K-means聚类算法应用于网络安全检测作业中。此外，从对不同攻击类型检测的效率角度来看，传统K-means聚类算法与改进过后的聚类算法检测效率如下：

表 3 对不同攻击类型检测的效率

从表3中即可看出，在U2R、R2L、DoS、Probe等不同攻击类型检测中，改进过后的K-means算法检测效果更优。因而，在大数据背景下，应注重将K-means聚类算法应用于网络安全检测作业中，就此打造一个良好的网络通信环境。同时，符合商务交易、交流沟通等领域中互联网应用需求，且能避免因病毒侵袭等威胁网络运行安全的情况。

5 结论

综上可知，在大数据环境的冲击下，网络安全检测问题逐渐引起了人们关注。而由于传统的防火墙技术等检测方法已经无法满足用户需求，为了保证网络交易、交流沟通等的安全性，应在网络数据量大且结构复杂的环境中，改进网络安全检测方法。即运用改进过的K-means聚类算法，对冗余的数据进行分类，之后，经数据的预处理，提取关键数据进行运算，并在运算过程中，提高网络安全检测效率，避免因数据冗余所造成的算法效率低等现象。

[1]凤祥云.基于K-Means聚类算法入侵检测系统研究[J].电脑知识与技术，2016.

[2]淡军.基于并行二分K-means算法在异常检测中的应用[J].福建电脑，2016.

[3]王胜利.基于大数据聚类算法在网络安全中的应用[J].网络安全技术与应用，2016.

[4]王茜，刘胜会.改进K-means算法在入侵检测中的应用研究[J].计算机工程与应用，2015.

[5]刘长骞.K均值算法改进及在网络入侵检测中的应用[J].计算机仿真，2011.