◆林庆新
探究大数据下的K-means聚类算法在网络安全检测中的应用
◆林庆新
(福州大学至诚学院 福建 350002)
随着我国计算机应用领域的不断发展,网络通信逐渐开始改变人们的学习与生活。因此,面对发展中的网络技术,必须认识到网络安全检测问题的重要性。同时,在网络安全检测作业中,突破传统防火墙技术、数据加密技术等静态安全防御技术的应用,引入新型的安全保障技术。但在新型安全保障技术引入过程中,为了避免入侵攻击危害系统、网络安全,必须运用改进过后的K-means聚类算法,最终由此提高网络安全检测性能。
大数据;K-means聚类算法;网络安全
基于互联网信息时代冲击背景下,网络信息获取、交流沟通、商务交易等应用领域的使用越发频繁。同时,据CNNIC统计数据显示,我国域名总数已经达到了1470万个左右。但为了更好地发挥互联网信息获取功能,必须在互联网操控过程中做好网络安全检测工作。即在大数据网络环境中引入K-means聚类算法,继而有效控制软件漏洞增长和恶意程序泛滥等问题。以下就是对K-means聚类算法在网络安全检测中应用难点等相关问题的详细阐述。
聚类,即表示按照对象间的相似程度,将一组物理对象分为不定数目的组。其中,同一组数据对象间具备一定的相似性,而把相似程度较高的数据对象分为一组的行为就是聚类分析过程。就目前来看,聚类分析已经被逐渐应用于商业、生物学、万维网、地理研究等领域中。但大数据环境中的K-means聚类算法,可更好地满足数据庞大且数据结构复杂的网络数据处理需求。同时,K-means聚类算法作为一种以群分析的数据挖掘算法,可将数据集按照一定的要求,划分为若干个子集。其中,同一子集数据具备较高的相似性,而不同子集间属性差异较为明显。此外,从K-means聚类算法思想层面角度来看,K-means聚类算法也注重强调以层次的方式,对数据进行分类,并保证每一类数据具备一定的相似性,最终获取k个聚类[1]。另外,从K-means聚类算法工作过程角度来看,如若在网络安全检测工作中应用K-means聚类算法。同时,网络环境中数据多且结构复杂,那么应在网络大数据对象为n个的基础上,随机选择k个对象作为初始聚类中心,待初始聚类中心确定后,依据各个对象属性,进行类别划分。同时,以k个对象的距离为划分标准,将k个对象分配至最为相似的聚类。其次,待k个对象聚类分析处理后,计算新聚类中所有对象均值,并反复多次重复此计算过程,直至标准测度函数开始出现收敛。即大数据环境下K-means聚类算法与传统K-means算法相比,能更好的满足网络安全检测需求。为此,应提高对其的重视程度。
在网络安全检测工作开展过程中,为了达到最佳的K-means聚类算法应用效果,应做好数据预处理、初始中心选取、K值确定等工作。即:
(1)数据预处理。即由于网络数据共有2种:连续型、离散型。因而,为了更好的实现数据挖掘处理,需在数据预处理作业中,将离散型数据经预处理后,转换为数值型,由此达到最佳的数据预处理效果。但在离散型数据向数值型数据转换期间,需定义,如下:
定义1,D,是报警数据库,其拥有n个警告记录集,而警告记录集可用T={T1,T2,……,Tn}进行表示,其中,n≥1。同时,X是警告记录集的属性集,由m个特征属性构成。而其具体的属性集可用X={X1,X2,……,Xm}进行表示。此外,以对象间距离来表示对象间相似程度[2]。
定义2,如若警告记录中任意两条用Ti和Tj表示,那么Ti与Tj间相似程度可用Sim(Ti,Tj)=Simc(Ti,Tj)+Simd(Ti,Tj)(i≠j)。
定义3,设定C={Ci}(i=1,2,……,K)用来表示聚类集。
定义4,假定,若所处理的聚类是Ci,那么聚类中心则是mi,而mi=mid+mic。
(2)确定初始聚类中心。即当数据转换完成后,可从庞大的数据中选择符合类中心的样本点密度较高的聚类。同时,在聚类确定过程中,综合考虑密度、相似距离等因素对初始聚类中心的影响,而后,从D中随机抽取q个子集,并设定所抽取的子集为D1,D2,……Dq,且各个子集中拥有n条记录,继而待各项内容确定完毕后,由函数FindM处理子集,获取3个初始聚类中心。即m1、m2、m3[3]。
(3)确定K值。即当初始聚类中心确定后,应采取多次重复的计算方法,计算各个类间相似度距离最大值与最小值,且在聚类分析过程中,通过动态化处理方式,不断调整K值,最终达到归类目的。
在网络安全检测过程中,为了利用K-means聚类算法提高大数据环境中算法效率,应设计K-means聚类算法网络安全检测模型。首先,在K-means聚类算法下网络安全检测模型设计过程中,应将其分为训练阶段和检测阶段。其中,训练阶段包括网络大数据、Hash函数、构建树形数据结构、数据训练等内容。而检测阶段包括Hash函数、网络数据基准库、待检测网络数据抓取、Hash函数处理网络数据、找出K的临近对象、直推式异常检测等内容。即训练阶段负责对正常数据进行提取,然后,将所采集的数据通过Hash函数处理方式,进行数据预处理。同时,将特征数据转换为数据模型,以便于利用K-means聚类算法对数据进行分类,且构建树形结构。此外,检测阶段主要负责对待检网络数据进行Hash函数处理。然后,利用K-means聚类算法,对数据进行分类。同时,探索树形结构中K临近对象,最终经直推式异常检测,判断数据是否存在异常现象,就此达到网络安全隐患检测目的[4]。
为了更好的掌握到K-means聚类算法在网络安全检测中的应用效果,可在网络安全检测模型设计完成后,以KDD Cup99为模型数据采集参考,进行网络安全检测模型应用测试工作。而在实际应用测试作业中,可将DoS、Probe、R2L、U2R作为攻击类型[5]。同时,模型中所记录的属性值共有34个,字符属性是7个。但在所有字符属性中,正常数据占据总体的18.69%,异常数据占据总体的81.34%。而后,待数据确定后,进行安全模型应用测试。同时,在具体的性能评估工作开展期间,从这些数据中选择3组,用于样本分析。其中,这3组子集中每个子集都有1000记录,而记录中1.8%-2.0%是已知异常数据。即具体的样本数据如下:
表 1 样本
待样本处理处理后发现,改进后的K-means算法优于传统K-means算法。即试验结果如下:
表 2 检测结果比对
从表2中即可看出,在传统K-means聚类算法与改进过后的K-means聚类算对比中即可看出,改进过后的算法与传统算法相比,检测率提高约,而误检率约降低,检测时间相对节省。因而,在大数据背景下,应将改进过的K-means聚类算法应用于网络安全检测作业中。此外,从对不同攻击类型检测的效率角度来看,传统K-means聚类算法与改进过后的聚类算法检测效率如下:
表 3 对不同攻击类型检测的效率
从表3中即可看出,在U2R、R2L、DoS、Probe等不同攻击类型检测中,改进过后的K-means算法检测效果更优。因而,在大数据背景下,应注重将K-means聚类算法应用于网络安全检测作业中,就此打造一个良好的网络通信环境。同时,符合商务交易、交流沟通等领域中互联网应用需求,且能避免因病毒侵袭等威胁网络运行安全的情况。
综上可知,在大数据环境的冲击下,网络安全检测问题逐渐引起了人们关注。而由于传统的防火墙技术等检测方法已经无法满足用户需求,为了保证网络交易、交流沟通等的安全性,应在网络数据量大且结构复杂的环境中,改进网络安全检测方法。即运用改进过的K-means聚类算法,对冗余的数据进行分类,之后,经数据的预处理,提取关键数据进行运算,并在运算过程中,提高网络安全检测效率,避免因数据冗余所造成的算法效率低等现象。
[1]凤祥云.基于K-Means聚类算法入侵检测系统研究[J].电脑知识与技术,2016.
[2]淡军.基于并行二分K-means算法在异常检测中的应用[J].福建电脑,2016.
[3]王胜利.基于大数据聚类算法在网络安全中的应用[J].网络安全技术与应用,2016.
[4]王茜,刘胜会.改进K-means算法在入侵检测中的应用研究[J].计算机工程与应用,2015.
[5]刘长骞.K均值算法改进及在网络入侵检测中的应用[J].计算机仿真,2011.