赵好好
摘 要:在大数据时代,随着计算机网络技术的全面发展,网络安全问题备受关注。入侵检测技术的日趋成熟,已经从简单的静态安全检测发展到动态安全检测,并在计算机安全防护领域占有一席之地。数据挖掘技术在智能获取海量数据中的可用信息领域具备明显优势。本文将相关技术引入到入侵检测中,大幅度提高了入侵检测的效率,并实现了智能化。
关键词:数据挖掘 网络入侵 入侵检测 网络安全
中图分类号:TP393.08;TP311.13 文献标识码:A文章编号:1674-098X(2021)05(b)-0112-04
Application of Data Mining Technology in Network Intrusion Detection
ZHAO Haohao
(Henan Industry and Trade Vocational College, Zhengzhou, Henan Province, 451191 China)
Abstract: In the era of big data, with the all-round development of computer network technology, network security issues have attracted much attention. Intrusion detection technology has matured day by day, and it has developed from simple static security detection to dynamic security detection, and occupies a place in the field of computer security protection. Data mining technology has obvious advantages in the field of intelligently acquiring information available in massive data. This article introduces related technologies into intrusion detection, which greatly improves the efficiency of intrusion detection and realizes intelligence.
Key Words: Data mining; Network intrusion; Intrusion detection; Network security
在當今网络时代,人们在享受飞速发展的网络技术带来便利的同时,也体验到了全球资源共享产生的互动效应。与此同时,黑客和恶意攻击者也常常会利用网络自身的脆弱性进行各种形式的入侵,手段也更为复杂。随着当今网络发展的复杂化,计算机受到的攻击行为难以捕捉,受到的安全威胁种类繁多,甚至攻击的难度和频率越来越大,给社会带来的负面影响也越来越广大。结果就是人们无法正常使用计算机和网络,给他们的生活造成非常不利的影响,甚至可能会造成难以想像的经济损失。因此,如何创新网络安全技术以迎接新的挑战就显得尤为重要。
目前,抵御外来入侵增强网络安全的产品主要采用静态安全检测技术,静态安全检测技术的弊端就是只能检测已知的网络危险攻击,对于新技术新网络攻击行为无法进行防范,更难以做到安全检测和管理。因此,为了更加安全、有效地进行网络安全防护,全方位保证网络的安全性,我们应该采取被动和主动相结合的防御方式应对网络攻击。在这种情境下,入侵检测系统应运而生,可以实现主动动态地进行网络检测,并得到了广泛应用和认可。
数据挖掘技术可以快速探索出满足大规模数据所需的功能或规则。因此,可以考虑构建有效的入侵检测模型,充分发挥数据挖掘技术在海量网络数据中进行智能挖掘的优势,从而探寻存在的入侵行为。
1 数据挖掘技术概述
从技术来说,数据挖掘是指从海量的、不全面的、不清晰的、无关联的原始数据中,挖掘出有价值的、有关联和实用数据的过程[1]。
数据挖掘渗透于多个学科,尤其是人工智能和机器学习更将其列为重点学习方向,数据库、统计学、机器学习、可视化等技术都涵盖其中。通过数据挖掘,可以从海量无关联的数据中提取到想要的有关联的信息、对象,用来进行预测、关联分析、做出响应等。
数据挖掘的过程[2]大致可分为5个阶段,如图1所示。
(1)问题定义。这一阶段需要确定要发现何种知识,以及明确欲达到的目标和用户的需求。
(2)数据收集。数据收集作为整个数据挖掘的基础,它为数据挖掘提供最原始的数据。数据选取就是在海量数据中,挑选出符合条件的数据形成样本。
(3)数据预处理。数据预处理包含噪声点消除、数据格式化处理、数据约简等操作。
(4)数据挖掘实施。根据既定目标及己有方法选择适当的算法,对已得的数据进行进一步处理得到结果。
(5)结果解释与评估。对提取的数据结果进行研究和评判,评估其可能存在的发展趋势。
在上述步骤中,有两点关键因素会直接影响数据挖掘的质量:(1)用于数据挖掘的数据质量和规模;(2)所采用数据挖掘方法的有效性。
2 入侵检测及其相关技术
2.1 入侵检测概述
入侵检测[3](Intrusion Detection),通常是在监控计算机网络及系统过程中,探寻不符合既定安全规则的事件。在监控过程中,它往往会比较关注其中的关键要素,比如程序进程、网络包及系统程序等,从而分析该过程是否符合入侵的标准,进一步确定攻击的行为和对象。实现相应监测功能的入侵检测系统,通常具备以下几点作用[4]:
(1)识别入侵者;
(2)识别入侵行为;
(3)检测出已知的入侵行为;
(4)时刻监测和记录入侵行为信息,从而对其可能会造成的后续恶化事件进行防控;
(5)使系统能够在收集证据的同时恢复正常工作。
入侵检测系统通过采取实时监测的行为,对外来入侵的对象进行数据的搜集和分析,进而判断此行为是否违反安全策略,从而做出抵御的行为。入侵检测系统基于传统安全检测技术,实时监测,达到主动防御的功能,从而改变从原来的事前预警,实现事中预警,并做到立即响应,保存入侵信息,为产生的违法入侵行为提供法律依据。因此,入侵检测技术的不断完善升级,形成一道保护屏障,能够更进一步确保网络安全。
入侵检测的一般过程,如图2所示。
2.2 入侵检测方法
常用的入侵检测方法[4-6]可以归纳为如下两种。
2.2.1 异常入侵检测方法
该方法是基于行为的检测。普遍会采用统计的方法来对入侵行为进行检测,进而发现异常。任何对系统的入侵都被假设会造成系统错误来完成异常检测。在统计概率模型的基础上,假设待检测行为的状态均为良好,根据设定异常行为的种类,进而检测出其中与设定标准行为差异较大的即判定为异常行为。考虑到实际网络环境相对繁杂,检测标准缺乏精确性,最终的检测结果也会存在一些误差。
2.2.2 误用入侵检测方法
该方法是基于知识的检测。在已知网络攻击方式的基础上,制定入侵模式,若出现入侵行为则可以有效地检测到。这种方法对已经出现过攻击类型的入侵行为有很好的抵御作用。但是对出现的变异或者新型攻击行为无法进行处理,因为在防御策略上很难做到对这类入侵行为进行防御,再加上系统扩展性不好,维护难度大,检测范围有局限性,难以做到对新型攻击行为有很好的抵御作用。
3 数据挖掘技术在入侵检测中的应用
3.1 入侵检测中应用的数据挖掘技术
根据采用方法的不同,基于数据挖掘的网络入侵检测方法[7-8]的划分如下。
3.1.1 基于分类的入侵检测方法
在该方法中,首先要建立一个有类别标签的训练集,采用合适的分类算法对训练集进行分析建模,并在测试集做出预测,进而判别出正常行为和异常行为。入侵检测中常用的分类算法有最近邻、决策树、贝叶斯、人工神经网络等。
3.1.2 基于聚类的入侵检测方法
在该类方法中,建立的是无类别标签的数据集,需要采用合适的聚类方法来进行数据分析,然后根据呈现出来的属性特征来对异常行为进行判别。值得一提的是,该类方法有时也会结合离群点检测的思想,即将聚类后位于稀疏区域的数据(也即离群数据)视为异常行为。入侵检测中常用的聚类算法有k-means、自组织特征映射、DBSCAN等。
3.1.3 基于离群点挖掘的入侵检测方法
该类方法常常被用于异常检测。在入侵检测系统中,入侵行为往往与正常行为在属性特征上会有很大的不同,呈现出异常,从而可以被判定为离群点。采用合适的离群点检测方法可以有效地挖掘出网络中的入侵行为。
3.1.4 基于关联分析的入侵检测方法
该类方法,首先要借助相关算法对数据源进行处理,发现其中的关联规则,进而对异常行为进行检测。入侵检测中常用的相关算法有Apriori、FP-growth等。
3.2 数据挖掘技术在网络入侵检测中的优势
在实际应用中,在侵检测系统中引入数据挖掘技术,不仅可以提高检测的准确性,还可以弥补前者的短板。具体优势[9]总结如下。
第一,数据挖掘的过程也即数据分析的过程,一般涉及数据准备、数据预处理、数据建模、结果评估等多个步骤,而这个过程往往是动态变化的,这恰恰能够为建立一个高质量的数据模型提供一定的保证。
第二,数据挖掘技术最直观的作用就是大幅度提高了工作效率,借助其中的分类、聚类、离群点、关联分析等算法,以有效发现网络中的攻击行为,在提升工作效率的同时,还使网络的安全得到了切实保障。
第三,数据挖掘技术的广泛应用对入侵检测及网络安全防护提供了有力的支撑,提高了检测方法多样性。入侵检测系统与数据挖掘技术的有效结合,不仅为安全防护提供了更多创新发展空间,还可依此构建相应的关联规则或是分类模型。
3.3 入侵检测系统的数据挖掘过程
入侵检测主要目的是对网络中获取到的海量数据进行研判,以便区分出其中的异常行为以自动建立有效的入侵检测规则。采用不同的数据挖掘算法,可以获取到用户或系统的行为特征数据。
其中,基于关联分析的算法可以发掘出网络中连接数据属性的关系,基于离群点分析的算法可以发现入侵攻击行为的有关入侵关联特点。通过应用离群点分析算法可以获取到入侵者的行为关系及入侵行为和正常行为的特征信息,进而判定是正常行为还是入侵行为。利用关联分析算法获得正常行为特征,建立异常检测模型,再通过分类算法对数据进行分类,进而挖掘出区分正常行为和入侵行为的规则。原理与过程图3所示。
3.4 基于数据挖掘的入侵检测框架
本文所采用的入侵检测模型框架包括以下几个部分:数据采集预处理、关联规则或序列规则、误用检测、异常检测等[10]。如图4所示。
(1)数据采集预处理:从网络中获取全部的行为记录,完成数据预处理,并生成训练集。
(2)关联规则或序列规则:从训练集中挖掘出关联规则和序列规则,建立正常行为模式,用于异常检测入侵行为。
(3)误用检测模型:在训练集上利用分类算法完成分类规则的建立,以完成误用检测功能模型。
(4)异常检测模型:完成入侵异常行为的检测,主要有2个功能;一是通过对网络数据的实时检测,完成数据分类,二是通过关联规则和序列模式,研判网络行为是正常还是入侵。
4 结语
数据挖掘技术能够实现快速自动地探索出满足大规模数据所需的功能或规则。因此,可以考虑将数据挖掘相关技术应用到大规模网络数据的监测中,从而发现异常入侵行为。虽然数据挖掘技术越来越多地应用于入侵检测领域,但仍停留在理论探究阶段。在网络数据量不断增大、各种攻击手段层出不穷的现实情况下,基于数据挖掘的入侵检测技术仍具有广阔的前景,研究内容侧重于进一步提高检测速度及效率、降低误报率及漏报率等。
参考文献
[1] 张芷有.基于数据挖掘的入侵检测方法的研究[D].南京:南京邮电大学,2020.
[2] 郭春.基于数据挖掘的网络入侵检测关键技术研究[D].北京:北京邮电大学,2014.
[3] 古险峰.一种基于数据挖掘的网络入侵检测系统设计与实现[J].河南科技学院学报:自然科学版,2020,48(6):54-58,67.
[4] 段丹青.入侵检测算法及关键技术研究[D].长沙:中南大学,2007.
[5] 王曼.基于数据挖掘的网络入侵检测研究[J].信息记录材料,2020,21(3):175-176.
[6] 李斯.数据挖掘技术在入侵检测系统中的应用[J].科技资讯,2009(27):192.
[7] 赵菲.网络入侵检测中数据挖掘技术的应用研究[J]. 科技创新与生产力,2020(12):58-60.
[8] 代治国.基于数据挖掘的网络入侵检测方法的研究[J].科技资讯,2010(7):26.
[9] 刘泽辰.数据挖掘技术在网络入侵检测中的应用与研究[J].信息记录材料,2019,20(8):188-189.
[10] 韩洋,邓一萍,穆穆.基于数据挖掘的入侵檢测[J].信息与电脑:理论版,2020,32(2):111-112,115.