安思瑶
摘要:由于网络环境的复杂性和多样性,使得准确分析网络入侵行为、判断网络安全状态存在困难。数据挖掘技术作为一种信息处理手段,具有分析、预测、决策等高级功能,因此可通过提高网络入侵检测的准确率等方式保障网络安全。该文以数据挖掘技术为基础,通过分析其研究现状及核心技术,从而探讨数据挖掘在网络安全中的应用,分析其优势。
关键词:数据挖掘;网络安全;入侵检测
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)12-0010-02
开放科学(资源服务)标识码(OSID):
从二十世纪八十年代开始,数据库技术在存储和管理信息方面已经得到广泛普及和应用。随着数据库容量的日益膨胀,一方面,为了有效利用这些海量数据,数据挖掘技术应运而生,数据挖掘使数据处理技术进入了一个更高级的阶段,它在数据库技术基础上增加了对分析、预测、决策等高级功能的支持机制。而另一方面,由于在网络上需要存储与处理的信息与日俱增,其中不乏诸多敏感信息,因此网络和系统中的安全问题越来越引人重视,网络安全的要求也从单纯的保护上升为保护、检测、反映、恢复。由于网络安全检测技术或多或少存在漏报和误报等缺陷,若漏报率和误报率较高,则会使网络安全环境承受风险,因此为了降低漏报率和误报率,可采取数据挖掘等相关技术。
1 研究现状
数据挖掘技术的发展与其他技术的发展是相辅相成的,它是一个多学科交叉研究领域,融合了许多相关技术的研究成果,例如机器学习、数据库技术、人工智能、信息检索、以及高性能计算等等。
从研究热点来看,数据挖掘的研究主要是关键技术和具体应用两个方面。对于关键技术,研究方向主要是分类算法和聚类算法等。对于具体应用,随着大数据时代的到来,数据挖掘作为处理海量数据的有力手段,逐步体现出其应用价值,目前主要有可视化、遗传算法和血液透析等应用研究方向。
从研究机构及之间的合作来看,高等院校是开展数据挖掘领域研究的主力军,开展研究的国家以美国等发达国家为主,而中国、澳大利亚和加拿大等国家由于拥有较大数据量,因此在近年来后来居上,但各机构间的研究合作较少。
从研究趋势来看,数据挖掘研究的发展趋势主要在于以下两个方面。一方面会涉及更多的具体应用,使得数据挖掘技术在未来涉足更多的领域,发挥更大的应用价值。另一方面,由于数据挖掘技术尚未完全成熟,在应用时可能存在安全隐患,因此今后将开展更多与安全相关的研究,更加注重安全和隐私的保护 [1]。
2 数据挖掘主要技术
2.1 数据挖掘的含义
从广义的观点来看,数据挖掘又称为数据库中的知识发现,它是指从大型数据集中挖掘出隐含性、未知性、有用性知识的完整过程。从海量数据中挖掘出潜藏在其中的有价值知识是一个系统化的工作,该工作过程需经历以下步骤。首先必须对源数据进行分析,抽取出所需的数据,同时对抽取出的数据进行处理加工,使之成为适合挖掘的数据形式,然后运用合适的数据挖掘算法提取出相应知识,最后是对生成的知识模式进行评估,并将发现的知识以用户易懂的方式呈现。因此知识发现分为数据抽取、数据预处理、数据挖掘、模式评估四个阶段。
1)数据抽取
数据抽取是指选取相应的源数据库,以研究目的或系统任务为依据,通过对源数据库进行分析,從数据库中提取所需数据的过程。
2)数据预处理
数据预处理主要是为了保证数据的完整性与一致性。若抽取出的数据形式不适合挖掘,则对其进行再次加工。预处理通常包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。
3)数据挖掘
数据挖掘是知识发现中的重要步骤。首先,它根据挖掘的数据特点和用户的要求,选择合适的数据挖掘算法,然后通过建立挖掘模型并实施选取的算法,从数据集中提炼知识。为获得最优结果,该阶段往往是一个反复的过程。
4)模式评估
模式评估是指对生成的知识模式进行评估,若存在冗余或无关的模式,则将其剔除,若模式不满足挖掘目标,则返回前面相应的步骤进行螺旋式处理。模式评估是必不可少的一个阶段。
狭义的数据挖掘便是指知识发现的第三阶段,主要的技术方法有关联规则、分类、聚类。
2.2 数据挖掘的主要技术
2.2.1 关联规则
关联规则挖掘的目的是发现潜藏在不同对象之间的关联。关联规则中定义了两个重要的阈值,分别为最小支持度和最小可信度。最小支持度是指一组对象关联在一起需要满足的最低联系程度。若低于最小支持度,则认为这组对象无关联。最小可信度的含义是一个关联规则的最低可靠程度。若低于最小可信度,则认为该关联规则不可信。因此,为使关联规则有意义,从源数据中挖掘出的关联规则必须既满足最小支持度又满足最小可信度。关联规则是数据挖掘中最活跃的研究方法之一。
2.2.2 分类
分类可用于数据预测,即通过处理、分析历史数据,形成一个分类函数或分类模型,从而通过该模型来预测未来数据的趋势。数据分类一般分为以下两个步骤。首先是模型建立,即使用训练数据进行学习、构造模型。然后便是使用该模型对未知数据进行分类,达到预测的目的。从机器学习的观点来看,由于每个训练数据的类标识都是预先定义的,因此分类属于有指导学习。
分类模型(又称为分类器)的构造方法主要有三种。第一种是统计方法,它包括非参数方法、贝叶斯法等。第二种是机器学习方法,它包括规则归纳法、决策树法。第三种是神经网络方法,它主要是BP算法。
2.2.3 聚类
聚类用于数据总结。聚类以相似性为依据,将数据对象划分为多个类别,使得同一类别中对象之间的差别尽可能小,而不同类别中对象之间的差别尽可能大。与分类学习不同,分类操作中类标识是特定的、已知的、预先定义的,而聚类操作中类的形成是未知的、由数据驱动的,因此聚类没有训练实例和预先定义的类标识,属于无指导学习。
以聚类分析算法的主要思路为依据,它可以分成五类比较有代表性的方法,即基于划分的聚类方法(如k-平均算法)、基于层次的聚类方法(如AGNES算法)、基于密度的聚类方法(如DBSCAN算法)、基于网格的聚类方法(如STING算法)、基于模型的聚类方法(如SOM算法)[2]。
3 数据挖掘在网络安全中的应用研究
3.1 网络安全技术存在的缺陷
一方面,传统的网络安全技术扩展性差,往往只能发现模式规定的、已知的入侵行为,不能自动发现新的入侵行为,对于未知的入侵行为缺少防范,因此使得网络安全性降低,同时系统适应性差,检测和响应的速度慢。另一方面,记录入侵行为时需要通过人工或其他方法来记录和分类用户行为,工作量大且工作效率低。
3.2 数据挖掘在网络安全中的具体应用
入侵检测技术是网络安全技术之一,它对于保障网络安全起着重要作用,能用于检测多种网络攻击,例如计算机病毒、网络映射、针对系统漏洞的攻击等。入侵检测是指在入侵已经开始但还未造成危害或更大危害前,及时检测入侵,以便尽快阻止入侵,把危害降低到最小。
入侵检测方法一般分为两种,其中较常用的是基于特征的入侵检测,另一种则是基于异常的入侵检测[3],二者分别应用异常模型和正常模型。基于特征的入侵检测应用异常模型,该模型中存储所有已知攻击标志性特征,当发现用户当前操作行为与攻击特征相匹配时,则认为发生了入侵行为。由于该方法只能检测已知攻击,因此会漏报许多未知攻击,导致漏报率高。基于异常的入侵检测应用正常模型,该模型中存储用户的正常行为,当发现用户当前操作行为与正常模型不匹配时,则认为发生了入侵行为。由于该方法将不符合正常模型的用户行为均视为入侵行为,因此误报率高[4]。
为降低漏报率和误报率,在入侵检测系统中采用分类算法或关联规则方法。
利用分类算法时,首先进行数据抽取,从网络传输的数据包中取出可用于对传输层连接记錄分类的特征属性,作为分类依据,然后从包含特定攻击手段的训练数据中挖掘出对应的分类规则,从而实现对实际网络中的连接记录进行分类,预测该连接是否为入侵行为。
利用关联规则分析时,首先对用户操作行为的历史数据进行采集和预处理,然后挖掘出正常情况下用户所执行命令中的相关性,从而建立每个用户的历史行为模式,利用该模式对当前用户行为进行比较和判断,检测用户行为是否异常[5]。
4 结论
与传统网络安全技术相比,将数据挖掘技术应用于入侵检测的数据分析中后,便可有效利用网络环境中的安全事件数据,从而挖掘出隐藏在其中的安全信息,抽象出与安全相关的特征属性,利于判断并发现未知的入侵行为,有效提高检测效率及网络安全性。
参考文献:
[1] 杨良斌.数据挖掘领域研究现状与趋势的可视化分析[J].图书情报工作,2015(S2):142-147.
[2] 毛国君,段立娟.数据挖掘原理与算法[M]. 3版.北京:清华大学出版社,2016:1-196.
[3] 谢希仁.计算机网络[M]. 7版.北京:电子工业出版社,2017:351-352.
[4] 吕洪柱,张光妲,邓文新.基于数据挖掘的网络安全技术研究[J].微计算机信息,2008,24(15):95-97.
[5] 王福生.数据挖掘技术在网络入侵检测中的应用[J].现代情报,2006(9):109-111.
【通联编辑:代影】