◆蓝永发
数据挖掘技术在网络入侵检测中的应用
◆蓝永发
(厦门南洋职业学院 福建 361102)
本文先从数据挖掘技术和入侵检测技术的概念入手,结合多种数据挖掘技术的算法,来探究数据挖掘在网络入侵检测中的应用,以便增加网络数据传输安全性。
数据挖掘技术;网络入侵检测;应用;算法
在网络时代飞速发展的社会背景下,各个方面都受到网络和通信的深远影响,并且不断得到发展。但是伴随着对网络依赖度的提升,越来越多的信息安全问题激发人们的关注。网络安全问题,主要使用防火墙、身份认证、数据加密和入侵检测等方法来加强防护工作。对于一般网络攻击系统,它们基本都具有一定的保护作用,但是针对利用合法的身份但是采用非正常手段危害系统安全的行为,有些安全防护措施就显得无能为力。强大的网络入侵检测技术可以清除这些隐患。
1.1 数据挖掘技术
数据挖掘技术是在大量数据中发现有价值的数据规则或者数据模式,再通过分析和处理为决策者提供辅助服务。其中包括数据收集、数据挖掘和评价说明三个数据挖掘过程。这三个过程的重复进行合成了数据挖掘的整个过程。其中,作为第一阶段,数据准备是至关重要的,前期处理不妥当会对结果的准确度有很大干扰。系统处理效率变低。数据准备过程工作量大,涉及到数据的清理、集成变换过程。数据挖掘是利用智能模式提取数据或规律知识。
数据挖掘方法常用的包含人工神经网络、决策树方法、遗传算法。(1)人工神经网络方法主要是仿照人脑神经元结构,它包括前馈式网络、自组织网络和反馈式网络这三种神经网络模型。(2)遗传算法由繁衍选择、变异瞬变、交织重组这三个基本过程组成,应用了生物进化原理。(3)决策树方法是最有影响的方法。其中研究方法还有集合论的初步收集方法、逻辑推理、规则推理、公式证明等。
1.2 入侵检测技术
入侵检测系统是一种能及时识别网络中的攻击和恶意访问行为并作出一定的响应,对影响系统信息完整性、保密性及可用性的行为进行全面检测的安全系统。入侵检测系统作为一种安全保障系统,带有主动防御的作用,因此对于信息资源的机密性保护效果较好。入侵检测系统主要有数据收集、简要数据分析和响应处理三个模块。采集的数据具有代表性,是根据网络反应的几个关键点来采集信息,检验是否出现入侵痕迹,主要包含检测系统日志、网络数据包、特殊文件信息等。分析数据的环节也比较严格,通过模式匹配、检测异常和整体检测层层检测,一旦出现入侵行为提示,入侵检测马上会启动程序响应流程,出现日志、告警和安全控制等。
实际运用中对入侵检测类型不外乎两种方式:误用检测和异常检测。误用检测指的是对已知系统漏洞或攻击模式进行特征描绘,入侵检测系统通过构建非正常特征模型来检验;异常检测是指构建用户的正常特征模型,默认前提是入侵活动与正常行为存在很大差别。凡是系统显示偏离正常模型的行为就立即启动入侵检测系统,及时处理异常检测数据。当前人工智能技术运用于两种入侵检测方案中。误用检测使用专业的系统处理模式,包括状态转移和遗传算法。神经网络统计分析以及数据挖掘技术是进行异常检测的常用方法。
2.1 数据挖掘对于入侵检测系统的优势
(1)适应性强。过去如果要建立入侵检测系统的某一规则库,针对性比较强,需要专家小组以发现的入侵系统的特征为对象继而研究开发相应的检测系统,因此应对的范围比较局限,当新出现的攻击较为复杂或者时间跨距较大时,这个系统就很难自主作出相应的跟踪反应,效果当然也不尽理想了。相反,应用数据挖掘技木并不是根据特定的信号进行异常检测,就不存在对每一种新的入侵信号进行重新定制的问题,展现出实时性的优点。
(2)低误报警率。当前的系统十分依赖于信号匹配,会出现报警情况远超过实际入侵对象,就是是正常的工作中一旦出现这种信号的情况,入侵系统会产生误报警。入侵系统处理报警产生的部分序列中获取到有用数据信息,设置将正常行为产生的信号信息能及时清除,避免日后重复工作,通过数据挖掘技术快速剔除相同的攻击数据,降低实际工作中误报警率。
(3)漏报率低。一个全新的攻击方式入侵系统,或者是之前的入侵行为做小部分改动后系统无法识别,传统不能及时启动防御处理,错认为是正常数据信息。采用数据挖掘技术的系统能克服这一系列问题,迅速的发现新的攻击行为,及时报警处理,对实际运用过程中可以减少漏报的情况。
2.2 创建新型的入侵检测模型
大部分的网络数据都是正常的数据,异常数据的记录只有小部分,系统如果可以自动过滤正常的数据,通过聚类分析方式,准确地过滤掉网络保存的正常数据。聚类分析方法是组建网络正常行为的常用手段。异常数据包是指那些区别于正常行为的数据包,经过系统的检测器再更进一步做检测,出现新的入侵行为但其数据包无法被检测系统识别,全都归为是异常数据包,对异常数据包进一步做特征分析后,才能判断是否为新的入侵行为模式,新的入侵行为模式添加到入侵检测规则库中保存,规则库中保存记录了新的未知入侵行为,下次再遇到这类入侵情况就可以直接检测出来。处理新入侵行为的检测系统如图1所示。
图1 新型入侵检测模型
3.1 数据挖掘的技术创建入侵检测模型
入侵检测系统是要发现异常事件,要在大量的数据信息中快速筛选出异常行为数据,要将异常事件同入侵检测标准作对比进行详细的入侵分析,通过入侵分析过程来发现入侵行为。最新使用的数据挖掘方式与传统模式进行比较,数据挖掘技术更具有优势。它能从大量的数据中迅速的了解到人们未曾涉及的知识和规律,进入快速自动的分析过程,可以利用数据挖掘技术创建出入侵检测模型。
3.2 Snort 入侵检测系统使用数据挖掘
入侵检测系统不可或缺的功能是数据挖掘,发现有入侵行为时,系统要能及时处理,要求的实时性更高,能及时检测出入侵行为并作出相应处理动作,比如报警或防御响应,用最快的速度让管理员了解情况,再通过人工加强防御。要及时更新规则库,对于新的入侵行为要及时添加到系统的规则库中,避免出现系统漏洞。要把入侵行为产生的相应数据包以及入侵数据信息记录在日志中,方便管理员开展处理工作。异常检测可以排除掉正常的数据,将异常数据包用滥用检测引擎来解决,进行规则匹配,表现有入侵情况发生,并报警显示,防止入侵行为再次出现。传输到聚类分析模块可以将异常检测结果添加到新的入侵检测系统中,在入侵行为日志中保存,继续做关联分析。
3.3 DBSAN算法
DBSAN算法指的是在密度基础上的有效聚类算法,可以列举出可能出现的形状。DBSAN算法的中心思想为:不包括边界点o,某EPS邻域中,总的数据点个数不低于Minpts。DBSAN算法常运用于文本中高维数据的处理,对于EPS及Minpts参数的设置十分关键,算法程序要检验参数设置是否合理,影响聚类的效果。所以关于EPS及Minpts参数的设置是关键的要素。对于入侵行为检测可以使用据聚类划分算法中的 K-MEANS算法,大数据库中根据规则分类处理,明确 EPS及Minpts具体参数值。
3.4 K-Means 算法
利用聚类算法对防止网络入侵检测系统进行深入研究。聚类分析指的是把整体数据对象再进行划分成各个相似部分的过程,对数据进行分组,无须提前定义,根据实际的数据特征,依照数据的相似性进行分组定义。经过这种算法确定同类型的入侵行为,数据相似度比较高,反之不同类型的对象相似度低。主要特点在于要归纳的数据集合或者提前不可获知的情况。检测系统中利用聚类算法进行数据挖掘处理。
入侵检测系统使用到 K-Means 算法,算法特点在于简单、计算过程复杂程度低、实效性高、方便操作。但也伴随着两个问题:(1)怎样处置离散型数值及连续性数值对象的问题。K-Means 算法适用于处理连续性的数值这类问题。而离散型数值仍然不能解决,例如字符。聚类中心属性值可取该聚类成员相应属性值相当于出现率最高的数值,用这方法处理离散型数值的问题。(2)聚类的个数和聚类中心的情况。采用K-Means 算法之前,要事先明确聚类的总数,同时要确定初始聚类中心的数值。把所有相同个数的数据对象当成中心。在实际的网络入侵检测进程中是随机改变的,实效性非常明显,所以无法提前得知聚类中心和聚类具体个数。利用定宽的聚类方法可以妥善处理这个难题。
与防火墙相比,网络入侵检测带有了更强的功能,对于常见攻击和非法访问的拦截都十分有效,弥补了防火墙欠缺的防护功能,是一种必要的补充系统。数据挖掘技术与入侵检测系统结合使用,加强系统的防护能力,对大量的网络资源进行准确的数据分析。但是,它们两者也存在一定的缺陷,例如数据挖掘由于挖掘时间较长因此造成实时反映,存在速度较慢的问题;数据挖掘在操作上会存在较多失误,无法准确判别未知攻击和非法访问,因此整合效果还不能完全达到预期的效果,那么也不能普遍的应用于实际中,因此研究这两方面的问题对于提高网络信息安全性时十分有必要的。
[1]卢靖.数据挖掘技术在新型网络入侵检测模型中的应用研究[J].电子技术与软件工程,2014.
[2]耿风.数据挖掘算法在入侵检测中的应用分析[J].内江科技,2013.
[3]黄宁.聚类方法在网络入侵检测中的应用[J],2013.