基于数据挖掘的混合型入侵检测研究

2021-08-08 08:02:12李俊涛
广东通信技术 2021年7期
关键词:项集数据挖掘规则

[李俊涛]

1 引言

随着互联网的快速发展,人们可以利用互联网获得更多的资源,并实现相互之间的资源共享。为此互联网中的任何终端都可能成为不法分子的攻击对象,例如个人信息的泄露、病毒的传播、合法信息篡改等。面对如此严峻的网络安全问题,保护网络安全以及完善网络安全的防御机制刻不容缓。传统的保护策略有:访问认证、漏洞扫描、SSL 加密、数据验证等。这些都是被动防御策略,不能主动去发现入侵,对网络安全的保护远远不足。而入侵检测系统能够做到主动防御,对系统和网络进行主动检测,具备完善的安全保护策略,可以为系统数据提供实时有效的安全保障[1]。

2 入侵检测系统

入侵检测顾名思义就是对外部入侵行为的寻找与追踪,是对计算机信息的识别与验证[2]。在网络安全防御机制中,入侵检测系统对整个网络活动进行实时监控,为网络环境提供保障。多数入侵检测系统存在三方面的问题:一是缺乏适用性,网络的发展瞬息万变,目前现有检测规则的更新速度,远远赶不上新型网络攻击出现的速度,因此编制完整的规则库几乎不可能实现;二是缺乏时效性,目前互联网以及物联网等各种网络交叉运行,网络环境异常复杂,攻击的手段和方式也不断进步,仅凭现有经验编制的规则难以全面覆盖;三是缺乏可移植性,目前大多的规则包都是在特定的网络环境下编制的,改变网络运行环境后,就难免出现各种问题。

2.1 入侵检测的分类

根据系统部署实施的方式可分为:基于主机型(HIDS)和基于网络型(NIDS)[3]。

HIDS 主要用于监测主机的系统和事件,通过对主机系统上的审计记录、日志文件等数据进行查看和分析,识别入侵者的入侵行为,并启动相应程序来处理入侵行为,向管理员报警。检测系统的响应速度,与定期对检测数据进行校验的频率有直接的关系。HIDS 有以下几方面的优点:一是识别攻击行为明晰,在目标主机遭受入侵时,系统数据会有明显变化,检测系统可以快速明确识别攻击行为;二是检测范围明确,针对主机系统中的数据如:系统日志、安全审计等文件来验证攻击行为的发生;三是配置灵活,在具体的实际应用要求下,每台主机上的检测系统都可以按照自身要求进行配置;四是对网络环境不敏感,数据的传输一般情况下都需要加密处理,HIDS 只对主机状态和系统文件进行检测,不受交换环境和网络流量的影响。尽管HIDS 具有众多优点,但也有不足之处:一方面兼容性弱,挑剔运行环境,在很多平台下无法正常有效运行。另一方面占用部署主机的资源,对主机系统本身的性能会产生影响。

NIDS 一般部署在网络链路中的入口,实现对整个网络入侵行为的有效检测。在混杂的网络模式下,通过抓取关键入口的数据,采集分析网络中的通讯业务,辨别入侵行为。相比HIDS 优点如下:一是检测速度快,NIDS 只需对流入主机的网络流量数据包进行排查,不需要排查主机的所有文件,检测时间非常短;二是覆盖范围广,一个局域网中只需部署一台NIDS,就可以对多个主机起到保护作用;三是适用性强,NIDS 是基于网络的,有自己特定的硬件设备,因此不受网络中其他主机操作系统及硬件设备的影响。相比之下NIDS 也有许多不足例如:检测区域仅限于局域网、检测结果存在较大误差、无法定位对外来入侵行为。

通过以上对比,我们将入侵检测系统的功能归纳如下:

(1)可以对漏洞攻击行为和用户非法行为进行实时监测。

(2)可以对入侵行为进行检测和报警,并对受保护系统的异常事件进行统计和分析。

(3)可以对受保护文件的完整性进行审计和评估。

2.2 入侵检测的技术

根据匹配数据规则特征库的类型可分为:误用检测和异常检测技术[4]。

误用检测技术,在检测系统运行时,通过已知的攻击特征库,来和待检行为进行匹配,这种技术称作误用检测。检测时先制定出非法行为的规则特征库,将采集分析好的行为数据和该库进行匹配,匹配则判定入侵,不匹配则判定正常。其主要的技术手段包括:表达式模式、语言分析和专家判断等。误用检测技术在面对已知的入侵行为表现的较好,但面对未知的攻击则表现出低效,易错。

异常检测技术,首先检测前制定出用户或系统正常行为的规则特征库,将被检测数据和该库进行比较,并设立一个合适的阈值。如果偏高,则认定该行为偏离正常行为视为入侵。如果偏低,则认定该行为吻合正常行为模式,视为正常。其主要的技术手段有:神经网络、规则检测等。异常入侵检测系统中如何正确建立合适的检测规则库是核心所在[5]。为了确保异常检测系统的有效运行,其检测规则特征库需要被不断的修正和更新,判断的阈值也需不断的更改,只有这样异常检测系统的识别度和灵敏度才会不断地提高。

通过以上两种检测技术的分析,我们得到它们的共同点,都需要通过已知数据类型,来构建检测规则库,不同点在于误用检测技术提取攻击数据,而异常检测技术提取正常行为数据。从效能来看,误用检测技术是参照已知的攻击特征库,所以漏报率高,误报率低。而异常检测技术则是参照正常的行为特征库,所以漏报率和误报率都高。

2.3 混合型入侵检测模型

参考上文的介绍和分析,本文提出了一种新的混合型检测的模型,这种模型融合了两种技术优点,最大限度地发挥了各自的特长,模型如图1 所示。

图1 混合型入侵检测模型

检测流程为:首先数据获取部分,采集并分析原始数据,将数据加工和处理成能够被混合系统识别的数据集。其次误用检测部分,根据已知的攻击规则特征库,对数据集进行模式匹配,如匹配则作出响应动作。再将剩下的和未检出的数据集,流转到异常检测部分。最后由异常检测部分,根据已知正常行为规则特征库,对流转来的数据集进行模式匹配,将匹配不成功的数据类型记录到检测系统中,并进行专家判断。如果属于攻击数据,则将该特征更新到误用检测规则特征库中,如果属于正常数据,则将该特征更新到异常检测规则特征库中,以便下一次的检测。

混合型模式的优点在于,可以更多地检测出攻击类型,无论是已知的还为未知的,大大提高了检测效果。在精确度方面,它比误用检测低,比异常检测高。在误报率方面,混合型检测有效地降低了单一异常检测的误报率。

3 数据挖掘

3.1 数据挖掘技术

数据挖掘是在大量模糊的、有噪声的、无规则的数据中,发掘潜在的、有关联性的模式或规则。数据挖掘的实现主要由3 个阶段构成:第一阶段数据的筹备,包括数据目标获取数据对象、不同类型数据的预处理和噪声消除、数据的降维变换等;第二阶段数据挖掘,根据不同的数据挖掘模型,确定与之匹配的挖掘算法,从大量不完整、无规则的数据中发现潜在有关联性的数据,以便对结果进行预测;第三阶段数据的表示和评估,对数据挖掘得到的信息进行关联规则、分拣分类、聚类分析后得到挖掘数据的价值,再以明析的形式表现出来,实现数据的可视化。

3.2 基于入侵检测的Apriori 算法

面向入侵检测的数据挖掘算法是入该系统中最重要的一环,不同的数据挖掘算法针对不同的模型有不同的优缺点。统计分析、特征分析、变化和偏差分析、聚类是数据挖掘的经常使用的分析方法,而关联规则是数据挖掘算法的重点,代表数据相互之间的关系。关联规则的Apriori算法基本思路为:找出频繁性满足支持度阈值的所有数据,并建立数据集,然后由该数据集生成支持度和置信度都不小于最少支持度和最小置信度的强关联规则[6],算法过程如下:首先假设有一个由若干个不同项组成的频繁项集的数据集K={K1,K2,…,KL},其次扫描整个数据D,获得候选项集的所有1 项集作为算法输入的初始值,并计算候选项集L-1 的支持度,忽略支持度小于最小支持度的候选项集,得到项集KL。如果得该项集只有一项或者为空,则输出L-1 个项集的K={K1,K2,…,KL-1}。反之则生成候选L+1 项集,并重复上述过程。

4 基于数据挖掘的入侵检测系统设计

4.1 设计思路

本文总体设计的核心为数据挖掘之间的关联规则,实现对数据及时有效地分析。以前文提出的混合型入侵检测模型为例,将其进行改进,改进后的系统如图2 所示。

图2 基于数据挖掘的入侵检测系统

总体设计思路如下:

(1)在混合型检测系统里增加合法的行为模块,通过关联分析和聚类分析,将正常的网络行为排除在外,得到异常数据。

(2)增添相应的规则匹配模块,对异常数据进行匹配,减少系统的误报漏报,提升检测成效。

(3)增添动态规则生成模块,及时有效的对现有规则库进行迭代更新,提升规则库的完备性。

4.2 系统实现

为了通过对大量已知网络行为数据的数据挖掘和分析,找出其攻击特征来作为本文入侵系统的检测依据。我们采用了NSL-KDD 数据集,该数据集信息充足,包含多种未经训练的数据作为测试集,模拟真实的网络攻击环境[7]。为了能够准确识别出各种攻击类型,首先要对采集到的原始数据进行去噪音、去沉余等处理。然后将原始数据转换成入侵测试系统可识别的标准数据。最后将标准化处理后的数据采用Apriori 决策树算法得到关联规则,进而实现数据挖掘。其算法流程为:

(1)对采集到的数据进行标准化处理,找寻出决策树项集;

(2)往复循环处理,归纳出训练集的决策树K项集合;

(3)对每个待测数据进行遍历,得出目标数据的决策树项支持频度;

(4)通过计算网络数据包与决策树正常选项集的支持频度来确定是异常数据还是正常数据,进而实现入侵检测。

4.3 仿真实验

本文实验验证采用软件环境windows7 操作系统,软件开发语言为VC++6.0,实验数据为NSL-KDD 数据集。通过对不同检测方法入侵检测系统的检测率,误报率及检测时间进行验证,来评价系统的有效性,实验数据比较见表1。

表1 不同检测方法的检测性能比较

由表1 可知,采用同一个测试样本,本文设计的检测系统具有较高的准确率,同时误报率、漏报率也低于其他测试系统,具有一定的优势。同时为了验证系统的时效性,要对不同方法在检测时间上进行对比,以验证系统检测效率,具体效果见表2。

表2 相同检测样本的检测性能比较

由表2 可知,本文的检测系统在保证准确率的同时,检测时间也大大减少,具有一定的理论价值和应用价值。

5 结语

本文首先介绍了入侵检测系统概念,详细对比了它的分类和应用技术,并提出了一种新的混合检测模型。在此基础上,介绍了常用的数据挖掘算法,并将数据挖掘算法与混合检测模型结合起来,通过Apriori算法得到关联规则,进行数据挖掘,构建了基于数据挖掘的混合型入侵检测系统。最后为了验证该系统,通过实验室数据对比,表明本系统和其他单一系统相比,无论是检测效果,还是检测时间上都有一定的优势,对今后构建多元化、多样化的入侵检测系统有一定的借鉴意义。

猜你喜欢
项集数据挖掘规则
撑竿跳规则的制定
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
让规则不规则
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
TPP反腐败规则对我国的启示
一种基于Hadoop的大数据挖掘云服务及应用
关联规则中经典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一种频繁核心项集的快速挖掘算法
计算机工程(2014年6期)2014-02-28 01:26:12
基于GPGPU的离散数据挖掘研究