基于数据挖掘的Web入侵检测

2016-07-09 13:58尹淑玲龚鸣敏李蕾

网络空间安全 2016年8期

尹淑玲龚鸣敏李蕾

【摘要】 Web入侵检测系统对Web访问进行实时监控并能及时发现针对Web的攻击行为，能有效地解决Web所面临的安全问题。因为数据挖掘技术能从海量审计数据中挖掘出正常和异常行为模式，这不仅大量减少了人工分析和编码带来的繁重工作，也提高了入侵检测系统的适应性，因此，近年来在入侵检测领域大量用到数据挖掘技术。论文介绍了数据挖掘技术及其在Web入侵检测系统中的应用，设计了基于数据挖掘技术的Web入侵检测系统，能有效地阻止针对Web应用的异常入侵。

【关键词】 Web攻击；Web入侵检测；数据挖掘

【中图分类号】 TP 393.1

【 Abstract 】 Web intrusion detection system can monitor Web access transactions in real-time and detect attacks in time， which can solve the Web security problems effectively. Because data mining technology can mine normal and abnormal behavior model from vast amounts of audit data， not only reducing the heavy work of manual analysis and coding significantly， but also improving the adaptability of intrusion detection system. Data mining technology is used in the field of intrusion detection widely. Data mining technology and its application in the Web intrusion detection are introduced here， and the Web intrusion detection system based on data mining is designed， which can effectively prevent the abnormal intrusion of the Web application.

【 Keywords 】 web attack； web intrusion detection； data mining

1 引言

近年来随着互联网的迅速发展，基于Web的应用日益增多，相应地Web网站的安全也面临着严峻的考验，因此提高Web网站的安全性已经成为目前研究的热点之一。在众多Web安全防护措施中，基于数据挖掘技术的Web入侵检测系统比传统的入侵检测系统有更多的优点，在Web安全领域得到了广泛的应用。

本文在分析研究Web应用系统行为和大量Web应用入侵原理的基础上，提出了基于数据挖掘的入侵检测系统。

首先对收集到的Web日志数据进行预处理，再对Web日志的关联性进行分析，最后是根据入侵行为的特征建立规则库，以及规则库的自我学习和异常数据与规则库的匹配检测。

2 Web入侵检测与数据挖掘

Web入侵检测系统对Web访问进行实时监控，当发现可疑传输时就发出警报或者采取主动应对措施，能有效解决Web面临的威胁。根据检测机制的不同，Web入侵检测一般分为基于特征的Web入侵检测和基于异常的Web入侵检测。目前，基于特征的入侵检测技术已经发展得相对成熟，但该检测方式只能识别已知攻击，不能检测未知攻击，通常情况下误报率较低但漏报率较高。基于异常的入侵检测技术起步较晚，发展得还不够成熟，通常情况下漏报率低但误报率高。

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取有价值的知识和模式的过程。在Web入侵检测领域，数据挖掘技术能够从大量的Web文档和活动中挖掘出信息和知识，应用数据挖掘算法建立起较完备的规则库来进行异常检测。随着网络应用的发展以及网络审计数据信息量的增大，在Web入侵检测系统中采用数据挖掘技术可以使系统能自动获取知识、发现入侵从而解决漏报率和误报率高等问题。

3 Web入侵检测中的数据挖掘方法

网络上攻击行为隐藏在海量的数据之中，因此及时发现这些攻击行为是很困难的。在Web入侵检测系统中，使用数据挖掘的方法来自动提取特征并建立检测模型具有其技术优势，主要表现在能处理海量数据、高检测率、低误报率、自适应性好。目前，关联规则挖掘、分类方法、聚类方法和频繁模式挖掘是常用于Web入侵检测系统中的数据挖掘方法。

3.1 数据预处理和关联性分析

Web日志挖掘的数据预处理过程包括数据净化、用户识别、会话识别、路径补充和事物识别这五个阶段，它是保证Web日志挖掘质量的关键。通过对Web日志数据进行预处理，可以将非结构化的访问记录转换成结构化的数据、清除与挖掘无法的数据，从而将其转化为用于数据挖掘的事物数据并存入数据库。

数据预处理之后，就要获得用户的上网浏览模式，捕捉用户的行为，从而找出入侵行为的关联性。通过对数据库中的数据进行频繁模式挖掘便得到频繁模式，频繁模式会被存入频繁模式数据库。

3.2 Web入侵检测过程

在进行Web入侵检测时，要将待检测数据与频繁模式数据库中的模式进行比较，然后计算相似度。相似度就是一条待检测的数据与频繁模式库中所有模式相比较后所匹配项数目的最大值。

将日志数据与频繁模式库中的每一条数据进行比较，每次比较将得到一个相似度并保存，然后将该相似度与预先设定的阈值进行比较，阈值包括入侵阈值和正常阈值。将相似度与入侵阈值进行比较，若小于入侵阈值，则该数据为正常数据；若相似度大于入侵阈值，则该数据为入侵数据，将其加入到入侵数据列表中。

4 结束语

在实际应用中，Web入侵检测系统在访问Web日志时会触发大量的报警信息，从而容易产生信息遗漏或误报等问题。提出了基于Web日志数据挖掘的入侵检测系统，讨论了数据挖掘技术在Web入侵检测系统中的应用，通过对Web日志进行关联性挖掘得到频繁模式，然后通过将数据与频繁模式相比较来对数据进行异常检测，如果为异常数据存入入侵列表，如果为正常数据，则将结果反馈给频繁模式数据库，网络管理员可以通过入侵列表及时阻止入侵行为，保证Web站点和Web数据的安全。

参考文献

[1] 莫乐群，郭庚麒.基于聚类挖掘的入侵检测方法的研究[J].计算机应用与软件，2010，27（4）：134-136.

[2] 周勇禄，吴海燕，蒋东兴.基于统计异常的Web应用入侵检测模型研究[J].计算机安全，2012，12（5）：8-12.

[3] 莫秀良，常畅，王春东.基于活跃熵的Web应用入侵检测模型[J].武汉大学学报（理学版），2014，12（5）：543-547.

[4] 戚名钰，刘铭，傅彦铭.基于PCA 的SVM 网络入侵检测研究[J].信息网络安全，2015，（2）：15-18.

[5] 汪中才，黎永碧.基于数据挖掘的入侵检测系统研究[J].科技通报，2012，28（8）：150-152.

[6] 王杰文，李赫男.Web数据挖掘及其应用[J].南华大学学报（理工版），2004，18（1）：32-34.

基金项目：

国家自然科学基金（41101412）。

作者简介：

尹淑玲（1978-），女，武昌理工学院，副教授；主要研究方向和关注领域：数据挖掘、计算机网络安全。