基于Web挖据的Web服务器入侵检测研究

2012-04-29 00:44皮国强刘韬
计算机时代 2012年4期

皮国强 刘韬

摘  要: 针对传统的防火墙技术和网络检测技术不再能准确、及时地发现对服务器的攻击行为提出了基于Web数据挖掘技术的一种服务器入侵检测方法:首先由目前已经掌握的对服务器攻击行为特征作为样本点,采用k-均值聚类分析算法进行无监督学习,生成K个聚类的特征攻击库;其次采用邻近分类算法,根据计算访问样本点与特征攻击库中心的距离对样本点进行归并;最后对特征攻击库中心点进行重新调整,确保对新的样本点行为分析更加准确。

关键词: Web挖掘; 样本点; k-均值聚类算法; 邻近分类算法; 欧氏距离

中图分类号:TP393.08文献标识码:A            文章编号:1006-8228(2012)04-41-02

Server intrusion detect based on Web mining study

Pi Guoqiang, Liu Tao

(Computer Network Technology Center of Zunyi Medical College, Zunyi, Guizhou 563003, China)

Absrtact: Web server is a main physical carrier for information releasing, whose safety is one of hot topics now. With the rapid development of Internet and an exponential growth of information, attacks on the server are more and more frequent, diverse, and covert. The traditional firewall technology and network detection can no longer accurately and timely detect attacks. Web data mining is better to identify the attacks. It first regards the past attacks as sample points, and uses k-means clustering algorithm for unsupervised learning to generate K clusters of characteristics. Then it calculates the distance from a sample point to the characteristic attack center points of the sample library by the neighbor classification algorithm, and merge into the nearest library. Finally it re-adjusts the center of the feature library to ensure that the analysis of the new behavior of sample point is more accurate.

Key words: Web mining; sample point; K-means clustering algorithm; neighbor classification algorithm; Euclidean distance

0 引言

随着Internet的飞速发展,Web成为世界上规模最大的公共数据资源,它不仅是一个品牌形象展示的工具,而且逐步成为电子商务的工具,协同办公的工具。Web服务器也称为WWW服务器,主要提供网上信息浏览服务。这些年来Web服务器的安全成为关注的热点,报道Web服务器受到攻击的事件是屡见不鲜;针对服务器攻击的手段日益多样、专业、隐蔽,这导致限于单一的传统Web安全手段解决Web安全遇到了难题。Web挖掘是从WWW相关资源上抽取信息和知识的过程,它将传统的数据挖掘思想和方法用在Web上,从Web文档和活动中抽取感兴趣的、潜在的、有用的模式或隐藏信息。Web所用记录挖掘是Web挖掘的一种,所有网上行为的可记录性和数据量的快速增长为Web使用挖掘提供了宝贵资源。

本文将Web挖掘技术引入到Web服务器的安全检测中,提出了基于k-均值聚类算法和邻近分类算法相结合的检测模型。仿真结果表明,模型能大大提高对Web入侵检测的能力,能实时、准确地发现入侵行为。

1 Web服务器入侵检测模型结构

Web服务器入侵是对Web服务器进行潜在的、有预谋的、未经授权的访问操作,以达到某种目的。Web服务器安全检测也像其他网络元素安全检测一样,其检测系统一般包括网络数据采集模块、网络入侵分析模块、入侵响应模块及管理配置模块[1]几部分。Web服务器安全检测模型结构如图1所示。

Web服务器入侵检测主要是通过对Web使用记录的挖掘,发现攻击行为。Web使用记录挖掘是指计算机系统自动发现和分析用户使用模式,这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果[2]。使用挖掘的目的是,改善Web站点的性能,改进Web站点的设计,根据用户过去的访问模式,预测用户将来的访问,给用户提供个性化的服务及开展商业智能服务[3,4]。Web挖掘一般经历数据收集、数据预处理、模式发现和模式分析四个阶段。由于挖掘的数据流—原始日志文件是简单的文本文件,包括一些不完整的、冗余的、错误的数据,同时原始的Web日志文件具有半结构化的特点,所以需要对其进行预处理,否则将影响挖掘的效果。数据预处理包括四个阶段:数据净化、用户识别、会话识别和路径补充、事务识别。

图1Web服务器入侵检测模型结构

在入侵检测系统中,数据规范化模块是将用户访问日志数据预处理成用户事务,将其表示为n维空间的向量t,t=(Wtp1, Wtp2,…, Wtpn),其中如果Pj在事务t中出现,则Wtp1=W(pj) (j=1,2,3,…, n),否则Wtpj=0。入侵分析模块是将规范化后的用户事务t在特征攻击库中找到一个离聚类中心点最近的一个聚类,确定其与哪个聚类的特征相近。特征库鉴于经验学习已知了各聚类的安全评级(不排除人工对聚类的评级干预),根据聚类的安全评级判定用户事务的攻击行为(主要采用邻近算法计算到聚类中心的距离)。入侵响应模块根据入侵分析的结果作出响应:进行攻击处理、用户事务点归类(移进)和重新计算中心点(主要用到了K-均值算法)。入侵检测流程如图2所示。

图2Web服务器入侵检测流程图

2 邻近算法和K-均值算法

2.1 算法描述

表1邻近算法与K-均值算法

邻近算法是在训练数据集D(D为特征库聚类族中心点集合)中找出一个与测试样本d最相似(或者距离最小)的训练样本t。K-均值算法就是把数据集D的所有样本,根据样本属性的相似性,划分成K个聚类,每个聚类中心点为均值,算法如表1所示。

2.2 算法评价

邻近算法为K邻近算法的特殊应用。K邻近算法很灵活,准确性高,但是在分类时它对每个训练样本点都要进行比较,如果训练样本较大的情况,K-邻近算法需要很长的时间[5]。在训练样本很大的情况,将用户事务样本直接与特征库的聚类簇中心进行比较不仅分类精确,而且时间开销也较小。因为当聚类样本点较多的情况,聚类中心点是族均值,较为精确,没有必要将测试样本点分别与每个聚类中的训练样本进行比较。K-均值算法是最著名的划分聚类算法,算法简洁和高效率,已成为聚类算法中使用最广泛算法。

3 入侵检测仿真结果分析

为了检验本文提出的安全检测模型的性能,对某单位Web服务器的访问日志数据进行仿真实验评价,集中对攻击行为,包括SQL注入漏洞、ASP上传漏洞、SA注入点、非授权得到超级用户权限攻击(U2R)作了检测将结果与传统检测结果进行比较,得到检测率高、误报率低于传统的检测方法。

4 结束语

本文针对传统检测Web服务器入侵行为的不足,提出了基于Web挖掘的检测方法:对用户事务进行分类和聚类相结合的模式挖掘;在判定入侵访问过程中,用中心点代替聚类中的所有点,在不失准确性的同时,以降低距离计算的次数;同时将测试样本点直接归并在相似的聚类中后进行中心调整,为下一次的判定提供条件。实验结果表明,本文提出的Web挖掘检法测入侵的方法比传统的检测优秀。但是怎样合理地对访问日志进行规范化和怎么科学合理地库中的评级都是检测方法中的难题,因为规范过程中,样本的维数(属性个数)和攻击库中的评级直接影响计算复杂度和结果的准确度。这是我们下阶段要研究的问题。

参考文献:

[1] 皮国强,刘韬.集成模型在网络入侵检测中的仿真研究[J].计算机仿真,2011.28(6):161~164

[2] B.Mobasher. Web Usage Mining. In John Wang(eds.),Encyclopedia of Data Warehousing and Mining ,Idea Group,2006.

[3] Liu Haibin ,KesV. Combined mining of web server logs andweb contents for classifying user navigation patterns and predicting users'future requests[J]. DataandKnowledge Engineering, 2006(7):307~309

[4] Spiliopoulou M,Mobasher B,Berendt B,et al.A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing,Special Issue on Mining Web Based Data for E- Business Application,2003.15(2):171~190

[5] Liu Bing.Web 数据挖掘[M].俞勇,薛贵荣,韩定一,译.清华大学出版社,2009.

[6] 阳小兰,钱程等.Web日志分析系统研究[J].计算机技术与发展,2011.21(9):211~214