◆施金妹 章 欣
(海南科技职业学院 海南 571126)
WEB日志下数据挖掘的行为分析
◆施金妹 章 欣
(海南科技职业学院 海南 571126)
本文通过Web日志的数据挖掘搜索行为分析研究,得出如何进行Web日志挖掘和在Web日志挖掘中应采取的数据挖掘技术以及利用WEB挖掘技术应用的用户搜索行为技术。
Web; 数据挖掘; 搜索行为
数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘技术主要研究结构化的数据挖掘,而Web数据的挖掘是应用于Internet的技术研究,是从半结构或无结构的Web页面中,抽取感兴趣的、潜在的模式。
随着Internet的迅猛发展,Web挖掘逐渐成为数据挖掘的热点,但是因为Web自身的特点——多数据源、数据结构的半结构化或无结构以及动态性等,Web挖掘又是一个难点。Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识。尽管Internet是一个半结构化的系统,很难对它进行处理,但是Web服务器日志记录具有良好的结构,非常有利于数据挖掘的进行。因此,Web日志挖掘是Web数据挖掘的一个分支,网络管理人员可以根据Web日志的分析结果改进网站的设计,实现网站的有效管理,保证网络的安全,它作为Web挖掘的一个重要组成部分,具有独特的理论和实践意义[1]。
1.1 Web数据挖掘种类
(1)内容挖掘。指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程[2]。
(2)结构挖掘。从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。
(3)日志挖掘。使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值信息的过程。
1.2 技术处理
(1)通过数据预处理技术,将Internet上非结构化或半结构化的信息组织成逻辑单元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就可以利用对传统数据挖掘的方法(如关联规则和序列模式的发现等)对Web数据进行挖掘; 另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关的数据,有效地提高了挖掘效率[3]。
(2)从传统数据挖掘技术中的关联规则发现技术引入Web数据挖掘,求高频站点集是关联规则发现的核心,也是计算量最大部分,可以采用了一种快速算法Apriori,并针对在Web应用的特点进行改进,能有效地提高了求高频站点集的效率。通过分析Web访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联规则发现可以在网站构造、Web广播等活动中得到广泛应用。
(3)宽带网进行Web广播时,其播出的内容是一个大的Web页面集合。针对如何得到这个Web页面集合,以及如何组织这Web页面集合以利于用户浏览这两个问题,有一种新的聚类方法WebClustering,通过聚类得出聚类中心和聚类集,通过关联规则算法得出可信度,据此构造出一个有价值的Web页面播出集合并且根据挖掘到的用户访问兴趣,通过形成索引页面集来帮助用户访问这个Web页面集合。这种方法较好地解决了Web广播中的内容选择及页面组织问题,取得了较为理想的效果。
(4)Web访问信息挖掘的一般过程是将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价; 在以上工作的基础上,可以设计并实现了一个Web访问信息挖掘原型系统(WWWMiner)。
WEB日志挖掘的主要目标是从WEB的访问记录中抽取感兴趣的模式,互连网中的每个服务器都保留了访问日志(WEB Access Log),记录了关于用户访问和交互的信息。利用web挖掘技术,可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果进行相关处理,尽量实现查准率和查全率的有机结合。利用WEB日志挖掘技术进行用户搜索行为技术如下:
(1)文档自动分类,与一般的纯文本文件不同,Web页面是HTML格式的超文本,页面中有很多标记,用以描述页面的标题、关键词、以及URL等,这些都包含了重要的分类信息。通过Web挖掘和机器学习技术可以对索引数据库中的信息进行整理,对文档进行自动分类,从而提高了用户的检索速度和检索的精确度。由于采用了机器自动分类的方法,克服了人工分类中信息检索不全面、更新速度慢的缺点[4]。
(2)搜索结果聚类。用户检索时会得到大量的返回记录集,其中很大一部分是与用户的查询请求不相关的。通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档聚类得比较靠近,从而远离那些不相关的文档。在对用户搜索日志进行分析时,可以把相关信息整合到结果聚类的过程,对拥有相似兴趣的人返回的搜索结果集相关度也应该是比较高的。
(3)实现个性化的搜索引擎。当用户接收到搜索引擎的返回结果时,用户会根据简短的文档摘要进行判断,发现感兴趣的内容后会点击该文档,查看详细内容。通过对用户在文档上停留的时间,以及是否在该文档进一步访问其他链接到该页的文档,是否重复访问该文档等历史信息的不断收集,可以发现一些与用户所检索的关键词密切相关的网页等说明了搜索引擎存在个性化性质。
(4)自动文摘的形成。利用web文本挖掘中的文本总结技术,可以从web页中提炼出重要信息形成文档摘要,使用户能快速、方便地了解检索信息。自动文摘技术可以使用户直观地快速地了解检索出文档的主要内容。
(5)查询结果的相关度排序
相关性是WEB检索的核心。它使搜索引擎的主要目标是检索出所有与用户查询相关的文档,尽可能减少不相关的文档。基于Web文档内容的挖掘是建立在这样一种假设之上,即从文档中提取的文档表示或者相关概率都可以是相对固定的。也就是认为所有文档都有一些客观存的特征信息在那里等待提取[5]。用户主观上认为相关的文档才是真正的相关文档。基于文档内容中包括的超文本链接信息的挖掘虽然考虑了网页设计者对相关文档的主观判定,但忽略了真正的网页使用者——用户的心理。通过分析搜索用户日志就能知道用户在文档相关判定上的意见,就能更好地挖掘相关文档[6]。
数据挖掘及其用户搜索行为的分析已成为数据库技术和机器学习方面的重要的研究课题。可见,正确的使用数据挖掘的搜索行为可以实现网站的有效管理,保证网络安全的同时大大提高我们的工作效率,在最好的时间内搜索挖掘到我们想要获取的知识与信息。
[1]朱彦霞,张雪萍,王家耀.改进的频繁项集挖掘算法[J].计算机工程与应用,2009.
[2]陈文.基于Fp树的加权频繁模式挖掘算法[J].计算机工程,2012.
[3]李晓昕,谢维奇.基于Web日志挖掘的网上学习行为研究[J].计算机技术与发展,2011.
[4]吴梦杰,陈红琳.基于Web日志挖掘的用户兴趣度分析[J].智能计算机与应用,2011.
[5]朱彤,刘奕群,茹立云,马少平.基于用户行为的长查询用户满意度分析[J].模式识别与人工智能,2012.
[6]孙玲芳,夏聪.Web使用挖掘在用户行为分析中的应用[J].江苏科技大学学报(自然科学版),2011.