秦东霞 姚遥
0引言
Web日志挖掘对于Web站点内部结构优化和页面内容的重新整合有重要的价值和意义。传统的Web数据挖掘方法如关联规则和聚类等先将挖掘出的结构进行分析,汇总后应用到具体网站中。这些应用主要包括对Web文档进行分类、Web页面的预取和聚类、优化查询功能及对客户信息进行分类汇总等。现有的基于关联舰则的Web日志挖掘算法都是基于所有频繁项的,这些算法存在两方面的问题:一个是往往产生大量的候选规则,另一个则是产生大量支持度和置信度相同的冗余规则。本文提出了一听十新的无冗余Web日志挖掘算法,该算法引入了频繁闭项集和最小关联规则的概念,在保证信息不丢失的同时实现无冗余挖掘,而且挖掘过程中候选规则也相对少得多。