摘要: Web日志挖掘是对Web服务器上的日志进行挖掘分析,它能识别和发现客户的行为特点和偏好以及潜在的购买意向,能促进企业改进电子商务网站的建设,及时调整企业的客户关系和营销策略,这是企业提高核心竞争力的重要策略。
关键词:Web日志挖掘;关联规则挖掘;FP-Growth 算法
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)31-7583-02
Web的数据挖掘包括基于Web内容的挖掘、Web结构的挖掘和Web使用记录的挖掘三类,其中Web使用记录挖掘也叫Web日志挖掘,它是Web数据挖掘的重要应用,在现代的电子商务中有着巨大的应用空间。由于在Web服务器日志文件中完整的记录了客户在网站上的每一点击,保存了大量与用户行为有关的数据,所以Web日志挖掘是把Web服务器上的日志文件作为数据源,对其进行挖掘分析,找出客户的行为模式和偏好以及潜在的购买意向,最终促进企业及时调整营销策略,改进电子商务网站建设,或为客户添加个性化服务等。
Web日志挖掘的过程主要分为预处理、模式发现和模式分析三个阶段。在挖掘过程中,预处理和模式发现是极其重要的内容,直接关系到挖掘效率。
1 数据预处理
Web日志挖掘首先要对日志中的原始数据进行预处理,因为对于一个电子商务网站来说, Web 服务器会将每次的访问信息都记录到一个日志