摘要:数据挖掘是一个使用统计学原理和人工智能等算法进行知识发现的过程,有助于发现业务发展的趋势,帮助企业做出正确的决策,使企业处于更有利的竞争位置。基于Web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。该文主要阐述数据挖掘的一般技术,着重探讨了数据挖掘技术在电子商务领域中的应用。
关键词:数据挖掘;电子商务;Web挖掘;关联分析;聚类
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)21-5043-02
1 数据挖掘技术
数据挖掘(Data Mining)就是从大量的数据中抽取以前未知并具有潜在可用的模式。数据挖掘是人工智能和数据库技术的结合。目前数据挖掘和开发表明数据挖掘需要覆盖各种不同的应用任务,从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等特有的模式。
2 Web数据挖掘
Web数据挖掘是利用数据挖掘从Web文档及Web服务中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。
基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
3 Web数据挖掘在电子商务中的应用
电子商务领域通过Web挖掘不仅可以从大量多样信息的Web页面中提取出对我们有利用价值的知识,也可以得到有关微群用户访问行为和方式的知识,进而改进Web服务设计。面向电子商务的Web挖掘主要包括Web内容挖掘和Web使用挖掘。通过前者可以对电子商务的海量商品信息进行网上采集;通过后者可以帮助商家理解客户行为,以改进站点结构,调整销售策略,更好地提供服务。电子商务的“智能化”要求使得Web使用挖掘的应用尤为重要,下面对Web使用挖掘在电子商务中的应用进行介绍:
1)发现潜在客户
了解、关注注册客户群体对一个电子商务网站十分重要,如何从大量的访问者中发现潜在客户群体同样十分关键。当发现一些客户是潜在客户,就应该对其实施相应的策略以促使他们早日成为注册客户。对一个电子商务网站而言,这意味着订单数将增多,效益也会随着增加。
2)延长客户驻留
传统的客户与销售商之间的空间距离在电子商务中已不复存在。对客户而言,Internet上每个销售商没有什么区别。销售商如何使客户在自己的站点上可以驻留更久,需要花很多力气。通过对客户访问信息的挖掘,可以了解客户的浏览行为,获知其兴趣及需求,根据需求动态向其推荐页面,提供特有的一些商品信息和广告,以使客户能够继续保持访问站点的兴趣。
3)改进站点设计
站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出某类用户对Web站点频繁访问的路径,这些路径反映了此类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。
4)聚类客户
客户聚类是电子商务中一个重要方面。聚类顾客信息或数据项便于开发和执行未来的市场策略。这种市场策略包括自动为一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。比如发现一些客户经常浏览“儿童图书”页面,通过分析将此类客户聚类为一组。作为销售商,由分析得到的聚类信息可以得知这些客户已为人父母,因此为了能更好地满足该类客户的需求,应该及时调整页面内容。同时有许多例如“在校生”、“白领人士”等类客户。客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。
5)提高系统效率
通过对网络日志的挖掘,可以提供网站服务效率方面的信息,有助于找到平衡服务器的负荷,优化传输,减少阻塞,缩短客户等待的时间,提高系统的效率和服务。
4 基于Web数据挖掘的智能化搜索引擎
电子商务企业在活动过程中面临的一个关键问题是怎样通过Internet全面、准确、及时地收集到包括企业内、外部的环境信息,特别是一些隐性的、将关系到企业经营成败的关键性信息,以提高竞争力。目前的搜索引擎大都存在着查准率低、返回很多无用信息的问题,使企业无法获得优质的信息。鉴于此,将Web数据挖掘技术应用于搜索引擎,并使之成为智能搜索引擎,可提高性能,满足各电子商务企业的需要。
Web挖掘技术对搜索引擎有以下借鉴作用:文档自动分类、形成自动摘要、检索结果的联机聚类和相关度排序及实现搜索引擎个性化。经过分类处理文档,可以对搜索结果进行归类,通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,以提高用户网上搜索信息的效率;自动摘要可以解决大部分搜索引擎只能机械截取文档的前几句和固定字数的摘要因而不能完整反映信息的缺陷,使用户能对检索信息有更准确、快速、方便的了解;通过对检索结果的文档集合聚类,可以使得与用户检索结果相关的文档集中在一起,从而与不相关的文档远离,将处理以后的信息以超链结构组织的层次方式以可视化效果提供给用户,让用户选择其感兴趣的那一簇,将所需浏览的页面数量大幅度缩小;将Web挖掘中的个性化技术应用在搜索引擎中,能够基于大量训练样本,得到数据对象间的内