倪静
摘要:随着大型数据库的不断涌现,不缺数据缺知识的矛盾日益突出。大量web信息中获取有用的信息是web数据挖掘的关键问题。该文重点探讨了Web挖掘的基本原理和关键技术,针对Web挖掘的分类进行了描述,论述了Web挖掘的挖掘流程、应用领域及研究发展方向。
关键词:数据挖掘;Web数据挖掘;Web内容挖掘;Web使用挖掘;Web结构挖掘
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)32-7636-03
基于Internet的服务也飞速产生并发展起来,企业急需从Internet这个巨大的信息源中分析客户行为,寻找商机。就是从这样的商业角度考虑,在20世纪80年代末的时候数据挖掘(DataMining)技术被开发出来。Web数据挖掘就是在Web网络基础上引入数据挖掘的思想和方法。通过这一方法解决在Web网络中遇到的一些问题,从而形成了Web数据挖掘。基于Web网络的数据挖掘是数据挖掘领域的一个新的重要研究方向,它可以满足电子商务未来发展趋势的需要。
1Web数据挖掘的研究背景和国内外现状
有统计指出,我国境内的Web站点已将近有200万个,全国现有网民3亿7千万人。网上的信息量已经远远超过人们的处理能力。Web站点每天都在发生着不断的变化,网上的内容在不断的扩大和更新。庞大的快速增长的数据中一定有许多有价值的信息,如何发现并利用这些信息变成了摆在我们面前的一道难题。现在利用数据挖掘技术与Web技术相结合形成Web挖掘,就是用来解决这个难题的有效方法。
2Web数据挖掘概述
数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理方法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效和有用的知识[1-2]。
web挖掘是Web数据挖掘(WebDataMining)的简称,也可以被称为Web知识发现(WebKnowledgeDiscovery),他是在数据挖掘的基础上研究发展而来的,是数据挖掘技术在Web技术中应用的体现。Web挖掘技术涉及众多学科的知识,如数据库技术、网络技术、统计数学、人工智能等,是一个交叉性的研究领域。[7]
数据挖掘所需要的丰富的信息资源其实就蕴藏在Web中。Web中蕴藏了许多丰富和动态的超链接信息以及Web页面的访问和使用信息。而Web挖掘的主要工作就是从Web文档和Web活动中发现并取得感兴趣的潜在的有用模式和隐藏信息。
3Web数据挖掘的分类
Web数据挖掘可以被分为Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用记录挖掘(WebUsageMining),这三大类。这三大类在实际使用过程中并不是独立使用的,而是相互联系、相互交叉和相互渗透的。关系如图1所示。
(1)Web内容挖掘
从Web页面文档内容及后台交易数据库中发现有价值信息的过程称为Web内容挖掘。其实Web内容挖掘我们可以理解为是从浩瀚无际的Web资源中发现信息、取得信息或资源的过程。Web内容挖掘发现Web资源中的有效数据的方法是先对Web网页上的内容做资料挖掘,然后对Web的资源实行自动检索。Web资源的形式是丰富多样的,Web上的资源内容主要包括网络页面上的内容信息和页面后台在数据库中发生的交易记录等。页面上的信息是非常丰富的,它包括文本、动画、超链接、图片、音频/视频之类的多媒体数据。Web内容挖掘主要使用两种方法:Web页面内容信息挖掘和搜索结果再次挖掘(即对初步搜索或挖掘的结果作进一步的改进挖掘处理)。
(2)Web结构挖掘
WSM(WebStructureMining)是Web挖掘中的一个重要分类方向,它的主要工作方法是通过研究和分析各个网络页面之间的结构信息,从而找到隐藏在页面内容之外有价值的信息的过程。
网页正文,网页所含的超文本标记以及网页间的超链接,这三个部分组成了Web页面中的有效信息。其实实际上,仅仅网页之间的超链接,并不能代表Web的结构:
从广义上讲,Web的结构包含有:
①URL字符串中的目录路径结构信息;
②网页内部内容的可以用HTML、XML表示成的树形结构;
③网页之间的超链接结构。
Web结构挖掘涉及到海量的计算信息数据,怎样解决大量信息数据和有限的计算存储空间之间的矛盾,怎样提升数据挖掘算法的效率和实时性将是一个有待大家继续深入探讨研究的问题。
(3)Web使用记录的挖掘[3]
网络上的原始数据是Web内容挖掘、Web结构挖掘的对象。但是Web使用记录的挖掘则却和前两者并不相同,它是对web上第二类数据即Web日志数据及相关数据的挖掘。Web使用记录是通过挖掘Web访问记录发现有价值的数据,提取感兴趣,有价值的模式。
通过分析这些信息数据,我们可以理解并且分析用户的行为,从而发现电子商务的潜在客户,帮助我们不断地改善Web站点的结构或为用户提供个性化的服务,并且对Web服务器系统的性能进行改进。
Web使用记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。Web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设,增加个性化服务等。
这方面的研究主要有两个方向:一般访问模式挖掘和个性化的使用记录挖掘。
4数据挖掘的主要技术
数据挖掘技术是多个不同学科领域的技术与成果结合的成果,现今的数据挖掘技术主要有人工智能、数据库技术、概率与数理统计三个主要方面。以下是几种比较常用的技术:
(1)关联分析
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测[7]。它的目的是为了挖掘出隐藏在数据间的相互关系。从大量的数据中发现其关联知识在市场定位、决策分析和商业管理等领域是极为有用的。例如,网络中的电子商店收集存储了大量的客户销售数据,这些数据清晰地记录了每个客户的购买事务;比如交易的受理时间、顾客选择购买的物品、物品的数量及金额等。商家可以通过利用这些数据使用关联分析知道每个顾客进入电子商场购物时,商家想知道的是顾客会购买哪些商品?除了这个商品以外还会买什么,它们之间的联系时什么?购买这些商品的顾客有什么共同的特点?通过得到的这些信息可以很好的帮助店家,制订出针对商品和顾客管理的一系列商业决策,从而提高销售额。
(2)聚类分析
数据库中的数据可以规则分为一系列有意义的子集,称为聚类。将由聚类所生成的一组数据对象的集合,他们之间的相似度比较高,每一个个体之间的;离得较近;不同组中的对象差异较大,个体之间距离则较远。在实际情况的使用中,可以根据已有顾客的数据,可以利用聚类分析将掌握的客户数据根据客户之间的共同特点来细分的市场,比如追求相似利益的人群、具有相同爱好的人群、相同年龄层次的人群、相同收入水平的人群、相同职业特征的人群等等,制定正确的市场策略,使企业在如此激烈的竞争环境中取得有利位置。
(3)神经网络
神经网络的工作原理是对人类大脑思维系统的一个简单的结构模拟。人脑神经元的基本功能是多个神经元连接而成的多层网络模仿而成。神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。正是它的出现为许多传统信息难以解决的问题提供了一种较为简单有效的方法,所以近年来人工神经网络技术得到不断成熟和发展。
(4)分类分析
数据挖掘中应用比较频繁的方法就是分类。分类是找出一组类别,能够描述数据集合典型特征的模型,它具有此类数据的共同特点,可以用它来分类识别未知数据的归属或类别。
分类一般用于预测有限离散值。但某些情况下,需要预测某数值属性的值(连续数值),在这种情况下分类就称为预测。
(5)决策树
决策树从它的名字就不难发现它的结构就像一棵树。它利用树的结构将数据记录进行分类,是一种预测模型。决策树分类方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方法,其关键是能够构造出规模小、精度高的决策树。例如,我们要分析一个公司的客户接受某项新产品的情况,我们可以从中选取50个客户,其中25个愿意接受并购买这个新产品的,25个不愿意接受并购买这个新产品的。我们通过建立决策树的方法来来分析客户的情况,并从中分析和寻找到一些潜藏的规则信息,然后帮助企业销售。
5结束语
该文讨论了Web数据挖掘的基本概念、基础工作原理和所使用的关键技术。在未来随着电子商务的迅速发展,Web数据挖掘有了更广阔的舞台。Web挖掘技术能够帮助我们发现一些与用户检索的关键词密切相关的有价值网页,从而实现个性化检索。它可以帮助商家发现和获取客户,对商家的市场策略进行调整和改进,并对其进行正确的决策指导,促进电子商务的发展。
参考文献:
[1]LWu,P.S.Yu,A.Baliman.SpeedTracer:AWebusageminingandanalysist001.IBMSystemsJournal,37(1):89-105,1998.
[2]N.Good,B.Schafer,J.Konstan,A.Borchers,B.Sarwar,J.Herlocker,andJ.Riedl,(1999).CombiningCollaborativeFilteringWithPersonalAgentsforBetterRecommendations.InProceedingsoftheconference,439-446.
[3]韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414.
[4]JiaweiHanandMichelineKamber.DataMining:TechniqueandConcepts,MorganKaufmannPublishers,2001.
[5]李凤慧.面向电子商务的web数据挖掘的研究[D].山东:山东科技大学,2004,6.
[6]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].范明,孟小峰,等,译.北京:机械工业出版社,2001.
[7]Http://blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx.