基于Web数据挖掘技术研究

2015-06-02 11:15张跃等

电脑知识与技术 2015年9期

张跃等

摘要：基于Web的数据挖掘是采用数据挖掘技术对网页资源进行挖掘的一个热门研究方向，此文分析了了网页数据挖掘的概念、分类、挖掘原理以及相关技术。

关键词：数据挖掘；Web数据挖掘；分类；挖掘技术

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）09-0016-02

Abstract： Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining， this paper analyses the Webpage the concept of data mining， classification， mining principle and related technology

Key words： data mining； web data mining； classification； mining technology

互联网的不断得到发展，网页中数据量迅速增加，如何从这么多的网页信息中获取有用的数据已经成功数据挖掘领域的一个热门的研究方向，数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道，尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术，把有用的数据从海量的网页数据中挖掘出来，为我们从事其他方面的运用。基于网页的数据挖掘是一门技术的综合研究方向，它的思想是从Internet中提取网页中的大量数据，也就是从网页的数据结构中发现隐含的模式[1]。

1 数据挖掘的特点

1）数据挖掘的特点之一就是半结构化，这个特别算是网页数据挖掘的最大特点[2]，因为网页上的数据分布没有规律，非常复杂，没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。

2）数据挖掘的特点之二是网页中的数据比较分散，这些网页数据存在世界各地的很多服务器上，因此是一种数据源分散的结构。

3）数据挖掘的特点之三是数据库的结构存在不同，因为互联网上的一个网站可以存为一个数据源，它们的结构互不相关，异构性特点比较强，由它们构成的数据库自然而然也属于一种异构的形式。

4）数据挖掘的特点之四是动态性强，网站上的数据资源是不断更新变化的，找不到固定的形式，网站与网站的直接访问的链接是形式变化的。

2 数据挖掘过程

基于Web的数据挖掘与传统的数据仓库相比，网页上的信息是半结构化的或非结构化、不容易识别、变化的，正因为它这些特点，要想在网页上开展直接数据挖掘，可谓很费功夫，就要借助一些方法来预处理数据，才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。

1）数据源的获取，在网站的各个页面中获取数据信息，组成目标数据信息源，再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。

2）把获取的数据进行加工处理，网页数据挖掘的好坏直接与数据源的好坏相关，如果获取的数据源有大量的垃圾数据，对数据挖掘过程有很大的影响，因此挖掘之前需要对数据源进行筛选，消除那些杂音数据，保证数据源的纯正，然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。

3）对数据经过提纯处理后，进入模式寻找阶段，这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中，经常会使用到一些相关的方法，例如聚类分析法、关联规则发等挖掘方法。

4）在对数据模式发现后，需要对这些模式进行挖掘，也就是知识的转换过程，把提取到的模式再进行信息转化，转化为我们能够理解，识别的知识，为我们的决策需要提供有用的参考源。

3 数据挖掘分类

在进行数据挖掘的时候，针对不同的数据结构，会采用不同的挖掘方法，这样才能有效、合理挖掘到有用的数据，不能笼统采用一种方法，这样挖掘的数据相应的杂音数据就比较多。大体上，我们把数据挖掘分为三种类型，即：网页使用挖掘、网页结构挖掘、网页内容挖 [3]，如图2所示。

4 数据挖掘相关技术

互联网的发展促进网页数据挖掘得到越来越多的应用，于是针对网页挖掘的各种方法和技术不断出现，就这些相关的技术[4]，下面分别一一介绍。

4.1 网页内容挖掘

4.1.1 网页文档挖掘

网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析，然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现，要采集这些网页文档数据，然后把这些文档数据变成记录的形式存贮进数据库，把这些记录用来表示文档内容特征，为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式，由于文档的特征表示中存在一些缺陷，文档的特征向量的维数非常高，对数据分析不利，因此一个好特征表示主要集中在特征集的选取方面，特征集需求好，对数据进行分析的时间就相对少，如果选取不好，将要花很长时间去等待。因此特征集选取好坏成为数据分析额关键。一旦特征集选择好后，就可以采用聚类、分类、数据关联等方法来进行提取信息，然后对这些提取的信息进行评价分析，找到有用的信息，为后续的决策工作提供指导。

4.1.2 挖掘网页多媒体

在进行网页多媒体挖掘主要关注的是特征提取，这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL，最后根据这些特征进行数据挖掘。

4.2挖掘网页结构

挖掘网站空间中的知识，不仅关注包含在各个网页内容中的信息数据，同时也关注网站与网站之间的网页结构和超级链接结构，这也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特征，利用聚类和分类来分析页面结构特征，找到特征模式。

4.3 网页使用挖掘

网页使用挖掘也是挖掘网页记录，实际就是挖掘用户在网页上留下的相关的记录信息，网页使用挖掘就是分析用户留言记录的相关信息，通过这些信息时报未来需要发展的用户；网页使用挖掘通常使用扩展有向树模型分析用户的各种浏览行为习惯，挖掘出用户的日志信息，以及用户关心、关注的兴趣领域，把这些信息存放在知识库中，未下一步的分析工作提供数据，对网页使用日志挖掘可分为三个步骤：日志预分析、分析方法处理、模式分析阶段。在网页使用分析中，关注网页服务器记录的相关信息，这些信息主要包括用户访问的时间、URL、IP、使用方法、代理、返回结构、传输数据等相关信息虽然信息比较多，但是还存在无用的数据，需要进行提纯处理。一旦数据处理后，就能采用关联分析、如路径分析等模式发现技术来分析日志，获取有用的信息。

5 结束语

本文介绍了网页数据挖掘的相关概念、挖掘过程、分类方法以及相关技术。在Internet发展的今天，网页数据挖掘的研究方面更加宽，人们不断关注如何对这些网页数据的处理。网页数据挖掘在各个方面，特别在结合语言问题、查询半结构化、数据库方面会得到不断发展。

参考文献：

[1] ITU–T Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.

[2] 范亚芹，刘颖. Web数据挖掘原理及实现[J]. 吉林大学学报， 2003（4）：370-373.

[3] 朱明编. 数据挖掘[M]. 安徽：中国科学技术大学出版社， 2002：105-122.

[4] 左铁镛. 全面推进素质教育，培养21世纪新型人才[EB/OL]. http：//tjjs .bjedu.gov.cn/ acade/001. htm.