方 铖 王 琦
摘要:介绍了用于网页智能搜索的数据挖掘技术以及如何创建多维的网页语义数据库。
关键词:智能搜索语义结构数据挖掘
网页搜索引擎的基础是基于关键字的索引,而将数据挖掘用于网页分类则是对基于关键字索引的一个有力的补充。数据挖掘可以帮助网页搜索引擎发现更高质量的网页,并且提高网页点击流的分析质量。然而,为了使网页发挥它的最大潜能,我们必须改进它的服务,使它更加方便理解,并且增加它的可用性。
1设计难点
如何设计智能化的网页是主要难题之一,需要解决两个基本问题:在抽象层上,用来访问网页上的海量数据的传统模式面向的是基于文本、基于关键字的网页视图,而我们认为面向数据的网页视图将更加有效;第二:在服务层次上,我们必须用能够遍历整个网络的更加全面的访问模式来取代现有的原始的访问模式。
2网页数据挖掘工作任务
如果我们想要有效地利用数据挖掘技术来开发网页搜索智能,就必须完成如下几个工作任务。
(1)对网页搜索引擎数据进行数据挖掘
基于索引的网页搜索引擎在网络上运行,对网页创建索引,创建并且存储大量的基于关键字的索引,以帮助定位包含某些特定关键字的网页。
基于关键字的搜索引擎存在如下二个缺陷:第一,一个范围稍微大一些的主题会包含数十万个结果文档。这样搜索引擎会返回大量的文档,其中很多与主题关系不大,包含的有用信息很少;第二,很多高度相关的文档可能并不显式地包含关键字,这种现象可能是一词多义引起的。
基于以上这些因素,可以把数据挖掘和网页搜索引擎结合起来,这样能提高网页搜索质量。网页链接和网页动态分析为如何发现高质量的文档提供了基础。
(2)分析网页链接结构
权威页面的秘密隐藏在网页链接中。这些超链接包含了大量的最新的人们对网页所做的标记,它们能够帮助网页搜索自动地找到权威的页面,当一个网页的作者创建了一个指向另一个页面的超链接的时候,这一行为可以认为是对另一个页面的认可。如果不同的作者都认可同一个页面,这就表示这个页面很重要,这样自然就产生了权威的页面。所以说网页的超链接数据提供了一个非常丰富的用于网页搜索数据挖掘的数据源。然而不是每个超链接都表示对该页面的认可,页面作者有时候会出于其它的目的创建超链接,例如做广告,但是,从整体上来说,如果大多数的超链接都代表一种认可的话,那么集体的意见还是能占主流。另外属于商业性质或者带有竞争目的的网页很少会有指向其竞争对手的超链接。权威的页面也很少会有说明式描述。
网络链接结构的这些特点,研究者们开始考虑另一种重要的网页类型:Hub页面。Hub页面指的是一组网页,它们包含了指向一组权威网页的超链接。也许这些Hub页面并不是很重要,也只有很少几个超链接引用到它们,然而它们却提供了指向有关于某个主题的一组关键网站的链接。
通常,一个好的Hub网页指向很多好的权威的网页,反过来,一个网页被多个Hub网页引用,则可以认为它是一个好的权威网页。Hub页面和权威页面之间这种相互确认的关系可以帮助用户对权威网页进行数据挖掘,从而自动地发现高质量的网页结构和资源。
研究者们依据这种辨别权威网页和Hub网页的方法开发了PageRankPl和HITSl31算法。一些商业网页搜索引擎,例如Coogle,就是用这些方法构建的。通过分析网页链接和上下文信息,这些系统能够产生更高质量的搜索结果。
(3)自动给网页文档分类
类,我们还是希望能够自动进行分类。典型的分类方法利用正面和反面的例子作为训练集,然后给每个文档分配一个类别标签,这些标签来自于基于预先分类的文档示例的一组预定义的主题分类。
与其他的分类模式不同,自动分类模式通常不能定义反面的示例。如,我们只知道某个预分类好的文档属于哪个类别,但不知道某个类别不包含哪些文档。因此,网页分类模式通常不需要显式地标注反面的示例。
(4)网页语义结构和页面内容数据挖掘
目前,对自然语言进行自动解析还存在种种限制,全自动地抽取网页结构和语义内容还是很困难的,然而,半自动的方法已经能够识别大部分的网页语义结构。专家可能还需要定义一种特定的页面类型包含哪些类型的结构和语义内容。接着,页面结构抽取系统就可以分析网页看看它的一个片断的内容是否能够套用某个语义结构。开发者还可以测试用户反馈来提高训练和测试的过程并且改进所抽取的网页结构和语义内容的质量。
(5)网页动态性数据挖掘
网页数据挖掘也能够发现网页的动态性一网页的内容、结构和访问方式如何发生变化。存储与网页搜索数据挖掘参数相关的历史信息能够帮助发现网页内容和链接的变化。我们可以比较不同时间的镜像来发现网页有哪些更新。与关系数据库系统不同,网页涉及面很广,存储了海量的信息,基本不可能系统地存储历史镜像或者是更新日志。这些限制使得发现网页的动态变化几乎不可行。而另一方面,对网页访问活动进行数据挖掘则是可行的,而且在很多应用中,它也是有用的。
有了这项技术,用户可以对网页的日志记录进行数据挖掘,从而发现网页访问模式。分析网页日志记录中的规律性可以提高互联网信息服务质量,并帮助把这些信息传递到终端用户,改善网页服务器系统的性能,并且识别出电子商务潜在的客户。
研究者们已经利用这些网页日志文件来分析系统性能,通过网页高速缓冲、网页预取和交换来改进系统设计,确定网页吞吐量,评估用户对网站设计的认可度。
网页日志分析还可以帮助为每个用户构建可定制的网页服务。由于网页日志数据提供了关于某些特定网页的流行程度和访问方法的信息,这些信息可以和网页内容和链接结构信息结合起来,对它们进行数据挖掘,能够帮助给网页定级、给网页文档分类,并构建一个多层次的网页信息库。
(6)创建多层次、多维的网页
通过如下三个主要步骤来创建并且使用多维网页:
第一步,系统分析一组网页,包括对网页内容、结构、链接和使用模式的分析,进行分析的目的是:将一组高度相关的本地页面组成一个集群,称为语义网页;如果一个单独的网页组成一个独立的集群,则把这一个网页作为语义网页。分析完成后,会为每个语义网页产生一个描述符,包含了创建网页目录时需要用到的一组关键的特性。
第二步,基于专家提供的本体和网页语义描述符数据库,构造一个基于语义的、自适应的、多层次的多维的网页信息目录。可以利用这个目录系统来提供查询和信息服务、信息分析和数据挖掘,构建一个多层次的网页信息库来方便互联网上的资源发现,多维分析和数据挖掘。
3结束语
网页智能搜索的数据挖掘将成为网页技术的一个重要研究方向,全面的利用网络上的海量信息,才能把网页变成我们很容易共享的更丰富、更友好也更智能的数据源。