Web信息采集技术综述

2011-03-18 01:35张力

图书馆研究与工作 2011年2期

张力

(浙江师范大学图书馆,浙江金华 321004)

〔作者信息〕张力,男,馆员。

拥有丰富表现力的Web信息充斥着Internet,作为互联网络最重要的信息发布方式,Web信息在急速膨胀。充分、有效地利用网络信息是艰难的。一方面Web信息量巨大,另一方面Web信息的动态性、多构性、广域性也严重阻碍了人们对Web信息的管理和使用。为了迎接海量网络信息给人们提出的巨大挑战,深化网络信息服务,提高信息利用率,Web信息采集技术成为不断发展创新的研究内容。

1 Web信息采集的历史

由于量大面广,Web信息采集通常利用计算机软件实现 ,例如 spiders、robots、wanderers等。它是依据某个标准或方法,对互联网络的Web信息进行收集,在此基础上进行分析处理的过程〔1〕。其最终目的是将分析结果应用到具体理论研究领域或解决实际操作中的问题。

1993年,第一个网络搜索工具诞生,名称为“World Wide Web Wanderer”。此款软件只能收集静态网页,拥有简单的索引功能。同年,Yahoo的鼻祖AliWeb出现,它初步具有对网页主题、URL、关键词等索引的功能。1994年1月,Einet Galaxy开展了MCC研究,此项研究主要是通过手工管理他人所提交的URL地址并初步开发出了针对Telnet和Gopher的检索功能〔2〕。1994年早期,Web信息在采集过程中的信息处理较为简单,首先是采集范围较小,其次只是对信息资源进行局部内容索引。1995年后期,Digital Equipment Corporation对采集的Web信息进行全文索引,推出AltaVista搜索引擎。1998年Google诞生,最初采用的是Pagerank信息采集处理技术,到2003年,Google以平均每月更新一次的方式,采集全球50%以上的Web信息,并引入语义处理技术处理采集的Web信息。与此同时,随着半结构化数据库的发展、机器学习和自然语言处理等技术的发展,对Web信息进行简单采集和索引的方式已不能满足需要,基于元数据的Metacrawlers信息采集〔3〕(1995 年元搜索引擎出现)、基于Ontology的Web信息采集技术〔4〕、基于Multi_A-gent的Web信息采集技术〔5〕等进入人们视野,拓展了信息采集思路,开创了Web信息采集技术的新领域。

2 Web信息采集的工作模型

Web信息采集流程是基于用户需求,按照需要采集的内容及其对应的采集规则,采集符合条件的Web站点有效数据项和相关媒体信息附件。这仅仅是采集工作的一部分,后期还要完成对所采集的Web信息进行解构、分析、分类、索引等处理工作。就目前流行的工作模型而言,大体可以分成单进程/多线程并行模型、异步/同步模型、分布式模型等,具体案例如下：

Google Crawler采用的是分布式、单进程、异步I/O工作模式,它没有采用并行工作模式。GOOGLE首先通过HASH函数计算目标服务器的IP地址,保证来自同一站点的 URL被分配到同一个采集器中。分布式存在的多个采集器共同维护着需要采集URL队列,当采集器通过异步方式打开300个URL时,每个URL都来自不同的站点服务器〔6〕。这种工作模式执行的重点是寻找DNS,由此避免目标站点服务器由于网速过慢而导致的低效率和对目标站点服务器所产生的高负载状况。

Mercator Crawler采用的则是多线程并行、同步I/O工作模式,每个线程分配一个独立的协议模型和不同的处理模块,保证在进行下载过程中不会发生拥堵〔7〕。此工作模型在最大程度上简化了程序构架,线程间的切换工作交给操作系统来控制,较好地保持了内存使用和性能优化之间的平衡。

3 Web信息采集的对象

Web信息采集对象分类有多种标准和形式,以采集的信息广度为依据,对Web信息采集对象做以下划分：

3.1 定题采集

定题采集是以用户规定的信息主题内容为依据,按照对应算法处理,在网络上搜索相关Web信息,进而向用户提供个性化服务,它是第三代搜索引擎的发展方向之一。此处所提到的主题,并不局限于用户所指定的关键词,它也可能是某些代表性文本〔8〕。

定题采集提高了资源利用率,节约了采集费用,有利于为用户提供个性化服务,内容更具有针对性,更能够准确地满足用户需求。

3.2 定域采集

定域采集强调的是地理区间,较定题采集范围小,信息分类则更宽泛。定域采集通常在法律法规的框架范围内,用于对某区域的特色信息进行归档,形成一种文化财产,并进行保护、保存和后期开发利用。

3.3 定点采集

定点采集是根据某个限定准则,指定信息来源并从中挑选出若干具有特色的站点(如门户网站、专题报导等),进行Web信息采集。定点采集适用范围较小,通常出于保存易逝信息和达到一定评估标准的网站信息。

4 Web信息采集的算法

网络信息采集工作是一项长期而又艰巨的任务,有效、稳定地完成任务需要配套的算法来支撑。根据算法的特点,我们将Web信息采集技术算法分为三大类。

4.1 效率型

Web信息资源时刻处于变化之中,采集系统必须知道如何遍历整个网络,何时重新访问某些网页,以及用何种频率访问以保证采集的信息更新颖、更全面。除此之外,网络环境、链接层次、硬件读写等也是采集系统必须考虑的因素,而这些都是效率型算法所需要解决的问题。Breadthfirst、Depth-first、Hash algorithm、Network proximity algorithm 、shark search algorithm 、fish-worm algorithm等都属于此类算法。

4.2 挖掘型

挖掘是从Web信息中发现新的有效、有信、可行信息的过程。它可以派生出Web信息中存在的模式和趋势,而这些是通常数据处理过程中所无法实现的。挖掘型采集算法被广泛应用到主题采集案例〔9〕〔10〕和 Web 页之间的关联强度〔11〕〔12〕评估方面,挖掘算法主要有Apriori算法和FPGrowth算法等。

4.3 机器学习型

机器学习概念来自于人工智能,它指的是软件模拟或实现人类的学习能力,通过获取外部信息,籍以重新组织自己原有的知识结构,达到改善自身性能的目的。

机器学习可以通过 Metadata〔13〕、Topic-specific〔14〕、Ontology〔15〕等为媒介 ,引入遗传算法和神经网络等智能计算方法,以前期采集经验为基础,不断自我优化、自我适应新的网络环境,从而得到一个优化后的采集结果。

5 Web信息采集目的

5.1 长期保存

网络信息呈指数增长的同时,其消失的速度也同样令人吃惊。在消逝的Web信息中,很有可能就包含着人类珍贵的“数字遗产”。为了能够长期保存人类知识和文化,世界各国已经在不懈努力地收集保存那些具有保存价值的网络信息资源。如果能够设计配套的采集策略,针对具体目标,实施对应的采集技术,无疑对数字遗产的保护起着举足轻重的作用。

5.2 信息检索

Web信息采集伴随着网络信息的检索需求而出现。第一代搜索引擎提高了人类定位所需网络资源的能力,1995年出现的Lycos搜索引擎在前人基础上提出了更多服务概念。1998年诞生的Google属于第二代搜索引擎,其特征是引入了人工智能计算。第三代搜索引擎特色是使没有使用H TML格式的信息也能被检索到,而这些则对Web Crawler工作提出了更高的要求。

5.3 挖掘与评估

挖掘技术可以从海量信息中发现常规方法下无法看到的信息模式和发展趋势,这是目前信息利用层次的发展方向之一。而无论是信息挖掘还是信息检索,都是建立在明确的评估体系下,基于某种标准对所采集的信息予以筛选或突出显示,较为有名的是Google所采纳的Page Rank算法、hub-and-authority method〔16〕、美国 OAIS 系统中的信息评价体系、美国俄亥俄州公共图书馆信息采集指标。

6 结语

Web信息采集是网络信息研究工作的起点,它解决的问题包括信息采集的全面性、准确性,新信息的及时发现,信息主题关联,信息评价等。它的进步,不仅为网络用户信息共享、信息交互等方面奠定基础,还深化了网络信息的利用层次,提高了网络信息服务质量,促进了搜索引擎的进一步发展。

〔1〕COTHEY,V.Web-Crawling Reliability〔J〕 .Journal of the American Society for Information Science and Technology,2004,55(14)：1228-1238

〔2〕Http ://www.galaxy.com.〔2010-04-25〕

〔3〕Chen,HC;Fan,HY;Chau,M,MetaSpider：Metasearching and categorization on the Web〔J〕.Journal Of The American Society For Information Science And Technology.2001,52：1134-1147

〔4〕Sheng-Yuan Yang.OntoPortal：An ontology-supported portal architecture with linguistically enhanced and focused crawler technologies〔J〕.Expert Systems with Applications,2009,Vol 36：10148-10157

〔5〕XU Zhaocai,C Xianyi.Focused Crawling Algorithm Based on Multi-agent System〔J〕.Computer Engineering,2008,Vol 34：204-206

〔6〕S Brin,L Page.The anatomy of a large-scale hypertextual Web search engine〔J〕 .Computer networks and ISDN systems.1998,Vol 30：107-117

〔7〕A Heydon,M Najork.Mercator：A scalable,extensible Web crawler〔J〕.World Wide Web,1999,2(4)：219-229

〔8〕 S Chakrabarti,M Van den Berg,B Dom.Focused crawling：a new approach to topic-specific Web resource discovery〔J〕.Computer Networks,1999,Vol 31：1623-1640

〔9〕 Gautam Pant,Padmini Srinivasan.Topic-driven crawlers Machine learning issues〔 J〕 .ACM Trans.on Internet Technology.2002

〔10〕Yuefeng Li,Ning Zhong.Web mining model and its applications for information gathering〔J〕.Knowledge-Based Systems,2004,Vol 17：207-217

〔11〕Neel Sundaresan,Jeonghee Yi.Mining the Web for relations〔J〕.Computer Networks,2000,Vol 33：699-711

〔12〕Soumen Chakrabarti.Data mining for hypertext：A tutorial survey〔J〕 .ACM SIGKDD Explorations Newsletter,2000,Vol 1：1-11

〔13〕Siegfried Handschuh,Steffen Staab,Fabio Ciravegna.S-CREAM Semi-automatic CREAtion of Metadata〔J〕.Knowledge Engineering and Knowledge Management：Ontologies and the Semantic Web,2002：165-184

〔14〕 Rungsawang,Angkawattanawit.Learnable topicspecific Web crawler〔J〕 .Journal of Network and Computer Applications,2005,Vol 28：97-114

〔15〕Hai-Tao Zheng,Bo-Yeong Kang,Hong-Gee Kim An ontology-based approach to learnable focused crawling〔J〕 .Information Sciences,2008,Vol 178 ：4512-4522

〔16〕 J.Kleinberg.Authoritative sources in a hyperlinked environment〔 J〕 .Journal of the ACM,1999,Vol 46 ：604-632