于会弟
摘要:网络的发展日新月异,以网络为媒介的网络信息检索也异军突起,在众多的传统和现代检索方式中脱颖而出,并以其共享性、动态性和更新迅速等优点日益发展成为占据主流的检索方式。文章针对这一发展趋势,对网络检索作了较为详细和全面的分析阐述,着重从网络检索的概念、网络信息资源的特点、网络检索的工具、网络检索存在的一些问题以及网络检索的发展前景展望等几个方面展开了论述。
关键词:信息检索;网络检索;搜索引擎;Internet
中图分类号:G354文献标识码:A
文章编号:1674-1145(2009)12-0139-02
信息检索是指从文献集合中查找出所需信息的程序和方法。所谓文献集合是指有组织的文献整体。它可以是数据库的全部记录,也可以是某种检索工具,还可以是某个文献收藏单位收藏的全部文献,当然也可以是某个单位通过Internet发布的各类信息集合。信息检索发端于19世纪前期,主要以手工检索方式为主,其发展速度较为缓慢,检索效率普遍不高。到20世纪50年代,1951年世界上出现了最早的计算机系统,这可称得上是信息检索发展史上的一个里程碑。随着计算机技术的不断进步,进入20世纪90年代,网络技术开始进入社会生活各个领域,计算机检索也逐步由脱机检索、联机检索发展到如今的Internet环境下网络检索。网络检索以其低廉的费用、迅速的存取等多种功能对传统的检索造成了强力的冲击,与此同时,一些新的理论、新的课题也应运而生,加速了现代情报学和信息学的发展。网络息检索是指对利用Internet信息发布技术,通过 Internet发布的信息进行的检索,主要利用搜索引擎、网络机器人和门户站点等来完成。
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,其信息数量之大、类型之多,已经给人们的工作、学习和生活方式带来了巨大影响。为了充分发挥网络信息的重要作用,并能迅速在上百万个网站中快速有效地查找到想要得到的信息,必须对网络检索的特性进行研究分析,并掌握网络信息资源的特点、基本方法和检索技巧和检索工具等重要内容。
一、网络信息资源的特点
网络信息资源的分布主要以网站为单位,数以千计的网站在Internet上形成了犬牙交错的信息资源库。但总体来讲,网络信息资源相比其他信息资源具有如下主要特点:
1.离散性与共享性。WWW是受TCP/IP支持的应用协议集,它采用HRL,HTM,HTTP和CGI进行信息定位、存取和显示。在静态上,WWW是一个全球范围内的的相互链接的多媒体信息网,同时在逻辑上它也可被看作是用HTML书写的分布式超文本结构。这种超文本结构使得文档之间用热键链接,这种自由度使得信息交换与分享潜力无穷。也正是由于这种离散性,使得网络信息资源能为所有网络用户共享,这一优越性是其他信息资源所不具备的。
2.动态性和及时性。网上信息资源的瞬息万变,极其丰富,信息的更新也很迅速。
3.不均匀性。有两重含义,一是网络信息的质量不均匀,二是网络信息分布不均匀。
4.潜在的失控性。任何个人团体只需具备上网条件能够使用HTML,就可以把任何信息放到网上,这种信息经过种种检索工具的标引,就可供用户检索,中间没有任何形式的质量控制,势必影响检索效果的查准率,从而导致检索效率的失控。
二、网络检索的基本方法和技巧
网络检索的基本方法有两种:一是通过分类搜索引擎检索;二是通过关键词检索。
分类搜索引擎可以清晰方便地查找到某一大类信息,比较符合传统的信息查找方式,尤其适合那些希望了解某一方面(或范围)信息,并不严格限于查询关键字的用户。但目录式搜索引擎的搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,这样有可能遗漏某些重要的信息源。
分类搜索引擎的分类方法有学科分类和图书分类两种。学科分类由各搜索引擎将搜集来的信息按照学科类型分门别类地进行排列,大多数搜索引擎都提供这种检索方法,只是它们采用的分类标准各不相同。大多分类搜索引擎不提供图书分类搜索,因为图书分类的分类标准来源于图书分类法的基本大类,如我国的《中国图书馆图书分类法》、国际上通用的《国际十进分类法》和《杜威十进分类法》等,要求相对比较严格。CERNET网络中心的网络指南针提供图书分类搜索。关键词检索是直接在搜索引擎提供的检索对话框中输入要检索的关键词进行的检索。输入的关键词可以是单个词汇,也可以是多个词汇,通过组配的方法进行比较复杂的检索。
关键词检索是网络信息检索的主要方法。下面详细说明关键词检索的方法和技巧。
关键词组配检索是根据关键词之间的逻辑关系,利用逻辑运算符把关键词连接起来,构成检索表达式进行的检索。正确的掌握和利用此方法是有效提高网上信息资源检索利用的关键。逻辑运算主要有三种:“逻辑与”、“逻辑或”和“逻辑非”。逻辑与(通常用“AND”或“*”表示)检索式为:A AND B或 A*B。可用来表示其所连接的两个检索项的交叉关系,也即交集部分,表示让系统检索同时包合检索词A和检索词B的信息集合。逻辑或(通常用“OR”或“+”表示)检索式为:A OR B(或A+B)表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B的信息。逻辑非(通常用“NOT”或“-”表示)。检索式为:A NOT B(或A-B)。表示检索含有检索词 A而不含检索词B的信息。即将包含检索词B的信息集合排除掉。
三、网络检索工具
随着WWW站点的增长,Internet上的信息数量和种类越来越多,为了解决信息利用的难题,互联网建立了许多专门的信息检索工具——搜索引擎,使用户可以通过关键词或分类的方法找到所需信息。
网络检索工具大致可分三大类型:
1.字典型检索工具。类似字典、电话簿和人名录的功能,用于检索网上用户人名、E- mail、URL、服务器地址等。这类工具有查地址:White Pages Directory,Internet Yellow Pages,whois,Fred,X。50 0,Netfinder,IAF,Four1 1,Finger,Who Where;查用户组:Deja News,FAQ Archive等;查软件:shareware.com。
2.索引型检索工具。为网上信息资源建立索引,这类工具有:FTP资源的索引:Archie等;Gopher资源的索引:Verronica,Jughead等;网上服务器的索引:Wais等。
3.交互型检索工具。提供类似商用联机检索的网络信息检索服务。这类工具基本可分Gopher和WWW两大类:Gopher:采用客户机/服务器结构,把Internet上分散和各自独立的信息源联成一体,以简单的菜单选择方式提供遍布全球的Gopher信息资源的检索。Gopher是较早期的网络检索工具,发展势头不如 WWW;WWW(World Wide Web)中文译名环球网、全球网或万维网,同样采用客户机/服务器结构,以其联网简单(http)、超文本连接(Hyperlinks)、标准格式、规模大小可伸缩、多媒体、浏览界面(browser)、易用等特点,大到美国国会图书馆、小到任何个人都可入网,从而构成当今世界上最大、最普及的网络信息检索系统。
四、网络信息检索中存在的问题
尽管国际互联网检索工具的发展已具有一定规模和达到一定层次,然而,作为一个整体,还存在着准率差的问题。总的来说,Internet搜索引擎存在如下问题 :
1.缺乏网络信息质量控制。任何个人团体,只要具备上网条件,知道如何使用超文本标识语言,就可以把任何信息放到网上。这些信息经过种种检索工具的标引,就可供用户查询,中间没有任何形式的质量控制。未经质量控制的信息,必然影响检索结果的查准率。
2.网络检索工具的功能尚待完善。与传统计算机检索工具相比,网络检索工具尚不能修改原有检索结果,每次检索都是重新开始,不能对原有结果加以利用。由于网络文件的结构特殊(如超文本),且不按传统意义(如著者或篇名)的字段进行检索。目前还没有任何一个网络检索工具可在检索功能上与传统计算机化的检索工具相媲美。
3.缺乏检索词汇控制。几乎所有的网络检索工具都采用自然语言标引和检索,其必然结果是同义词和近义词得不到控制,词间相互关系得不到揭示,最终影响检索效果。
4.自动标引的局限性。自动标引虽然省时省力,但不可避免地给检索带来一些问题和困难。这些问题和困难最突出地表现在自动标引不可能像人工标引那样进行智能甄别和选择,而只能依赖关键词词频等标准判断网络文件的价值。
5.逻辑运算无统一标准。搜索引擎中有的用AND、OR、NOT;有的用“+”、“-”号代替AND、NOT,而将逻辑或OR设为缺省值;有的则是AND、NOT两种符号都采用。
6.支持功能不统一。有的搜索引擎具备完整的逻辑检索功能,有的则只支持部分逻辑检索功能,比如有的检索工具能与圆括号()结合进行复杂的课题检索,而有的检索工具则不能。
7.使用途径不统一。有的搜索引擎必须在其高级检索方式中才能使用(如只能用AND而不能用“+”,只能用NOT而不能用“-”);有的必须在一般检索方式中才能使用,有的则可在两种检索方式中混合使用。为了提高WWW搜索引擎的检索质量,在搜索引擎的开发中应注意完善搜索引擎的功能,增加检索途径和限定提高查准率;同时在信息标引时采用词频和词表相结合的办法,加强对检索词汇的控制,并提高标引速度。
五、网络检索前景展望
目前网络信息检索技术虽然取得了很大进展,却仍面临以上诸多困难和问题。可喜的是,当今出现的一系列新型检索模式,包括网络信息规范控制标准等为网络检索的未来展现了新希望。
1.多种技术的整合将使网络变得更加丰富多彩。目前,网络检索(Web search)从总体上还停留在对网上全文、索引、目录等基于关键词的检索。对网络检索的概念仅局限于对具独立 URL网址的网页的检索。实际上,借助于计算机处理能力、存储能力的大幅度提高以及网上数据通讯带宽的急剧扩大,再加上更多新类型信息将由更多的网上用户通过不同的网络设备提供上网,人们对网络检索的概念将发生戏剧性的变化,将要展现在我们眼前的是网上各种信息载体的“百花齐放”;待检索的网络信息存储在“动态”管理的数据库中而非“静态”的网页中。
2.搜索引擎将实现从检索“出发点”向“目的地”的转型。对绝大多数搜索引擎来说,尽管检索服务向用户提供带有超文本链接的检索结果仍是目前服务的重点,但在充满竞争的现实中,最成功的应该是那些本网页提供的信息就能使用户受益匪浅,而不是仅能提供引向其他网页的链接。目前,更多的搜索引擎正致力于通过加强对用户检索需求的满足实现从检索“出发点”到“目的地”的转型。Hot Bot的Truher认为:“对绝大多数用户来讲,并不是为了找寻信息而找寻信息,检索的最终目的是要真正能解决问题。”未来的网络检索服务将尽可能地了解用户的真正需求并据此将检索结果进行分门别类的处理,而不是对每一个检索提问都一古脑儿输出大量的结果。
3.智能化的进程将会跨上新台阶。Intelli- Seek的执行总裁 Mahebdra Vora预言“未来的网络检索软件将更智能化,它能理解不同用户的实际需求并提供主动服务”。而Hot Bot的Truher预测“今后的检索界面将更具有检索‘助手功能,这种助手比现有搜索引擎要出色得多”。
4.崭新的标准将为消除网络的混杂局面带来生机。网络检索质量保证最大阻碍之一是网络结构的混乱嘈杂,缺乏统一标准化的描述方法和手段。目前人们正在研究新的统一的标准和描述方法以期能改善这种混乱的局面,也取得了一些阶段性成果和进步,我们拭目以待新的标准能尽早出现。
参考文献
[1]湖北省图书馆.湖北省图书馆湖北名胜风景数据库
[EB,0L].[2007-06-23].http://www.library.hb.enI 8080/
was40/search?channelid=51986..
[2]Elisa Lanzi,Ann Bmrd Whiteside.CCO Commons[EB/OL].[2007—07—26].hap://www.vraweb.or~eeoweb,co/about.html.
[3]刘佳.基于内容的图像浏览与检索系统研究[D].西安:西安科技大学计算机科学与技术系,2006.