李鸿飞
中国人民大学,北京市 100872
网络信息检索工具的现状分析与发展方向研究
——以搜索引擎和网络资源目录为例
李鸿飞
中国人民大学,北京市 100872
本文将主要阐述目前主要网络信息检索工具的特点,搜索引擎和网络资源目录的对比分析以及网络信息检索工具的发展方向,并根据上述内容提出一些看法和建议。
信息;检索;信息检索;检索工具;搜索引擎;网络资源目录
根据中国互联网络信息中心2012年1月16日发布的《第29次中国互联网络发展状况统计报告》显示,目前我国网民规模已突破5亿。由此可见,互联网已经在网民生活中占据一定的地位。与此同时,互联网上的信息已是海量,搜索引擎则是网民在汪洋中搜寻信息的工具,是互联网上不可或缺的工具和基础应用之一。
从广义的角度讲,信息检索包含信息存储和信息获取两个过程。狭义的信息检索是指广义信息检索的信息获取过程,相当于人们所说的信息查询等。具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。
全文搜索引擎在国外代表有Google,国内则有著名的百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
网络资源目录虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户可以通过分类目录找到所需要的信息,而并不进行关键词的输入查询工作,网络资源目录中最具代表性的莫过于大名鼎鼎的Yahoo。
(1)门户搜索引擎:如目前国内的四大门户网站——新浪、腾讯、搜狐、网易。这些门户网站并非从出生之日起就是这样,如新浪原本为网络资源目录的形式,但随着时代的发展,新浪将以前网络资源目录的形式逐渐转变为了门户网站。这样做可以大大增加网站内容的丰富度,更能满足网上冲浪的用户,同时更多广告栏的设置也可以增加网站的盈利。但这样做也就不可避免地降低了网站的规范性,检索功能也被大大削弱,适合于漫无目的的上网者,同时很多内容排列混乱,条理性不强。
(2)元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
目前最重要的两类网络检索工具就是搜索引擎和网络资源目录了,搜索引擎和网络资源目录的主要区别有:
搜索引擎属于自动网站检索,检索快捷,直接输入关键词即可得到结果,而网络资源目录则完全依赖手工操作。用户根据自己的意图首先去考虑自己需要检索的内容属于哪个类别,然后再去一个个尝试。
搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权,这是一种主动的检索,能够检索到大量与我们检索意图相关的内容;而目录索引则要求必须手工选择网站信息,而且还有各种各样的限制,而网站的管理人员划分出来的类别有时候并不包含我们想要的,因此这是一种被动的检索方式,但是这样检索出来的内容更为准确。综合以上特征对比,可知搜索引擎的特点是查全率比较高,网络资源目录的特点是查准率比较高。
美国著名的市场调查公司StatCounter发布了2011年4月份搜索引擎排行榜前五名。全球范围内,搜索引擎排行和所占份额:
①Google - 90.2%;②bing -4.06%;③Yahoo!- 3.84%;④Baidu -0.53%
中国范围内,搜索引擎排行和所占份额:
①Baidu - 73.31%;②Google -24.33%;③Yahoo!- 1.08%;④bing -1%
由此可见,在全球范围内,google依然是网络检索工具第一大巨头,其他网络检索工具只能望其项背,而在中国,由于google撤出中国大陆,加上百度作为中文搜索引擎的独特优势,成为中国第一大搜索引擎。
目前,搜索引擎与网络资源目录有相互结合的趋势。目前很多的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询,而像Yahoo则通过与Google等搜索引擎合作扩大搜索范围。当对于检索内容的概念比较模糊时,可以通过网络资源目录选择准确的方向,一旦找到合适的词汇便可以通过搜索引擎扩大检索范围,这样就把两种检索工具做了一个很简单的集成,但用户却轻松地获得了很好的使用体验。
从上述的分析可以看出,搜索引擎和网络资源目录这两种信息检索工具,用户更倾向于选择搜索引擎这种主动、便捷的检索方式。在进行信息检索的过程中,很多时候,搜索引擎能够帮人们完成信息检索的任务,但有的时候,特别是当人们自己无法明确“检索词”具体是什么的时候,可以现在网络资源目录中进行浏览,从中得到启示,确定自己检索的类别,从而摸索出检索词具体是什么,这样将两种网络检索工具灵活运用可以帮人们提高检索效率。
随着计算机技术的快速发展和信息检索需求的不断增加,网上检索工具也将更加完善。通过对目前国内外搜索引擎特点的观察和归纳,网上检索工具的将主要朝着以下几个方向发展:
4.1 实现搜索引擎和网络资源目录的同步支持。正如前文所述,目前大多数网络资源目录和门户网站都有内置的搜索引擎,这些搜索引擎既可以由外部公司提供,也可以由自己公司制作。通过这样的实现方式,能将搜索引擎和网络资源目录的优势结合起来,用户可以根据自己对检索课题的熟悉情况来选择检索方式。
4.2 网络检索工具的功能多样化。当前的网上检索工具已不仅仅只是提供搜索功能,随着用户需求的多样化,各大网络检索工具提供公司正致力于提供更多其他方面的服务,以满足用户不断增加的多样化需求。如可以提供天气预报、新闻报道、股票点评、免费电子信箱等。
4.3 实现多媒体检索。当前的网络检索工具一般或者说广泛使用的只有文字检索,而网络资源丰富多彩,除了文字内容还有视频、图片、音乐等,未来的网络检索工具应实现对图表、图形、图像、声音、视频等多媒体进行检索的功能。而具体的技术实现以及用户体验等问题还有待进一步研究。
4.4 多语言检索。这是当前时代给检索工具带来的印迹,随着各国人们之间交流的简便化、密切以及人们对掌握多语言的追求,人们对多语言检索的需求将会不断增加。网络检索工具要响应时代的号召,不但能实现多语种检索,同时对语言之间翻译的智能化也要不断增强。
4.5 商业化发展趋势。网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。在这里汇集了最新的思想、最先进的技术和最大的潜在市场。
搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。在这条路径上的检索和信息提取是什么呢?是我们的阅读和大脑的判断,也就是做搜索引擎的最后一步是我们的大脑。随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,为搜寻者提供更准确及适用的资料。
[1]王立清.信息检索教程.北京:中国人民大学出版社,2008
[2]于彩云.搜索引擎Yahoo的性能评价及评价指标的选择.现代情报,2007(2)
[3]焦玉英等.信息检索.武汉:武汉大学出版社,2008
10.3969/j.issn.1001-8972.2012.15.035