信息检索技术的研究

2015-03-18 08:14:39,肖
湖北科技学院学报 2015年5期
关键词:信息检索搜索引擎检索

唐 娜 ,肖 鹂

(湖北科技学院 图书馆,湖北 咸宁 437100 )

信息检索技术的研究

唐 娜 ,肖 鹂

(湖北科技学院 图书馆,湖北 咸宁 437100 )

通过传统检索系统与网络检索系统的比较揭示传统信息检索技术的局限性,指出网络检索已成为目前信息检索技术的发展主流。在此基础上讨论了浏览和网络资源指南的网络检索的一般方法以及搜索引擎,分析对比了第一、第二和第三代搜索引擎的优势和局限性后,着重论述了第四代搜索引擎的特征。最后展望了网络信息检索技术的发展趋势。

网络信息检索;搜索引擎;智能化;个性化;主动性

一、传统信息检索技术的局限性

信息检索技术经过手工检索、计算机检索、联机检索、光盘检索到今天的网络检索,其发展经历了由低级到高级的过程,这与计算机技术和通信技术为代表的现代信息技术的迅速发展是分不开的,也使传统信息检索系统具有了明显的局限性。

1. 检索操作

手工检索以手工方式检索,费时费力;光盘检索采用人机对话方式引导用户操作,且操作界面友好,易操作,但界面无法改变;联机检索操作复杂,要学习和记忆一系列复杂的检索指令和检索规则,一般用户只能借助专业人员的帮助才能使用;而网络检索采用交互式作业系统透明,利用通用的Windows界面和可操作的个性化界面使检索变得简单、易行,网络用户一般不需要经过太多的培训就能上网操作。

2. 系统特点

手工检索系统入口少,检索速度慢;光盘和联机检索系统入口较多,检索速度较快;而网络检索系统使用网络数据库,入口最多,但最易掌握,范围最广,更新最快,检索速度最快。

3. 检索空间

手工检索受到地域的限制,光盘和联机检索只能检索某一台、某几台和某一局域网内的若干数据库,而网络检索则覆盖全球性的网络,信息分布于世界各地。

4. 检索结果

手工检索的查全率最低;光盘和联机检索准确率高,误检率低,查全率低;而网络检索上的信息资源多,查全率最高,但误检率也较高。

5. 检索内容

手工检索的信息更新速度最慢;光盘检索信息更新速度较慢,一般在3个月左右;联机检索一般在一周或一个月左右,个别的数据库如新闻类每天更新;网络检索更新最快,每天甚至每时更新。

6. 与网络时代格格不入

因特网的出现使信息环境发生了变化,无论是信息存储还是存储传统的信息检索工具都已经不能满足用户的要求,这就出现了新的检索技术——网络检索技术。

总之,网络检索以之不可替代的优越性成为目前信息检索技术的发展趋势,它所具有的操作方便,检索速度快、更新快、信息资源丰富,都是其他检索系统无法比拟的,但网络检索也有自身的缺陷,像查准率较低,数据库中数据更新速度远远跟不上因特网中信息更新速度等这些都促使网络检索系统研究的不断优化。

二、网络信息检索方法

1.浏览

用户要在网上浏览获取信息,需找到提供信息资源的服务器,因此就要先找到各个服务器在网上的地址(URL),然后通过该地址去访问服务器提供的信息。

浏览就如同走进图书馆的书库,然后在书架上直接翻看一样。WWW提供的超文本方式可以看作是浏览的一种特殊形式。但是浏览方式的检索也带有盲目性。

(1) 偶遇漫游

偶遇漫游即是用户在Internet查找其它资料或在网上漫游时,发现他们感兴趣的友好链接。由于这种方法具有的偶然性、不确定性和有效性,使那些有明确检索目的的用户可以在浏览时意外发现对自己很有用的信息。

(2) 顺链而行

用户在阅读网页时,利用文档中的超级链接从一个网页转向另一个相关网页,即所谓的“顺链而行”。这种检索方式可以扩大检索范围,在很短的时间内获得大量相关信息,但也有可能在“顺链而行”中偏离了检索目标,或迷失于网络信息空间中,因此找到合适的检索起点也并不容易。

(3) 书签浏览

很多网站推出了网络书签,网络书签也被称为“便携式”网址收藏夹。用户利用网络书签将自己感兴趣的网页收藏下来,可以方便地使用。如果注意定期整理,按专题或类型进行归类,清除过时或无效的链接,用户就可以将收藏的网页组织成目录建立起自己的网址信息库。

2.网上资源指南

为了方便用户查找某一主题相应的信息,Internet上出现了许多资源指南。资源指南(Resource Guide)是专业人员按照不同的主题和某一严格的标准对各种网络信息资源进行采集、组织、评价,向用户提供某一主题的浏览和检索。

资源指南的优点在它通常是在专业人员对网络信息资源进行选择、评价、组织的基础上编制而成,资源的有效性、权威性和质量上都有保证,这对于用户进行有目的的网络信息检索有重要的指导和引导作用。其局限性在于Internet上的信息变化极快,容易造成管理和维护跟不上信息增长的速度,导致收录范围不够全面,及时性和新颖性差强人意,还可能参照的资源指南已经过时。

3.搜索引擎

第一代搜索引擎以词频搜索为原理开发的,主要依靠人工分拣的分类目录搜索,出现于1994年,以Yahoo为代表,还包括Infoseek、Excite、Lycos等。优点在于考虑网页构建者的感受,给予网页建构者自行决定代表自己的网站的词句的权利,并且允许用户通过各种的方式找到想要的网站。缺点只是对不同属性网站的一种罗列,无法针对网页内容进行搜索。针对这一点,第二代搜索引擎出现了关键词搜索引擎。

第二代搜索引擎大约出现于1996年,以超链分析的机器抓取技术为核心,采用分布式搜索,其特点是只做后台技术的提供者,以Google为代表,还包括Inktomi、Askjeeves、Goto等。第二代搜索引擎做出了很多突破,出现了集成的搜索引擎,以Metacrawter,Savysearch为代表,主要是综合各种搜索引擎的长处,尽量减少用户的检索过程,提高检索效率。但是,第二代搜索引擎也存在缺憾,它的分类准确率不高,并且,如果分类树有变更,如增加、修改或删除某个分类节点,整个分类树就必须重新建立。

第三代搜索引擎结合了人工智能技术,也被称为智能搜索引擎,出现于1998年,国内代表有:尤里卡、问一问、21ilink、孙悟空、悠游等;国外代表有:Askjeevs、Google等。优点是对搜索技术进行了改进,对搜索结果进行了优化,提高了搜索结果的准确性。缺点是属于综合性搜索,内容包罗万象,却满足不了用户更为精细的专业化的需要。

第四代的特征是主题搜索,主要运用人工分类以及特征提取等智能化策略,采用大量的人工智能、数据挖掘、神经网络、系统调度和系统控制等领域的最新技术,对互联网资源进行了再次整合。在准确性方面,采用异构数据的模式识别、表格漂移的跟踪、数据源信息的挖掘和网络蜘蛛的自演化。在实时性方面,采用自适应调度技术、分布式挖掘技术和订阅系统的实时分发。

总之,在搜索引擎的发展历程来看,第一代到第二代搜索引擎是一个质变,搜索技术由人工转向计算机;第二代第三代搜索引擎是一个量变,是检索技术的提升;第三代到第四代搜索引擎是搜索结果和检索技术的智能突破,体现了设计原则的转变由“人适应机器”到“以人为本”;第四代搜索引擎是专业化的细化的搜索,追求的是搜索的效率。

三、网络信息检索的发展趋势

1.智能化

网络检索工具的智能化,主要表现在智能代理、自动索引软件的智能化、智能浏览器、知识共享智能体与智能搜索引擎等。

智能代理有如下特性:

(1) 代理性:是智能代理最基本的功能,对用户的查询计划、意图或兴趣进行推理,自动地将用户感兴趣的信息提交给用户。

(2) 智能性:是通过获取外界信息自觉地改变自己对外界变化的适应能力。如当用户的需求没有明确化时,智能代理能够推测用户的意图。

(3) 自主性:智能代理本身是一个独立自主的计算实体,它能根据动态变化的环境状态,在没有人或其他代理直接干预的情况下独立地制定完成任务。

(4) 交互性:每个代理都有标准的外部接口,采用统一的通信语言进行信息交流,则多个代理可以通过相互协商和协作来共同完成复杂的任务。

2.个性化

所谓个性化,即针对每一位因特网用户独特的信息需求提供的有针对性的服务。个性化信息服务的实质在于提供真正适应用户需要的产品。主要形式有5种:

(1) 个性化内容服务:是用户根据自己的兴趣和需求来定制内容本身及其展示方式,满足用户信息需求。

(2) 个性化信息检索服务:是用户在检索策略、检索方法和检索结果处理上实现个性化。

(3) 个性化界面服务:是根据用户需求对用户个体所需的系统界面、资源集合、检索工具与技术、检索利用服务过程、检索结果等进行定制。

(4) 个性化主页定制服务:是指在会员制登录的基础上,用户根据各自的个人喜好,改变网页内容,在每次登陆后,只看到自己感兴趣的内容。

(5) 个性化信息推荐服务:是通过了解用户的需求和兴趣,采用网络信息的挖掘,为用户提供个性化的实时信息推荐服务。

3.多媒体化

随着网上多媒体资源的巨增, 基于内容的多媒体信息检索是研究热点,它是根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据中进行检索,通过动画、音频、视频等动态媒体给用户营造一个自然、多元的检索方式,使用户获取信息或知识变得更方便,提高了检索效率。多媒体信息检索的研究涉及到多个领域,如图像处理、计算机视觉、图像理解、认知心理学、人工智能、人机交互、信息检索等。

4.可视化

可视化是将抽象概念转换成一种符号,最终是用户看到过去不能看到的东西。可视化检索是运用计算机图形学和图像处理技术将数据库中不可见的语义关系用图形或图像形式在屏幕上显示,传递给用户的检索过程。

5.多样化

(1) 检索信息形态多样化。网络信息检索呈现的信息形态有文本、声音、图像、动画等,其中文本信息是主体,目前多媒体信息在逐渐应用。

(2) 检索工具多元化。网络的迅速发展,使世界各地上网人数的不断增多,语言障碍就越来越明显。针对这一问题,检索工具向多国化、多语种化方向发展,多语种引擎诞生了。用户在网上检索时,可以直接使用汉语,提高了网络信息资源的利用率,外文信息的检索为科研、教学、生活提供科学依据。

(3) 服务范畴多面化。网络检索工具已不仅仅单纯地用于检索[1],还推出了许多网络服务,如天气预报、新闻报道、股票点评等。网络信息检索还可间接地服务于其他行业,如数据挖掘技术可用于分析历史数据的变化趋势,预测未来发展方向。

6.共享性

共享性主要体现在P2P技术,P2P检索打破了在互联网检索信息要通过服务器这一界限,它的本质是以用户为中心而不是以服务器为中心,所有的用户都是平等的,所以P2P被译为“端对端”或“点对点”,不同PC用户之间,不需要经过服务器就可以直接交换数据或信息,而且共享不受信息文档格式的限制,还允许网络用户直接使用对方的文件。

P2P优势在于可扩展性强、容错性好、成本低、充分利用分布资源。但是它存在一个很大的问题:搜索信息时所产生的网络通信量巨大。

[1] 杨海涛. 网络信息检索的困境及发展趋势[J]. 科技情报开发与经济,2008,(11):13~15.

2095-4654(2015)05-0119-03

2015-02-02

2013年湖北科技学院校级项目“构建图书馆参考咨询服务模式的研究”( KY13035)

G354

A

猜你喜欢
信息检索搜索引擎检索
2019年第4-6期便捷检索目录
医学期刊编辑中文献信息检索的应用
新闻传播(2016年18期)2016-07-19 10:12:06
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
基于神经网络的个性化信息检索模型研究
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
教学型大学《信息检索》公选课的设计与实施
河南科技(2014年11期)2014-02-27 14:10:19
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
图书馆界(2013年5期)2013-03-11 18:50:29
国际标准检索