黄振江,李勇
(菏泽医学专科学校,山东菏泽 27400)
网络信息检索的现状及发展趋势
黄振江,李勇
(菏泽医学专科学校,山东菏泽 27400)
信息检索;网络技术;发展趋势
信息时代的到来对社会发展、文明进步和人类日常生活产生了重大而深远的影响。同时随着网络技术的飞速发展,信息检索工作已经由传统的手工文献检索发展到智能检索。认清网络信息检索的现状和发展趋势,掌握先进的网络信息检索技术,从浩如烟海的信息中找到所需的信息,已成为当前重要而迫切的研究课题。
网络信息检索是由网络站点、网页浏览器和搜索引擎以及网络支撑组成的检索系统,其中的核心部分,不是众多站点,而是网络浏览器和具有收集、检索功能的搜索引擎。众多站点、网页上的信息是网络信息的基本组成部分[1]。在网络发展初期,浏览器和简单的搜索引擎即可帮助人们检索所需的文献信息。浏览器浏览虽然方法简易、直接,但随机性强,耗时费用较高,因此,更科学的方法是借助搜索引擎。搜索引擎是网络信息的检索工具,它可以帮助用户快速搜索所需信息及其相关资料。
从历史上看,信息检索经历了手工检索、计算机检索到网络化、智能化检索等多个发展阶段。如今网络信息检索技术得到长足发展。随之,有如下检索技术在日常生活中被广泛应用。
2.1 全文检索把文献中出现的每一个词(或字)都作为检索入口的、基于全文标引的检索过程和技术。在全文检索系统中,文献中任何有检索意义的词或字串都可被检索出来。
全文检索主要分为两类:基于关键词匹配的精确检索和根据内容的概念检索。在实现技术上,全文检索采用的算法主要有:1)全文扫描。2)倒排文件。3)位图文件[2]。为了提高全文检索的结果质量,采用相关排序与相关反馈等技术。全文检索的扩展包括能利用文字来检索多媒体信息,结合超文本技术及通过交互式的浏览和导航来改善检索的效果。中文全文检索可分为按字全文检索与按词全文检索。按词全文检索具有检索速度快、查准率高等优点。同时,如果要利用较为高级的检索技术如相关排序,则按词建库和检索具有较大的优越性。
2.2 中文信息检索将作为主要信息来源的中文文献资料按一定的方式进行组织、储存、管理,并根据用户的要求查找到所需信息的方法、技术和过程。中文信息检索的主要内容有:1)信息检索建模。即采用何种方法表示文档和检索要求并计算它们之间的相关性。2)文献处理。主要指自动标引、自动分类和自动文摘。3)基础资源建设。包括停用词表和主题词表的构造。4)实现技术。包括倒排文件结构、位图文件、散列索引、B树索引等快速检索技术。5)检索效果评价体系。其中查全率(检出的相关文献量与系统文献库中的相关文献总量之比率)和查准率(检出的相关文献量与检出的文献总量之比率)是最重要的两个评价指标。6)汉语自动分析技术及其与中文信息检索技术的结合。
2.3 知识检索全文检索解决了一般非结构化文字信息内容的查询问题,有效解决了关系数据库管理系统不能很好查询非结构化信息的问题,但是全文检索的效果需要进一步提高,其适应不同应用的能力还需要改进。网络检索技术的发展核心是发展知识检索,因此知识检索的发展应该能够有效解决如下一些关键问题。
2.3.1 结构化数据和非结构化数据的混合检索在电子商务应用中,通常都需要系统能够高效地解决结构化数据和非结构化数据的混合检索问题,如在一个人才数据库查询中,除了可以对人才的一些特征进行查询外,更重要的是对其简历中的内容进行查询,尽管有些产品具有混合检索功能,但核心数据模型上都没有很好地解决这个问题,需要进一步发展。
2.3.2 智能检索技术智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。智能检索技术主要体现在语义理解、知识管理和知识检索三个方面。它利用语义分析模块自动智能分词,进行用户请求和知识库“数据”的语义理解,最终把知识库中匹配的信息筛选、整序后提供给用户。
2.3.3 多媒体检索技术多媒体信息是文本、图像、声频和视频的混合体,多媒体信息检索技术是信息检索研究的热点。多媒体信息检索技术的关键是图像、声频和视频检索技术。信息特征是联系信息标引与信息检索的唯一桥梁,图像、声频与视频信息的检索也是以其自身的形式与内容特征描述为基础。基于内容的多媒体信息检索技术的基理:a)计算机自动抽取多媒体信息特征,编制多媒体信息特征倒排档索引数据库。b)从用户接口获得多媒体信息检索标识,诸如输入草图、轮廓图、音频、镜头或从检索库中调用的相似多媒体信息。c)计算机“理解”用户多媒体信息查询请求标识(查询样本)并与索引数据库中的对象进行相似匹配[3]。d)排序与输出多媒体信息检索结果。
时至今日,信息检索的对象已从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。因此,适应智能化、可视化以及个性化的需要是目前信息检索技术发展的新趋势。
3.1 网络检索智能化近年来,因特网上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理等,它们将提高网络信息检索的智能化程度,促进智能信息检索的发展。随着网络用户对检索的精度、检索效率要求的不断提高,网络检索软件开发更重视开发检索工具在检索功能及检索服务上的智能化程度。
3.2 网络检索可视化由于网络信息量爆炸带来的检索效率低的问题越来越突出,而信息检索的可视化优势又日趋显现,人们越来越多地认识到设计和创建各种信息可视化工具来表示检索结果,是改善目前网络信息检索的一种有效途径。在可视化信息检索的研究上,已出现了许多研究成果。最新的一项信息检索可视化研究成果,是一种用于网络知识发现的信息可视化和检索集成工具----WIDAS。
WIDAS(www Information Discovery Assistant System)的原理及功能:WIDAS是为实现信息可视化和检索功能的集成,提高用户在信息发现中的准确性和效率而开发的一个网络信息检索的可视化工具[4]。其主要设计思想基于Lampling等人提出的双曲线树。网址的链接结构通过3D双曲线树来表示,树内的一个节点(对应一个网页)的高度表示用户对该网页的“兴趣”[5]。在这里兴趣是通过一个网页和一个用户提供的查询(嵌套的关键词)之间的匹配功能来计算的。这个方法可以用来过滤不感兴趣的网页,减少链接结构的规模。
3.3 网络检索个性化Internet信息资源已经发展成巨大的全球化信息空间,目前的众多搜索引擎由于其自身的局限性,再加上Web信息的大容量、异构性、分布性和动态性,所提供信息的准确度和关联度未能达到所期待的目标。新崛起的Agent技术正把被动的搜索引擎变为积极的“个人助手”,它提供了一种完全不同的Web信息检索模式,能满足用户个性化检索需求,并能帮助用户监视、跟踪所需信息,减少用户的查询负担。因此,基于智能Agent的个性化信息检索系统成为信息管理、计算机科学、人工智能等领域研究的热点。
智能Agent(Intelligent)是人工智能技术、分布式计算技术及神经网络技术等多门技术相结合的产物[6]。Agent是一个能在特定环境中连续和自主地运行的软件Agent实体,它还可包含更低层次的Agent。为提高信息服务的个性化特征,Agent必须收集用户信息、维护用户兴趣模型和分析用户特征,
由网络信息检索现有技术对比可以看出,网络信息检索的智能化、可视化和个性化是其发展的必然趋势,也会对互联网的发展、网络信息资源建设和利用起到一个推动作用。
[1]宛文红.数字图书馆多媒体信息检索技术[J].图书馆工作与研究,2004(1):36-37.
[2]褚亚萍.搜索引擎的现状及分析[J].计算机与现代化,2001(5)11-12.
[3]柳群英.网络环境下的信息检索技术[J].现代情报,2003(9):16-17.
[4]王玉波.多媒体信息检索技术略论[J].情报科学,1999(2)76-77.
[5]向桂林.复合型Web信息检索系统[J].情报学报,2003(5)28-29.
[6]王启云.如何利用搜索引擎检索网络信息[J].现代图书情报技术,2001(4)22-23.
G202
A
1008-4118(2011)02-0095-02
2011-03-09
10.3969/j.issn.1008-4118.2011.02.51