张月婷 徐明松
摘 要:文章简要介绍了公开网络环境下信息资源的组织方式和检索语言,分析了目前网络信息资源组织和检索存在的一些主要问题,并专门介绍了网络内容管理系统和智能检索策略。
关键词:网络信息;资源组织与检索
在互联网高速发展的今天,网络的广泛应用,使人们获取信息越来越容易。但是,一方面信息的大量增加,出现了信息爆炸;另一方面,碎片化信息越聚越多。这种情况的出现,大大增强了人们获得所需有用信息的难度,同时也给网络信息的组织与检索提出了前所未有的挑战。面对日益频繁的网络信息资源,进一步熟悉其内涵和特点,采取更有效的措施,成为当前网络信息资源组织与管理越来越重要的一项工作。
1 网络信息资源概述
从广义来说,网络信息资源的范围比较广阔,本文这里特指在公开网络环境下可以利用的所有信息资源,比如网站上一些信息。与其他类型信息资源相比,网络信息资源具有以下主要特点:(1)表现形式多样性。(2)存取方式广泛性。(3)存在形态无序性与不稳定性。(4)信息值差异性。其来源分散,难以控制,内容庞杂,几乎涵盖了各个领域,表现形式丰富多样,除结构化信息外,还有非结构化或半结构化。根据不同的标准,还可以将网络信息资源划分为不同的类型。例如根据内容范围可划分为商业信息、政府信息、教育信息、学术信息、娱乐信息等。根据内容类型可划分为文本、图像、音频、视频等。随着网络的深入发展,未来网络信息资源也会有更多类型的内容出现。
2 网络信息资源组织方式和检索利用
2.1 网络信息资源主要组织方式
网络信息的组织方式比较丰富,大致有以下几种方式:(1)文件方式。主要以文件为单位共享和传输信息,但是,随着网络中持续增加的数据量,以文件组织方式的信息会使网络负荷加大,导致控制和管理的难度增加,从而影响信息资源组织效率。(2)数据库方式。主要是把所获得的资源按照一定的规则存储起来,用户可以通过关键词查询到所需要的信息线索,它能高速处理大量各种类型的信息资源,尤其是在关系数据库、面向对象数据库中,不仅能提供用户查询,还实现了信息的知识关联,极大地提高了用户对知识需求满意度。但是查询规则的建立比较繁琐,前期花费时间较多。(3)主题树方式。主要通过将所有获得的信息资源,按照某种事件确定的概念体系结构加以组织,然后建立主题类目和子类目,这种方式结构比较清晰、目的性更强、查准率也较高。但对于体系结构的要求比较简单,所以只能适合建立在专业性或示范性的网络信息资源体系中。(4)超媒体方式。主要通过将文字、声音、图像、视频等各种多媒体信息以超文本方式组织起来,实现高度链接的网络结构,用户可以在多种信息类型中查询到所需要的信息。这种方式类似于人类的联想记忆结构,把各种类型的资源有机整合起来,方便描述和建立各媒体信息之间的语义关系。但是,多种类型的融合,使所占空间变大,这给网站的内容规划与设计增加了工作量。
2.2 网络信息资源的检索
网络信息资源的检索应用在网络环境下,要想获得信息,除了要了解网络信息资源的组织方式外,还要学会检索策略、利用检索工具,才能更有效地获得自己想要的信息资源。检索策略一般是在分析检索提问的基础上,根据需要确定检索的数据库、检索的用词,并明确检索词之间的逻辑关系和查找步骤的科学安排。通常情况下,网络信息资源检索策略主要有2种实现方式:(1)一般检索。以浏览的方式,采用主题法的自然语言进行检索,它使检索变得更加直接、简单,这种检索方式通常又被称为“智能检索”。(2)高级检索。使用叙词语言进行检索,如布尔逻辑检索、邻近检索、截词检索、字段限制检索、短语检索等。它提高了用户检索网络信息资源的准确性和时间效率。检索工具。是指用于存储、查找和报销档案信息的系统化文字描述工具,是目录、索引、指南等统称,也是检索策略实施的平台。主要方式有3种:(1)自动搜寻。通过自动搜寻网络资源、自动索引和摘要,提供检索方法和用户界面等功能。但是其收录信息良莠不齐,虽然检全率高,但检准率较低。(2)人工分类。通过人工或机器进行搜寻,使用人工分类制作索引数据库,可以达到信息质量高、准确性强,但人工花费时间和工作量都较大。(3)混合搜寻。这种方式是多种方式的结合体,既可以通过类目浏览查询,也可以输入句子、短语等进行自由查询,并且它具有自动搜寻与人工分类的2种方式的特点。
3 网络信息资源组织与检索存在问题及对策
3.1 存在的主要问题
当前,网络信息资源的组织与检索主要面临以下一些问题:一般网站上的信息资源,在整体组织上还比较混乱,主要表现在类目划分标准上还不够合理,对信息资源在同一层次上划分不统一。如一些网站,在网站内容规划与设计的时候考虑不周全,导致不能适应不断变化的用户需求等。还有一些网站一个类目下面包含一些不属于它的下一层子类的现象,这样一来,导致用户检索时,出现一些毫不相干的内容。如色情信息、虚假新闻、网络广告等。多数网站动态反映比较多。从一定意义上方便用户及时了解最新变化,但是一些动态脚本、小程序、插件等,在一定程度上影响了用户的检索时间。检索结果缺乏准确性,平均50%的返回信息是无用的。如在百度搜索引擎中,用户检索一个关键词,出来相关甚至不相关的信息会成千上万条,这些信息当中真正发挥对用户作用的有效信息屈指可数。检索失败,用户得到的有用信息少于20%,大多数据情况下,普遍用户检索信息的返回结果并不理想,甚至有的返回信息为零。
3.2 解决的主要对策
目前,国际国内的许多专家一致认同对网络信息资源的有效管理和利用,离不开先进的技术支持,尤其是网络内容管理系统和智能化的概念检索系统将是提高网络信息组织与检索效率的关键。在此主要介绍网络内容管理系统和智能信息检索系统。
网络内容管理系统是可以协助进行网络内容管理的一种工具或者一套工具的组合,是提供给组织中懂得技术的成员和不懂得技术的成员创建、编辑、管理和出版内容的工具,在此过程中还要受到一套规则、过程和工作流程的限制,以确保管理组织的有效性(见图1)。
目前,国内部分知名中文的Web内容管理系统有北京拓尔思信息技术有限公司开发的TRS内容协作平台、北京泰得互联开发的TurboCMS、深圳市蓝电科技有限公司开发的Xplus网站内容管理系统、上海网达信息技术有限公司开发的网达内容管理系统、联想集团开发的联想内容管理系统等。虽然在这方面国内取得了一定的成果,但国内的网络内容管理系统供应商和国外的网络内容管理系统供应商之间还存在着一定的差距,有待于进一步提高完善。
智能信息检索系统。当前,国外的检索系统如The telcordia semantic indexing software(简称LSI),检索效果比较好,在实际应用中已经克服了普遍使用以关键词为基础进行的检索的缺点,并已经应用广泛。但是,国内现阶段专业人员提高检索效率的主要有6种方式:(1)利用各种分类表、主题词表、叙词表建立网上信息检索自动索引、在线目录和主题索引。如采用张琪玉教授提出的“分类法主题法一体化”方法,即编制一种分类号与主题词的双向对应表,作为网络资源分类、检索的依据。(2)建立同义词转换概念空间。通过这种方法建立转换系统对提高信息的查全率和查准率有着非常重要的作用。就是把表示同一概念的词转换为同一等级的代码,如电脑、计算机统一转化为“计算机”等。(3)建立学科领域统一概念。主要是建立专门领域或学科的词典,可以起到主题过滤的作用。如统一的医学语言系统UMLS数据表。(4)建立否定关键词程序。通过准确计算的否定模式来消除不相关。也就是说在实际操作中用户可以消除不想得到的信息,从而得到真正想要的内容。(5)建立和完善信息反馈程序。就是通过设计一个用户信息反馈程序,在用户进行信息检索时,可以提高检索效率和用户的满意程度。(6)建立个性化过滤系统。这个主要基于用户特别的兴趣偏好,通过过滤系统实现模仿用户本人,并选择符合用户需求的信息传送给用户。如利用先进的感知器获得用户个人信息,再通过使用时间序列分析等预测技术推断用户行为模型。
4 结语
在科技迅速发展的今天,人们已经置身于网络信息的汪洋大海之中,唯有不断地对网络信息资源的进行有效组织管理,才能更好地为用户检索分析提供优质服务。本文总结在网络信息资源组织和检索中常见的一些问题,所提出的对策是基于网络内容管理系统和检索策略2个方面的知识梳理。如何面对未来网络信息资源组织与检索的新问题,如何提出有效地解决新办法,留给了人们广阔的研究和探索空间。
[参考文献]
[1]戴伟辉.网络内容管理与情报分析[M].北京:商务印书馆,2009.
[2]徐海燕.互联网信息组织与检索初探[J].图书馆建设,2003(4):78-80.
[3]穆颖丽.网络信息资源的组织与检索[J].图书馆学刊,2004(2):52-53.
[4]邱桂梅.主题语言在网络信息组织与检索中的应用[J].现代情报,2005(2):152-154.
[5]燕惠兰,桂筱丹.网络环境下信息资源的组织与检索[J].情报科学,2001(9):37-41.
Analysis on Public Network Information Resource Organization and Retrieval
Zhang Yueting Xu Mingsong(Military Information Management Department, Nanjing Political College Shanghai Campus, Shanghai 200433, China)
Abstract: The article briefly introduces the public information resources under the network environment of the organization and retrieval language, the analysis of the current network information resources organization and retrieval, some of the major problems and specifically introduces the web content management systems and intelligent retrieval strategy.
Key words: network information; resources organization and retrieval