云图书馆环境下信息资源组织及其发展趋势

2012-02-15 13:56
图书馆学刊 2012年1期
关键词:分类法检索图书馆

康 微

(江苏教育科学研究院图书馆,江苏 南京 210013)

1 引言

Francis Miksa在《Information Organization and the Myste rious Information User》[1]中把信息资源组织的发展分为3个阶段:从15世纪50年代印刷作品出现到19世纪为第一阶段,这个阶段只有书目和图书馆目录两种信息组织方式;19世纪早期到第一次世界大战结束为第二阶段,在这段时间,出现了除计算机信息存储和检索之外的很多其他信息组织方法,如索引、分类、文件管理(documentation)等,并且这些方法随着时间的推移发生了很大的变化;20世纪20年代到现在为第三阶段,在这个阶段,随着计算机存储和检索的出现,书目的地位受到了挑战,文件管理也开始被计算机存储和检索所取代。索引开始独立存在并被重新认识,同时档案和档案管理却开始被广泛应用于各行各业,图书馆目录开始深受计算机技术的影响,计算机存储和检索成为最基本和主要的信息组织方法。

虽然Francis Miksa对信息资源组织发展的阶段划分比较粗略,其中对信息组织方法的叙述也不够精确和全面,但仍有重要指导意义:不能忽视信息技术等对信息资源组织的重大影响;索引、书目和图书馆目录等这些传统信息组织方法在新的环境下焕发了新的活力;对信息组织的研究离不开对信息技术等相关问题的研究。

随着云计算技术的普及和发展,信息资源组织的发展和研究又进入到了另一个新的阶段,在这个阶段出现了新的信息组织方法,同时有关信息组织的其他研究也显得更加重要和紧迫。笔者主要就云图书馆环境下的信息资源组织进行研究。

2 信息组织的主体和对象

2.1 云图书馆环境下信息组织的主体

传统信息组织的主体主要为图书馆、搜索引擎公司、数据库商以及作为网站拥有者的政府、商业企业、社会团体和个人,而在云图书馆环境下信息资源组织已经不再是图书馆员和信息专家的专门领域,同时还包括所有使用这些信息资源的用户。例如,在南京师范大学的网上目录查询系统检索到一本书,如果该书在豆瓣网有相关信息的话,任何豆瓣网的用户都可以对图书进行评价、推荐,写评论、做笔记并在相关论坛里发言,或者利用RSS订阅相关的评论等等;在亚马逊网站,可以对一本书进行评分和书写评论供大家参考,还可以对别人的评论进行评价、回应,自己有同样的书也可以拿来卖,同时还可以分享给好友、加入心愿单等等;有的图书馆开通了微博、人人社区,读者可以和图书馆进行实时的平等的沟通和交流等等。

2.2 云图书馆环境下信息组织的对象

云图书馆环境下网络信息组织包括3个方面:一是对单个网站内信息内容的组织。例如各大高校网上图书馆文献检索系统对各种图书、期刊等的组织;电子数据库对各种期刊论文、报纸杂志文章的组织,如中国知网CNKI;知识仓库对知识的组织,如中国知网CNKI的各种知识仓库;各种网络平台对信息内容的组织,如亚马逊、豆瓣、VeryCD等。二是单个网站中对信息内容的呈现方式。主要通过各种规范、标准及元数据等来实现。目前对于机读书目数据基本上都是采用MARC格式,如中国的OPAC、OCLC的InterCat[2]等各种网上书目检索系统基本上均按MARC格式进行显示;各种电子资源数据库基本上都是采用元数据格式,如中国知网CNKI、美国国会图书馆的“美国记忆”项目方案、上海图书馆的元数据方案及其名人手稿馆元数据方案、数字式中文全文文献通用格式;Google的各种专类检索工具如Google Scholar的引文、Google Video的节目预报、Google Maps的企事业单位信息、电影的影评与影院信息,以及曾引起广泛争议的Google工具条的网页自动链接AutoLink等,背后都蕴藏着极其复杂的元数据[3];EdNA(澳大利亚教育资源信息门户)使用了基于DC元素集的元数据标准,并鼓励作者在他们的文档中嵌入元数据描述,这样EdNA采集器就可以自动读出这些元数据并转入EdNA数据库中;亚马逊也有自己的元数据模式,除了图书馆元数据实践中的题名等还有版权、如何获取、销量、流通量、获奖、引用、评论、作者信息、其他版本、标识号、相关作品、用户标签、衍生作品等等。三是对多个网站或网页的信息进行组织。比如,南京师范大学图书馆的网上查询系统和豆瓣网、Google、百度、读秀、超星数字图书馆等进行合作,如果读者在南京师范大学图书馆网站查到某本书,那么读者同时也可以浏览该书在这些网站的信息,并进行各种操作;再如豆瓣、Google Books、卓越网、亚马逊等与南京师范大学合作开通飞狐传书功能,如果读者在这些网站看到某本书就可以浏览该书在南京师范大学的馆藏情况,然后通过超链接进入;OCLC与各个国家的图书馆进行合作,如果在OCLC查到某本书的数据,可以根据个人所在地查看本书在本地各个图书馆的馆藏情况[4]。

3 云图书馆环境下的信息组织

3.1 云图书馆环境下信息组织的特点

①传统的信息组织方式在云图书馆环境下仍然是不可或缺的。

②与信息技术密不可分,如元数据、数据挖掘、数据仓库、知识发现、标记语言、自动跟踪技术、自然语言处理技术、机器翻译技术、多媒体技术、人工智能技术等。

③离不开各种规范、标准的制定,该层次的信息组织对内容的呈现主要通过各种规范、标准等来实现其标准化,主要有各种元数据、文献信息的著录与标引、网络信息资源描述的相关标准、通用标记语言及相关标准。

④组织方法多样,云图书馆环境下信息组织的方法既包括传统的分类法、主题法、虚词法等,同时也包括社会分类法(Folkmonoy)、元数据、本体(Ontologies)、主题地图(Topicmaps)和Taxonomies等等。

⑤离不开用户的参与,用户及用户信息也成为网络信息资源的重要内容;用户自主地参与信息的组织也成为云图书馆环境下信息组织的一种方式。

3.2 云图书馆环境下信息组织的主要方式

在云图书馆环境下信息组织方法多样,几乎所有的网站都是同时利用了多种信息组织方式,不同的组织方式之间互相影响,关系错综复杂。

3.2.1 分类和聚类

在云图书馆环境下分类和聚类仍是信息组织的重要方式,它不仅包括传统的分类法、主题法、叙词法等,同时也包括近年来比较流行的社会分类法(Folksonomy)。

分类法、主题法、叙词法等用途广泛,不仅用于图书馆实体信息资源的组织,同时也用于网上书目数据信息资源的组织,如EBSCO的视觉检索功能提供了分类(Column)和主题(Block)两种方式呈现检索结果;汇文网上书目检索系统里增加了以《中国图书馆分类法》为分类依据的分类浏览功能;CNKI里有按学科类别和专题进行信息组织的功能;还有一些图书馆在网站上增加专题馆藏资源(如南师大根据社会热点问题搜集本馆资源制作的“特别推荐”)、特别书目(如南师大的公共书架,汇集了“大学生必读书目”、“一生的读书计划”、“光明网世界读书日推荐图书”、“中文专业大学生必读书目”)等,有的书目检索系统把近期的热门检索词汇集起来做成一个词表供大家参考;另外,分类法、主题法等也广泛用于各种网站内容的组织,如雅虎、新浪、VeryCD等等都是按主题进行信息组织的;百度和Google也按功能和服务等进行分类和组织,可以说分类和聚类的信息组织方式几乎存在于任何有关信息的环境中,同时分类和聚类呈现一体化的趋势。

社会分类法是近年来随着Web2.0技术的兴起而发展起来的另一种形式的分类和聚类方法,和传统的自上而下的分类法和主题法等方式不同,这种信息组织方法主要采用自下而上的信息组织方法依靠用户的参与完成,这种信息组织方式造就了多个著名网站,如美味书签(http://del.icio.us)、43things(http://www.43things.com/)、Flicker(http://www.flickr.com)、last.fm(http://last.fm/)等等。社会分类法的实质就是以词为类,但其类目是平面的、非等级的,是由网络信息用户自发为某类信息定义一组标签,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法[5]。其通常是指一系列广泛关联的过程,包括标引(indexing)、标签(tagging)、书签(bookmarking)、注释(annotation)和描述(description)等过程。Tag、RSS、Blog、Wiki、Ajax 和 P2P 等信息组织技术是帮助实现上述的一系列关联过程的方法。目前越来越多的网站开始注重用户对于信息组织的贡献,如美国宾州大学图书馆开辟了PennTags网络书签服务,读者在其浏览器上安装了bookmarklet之后,只要浏览或检索到需要的书目记录页面,点选一下浏览器上Add to PennTags link(加入到Penn标签),并为该记录定义一个词,便可建立标签。这种方法有助于强化目录的内容,改善目录的检索性能。

3.2.2 文件、数据库、主题树、超链接方式

从形式来讲,在云图书馆环境下对网络信息资源的组织主要有文件、数据库、超链接、主题树等方式,一般情况下这些信息资源组织方式都不是单独出现的。

文件方式是存贮非结构化信息的天然单位,如文本、图像、图表、动画、音频、视频等。资源共享网站如各种ftp网站、豆丁网、新浪爱问知识人、百度文库等都是文件方式的典型代表。

云图书馆环境下几乎所有的网站都需要后台数据库的支持,以淘宝网为例,淘宝网需要对各种用户信息、产品信息、图片信息等进行管理,淘宝网资深数据库专家江枫在接受51CTO记者专访时曾提到从2004年淘宝就开始构建企业级数据仓库,他甚至提到未来淘宝的定位会是一家数据公司。

主题树方式,信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直至找到所需要的信息线索,并通过信息线索直接找到相应的网络信息资源,雅虎是其典型代表。

超链接组织方式,以博客为例,博客是一种日记形式的个人网页。博客的一大特点就是“超链接”的写作方式,因此一篇简短博文通过超链接却能够极大地扩展信息面和丰富信息量。以新浪博客为例,通过“友情链接”可以链接到好友的博客,通过“标签”可以链接到具有同样标签的其他博文,通过“分类”可以链接到同一个类目下的所有博文,通过“排行榜”可以链接到相关主题的博文,“圈子”链接到到相关的交流圈等等,通过强大的“超链接”功能可以把大量的具有相关关系的信息资源链接起来构成一个复杂的资源网络。

3.2.3 元数据及本体、主题地图等知识组织工具

元数据广泛应用于各个领域,如Dublin Core、IAFA Template、CDF、Web Collections主要用于网络资源信息组织,MARC(with 856 Field)、Dublin Core主要用于文献资源的组织,TEI Header用于人文科学、GILS用于政府信息、EAS用于档案库与资源集合等等。

上海图书馆刘炜认为本体是一种基本的系统建模和资源组织的思想方法。他认为,广义地来说,“作为信息组织的概念模型和基本方式,传统的分类法、叙词表等各种方法都可以转换成本体形式,都可以称之为本体(这一点可能有争议)[6]”。目前有关本体的应用研究也越来越广泛,如已构建的本 体 有 DAML Ontology Library、Protégé、OntoSelect Ontology Library、Ontaria等。

主题地图是抽取信息源中描述事物的对象,用主题概念对其进行表示,同时还要揭示主题与信息源的联系来表达不同主题间的关联关系,把主题、主体与信息源的联系、主题间的相互关联以特定的方式显示。“主题地图”主要用来揭示知识和知识之间的关联,从而为人们提供信息世界的导航图。

Taxonomies是网络环境下出现的一种新的知识组织工具,它结合了分类法和叙词表的特征,由分类结构和概念语词两个元素组成,通过分类结构展示一个知识领域和类聚内容对象,通过概念语词描述和指引内容对象。Taxonomies可用于信息检索系统的多个端口处理不同的内容对象和支持各种用途与功能,它更为广泛地用于企业、机构知识资源的组织和支持浏览功能[7]。

4 云图书馆环境下信息组织发展趋势

4.1 注重培养规范意识,逐步建立规范环境

培养一个规范和人人遵守规范的环境比简单建立一套规范要困难得多。解放军空军少将乔良说:“我坚信相对于制度和体制而言,构成制度、体制的土壤——国家性、国民性要远为重要得多。”这句话同样适用于信息组织的环境。虽然如此,人们一直都在致力于改善信息环境。一个名叫赵永明的普通IT工作者,自称“Web建站标准强烈而内敛的支持者”,他在博文《彼得·德鲁克在〈最后的完美世界〉里所赞许的建设者是怎样的人》中提道:“对我现在从事的工作认真、努力,确保出自我手的页面代码尽量做到趋于Web标准里的语义化、可读性、可访问性等标准方案,因为我明白这些标准的拟定不仅是工业化生产的规范,也体现了人文关怀,体现的是人人平等。”美国508条款中明确规定:“首先美联邦机构等服务型网站要保证包括残障人士在内的所有人(大多数人)能够无障碍访问到网页并能够在网页上完成所需要完成的操作,如果政府等服务型网站做不到这一点,每一个公民都可以依法将之上告法庭[8]。”如果人人都如赵永明、每个网站都像美国联邦机构那样,那么相信建立起这样一个完美的环境为期不远。

4.2 关注各种方法的互操作,逐步实现标准化

在云图书馆环境下,元数据、本体、Tagging以及各种描述语言和方法之间的语义互操作成为新的研究议题和发展趋势,而实现互操作的基础便是信息组织的规范化和标准化。台湾《诠释资料格式(metadata)规范》提到:“虽然在某些环境中,如HTML环境,大小写都可用,但在此建议,最好注意栏位名称的大小写问题,以免要摘录诠释资料或要转到不能同时使用大小写的平台时发生冲突,如XML环境。”“为了促进全球的互通性,某些栏位的内容建议采用其他领域已发展出来的控制词汇来描述[9]。”“峨眉山世界自然文化遗产特色资源数据库”在建设中为了更好地实现与CALIS和四川高校的资源共享,采用的规范和标准都是以CALIS提供的标准与规范为优先参考[10]。CALIS在2004年底制定的《中国高等教育数字图书馆技术标准与规范》中,针对各种类型的资源给出了部分已有的或可参考的元数据。书目描述与检索也由最初的AACR1逐步发展为RDA[5],RDA将支持图书馆编目记录与其他元数据领域所创建的编目记录之间的整合,使得图书馆记录能以新的方式被利用[11]。

4.3 传统信息组织方法向网络化发展

20世纪80年代国外就开始了对DDC、LCC、UDC等分类法在联机环境的应用进行研究。2003年6月DDC第22版的网络版与其印刷版同时推出,成为第一个在网络环境下产生的分类系统。目前DDC、LCC、UDC等分类法经常被用于网上信息资源的组织,OCLC Office of Research甚至希望把DDC类表改进作为浏览器使用。

由于主题组织法在信息组织中表现出来的许多优势,使得主题组织法仍是网络信息组织法中组织信息的一种重要方法。近年来,越来越多的学者和机构认识到主题法在网络信息组织中仍起着重要作用并努力进行相关研究,如2010年David McCandless在其演讲《The beauty of data visualization》[12]中给我们演示了资料视觉化的应用技术,这项技术可以把海量的资料以图形或图像的形式直观地呈现给我们,但其本质上仍是运用主题法对资料进行整理和归类;EBSCO近年推出的视觉检索同样也是运用主题法对检索结果进行组织;还有雅虎、新浪等都借鉴了主题法。

[1] Francis Miksa.Information Organization and the Mysterious Information User[J].Libraries&the Cultural Recmd,2009(3):343-374.

[2] 从网络编目到元数据:一本杂志的沉浮.http://catwizard.blogbus.com/logs/28623244.html.

[3] 无处不在的元数据.http://catwizard.blogbus.com/logs/3328109.html.

[4] 王行仁,蔡淑恩.OCLC提供云计算(Cloud Computing)在图书馆的应用.[2011-05-10].http://www.lib.whu.edu.cn/hyk/2010tsgfzlt/002.pdf

[5]张秀兰.从AACR1到RDA——《英美编目条例》的修订发展历程[J].图书馆建设,2006(2):44-47.

[6] 刘炜.本体究竟如何应用.[2011-05-10].http://www.kevenlw.name/archives/1243.

[7]王忠红.论新的知识组织工具——Taxonomies[J].图书馆杂志,2010(2):6-9.

[8] 赵永明.彼得.德鲁克在《最后的完美世界》里所赞许的建设者是怎样的人.[2011-05-10].http://www.zhaoyongming.com/?p=187.

[9]诠释资料格式(metadata)规范——图书馆法专案.[2011-05-10].http://www.ncl.edu.tw/public/Attachment/71128114 5371.pdf.

[10]徐革.特色库建设中基于本体论和元数据的知识与信息组织应用[J].情报理论与实践,2006(5):368-370.

[11]Karen Coyle,Diane Hillmann.Resource Description and Access(RDA)Cataloging Rules for the 20th Century[J].DLib Magazine,2007(1/2).

[12]David McCandless.The beauty of data visualization.[2011-05-10].http://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization.html.

猜你喜欢
分类法检索图书馆
分类法在高中化学中的应用
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
图书馆
专利检索中“语义”的表现
基于贝叶斯分类法的股票选择模型的研究
ABC分类法在介入耗材库存管理中的应用
去图书馆
韩国十进制图书分类法历史演进与评介