常 娥
文献内容的揭示工作是图书馆一切工作的基础。在纸本时代,限于技术手段,书目是揭示图书馆所藏文献资源的唯一便捷途径。在数字时代,人们发现了更多揭示文献内容的方法,这使得传统馆藏书目组织方法因缺乏灵活性,而适应能力不强。
无论是纸质卡片目录,还是电子机读目录,书目的本质一致,即围绕文献外部特征进行整体内容揭示,且采用一维线性方式加以组织。由于馆藏书目数据局限在图书馆文献管理系统中交换数据,因而无法融入、整合并关联发现更为广泛的网络数字资源。面对图书、期刊、报纸等传统纸本文献的全面数字化,加上海量的网络原生数字资源,人们需要更好的文献内容组织与揭示方法,其中深入文献内部的细粒度的知识组织、关联与揭示受到重点关注。鉴于此,图书馆需拓展书目数据资源组织与应用的范围,以适应网络数字环境的变化。本文通过分析传统馆藏书目数据组织的不足,研究在大资源组织观念下,馆藏书目数据组织模式的发展与变化,以期对图书馆资源组织领域的发展有一定的借鉴意义。
长期以来,图书馆过于重视书目的形式和精确性,费心于各种细枝末节,较少考虑书目的功能和内涵,常常忽视用户对文献内容揭示的真正需求和爱好[1]。与此同时,网络数字资源呈爆炸式增长,网络搜索引擎比图书馆搜索给出的信息更多、更快,且非常有价值。部分学术用户特别是伴随着互联网成长起来的年轻一代,因图书馆利用不便而与其渐行渐远。图书馆的在线利用率处于较低水平[2]是不争的事实。书目数据是图书馆服务的基础和核心,是沟通图书馆与用户之间的桥梁,用户的远离反映了传统馆藏书目数据组织与管理的局限性,本文将其归纳为三个方面。
馆藏书目数据经历了纸质卡片目录到电子机读目录的格式转变,虽然电子机读目录在设计上较纸质卡片目录更加细化和扩展,著录的元素大大增加,例如CNMARC 包含10 大著录模块,常用著录字段超过50 个[3],但总体而言这些著录元素只是文献外部特征描述的细化和延伸,仍未摆脱纸质卡片目录的固有思维,基本仍以检索查找整本书为目的,并未跳出描述文献外部特征的藩篱[4]。即使设计有主题分析、内容附注、摘要附注等内容描述字段,也只是点缀,往往流于形式,并未真正予以重视。以文献整体为研究对象的传统书目管理与控制理论下生成的书目数据,往往一条书目记录对应着一个文献整体,其实质是一种以文献为基本单位的粗粒度的数据描述。数字时代,这种传统的馆藏资源组织方法因缺乏灵活性且粗粒度,显得适应能力不强。
电子机读目录作为计算机技术发展早期形成的数据格式,虽然在定义上兼顾了图书馆书目数据在文献形式描述、内容描述、检索等方面的需要,字段数量丰富,著录详尽,但由于一条书目记录对应着一个文献整体,这种以文献整体为控制单位的数据格式使得描述字段无法脱离书目记录而独立存在,并且书目记录中字段与字段之间也缺乏必要的联系,因此书目记录实质上是一种无语义的记录文本[5]。例如,205 字段(版本项)脱离书目记录,即脱离文献作品本身,其版本项信息就失去了原有的意义,这不仅直接造成计算机的阅读障碍,而且还使得图书馆在线目录系统(OPAC)缺乏信息发现功能。用户必须通过对特定内容的检索,比如作者、题名或者主题,才能了解馆藏文献资源。只依靠检索手段来发现信息,对用户缺乏吸引力。图书馆应变革馆藏书目资源的组织与管理方式,在语义网技术的基础上,为用户提供更多的信息整合与导航功能,以满足用户使用检索手段以外的信息发现需求。
传统馆藏书目数据主要以静态机读目录格式存在,存储在孤立的图书馆自动化管理系统中,形成一个个封闭的“粮仓”。编目员、读者、系统管理员等必须通过自动化管理系统提供的不同用户界面才能进行相关操作。虽然图书馆自动化管理系统形成了比较成熟的开发模式,大部分采用浏览器/ 服务器(Brow ser/Server)体系结构,且集成采访、编目、典藏、连续出版物管理、流通阅览、公共查询、数据统计、系统管理等功能,但这些数据和功能仅局限在图书馆自动化管理系统内部,图书馆的书目数据库无法与外部数据库实现互操作,因此馆藏书目数据处在封闭的数据环境中。尽管有些图书馆尝试通过开发插件,在用户界面上插入网络服务的相关链接,如书籍封面、豆瓣评论、分享到微博等内容[6],但依然欠缺动态的交互机制,无法与网络资源进行高度链接。
数字时代网络信息资源呈爆炸式增长,图书馆的文献资源变得异常丰富,数字馆藏成为图书馆文献资源建设的重要组成部分。为避免用户迷失在信息海洋中,同时满足不断变化的用户需求,图书馆需重新审视馆藏书目数据的功能和内涵,并使用全新的理念来管理书目数据,切实深入到文献内部对知识进行组织。
我们可能需要对图书馆学研究的基本问题进行思考,以更好地把握馆藏书目数据的未来发展。这里不得不提梁灿兴的“可获得性”理论。该理论明确提出了图书馆学研究的基本命题,即研究人们获取知识的社会性机制。这个机制无论是从哲学、社会、经济层面,还是从图书馆的机构安排、内部业务,乃至法律制度和技术角度都能得到很好的阐释[7]。例如,从机构安排角度看,图书馆是保障知识可获得性的社会机构;从技术角度看,图书馆追求的诸如编目、典藏、知识发现、数据挖掘等技术,都是为了确保文献群中知识单元的可获得性。因此,可获得性理论把握了图书馆学的核心和本质,为图书馆学研究构建了具有很强扩展性的理论基础平台[8]。
在可获得性理论框架下重新审视图书馆书目数据的功能和内涵。纸本时代,知识记录和显示载体合二为一,图书馆要想确保文献群中知识单元的可获得性,只能存取这个合二为一的载体本身,即纸本文献。此时书目数据作为文献群所含知识单元高度集成的替代物,是存取文献群中知识单元的唯一便捷途径。数字时代,知识记录和显示载体一分为二,与网络相结合,加上全文检索环境,使书目数据在获取数字文献群中知识单元上的作用被明显弱化。面对现状,图书馆需要拓展书目数据的适应范围,即不再局限于对图书馆纸本图书进行著录,转向从知识组织的角度进行研究,构建新型书目数据组织框架,广泛整合数字资源,以提供更为全面深入的信息内容。只有传统的文献目录学真正转向数字目录学,不断深化传统书目管理与控制理论的发展和应用领域,推动图书馆完成数字化编目的华丽转身,才能确保图书馆在未来网络数字环境中的核心位置。
综上所述,数字时代图书馆书目数据的内涵发生了变化,图书馆书目数据的功能也将不再局限于传统意义上,诸如财产登记、预算管理、馆藏排架、流通、阅览和用户检索等基本职能。今后图书馆书目数据的重要职能应放在信息的识别、聚合与发现上。用户将不再以直接使用图书馆书目数据为目的,而是将它作为一种信息引导媒介,即以书目数据作为搜索起点,从而整合、查找并链接图书馆资源,以及更为广泛的数字化网络资源,获取高质量的知识服务。
2.2.1 相关领域的发展
数据库信息服务商、网络搜索引擎以及层出不穷的Web2.0 技术,如RSS(简易聚合)、Blog(博客)、Wiki(维基)、Open API’s(开放式应用程序接口)、Tag(分众分类标签)、Book mark(社会性书签)、SNS(社交网络)、Ajax(异步传输)、Weibo(微博)等对图书馆资源组织与服务领域的影响非常大,但促使图书馆重新认识和定位自身在未来数字化网络环境中的位置,并彻底改变图书馆资源组织理念的当属关联数据技术,以及围绕关联数据而形成的开放数据网络。
关联数据是语义网的简化方案[9],采用RDF 数据模型,借助其核心技术URIs,可创建包含各种数据、信息和知识在内的任何资源的细粒度化的数据网络(Web of Data),且元数据和本体模型均可融入关联数据的技术框架。因此,关联数据为图书馆将各种资源转化为细粒度连通着的网络数据,彻底转变图书馆资源组织的模式,弥补馆藏书目数据组织的粗粒度、无语义和封闭性的不足,从而打破馆藏资源组织与利用的困境,提供了全新的思路。由于关联数据的框架简单,商业、媒体、出版、政府、图书馆等诸多领域的关联数据集发展迅猛,构建了庞大的开放数据网络。截至2011 年9 月,已有超过310 亿个RDF 三元组,5 亿个RDF链接[10]。在图书馆领域,美国、德国、法国、瑞典等国家图书馆发布包含书目、规范主题词、规范人名等资源在内的关联数据集[11]。遗憾的是,关联数据中枢Datahub 中收录的中文关联数据集极少,亦未见中文图书馆数据集。目前已发布的图书馆关联数据集以特定馆藏资源为对象,数据集关联的范围和程度有限,有些仅是内部关联,与非图书馆数据集的粘合度并不高。
除关联数据技术外,图书馆对近年来语义出版、科学数据管理与关联科学等领域的发展和研究也应予以重视。语义出版的主要目标在于自动识别文章内的实体,包括专业术语、概念、实体、原始数据、图片,并建立与外部权威资源的链接,实质是语义网技术在出版领域的应用[12]。全球著名出版机构(如Elsevier、Nature)、学术组织和研究中心纷纷涉足,语义出版有望成为未来数字出版的主流形态。这种在学术文档创作出版伊始就将语义数据嵌入其内部的出版应用,对于后期的出版物深度加工和知识提取将产生重大影响。语义出版应用试验一旦成功,将彻底改变图书馆资源组织的形式和流程,因此图书馆应给与高度关注。科学数据管理是一个复杂的、涉及多个领域和部门的研究课题,其最终目的不是只保存数据,而是数据的再使用,即提供数据服务。2011 年德国学者主张以关联数据的方式来组织、发布与共享科学数据,并首次提出关联科学(Linked Science)这一全新的科研支撑方式[13]。科学数据只有在特定的语境中才能被理解和再使用,而特定的语境往往表现为文本记录,因此,科学数据的组织与管理可作为图书馆深入文献资源内部组织与管理知识单元的特例。融入开放数据网络的科学数据关联数据集,是未来图书馆关联数据集关联的重要资源,因此对于科学数据管理这一研究领域的发展,图书馆同样应予以关注。
2.2.2 馆藏书目数据组织的新要求——大资源组织观
数字时代对馆藏书目数据组织提出新要求,图书馆应确立大资源组织观,将编目工作放到整个数字化信息环境中,摒弃为编而用的思想,确立为用而编的理念,使图书馆书目数据完全融入到已整合的数字化信息的发现机制中,从而确保图书馆作为信息中心的重要位置。大资源组织观主要体现在两个方面:
(1)拓展图书馆内部资源组织的类型。传统的图书馆资源组织对象主要是馆藏纸本图书和期刊,随着图书馆数字资源的建设和发展,馆藏文献类型越来越丰富,包括以数字化形式存储并能以电子方式获取的图书、学位论文、手稿、期刊,以及各种网络资料等,内容呈现广泛。然而面对馆藏资源类型的丰富,尤其是数字文献资源的增加,图书馆并没有予以足够的重视,仍停留在传统图书编目领域。因此图书馆资源组织与服务的功能遭到了用户的质疑,并逐渐被数据库服务商和网络搜索引擎所取代。鉴于此,图书馆需要积极转变观念,确立大资源组织观,切实加强数字化编目理论研究,组织和整理好一切馆藏信息资源。
(2)关联与整合图书馆外部资源。尽管实现对所有知识的普遍存取是图书馆类似于巴比塔般的职业梦想[14],但全面组织和序化所有的物理与数字化的各种信息资源,几乎是不可能完成的任务,而且鉴于网络信息资源的质量良莠不齐,也无必要。经过筛选建设而成的馆藏文献资源,是图书馆可以组织与管理的最有价值的信息资源,且图书馆目前能够掌握和利用的核心数据仍然是书目数据和部分镜像到本地的期刊数据[15]。图书馆应该从馆藏书目数据开始,在全面组织和揭示馆藏文献资源的基础上,有选择性的关联外部网络信息资源,如豆瓣网的书评、图书封面,以及学术博客、各种交流与访问,以丰富和完善馆藏资源的内容揭示;抑或在开放数据网络中,由图书馆书目数据集关联其他相关数据集,如规范文档包括虚拟国际规范文档(VIAF)、美国国会标题表(LCSH),维基百科数据集(DBpedia)、地理空间数据集、科学数据数据集等,从而扩大馆藏资源组织的范围。
通过拓展图书馆内部资源组织的类型,并与图书馆外部资源实现关联和整合,将促使图书馆书目数据的功能发生变化,即图书馆书目数据将不再是终点,它不再是只为人们找到一个索书号或者规范名称的单功能记录,而是跨越数据类型得到其他有用数据的起点,从而改变图书馆在数字环境中的位置。
为适应不断变化着的数字环境,图书馆需要将各种载体形式的馆藏资源转化为万维网上相互连通的“数据”,即赋予标识、组织、传输和管理功能的基本语义(知识)单元,以更加细粒度、关联化的方式组织馆藏资源,并让馆藏资源与网络资源进行关联。这一转变是对传统馆藏资源组织理念与方法的突破,将有助于图书馆成为开放数据网络中的交通枢纽或核心节点,提升馆藏资源的服务与利用率。
区别于传统的文献单元资源组织模式,以数据为单元对资源进行组织,其主要含义是指将文献资源中包含的各种知识点转化为网络数据,如将每个作者,每个刊物、出版社,每个主题概念,每个分类号……每一个“知识点”都转化为具有唯一标识的网络数据,不同文献资源实体通过这些“知识点”进行链接和关联。纸本时代因受其材质制约,只能选择最主要的书名、作者、版本等基本元素对文献外部特征进行描述,然而数字时代的到来,材料和技术的革新,纸本材料的障碍已经不复存在,加上自动分词、模式匹配、命名实体识别、机器学习等技术的发展和进步,切实深入到文献内部对知识进行组织已经成为可能。文献内部知识点的挖掘主要包括各种主题概念,如人物、机构、事件、生物、矿物、产品、设备、公式、术语、数据、著作等等。值得注意的是,科学数据作为一类特殊的知识标识点,理应在未来馆藏资源组织中予以关注和揭示。
1998 年国际图联开展新型书目组织模式研究,构建FRBR 语义模型,近年推出以FRBRFRADFRSAR 为基础的新一代编目标准RDA。美国国会图书馆宣布2013 年3 月31 日为“RDA编目实施切换日”。但有研究者认为FRBR 模型过于严格与复杂,且WEMI 分层限制了图书馆数据的灵活性[16]。国会图书馆最新提出的BIBFRAME 模型是FRBR 的简化版,它用“作品”和“实例”两个层次取代FRBR 模型的四个层次[17]。然而FRBR 和BIBFRAME 模型过于“以图书馆为中心”,难以被网络社区所利用[18],与Schema.org 之间的相互映射非常困难[19],因此OCLC 通过在Worldcat 增加Schema.org 的标记来发布关联数据,并致力于使用Schema.org 这个流行的网络资源组织本体来标记图书馆的数据。国际编目形势的种种变化都标志着未来馆藏书目资源组织正朝着开放、关联与网络化的方向发展,FRBR 和RDA 在未来一段时间的发展非常值得关注。面对异常丰富的图书馆馆藏资源,需要系统探索各种馆藏数据关联的特征、结构和基本规律,并借助关联数据技术,构建馆藏资源底层整体数据关联的通用框架和关联词汇集,以更好地组织、关联和发现图书馆馆藏资源。
关联数据为图书馆将各种资源转化为细粒度连通着的网络数据提供了技术保障,然而关联数据既可以是开放数据,又可以是私有的内联网数据,开放数据并非关联数据的前提[20]。对于图书馆书目资源而言,突破封闭的数据环境,进而被搜索引擎索引,是提高馆藏资源利用率的重要途径。因此将馆藏书目资源发布为公开的Web 数据,并加入开放数据网络,就显得十分重要。据OCLC 技术布道者Richard Wallis 宣称,OCLC 即将发布1.94 亿关联数据的“书目作品”描述,这将成为开放数据网络的重量级数据集[21]。关联开放的数据环境对于图书馆来说是一种全新的挑战,一方面图书馆通过关联开放书目数据,证明其有形成果,另一方面图书馆需要开发适合关联开放数据的法律与技术需求,以提供全新的服务。
书目数据是图书馆可主导的核心数字馆藏。面对网络数字环境的巨大冲击,图书馆应转变观念,采用开放、关联与语义化的模式组织书目数据,继续将其发扬光大。同时,图书馆需确立大资源组织观,并细化书目数据组织粒度,在关联开放的数据环境中,广泛整合网络数字资源,以满足用户灵活、多层次的知识需求。
[1] 辛苗. 书目数据著录书评的探讨[J]. 图书馆论坛,2009(2):98- 101.
[2] Perceptions of Libraries,2010[DB/OL]. [2014- 05-26].http://www.oclc.org/en- US/reports/2010perceptions.html.
[3] 中文机读目录格式(CNMARC) 浅说[EB/OL].[2014- 05- 26].http://www.hzcnc.com/2/pxzl/CNMARC.htm.
[4] 童正伦.电子时代的古籍书目设计[J].图书馆,2012(1):112- 115.
[5] 姚晓锋.图书馆书目数据的网络化研究[J].图书馆学研究,2011(2):55- 57.
[6] 智慧图书馆服务[EB/OL]. [2014- 05- 26]. http://lib.nju.edu.cn/html/article.htm?id=88&fid=49.
[7] 可获得性理论[EB/OL].[2014- 05- 26].http://blog.sina.com.cn/s/blog_4c725fcc0101k4od.html.
[8] 图书馆学研究中的可获得性理论学习提要[EB/OL].[2014- 05- 26].http://blog.sina.com.cn/s/blog_4c725fcc 0101k3s6.html.
[9] Linked data [EB/OL].[2014- 05- 26]. http://www.w3.org/DesignIssues/LinkedData.html.
[10] Linking Open Data [EB/OL].[2014- 05- 26]. http://www.w3.org/wiki/SweoIG/TaskForces/Community-Projects/LinkingOpenData.
[11] Library Linked Data[EB/OL].[2014- 05- 26]. http://datahub.io/group/about/lld.
[12] 王晓光,陈孝禹.语义出版的概念与形式[J].出版发行研究,2011(11):54- 58.
[13] 唐义,肖希明.关联科学:一种全新的科研支撑方式[J].图书馆杂志,2013(8):4- 11.
[14] 梁灿兴. 梦醒巴比塔——图书馆在Web2.0 时代面临的转折[J].图书馆,2007(5):6- 13.
[15] 朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9- 13.
[16] COYLE K. FRBR as cake[EB/OL].[2014- 05- 26].http://kcoyle.blogspot.com/2011/04/frbr- as- cake.html.
[17] 李恺. RDA、FRBR 和BIBFRAME 的最新进展:2013 年ALA 年会参会笔记[EB/OL].[2014- 05- 26].http://www.dlf.net.cn/manager/manage/photo/admin 201309004.pdf.
[18] WEINBERGER D. What I learned at LODLAM[EB/OL].[2014- 05- 26]. http://www.hyperorg.com/blogger/2013/06/22/what- i- learned- at- lodlam/.
[19] COYLE K. FRBR and schema.org[EB/OL]. [2014-05- 26]. http://kcoyle.blogspot.com/2013/06/frbrand- schemaorg.html.
[20] Linked Data FAQ[EB/OL].[2014- 05- 26]. http://structureddynamics.com/linked_data.html.
[21] Data Liberate[EB/OL].[2014- 05- 26]. http://dataliber ate.com/2014/02/oclc- preview- 194- million- open- bibliographic- work- descriptions/.