刘 雅
国家图书馆中文采编部
〔北京市海淀区 100081〕
*刘 雅女,出生于1981年,馆员。
目次是书刊上的目录,表示内容的篇目次序,由篇、章、条、款、项、附录、题录等序号、名称和页码组成。目次数据是数字化了的目次信息,目次数据库则是按照一定的格式与数据模型组织起来的目次数据集合。近几年数字图书馆如雨后春笋般纷纷建立,与此同时,传统纸质文献的电子化、数据化工作也开展得如火如荼。为了让读者能更全面、更深入地利用文献资源,目次数据的制作与利用已经得到了国内很多图书馆的重视,越来越多的图书馆开始制作目次数据,并将其与系统挂接供读者检索使用。
图书的目次是图书的内容大纲,可以完整真实地反映图书的整体结构,使用户在阅读前对图书的架构能一目了然。无论是传统图书馆,还是数字图书馆,相对于图书的题名、责任者、分类号而言,图书的目次具有更多、更重要的信息内容。目次可以更深层次地揭示图书内容,查阅一本书的目次,有助于了解图书的结构和内容概要,让读者对书了解更全面[1]。
关重要的参考作用
目次数据是对文献内容客观忠实的反映,它能让读者大致了解文献内容,从而判断该文献是否为自己所需要的。曾有学者通过问卷进行调查统计,其中一项针对图书书名、著者、出版时间、图书目次、内容简介等项目对读者借书决策所起的作用进行调查,调查结果是读者选择图书目次的人数最多。由此可以看出,目次对用户在选择图书方面起到了重要的作用[2]。
对编目员来说,其关注的是如何让用户得到更准确、更全面和组织更为合理的信息,他们甚至希望用户可以只通过对书目数据的浏览即可确定对该文献的需要程度,因此,目次数据对用户和图书馆员来说都是同等重要的。
2009年,OCLC发表了《Online Catalogs:What Users and Librarians Want:An OCLC Report》(联机目录:用户和图书馆工作人员需要什么)。报告做了基于对WorldCat用户的三个调查,以不同用户(最终用户与图书馆工作人员)对目录数据质量认识作为调查重点,得出改善目录数据的建议[3]。调查结果显示:图书馆员和工作人员希望用目次来加强目录中的数据,其强烈愿望仅次于“合并重复数据”。在对用户的调查中显示,终端用户认为“提高目录数据质量”是最希望实现的,排名前两位的是“增加网络内容/全文的链接”以及“更多的主题信息”。并列排在第三的是“更多的目次”以及“增加概要/摘要”。
可见,目次数据在对文献内容的揭示、资源的查找等方面具有较强的优势,对于完善书目数据来说是不可或缺的。
目前,从图书生产到流通的各个环节都有目次数据产生。大致可以分成四个来源:(1)出版社。出版社交付印刷的图书都是电子版,所以出版社拥有图书的电子目次。有些出版社还将一部分图书的目次数据放在出版社网站上以供检索,比如北京大学出版社、当代世界出版社等。浏览者只要通过点击一本书,就能看到该书的内容简介、前言、目次等信息。(2)图书供应商。当当网、卓越等网上书店一般都提供了数字化的目次、作者简介、内容简介等信息。图书馆供应商提供的目次数据虽然多且全,但缺点是格式不规范,目次的等级录入参差不齐。(3)数字化公司。万方数据、方正等,他们制作了很多电子图书,其中都包含目次数据。但目次数据只是图书数字化的附属产品,并非这些公司的主营业务。(4)图书馆类机构。比如,中国科学院国家科学图书馆的UNICAT联合目录提供目次数据。
既然目次数据的产生渠道这么多,各图书馆可以根据自身特点,整合各种渠道的目次数据,采取以下一种或综合多种方式制作目次数据,建设目次数据库。
一方面,可由图书馆员采用传统人工方式制作目次数据,这种方式的最大优势在于:遵循一定的著录规则,格式相对规范,方便用户检索和进行数据交换。但是,由人工来制作目次数据的劣势在于:速度是制作目次数据的瓶颈,还需要投入大量的人力物力进行制作、校对,错误量也居高不下。国家图书馆从2000年4月开始手工输入制作中文学术性图书的目次数据,主要选择汇编、个人全集、选集、学术论文集、会议录等目次有检索意义的图书,将每一条目次信息著录到一个独立的自定义970字段中,970字段的第二个指示符表示标题的层级,比如子字段$h表示章节号、$i表示章节标题、$f表示著者。截至2009年8月,国家图书馆已经完成77 000多种图书近840万条目次数据的制作。在数字化、信息化高速发展的今天,手工输入目次数据的方式显然缺乏效率。
另一方面,是采取外包方式委托制作。将目次数据从扫描、OCR识别、校对、数据查重等全流程外包给有编目经验的第三方,图书馆主要负责校对和验收工作。这种方式的优势在于:可以从最初选择外包公司到最终数据的校对进行全过程的控制,效率高。缺点则是投入较大。
购买的主要对象是数据库厂商、图书供应商,主要形式是在购买数据库或图书的同时要求其附赠目次数据或通过增值购买目次数据。目前,可获取目次数据的电子图书数据库商中较大的有方正电子图书。方正电子图书所收录内容来自400多家出版社,大概100多万册,这些电子图书一般都带有目次数据,但它们是单独保存的XML格式,一种图书有一个或多个XML目次文件,这些数据的特点是,章节号、章节名和著者是放在同一个标签字段的同一个属性中,页码是放在另一个属性中。如果要导出目次数据,需要开发工具批量导出,导出后的数据没有目次层级关系。
这种方式的优点是:以相对小的成本获取目次数据,此种方式相对于外包制作而言,可降低40%左右的费用;目次数据完整。缺点是:每个制作商在格式与标引规则上会与各图书馆的既有数据存有较大差异,影响数据的再整合;购买的目次数据会限制使用范围,无法与其他公益性图书馆共享。
网络采集包括两种形式:一种是抓取网络上提供的免费的目次数据,与书目数据进行挂接;当当网、琅琅图书、豆瓣图书以及一些出版社的网站上会提供图书的内容简介、前言、目次等信息,可以通过自动抓取技术获取这些目次信息。网页抓取目次数据是使用解析程序对网页内容进行解析,得出图书目次。主要有两种技术路线,一种是使用网页爬虫抓取web数据,另一种方式是按照ISBN号访问链接地址,进行抓取。另一种是在采集网络电子图书的过程中,同时采集目次数据,通过技术处理,与电子图书全文一起为用户提供服务。网络电子图书作为网络资源的重要组成部分,正在逐渐成为数字图书馆的馆藏。2010年建设的国家开放存取资源总库采集了约5万本电子图书。在这个资源库中,可以利用数字技术对电子图书的目次数据进行提取,实现目次数据与全文的链接,使用户可以方便地从目次直接定位到正文。
网络采集方式的优势在于:成本低,易操作,效率高。劣势在于:目次数据格式五花八门,十分复杂;目次数据的正确性、完整性得不到保证,有的只有一级目录,而且没有进行质量控制,错误率很高,要利用的话需要进行大量校对工作;有些PDF格式的电子图书被放到网上前经过了处理,如:加密不能复制,或者复制后与原文不一致,或者复制内容粘贴后显示乱码。这些问题的出现无任何规律可循,若要加以利用需耗费很大功夫。
国外图书馆都比较重视目次数据库的建设。美国国会图书馆处理目次数据的方式之一是采用856字段方式进行链接,将目次数据集中放到一个服务器上后,根据每一条目次所在的地址通过系统为相应的书目数据自动追加一个856字段。英国国家图书馆的部分图书都提供了目次显示,主要通过在MARC数据中以字段注释方式提供链接。日本国会图书馆的目次数据是放在书目记录的“contents”字段中,并进行显示。
相对而言,国内图书馆在目次数据库的建设方面还处于落后状态,也是近几年才开始重视目次数据库的建设。目前,国内提供目次数据的图书馆主要有国家图书馆、中科院国家科学图书馆、上海交通大学图书馆等几家。国家图书馆的特色资源库、方正电子图书中都含有目次数据,因各种原因,2009年前手工输入的目次数据尚未挂接到系统中以供检索使用。中国科学院国家科学图书馆的UNICAT联合目录集成服务系统,2007年开发了图书目次服务功能,在书目数据中嵌入目次、书评信息。目前,UNICAT联合目录集成服务系统有近16 000种图书数据嵌入了目次信息,3 000余种图书数据嵌入了书评内容,并逐年增加[4]。
目次数据的制作是一项长期的任务,若是涵盖所有中文图书的话,每年需要制作的数量也颇为可观,如果每个图书馆均按照自己的格式、方式方法建设目次数据库,将会造成大量人力、物力、财力的浪费。因此,共建共享目次数据库是信息时代图书馆的最好选择。
上文已介绍,各种渠道获取的目次数据格式不一,有的是扫描的图像格式,只能阅读不能修改;有的是TXT文本格式;有的是MARC格式。因格式千差万别,要把各种渠道所获得的目次数据经过转化成为各个图书馆能利用的格式有点难度,因此,要想共享目次数据首先要统一目次数据的相关标准规范,避免由于标准、规则等不统一而造成混乱。国家图书馆应发挥行业引领作用,适时制订目次的生产标准和规范,并推广到全国。
用户对目次数据的呼声越来越高将会推动目次数据库在全国范围内的建设与发展,而共建共享是建设目次数据库的发展方向。要达到这个目的,必然需要一个公益性目次数据采集平台供上传和下载目次数据,这个平台的目次数据可以来自两个联合:(1)图书馆界的横向联合,即所有生产目次数据(格式统一)的图书馆将其制作的目次数据上传到该平台供其他图书馆下载使用;(2)图书出版商、发行商、用户的纵向联合,其提供的目次数据(格式符合规范或能转化为规范格式)经审核后可以上传。这样,通过建设良好的沟通、互动机制,可以将大家的智慧与力量引入目次数据的建设中来,实现资源的最大利用。
目前,已经有一个现成的平台可以利用——全国联合编目中心。
共建共享目次数据库的最终目标是在图书馆界的联盟基础上实现目次数据的无障碍交流和共享。近年来,我国图书馆界在联盟建设方面有了一些发展,已具备在图书馆界的联盟基础上进行中文图书目次数据库建设工作的条件。可以由国家图书馆进行牵头,由全国联合编目中心这个机构进行统一管理,将目次数据与书目数据挂接达到资源的共建共享。
之所以选择全国联合编目中心,一是目次数据必须依托书目数据存在和加以利用;二是该中心包括二十几个书目数据库,具备推广共建共享目次数据库的实力。该中心书目数据的使用单位已超过1 000家,成员馆的队伍已发展到600多家,成立了十四家分中心[5],在书目数据的共建共享方面摸索出很多经验,在此基础上进行目次数据的共建共享应是水到渠成。
建设中文图书目次数据库是图书馆满足信息时代读者的检索需求,提升服务的一个重要方面,采取共建共享的模式来建设中文图书目次数据库既节省了大量的人力、物力、财力,又能在最大程度上实现资源共享,是一个很好的举措。
[1]武汉大学,北京大学《目录学概论》编写组.目录学概论[M].北京:中华书局,1982:107.
[2]孙维钧.图书目录的缺陷及MARC的完善[J].大学图书馆学报,1999,17(4):65~67.
[3]OCLC报告——联机目录:用户和馆员需要什么[EB/OL].[2010-08-06].http://catwizard.blogbus.com/logs/38491121.html.
[4]中国科学院国家科学图书馆.UNICAT联合目录集成服务系统[EB/OL].[2011-3-5].http://union.csdl.ac.cn/2.jsp.
[5]国家图书馆联合编目中心.全国联合编目中心[EB/OL].[2011-5-1].http://olcc.nlc.gov.cn/about-zxjj.html.