利用数据库商提供的电子资源MARC数据的策略

2012-02-15 11:23贾延霞清华大学图书馆北京100084
图书馆建设 2012年8期
关键词:电子图书字段编目

贾延霞 杨 慧(清华大学图书馆 北京 100084)

目前,各图书馆电子资源的拥有量急速增长,一些图书馆的电子资源采购经费已经超过印刷型资源的采购经费,电子资源已经成为非常重要的馆藏资源。电子资源数量庞大、增长速度快,利用数据库商免费或有偿提供的MARC(Machine-Readable Cataloging,机器可读目录)数据是快速完成电子资源编目的重要途径。清华大学图书馆在开展电子资源编目的过程中,采用了中外多个数据库商提供的MARC数据。本文以清华大学图书馆的实践为例,讨论电子资源编目中利用数据库商提供的MARC数据可能存在的问题及利用策略,以期为同行合理利用MARC数据提供参考。

1 利用数据库商提供的MARC数据是电子资源编目的主要方法之一

2011年,笔者在一项关于电子资源编目实践的调研中发现,大多数图书馆会利用数据库商提供的MARC数据对电子期刊和电子图书进行编目,以加快电子资源编目速度、节约编目成本。在笔者调查的14家已经开展电子资源编目的国内图书馆中,有12家利用了数据库商提供的MARC数据。笔者在调查中了解到,哥伦比亚大学图书馆、香港中文大学图书馆[1]购买了Serials Solutions公司的服务,由Serials Solutions 公司提供电子期刊的MARC数据并定期更新维护。一份对美国研究型图书馆电子资源编目实践的调研显示,接近48%的图书馆表示会购买数据库商提供的电子资源书目记录[2]。从上述分析来看,利用数据库商提供的MARC数据是电子资源编目的主要方法之一,有助于图书馆快速完成大量电子资源的编目工作。

2 利用数据库商提供的MARC数据中需要注意的问题

清华大学图书馆先后利用过Springer、MyiLibrary、NetLibrary、Safari、Ebrary、Wiley、Eighteenth Century Collections Online(十八世纪作品在线)等多个西文电子图书数据库商以及超星电子图书和书生之家电子图书等中文数据库商所提供的MARC数据。在利用这些MARC数据的过程中,笔者发现有一些问题值得注意。

2.1 数据质量问题

数据库商提供的MARC数据极大地方便了图书馆,但并不是所有MARC数据的质量都能令图书馆满意。就笔者利用电子图书MARC数据的过程来看,国外数据库商提供的西文电子资源的MARC数据质量较好,但国内数据库商提供的中文图书的MARC数据质量参差不齐。对照MARC著录规则笔者发现,中外数据库商提供的MARC数据均存在不规范的问题。数据库商提供的电子资源MARC数据的质量问题主要表现在以下两个方面。

2.1.1 著录字段不齐全

有些数据库商提供的MARC数据中缺乏完整的电子资源特征字段或子字段。例如,ProQuest学位论文全文数据库的MARC数据中,245字段缺少“$h[electronic resource]”及$c子字段;IG Publishing数据库的电子图书MARC数据普遍缺少006、007字段;书生之家电子图书的MARC数据中,200字段缺少“$b电子资源”。此外,数据库商提供的MARC数据中普遍缺少电子资源附注说明字段,如西文电子资源的MARC数据中普遍缺少500字段(题名来源附注)、538字段(系统细节附注);中文电子图书的MARC数据中则普遍缺少135字段(电子资源编码数据)、325字段(复制品附注)、337字段(系统要求细节附注)等。

有的电子资源MARC数据虽然具有电子资源特征字段或子字段,但缺少其他应具备的字段或子字段。例如,IG Publishing电子图书的一些MARC数据中缺少必备的字段,如100字段(个人名称)、111字段(会议名称)等。国内很多图书馆订阅了超星电子图书,其数据库商提供的MARC数据中有不少是简编记录,有的甚至连最基本的责任者检索点字段都不具备,如有的数据仅有010字段、135字段、200字段、210字段、215字段、690字段、856字段。

2.1.2 著录字段不规范

有些电子资源的MARC数据中,已著录的部分字段或子字段不符合著录规范,与相应的印刷型资源的著录形式不一致。例如,在一些西文电子图书的245字段(题名说明)和中文电子图书的200字段(题名与责任说明)中,不区分正题名与其他题名或分辑题名等,全部著录在245$a或200$a子字段中;不区分首要责任者和次要责任者,均著录在200$f子字段中。ProQuest学位论文全文数据库的MARC数据中,部分数据的100字段和245字段全部是大写字母。

著录不规范有很多弊病,不利于数据交换,不利于读者查询和辨识信息,不利于书目数据库整体的质量控制工作,也不利于馆员进行数据查重。

2.2 同一资源在多个数据库中重复出现

同一种电子资源同时存在于多个数据库中,这种情况在电子期刊中尤为多见,图书馆必须考虑该如何处理这种情况。例如,同一种电子图书在超星电子图书、书生之家电子图书及阿帕比电子图书3个数据库中都有记录,同一种电子期刊在EBSCO、Gale和ProQuest的数据库平台中都有所收录,图书馆要决定为这些电子图书或电子期刊建立一条书目记录还是多条书目记录。这就要求图书馆制定本馆的电子资源编目政策以方便编目员处理实际问题。

2.3 链接字段的OPAC显示问题

在MARC数据中,856字段中的$u子字段是电子资源的链接地址,可使读者通过OPAC(Online Public Access Catalogue,联机公共目录查询)直接链接到电子资源的内容。OPAC中链接显示的文字则由856字段中的$z子字段的文字决定。而数据库商提供的856$z子字段中的内容或形式各不相同,有些根本没有856$z子字段,这样使读者在OPAC中看到的链接文字要么内容表现各异,要么仅是抽象的URL地址。清华大学图书馆的参考咨询馆员曾向编目员提出建议:电子资源链接地址应能提供有关来源数据库的信息,以方便读者进一步了解数据库。可见,如何清晰地在OPAC中展示电子资源的链接信息是值得编目员注意的问题。对856$z子字段公共附注的文字做规范化处理,有利于读者更清晰地了解电子资源的来源等信息。

3 利用数据库商提供的MARC数据的具体方法

3.1 制订电子资源编目的本地政策

为了规范电子资源编目工作,各图书馆应该结合实际情况制订本馆的电子资源编目政策,如制订编目流程、编目规范、编目数据修改要求等。尤其对于资源同时有电子版和印刷版以及各个数据库含有同一种电子资源的情况,图书馆必须确定是建立1条书目记录还是多条书目记录。这两种方法各有优缺点:建1条书目记录符合FRBR(Functional Requirements for Bibliographic Records,书目记录功能需求)对书目功能的需求,能够节约馆藏空间[3],但维护856字段中的多个URL比较困难;将1种资源的电子版和印刷版以及不同数据库中的每种资源单独建立书目记录,可直接批量灌装书目数据,新建及后期维护更新都比较简单,但会带来数据冗余、重复的问题。各馆需要依据本馆的实际情况制订本地政策,用于指导本馆的电子资源编目工作。清华大学图书馆对1种资源的电子版和印刷版采取分别建立书目记录的方式;对不同数据库含有的同一种电子图书的情况,采取建立多条书目记录的方式;对不同数据库含有的同一种电子期刊的情况,则只建立1条书目记录,其856$u子字段中的URL指向期刊导航中该期刊的地址。

3.2 分析数据,制订合理的修改方案。

笔者通过关于电子资源编目实践的调研发现,在利用数据库商数据的12家国内图书馆中,有2家图书馆没有对数据库商的数据做任何修改,直接加以利用,有10家图书馆表示需要做适当的修改。结合电子资源编目实践经验,笔者认为,图书馆拿到数据库商提供的MARC数据之后,首先应对数据质量进行分析,记录所有不规范或缺失的字段或子字段,记录其数据质量的特点,以便为合理利用、适当修改提供依据。

对不同数据库商提供的MARC数据需要制订不同的修改方案。有的数据库商提供的MARC数据不需要修改直接便可利用,如数据库商提供的是OCLC(Online Computer Library Center,联机计算机图书馆中心)的记录;有的数据库商提供的MARC数据则需要进行必要的字段修改再加以利用。修改的主要目的是使得字段规范,与著录规则尽量一致。一般来说,需要修改或完善的字段主要有重要的检索点字段,如CNMARC(China Machine-Readable Catalogue,中国机读目录)中的200字段、7--字段;电子资源特征字段和子字段,如MARC21中的5--字段、CNMARC中的3--字段;编码字段,如MARC21中的006、007字段,CNMARC中的135字段等。此外,需要修改的还有856$z子字段的公共附注,以给读者提供更清晰的指引。例如,清华大学图书馆将西文电子图书的856$z子字段的问题统一修改为“Connect to the book via XXX”,其中XXX与图书馆主页上介绍的数据库名称一致,这样使读者很清楚现在访问的是哪些数据库资源,而且也在无形中向读者介绍了该数据库的有关信息。

3.3 修改完善书目记录,实施质量控制。

制订数据修改方案后,对于存在共性问题的书目记录(如缺少的电子资源特征字段或子字段、修改856$z子字段的公共附注等)可以尽量利用批处理软件加快数据处理速度;对于无法批处理的书目记录,则需要逐一修改。清华大学图书馆利用了冠景公司开发的marcpro工具软件,对MARC数据进行修改,解决了电子资源书目数据中大部分的问题。但有些数据库商提供的MARC数据存在著录错误、重要字段和子字段著录不齐全等严重质量问题,这就需要编目员逐一核对后修改完善。为了保证数据质量、满足读者的查询需求、提高查询的准确性,编目员应当仔细审核数据库商提供的MARC数据,进行必要的批量规范化修改甚至逐条完善,补充完整的检索点信息、电子资源特征字段及子字段。

3.4 定期更新维护记录

有些数据库的内容不断更新,需要图书馆积极主动地获取更新数据并实施更新维护操作。例如,定期到数据下载网站查看是否有最新的数据,对于数据库商反馈的需要删除的资源核实确认后及时删除。

为了方便对电子资源书目数据的更新维护,图书馆应在建立书目数据时注意保留资源的控制号或唯一标识号等信息,这样在更新时可以较为方便地与书目数据库中已有的数据比对并批量删除已过期的书目记录。

4 结 语

清华大学图书馆先后利用过中外多家数据库商提供的电子资源MARC数据。充分利用这些数据在OPAC中揭示电子资源,是加快电子资源编目速度、提高电子资源可见度和利用率的重要途径。编目员分析审核数据质量、制订必要的修改方案对于提高书目数据的质量有重要意义。各图书馆应结合本馆实际,制订合理的利用方案,以促进本馆电子资源编目工作的开展,优化电子资源服务。图书馆也可以尝试积极与数据库商沟通,对MARC数据提出修改完善的意见和建议,以期从源头上提高数据质量。

[1]张宝珍,吴玉珍,林柔云. 香港中文大学图书馆电子资源管理的挑战与对策[J].大学图书馆学报, 2008 (6):68-74.

[2]Chen X T, Colgan L, Greene C, et al. E-Resource Cataloging Practices: A Survey of Academic Libraries and Consortia[J]. The Serials Librarian,2004 (1-2): 153-179.

[3]邱 萍.网络电子期刊编目的难点及对策[J].图书馆建设,2011(7):34-37.

猜你喜欢
电子图书字段编目
国家图书馆藏四种古籍编目志疑
浅谈台湾原版中文图书的编目经验
粤剧编目整理之回顾与展望
图书馆电子图书需求与馆配商联盟服务转型探讨
CALIS联机合作编目中的授权影印书规范著录
网络环境下图书馆编目工作问题探讨
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
电子书是否会取代传统图书?