OPAC数据在发现系统部署及维护的策略

2015-11-26 08:03邱萍周琴
山东图书馆学刊 2015年6期
关键词:西安交通大学编目书目

邱萍周琴

(西安交通大学图书馆,陕西西安710049)

OPAC数据在发现系统部署及维护的策略

邱萍周琴

(西安交通大学图书馆,陕西西安710049)

OPAC数据在发现系统成功部署,必须具备优良的书目数据及准确的数据映射。维护需根据记录类型选择不同的上载策略,在上载目录的划分,记录唯一识别符及删除策略的选择上也要结合本馆的工作方式作出明确的规定。

发现系统 OPAC数据 数据部署

1 引言

自PROQUEST公司旗下的Serial solution于2009年7月推出了首款发现系统Summon[1],这一新的信息发现工具立即引起了全球图书馆、信息集成商、内容提供商的广泛关注。继Summon之后,Exlibris公司的Primo、Ebsco公司的EDS、OCLC的Worldcat Local等发现系统的产品也相继出现。在国内高校图书馆如清华大学图书馆、北京大学图书馆、西安交通大学图书馆等首批引进发现系统并取得良好效果后,更多国内图书馆开始调研、试用并引进发现系统。

从某种意义上说,发现系统是一个学术搜索引擎,是拥有海量学术信息(包括图书馆引进的纸质资源、数据库资源、以及网络免费学术资源)的元数据仓储。元数据质量不仅关系到发现内容的质量,还关系到针对海量元数据仓储进行数据挖掘的效果[2]。OPAC数据,作为图书馆的自生元数据,是发现系统元数据仓储中非常重要的部分,其在发现系统的部署及维护,也是图书馆参与度与可控性最高的部分,因此成为各图书馆发现系统调研的关注点。

本文以西安交通大学图书馆的实践为例,从数据准备、数据映射、数据上载等方面,探讨OPAC数据在发现系统部署及维护的策略,以期为同行顺利地引进与运行发现系统提供一些参考。

2 发现系统OPAC数据部署的策略

发现系统OPAC数据部署的目标是全面、准确地将本馆OPAC中的书目记录整合到发现系统的元数据仓储中,主要包括数据准备、数据映射两项内容。

2.1 数据准备工作

国内高校图书馆管理系统已经历了20多年的发展历史,多校合并带来的书目数据整合、回溯建库、编目外包等都对OPAC数据库的质量造成了影响,数据冗余以及书目质量良莠不齐是普遍存在的问题。为保证发现的效果,OPAC数据在发现系统资源部署之前,必须改善质量。

高校图书馆的OPAC系统经过多年建设,已形成资源类型丰富,记录数量庞大的书目体系。以西安交通大学图书馆为例,截止2011年6月图书馆OPAC数据库的书目总量为86万余条,其中包含纸本图书、纸本期刊、光盘、磁带、学位论文、电子图书、电子期刊记录……等。清除数据冗余,改善书目质量,是非常繁杂琐碎的工作。鉴于此,西安交通大学图书馆制定了分块、分步的数据整理方针。根据馆藏建设阶段,OPAC系统的书目记录被分为三块:基本对应回溯建库阶段、合校整合阶段、新书建设阶段,整理按照规范类型标注,剔除垃圾数据,修改错误记录3个步骤依次进行。

2.1.1 规范类型标注

书目记录的类型标注反映书目的文献类型,是OPAC数据在发现系统中文献类型的映射源。一个完善的书目系统,必须对类型标注做明确的规定,并保证其应用的准确。表1为西安交通大学图书馆OPAC书目的类型标注。

表1 文献类型MARC头标对应表

类型标注信息出现在书目记录头标中,对应头标区的书目级别代码和记录类型代码(leader06-07),是在建立书目记录时生成的。目前图书馆广泛利用外部数据源的书目,不同书目系统的类型标注不禁相同,若不加修改的直接利用,将造成OPAC系统中类型标注体系的混乱。由于类型标注是不易识别的代码形式,很容易在编目及维护过程中被忽视,因此OPAC书目系统中类型标注的错误比较普遍。例如:CALIS规定书目级别s=连续出版物,包括现刊……专著丛编等[3],而西安交通大学图书馆编目细则规定专著丛编按照专著单独著录,因此从CALIS套中的专著丛编必须把类型标注leader06-07由as改为am,否则将与期刊混淆不清。再如:从OhioLINK(The Ohio Library and Information Network,俄亥俄图书馆与信息网络)套中的电子图书leader06-07=am,而本馆规定leader06-07=an,因此进入本馆系统也需要修改。

需要指出的是,类型标注不仅反映文献类型,也是书目记录完整性与准确性的考量依据,它为进一步的书目整理提供依据。

2.1.2 剔除垃圾数据

OPAC数据库冗余数据的产生有多种原因。在回溯建库及多校合并阶段主要的原因有:卡片目录及图书的信息缺失,录入的错误、合并书目不完全……等,造成的结果是重复书目记录、孤单书目记录……等。而新书建设阶段由于工作方法的问题,也会产生冗余数据,例如:西安交通大学图书馆订购记录遴选工作在OPAC系统内进行,未选中书目应及时删除,但实际操作中,删除工作经常被遗忘,未选中书目长期滞留,给OPAC数据库造成了严重的冗余。

无关联记录的孤单书目记录,在确定不属于本馆馆藏外必须予以剔除。西安交通大学图书馆OPAC系统各类型记录(书目记录、订购记录、记到记录、馆藏记录……)具有关联性,如:图书书目记录的关联记录有馆藏记录和订购记录,期刊书目记录的关联记录有记到记录和馆藏记录。因此垃圾数据的确定可通过文献类型结合记录关联性来实现。图1为垃圾图书记录的确定条件,同法可以确定期刊、学位论文……等类型文献的垃圾数据,进而剔除冗余。重复书目记录的情况由于数量少且难于发现,不作为数据准备的重点。

图1 OPAC垃圾图书书目的确定条件

2.1.3 修改错误记录

OPAC数据库在新书建设阶段,编目规范化程度较高,编目员普遍接受过权威编目机构(CALIS、中国国家图书馆等)的培训,实际工作有《CALIS联机合作编目手册》及《中国机读目录格式使用手册》等工具书做指导,书目质量得到根本保证,但回溯阶段及多校合并阶段的书目数据则质量不佳,字段使用的错误及著录的错误较多。

MARC格式作为标准的机读目录格式,具有结构严谨、字段丰富的特点,MARC记录的错误也是复杂多样的,因此对OPAC数据进行彻底的修改难度很大。发现系统类似搜索引擎,为用户提供学术资源检索,并可按时间、类型、主题、学科、作者……等维度对检索结果进行聚类显示,对于元数据中检索字段及索引字段的要求相对更高。因此修改错误记录主要应针对检索及索引字段,包括题名、责任者、ISBN,出版发行等字段。修改采用批量方式,针对普遍问题,包括易错字段,如210$c;及对著录内容有明确规定的字段,如010$a、210$d;以及错字符、乱字符等问题。

西安交通大学图书馆数据准备耗时6个月,共删除垃圾数据6万余条,修改记录10余万条。为OPAC数据在发现系统的部署打下了良好的数据基础。

2.2 数据映射工作

OPAC数据必须通过映射转换成发现系统的数据字段,映射的精准直接影响发现的效果。

为简化数据映射工作,发现系统平台商会为图书馆提供基础映射表,其中包含Introduction,Content Type Mapping(文献类型映射),MARC Mapping (MARC映射),Location List(馆藏地)等表单,Content type mapping针对的是文献类型的映射,主要对应MARC记录头标区,如图(2)。MARC Mapping (MARC映射)是针对MARC格式字段的映射,基本对应MARC记录数据区,如图(3)。

图2 Content Type Mapping

图3 MARC Mapping

基础映射表单含盖了发现系统全部数据字段与OPAC数据的映射关系,为图书馆OPAC数据在发现系统的映射提供了便利。需要指出的是,鉴于各馆对MARC格式字段使用的个性化规定,基础映射表必须经过逐项分析、调整、映射测试后才能正式利用,否则可能出现映射错误或丢失数据的情况。西安交通大学图书馆在利用基础映射表做测试的过程中,曾出现主要责任者项映射丢失的情况,原因在于本馆编目细则规定使用CNMARC的700 $a子字段著录主要责任者,而映射表中主要责任者对映的却是701$a子字段,由于错误的映射关系,主要责任者未能映射成功。

3 发现系统OPAC数据维护的策略

发现系统与OPAC的数据整合并不是一劳永逸的。部署完成后,图书馆还须制定持续维护的政策保证发现系统与OPAC数据的同步,维护针对的是新增、删除、更新的记录,图书馆应按需设置上载目录,确定书目唯一识别符及删除策略,并根据记录类型制定上载策略。

3.1 按需设置上载目录

将OPAC系统中的哪些数据整合到发现系统,各图书馆有不同的考量。清华大学将中西文纸本资源,多媒体光盘、电子期刊、电子图书、学位论文等数据配置到发现系统中[4]。而华中科技大学图书馆、北京工商大学图书馆等只将传统文献资源数据整合到发现系统。

鉴于国内图书馆普遍采用2种MARC格式编制中外文文献书目,发现系统平台商会提供2个基础上载目录,分别对应CNMARC及USMARC格式的记录。对于提交多类型文献记录的图书馆,仅有2个基础目录将会导致大而全的映射,容易造成逻辑的混乱从而影响映射效果,同时也不利于图书馆监视OPAC数据在发现系统的整合结果。基于以上考虑,建议提交多类型文献的图书馆,按需求设置上载目录的个数。如西安交通大学图书馆规定将OPAC中的传统文献(中西文纸本书刊,磁带、光盘等)、电子期刊、电子图书、学位论文数据整合到发现系统,因此设置了5个上载目录,分别对应CNMARC传统文献、USMARC传统文献,电子期刊、电子书、学位论文数据。

3.2 书目唯一识别符的确定及删除策略的选择

唯一识别符(Unique identifier)的作用是匹配维护记录以及指引发现系统创建超链接到达OPAC相关记录。书目中具有唯一性的字段,如索书号,控制号,书目记录号等都可作为唯一识别符。但索书号、控制号是人为生成的字段,容易在编目过程中被错误更改,导致失败或错误的匹配。而书目记录号是系统生成的,稳定性高,因此建议选择书目记录号作为唯一识别符。

为保证数据同步,OPAC系统中的删除记录也需同时在发现系统中删除。删除记录的上载有几种策略,策略一:在书目记录中标记删除信息[如将记录头标的记录状态符改为d(被删除的记录)],作为更新记录统一上载update目录中。策略二:删除记录单独形成文件,上载delete目录,记录会从发现系统删除并不会检查标识字段的意义。策略三:只输出删除记录的唯一标示符,形成.txt,.keys,或.xm文件。

删除策略如何选择应根据OPAC系统处理删除记录的方式而定。如图书馆编目管理要求:删除记录必须先标记为删除状态,再由专人删除,则可选取策略一,同时需要保证上载发现系统先于OPAC删除。选择策略二的前提是,图书馆批量备份全部删除记录,该策略也适用采用批量方法更新维护的电子资源书目记录。如果图书馆管理系统能够提供批量删除书目记录报表,策略三也将是很好的选择。

3.3 不同类型的数据制定不同的上载策略

OPAC中不同类型文献的书目记录,编制周期及维护方式具有差异。因此在发现系统中维护方式也不应一概而论,而需要综合考虑数据的同步性以及维护的必要性。

西安交通大学图书馆,根据书目编制周期及维护方式的不同,将需上载的书目记录分为3大类:传统文献书目、电子资源书目、特色馆藏书目,并对其制定了不同的上载策略(见表2)。传统文献包括中、西、日、俄不同语种的图书、期刊、资料等。传统文献在OPAC系统中采用持续编目、持续维护的方式,具有记录稳定,更新速度快,数量庞大的特点,因此上载采用定期批量策略,每周抓取上载一次。OPAC中电子资源的编目及维护根据数据库的引进和更新不定期进行,因此电子资源记录的抓取上载应按照维护频次不定期进行。学位论文的编目是当年完成上一年度论文的编目,因此抓取和上载应以年为单位。若图书馆管理系统的开放性较好,发现系统也可通过API接口实现OPAC更新数据的自动抓取上载,这样更加有利于发现系统与OPAC系统的数据同步。

表2 各类型书目的提交策略

4 结语

在发现系统元数据仓储的建设中,OPAC数据的部署及维护是图书馆参与度最高,可控性最强的工作。因此图书馆要认真制定OPAC数据在发现系统部署及维护的政策。部署中要做好数据准备工作,确保元数据的质量,同时逐项审视并修订OPAC数据与发现系统元数据的映射关系,保证映射的准确。维护过程则要结合本馆实际,制定不同资源的上载策略,确定书目唯一识别符及书目删除的策略,同时尽量简化映射层次,保证映射的效果。

〔1〕The Summon Service[EB/OL].[2013-05-03].http://www.proquest.com/products-services/The-Summon-Service.html

〔2〕窦天芳,姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作,2012(7):38-43

〔3〕谢琴芳.CALIS联机合作编目手册(上)[M].北京:北京大学出版社,2000:67

〔4〕窦天芳,等.清华大学学术资源发现平台的建设及思考—以“水木搜索”为例[J].图书馆杂志,2013(12):71-75

Strategies of Deploying and Maintaining OPAC Data in Discovery System

Qing Ping Zhou Qin

Excellent bibliographic data and accurate data mapping are the premise that OPAC data can be successfully deployed into Discovery System.Data maintenance needs to choose different upload strategies depending on data record types.Upload directory partition,unique identifier recording and deletion strategy selection should be clearly defined in conjunction with library’s work.

Discovery system;OPAC data;Data deployment

G254.3

A

邱萍(1974~),女,硕士,副研究馆员,西安交通大学采编部副主任,目前从事电子资源整合工作,发表论文数篇。周琴(1970~),女,硕士,副研究馆员,西安交通大学信息咨询部副主任。

猜你喜欢
西安交通大学编目书目
推荐书目《初春之城》
《西安交通大学(社会科学版)》青年编委招募
《西安交通大学(社会科学版)》再获“最受欢迎期刊”
西安交通大学马克思主义学院简介
西安交通大学社科三刊简介
国家图书馆藏四种古籍编目志疑
粤剧编目整理之回顾与展望
CALIS联机合作编目中的授权影印书规范著录
图书馆编目业务外包发展探讨
本刊邮购书目