规范控制:从名称选择到实体管理

2018-02-07 00:57:04胡小菁
数字图书馆论坛 2018年1期
关键词:标目标识符编目

胡小菁

(华东师范大学图书馆,上海 200062)

图书馆目录对于规范控制的实体(责任者、作品等),以往采用的处理方式是描述与检索点分离,描述通常按文献本身的表达形式,而检索点则采用由编目规则确定的受控形式,因而实体的名称形式选择或曰“决定何种形式的姓名、题名、丛书题名和主题可用作图书馆编目或书目记录中所使用的规范化标目”,成为规范工作的重要特征。规范工作的目的是“集中同一责任者的不同著作,汇集同一著作的不同版本或译本,提高文献检索率”[1]。作为成果规范库汇集人物、机构、作品等信息,彰显图书馆的专业价值。

然而,传统规范控制对名称形式一致性的依赖,在去中心化的互联网时代局限明显。进入数字时代后,需要规范控制的场景不仅有图书馆目录,网络资源、学术成果以及作为数字学术研究对象的其他资源也需要对其相关实体进行规范控制,这些数字资源中的实体通常需要直接标记,难以像图书馆目录那样采用描述与检索点分离的处理方式。面对新需求,个人标识符系统逐渐兴起,如VIVO研究者系统、国际标准名称标识符(International Standard Name Identi,ISNI)、开放研究者与贡献者标识符(Open Researcher and Contributor ID,ORCID)和Scopus作者标识符等[2],其中体现的重要趋势之一是名称规范“从标目向唯一标识符方向发展”[3]。规范控制如果仍局限于从诸多名称中选择一个作为规范标目/规范名称/首选名称(或其他“规范形式”),那么图书馆长期以来规范工作汇集的实体信息将难以在更广泛的领域得到推广。

近年来,随着关联数据研究与实践的深入,用代表实体的标识符取代名称的规范形式,即实体或身份管理(entity/identity management),这在图书馆编目领域成为一种新兴趋势。从21世纪10年代的标准研发成果,如国际图书馆协会联合会(International Federation of Library Associations and Institutions,IFLA)的《IFLA图书馆参考模型》(IFLA Library Reference Model,LRM)、美国国会图书馆(Library of Congress,LC)的书目框架(BIBFRAME)、RDA指导委员会(Joint Steering Committee/RDA Steering Committee,JSC/RSC)《资源描述与检索》(Resource Description and Access,RDA)的修订以及MARC21格式的更新等,可以明显地看到这种变化趋势。合作编目项目(Program for Cooperative Cataloging,PCC)在《愿景、使命与战略方向》中明确其要“在规范控制从主要基于创建文本串到专注于管理身份与实体的方法转变中起领导作用”[4]。

1 名称形式规范控制的困境

规范控制的必要性源于实体的名称及其形式的多样性。同一个人、同一个作品等可能有不同名称,如同一作者的本名与笔名;同一名称还会有不同形式,如全称与缩写。由于历史、语言、文化、学科等差异,同一实体很少有世界范围内统一的名称形式。

在卡片目录时代,为提高文献检索效率、方便使用者的同时提高工作效率、减少信息冗余,通常采用的方法是在同一实体的多个名称形式中选定一个作为规范标目,名称的其他形式则作为入口词,通过卡片目录的参见系统指向规范形式,以此达到“集中同一责任者的不同著作,汇集同一著作的不同版本或译本”的目的。同时,当不同实体名称形式相同时,需要附加信息进行区别。机读目录简单地继承了卡片目录的传统,通过规范系统实现入口词到规范名称的跳转链接。

传统规范控制选择的“规范标目”或“规范检索点”,将方便使用者查找和识别作为主要考虑内容,如选择原名、最常见名称、本国语言名称等。在实际操作中,规范标目通常在一定范围内有效,不具有通用性,一般表现为以下3点。

(1)规范标目的确定以编目规则为依据,由于使用者习惯不同,不同国家编目规则也不尽相同。RDA致力于国际化的发展,为增加其对不同编目传统地区的适用性,设置一些交替规则,有的涉及规范名称,如首选题名是否保留首冠词,这决定了即使同样采用RDA作为编目规则,在首选题名形式上也可能是有差异的。

(2)编目规则因国家地区而异,即同一国家在不同时期的规则也可能有变化。英美编目条例历经5次变动,标目形式也相应发生变化[5]。如按照相关条例,个人名称应采用真名全拼的形式,而根据《英美编目条例(第二版)》(AACR2),选用最为人熟知的名称形式(可能是笔名)。

(3)编目细则中名称音译方案的不同,会导致名称形式不同。对于非本国语言作者,通常会采用本国语言的音译名称作为规范形式。西方国家对于非拉丁字母体系的文字,有不同的罗马化方案,并可能会随时间发生变化。如美国国会图书馆对中文汉字曾采用韦氏音标,于2000年转换为汉语拼音[6]。

国内中文编目中,对外国人的规范名称选用不同中译名的情况司空见惯。贾君枝等[7]在研究中文名称规范档与虚拟国际规范档(Virtual International Authority File,VIAF)数据匹配时,以“Schwab”为例,指出CALIS的中文译名为“施瓦布”,国家图书馆为“斯威布”。但这种情况并不能简单地认为是依据编目标准差异所导致的。《中国文献编目规则(第二版)》对外国人的中译名称作出规定:著作中未题中译名称时,按照新华通讯社译名室编辑的《世界人名翻译大辞典》等权威工具书译出(22.2.4.6 d);对于著作存在多种中译名称的,选择最常见或最新的中译名称(22.2.4.6 e)[8]。在国家图书馆目录中,对于Schwab的《希腊神话》不同版本,署名“斯瓦布”的出现最早(1959年版)、“斯威布”较多(最早出现在1995年版中),还有其他译名。可见1995年以前,只有若干署名“斯瓦布”著的楚图南译本,直到1995年才出现署名“斯威布”著的其他译本。可以理解为国家图书馆和CALIS联合目录均选择在编目时最常见、最新的中译名称形式,因而都是符合规则的。

由此可以说明,即使在同一个国家使用相同的语言,依据相同的编目规则且对规则有相同的理解,依赖名称形式确立标目的唯一性,也仅在本地目录有效,不具有更大范围内的普遍意义。实际上,不同规范档对同一实体在名称选择上的差异非常普遍,这通过在VIAF中随机选择一个人名即可得到验证。

即使规范标目在单个图书馆乃至联合目录的范围内是有效的,仍然存在维护成本高的问题。规范标目在确定后,若规则本身发生变化(英美编目条例的典型案例)或根据规则(《中国文献编目规则(第二版)》的“著称或常用的”题名形式)需要变更规范名称,会影响使用该规范形式的所有书目记录,即要更新所有关联书目记录,这将带来极大的工作量,影响采用规范记录的所有图书馆。有些名称形式差异可以由计算机批量处理完成全域更新,如韦氏音标转换为汉语拼音;有些必须由人工逐一鉴别,如真名改成熟知的笔名,这在规范库比较庞大的情况下,是一项费时费力,且一定程度上难以完成的任务。

2 实体标识符的兴起及其表达

1998年,IFLA负责制订规范记录标准的最小级规范记录工作组(MLAR)在其最终报告中指出,“IFLA全球书目控制目标要求每个人对标目全球使用相同形式是不现实的”,但在该标准中,规范标目仍是必备的,只是“允许保留基于国家或规则的差异”[9],即各国可以采用不同的规范名称形式。实际上,规范标目至今仍是规范记录的最基本元素。

传统规范控制最重要的工作是汇集与消歧,即集中同一实体的各种名称形式,区分具有同一名称形式的不同实体。从不同名称形式中选择一个作为优选形式,是卡片目录时代易操作、方便使用的方式,但并非唯一选择,更不是计算机时代的最优选择。如同现代分类法以通用字母数字代替文字,因消除语言障碍而更具有通用性一样。因此,解决基于名称形式的规范控制困境的方法,是用与语言无关的标识符代替“规范名称”,达到稳定且通用的目的。

20世纪,IFLA曾提出国际标准规范数据号(ISADN),希望能够以此来链接不同国家(采用不同规范标目)的规范记录,但因考虑到维护这一编号系统的昂贵开销而止步,希望能够通过技术的进步来实现不同机构标目间的链接[9]。

进入21世纪,国际上出现众多通用的个人标识符系统(如ISNI、ORCID、Researcher ID等),其中ISNI为国际标准(ISO 27729:2012),作为标识创作作品贡献者的永久唯一标识号,可以部分替代IFLA设想的ISADN。MARC21和UNIMARC分别于2010年和2016年将ISNI加入各自的MARC格式,解决个人标识符在MARC格式中的记录问题。

在作品方面,也出现众多面向不同创作类型的标识系统,试图成为各自领域的唯一识别编号,如国际标准音乐作品码(ISWC)、国际标准音像号(ISAN)和国际标准文本码(ISTC)等。其中,ISWC(ISO 15707:2001)和ISAN(ISO 15706—2:2006)已成为国际标准,而文本方面的ISTC前景尚不明朗。随着编目工作由基于载体表现的书目记录向《书目记录功能需求》(FRBR)模型的“作品—内容表达—载体表现—单件”四层实体演变,作品标识符将进入编目领域。美国国会图书馆编制的BIBFRAME,除基于载体表现的国际标准书号(ISBN)、国际标准连续出版物号(ISSN)、国际标准音乐编号(ISMN)、国际标准录音码(ISRC)等标识符外,也包含作品/内容表达层标识符(如ISAN、ISWC、ISTC等)。

在技术方面,新兴的关联数据提供一种通用方法,用与名称形式无关的统一资源标识符(URI)或国际资源标识符(IRI)来表达实体。“关联数据技术提供了概念独立于其表示形式的表达模型。可以使用URI标识概念,以标签或名称属性表示各种语言或符号,从而使‘标目’问题得到完美解决,即不需要选择任何一种优先形式(如鲁迅)作为标目,标目即代表概念URI,任何同义词符号都可以作为显示标签而被检索到,系统后台直接进行同一性处理”[10]。上述众多标识符,多有各自对应的URI/IRI形式,可应用在关联数据环境中。

3 书目模型规范控制新趋势

传统的规范控制基于名称形式,为人类读取而设计。规范控制的重心多放在如何确定“规范形式”或“首选形式”,即关注“字符串”。2010年以来,编目领域陆续发布一些重要标准/规则(或其修订),规范标目/规范名称/规范检索点逐渐被忽视,或重要性大幅降低,实体或身份本身(由标识符代替)而非其名称,成为规范控制的主要对象(见表1)。

表 1 规范名称与实体标识在编目标准中的演变

3.1 IFLA“功能需求”模型中的受控检索点与标识符

IFLA的“功能需求”系列模型,为实体管理奠定基础。从FRBR到LRM,受控或规范检索点的关注度逐渐降低,从特别关注到不再优于一般名称。

作为实体-关系模型,FRBR把作品、个人、团体等定义为实体;2008年完成的系列第2部《规范数据的功能需求》(Functional Requirements for Authority Data,FRAD)把名称作为独立实体,与其所代表的实体分离。至此,名称不再是这些实体的附属(属性),而是与这些实体构成“称谓”关系。除名称外,FRAD定义了具有同等作用的“标识符”实体[11];同时,作为“规范数据”的模型,规范名称(受控检索点)具有特别地位,也作为实体被定义。

2010年,FR系列模型的《主题规范数据的功能需求》(Functional Requirements for Subject Authority Data,FRSAD)问世,把名称、标识符和受控检索点3个实体统一为命名(nomen)实体,在“thema(特定事物)和nomen(指代事物的特定标签)间作出明确的划分”[12]。FRSAD定义的命名实体,实际上弱化了规范形式的作用。

作为“功能需求”系列模型最终的统一版LRM,“旨在应用于关联数据环境,支持并推动关联数据环境下的书目数据使用”[13]。LRM不仅继承了FRSAD的命名实体,也继承了FRAD的名称与其他实体间“称谓”关系[14]。

2017年,LRM成为IFLA新标准[15]。在这个新标准中,名称被定义为命名实体,具有类别属性(LRME9-A1),可表示名称的功能(如标识符、受控检索点),其中受控检索点(规范名称或变异名称)不再具有特殊地位。当然,也可以认为LRM是将受控检索点的认定留给具体的编目规则,而不在模型层次上作出规定。

3.2 BIBFRAME的“真实世界对象”与规范检索点的消失

BIBFRAME在2013年推出BIBFRAME词表(元数据元素集),“规范”是核心类。2014年发布“BIBFRAME规范草案”,对规范部分的细节进行说明。如一个人的规范检索点(属性bf∶authorizedAccessPoint)取值为“Bartolozzi,Bruno”,规范记录(属性bf∶hasAuthority)URI取值为http∶//id.loc.gov/authorities/names/n80103954[16]。

经过多年发展,LC于2016年推出BIBFRAME 2.0,并于2017年初进行少量更新。相比于BIBFRAME词表,BIBFRAME 2.0模型与词表有较大变化,不但取消了规范类,也取消了创作者(bf∶creator)、作品题名(bf∶workTitle)和规范检索点(bf∶authorizedAccessPoint)等的属性。英美编目传统上以“创作者+作品首选题名”构成“代表作品的规范检索点”,在两者都未被定义的情况下,作品“规范检索点”自然也就无从谈起。

值得注意的是,上述类与属性的取消,并不是取消规范控制,只是理念上的变化,即把需要“规范”的实体表达为“真实世界对象”(Real World Object,RWO),而不必由“规范名称”来标识[17]。实际上,与LRM一样,是把实体与其名称进行区别。

在LC关联数据服务(id.loc.gov)中,既有名称规范记录也有与之相对的实体本身,均用URI表示。在名称规范记录中,对应实体(URI)作为“附加信息”提供。以“Flanagan,Terry”为例,名称规范记录为http∶//id.loc.gov/authorities/names/n82247773;真实世界对象——施事者(实体)为http∶//id.loc.gov/rwo/agents/n82247773。

在BIBFRAME 2.0中,设想实体以自身URI而非规范记录URI表示[18]。从现有LC提供的MARC记录到BIBFRAME比较工具来看,多数情况下实体仍以名称规范记录URI表示。

但是,规范名称本身已不再具有特殊意义。因为BIBFRAME 2.0没有规范检索点(属性bf∶authorized-AccessPoint),各种名称形式均以通用标签“rdfs∶Label”标识,即不区分规范与变异、受控与非受控。这是由于实体由URI唯一标识,取文字值的“规范检索点”只是作为显示标签。图1为BIBFRAME比较工具(http∶//id.loc.gov/tools/bibframe/compare-id/full-ttl)的默认显示记录(书目记录号5226),对应MARC记录的100字段部分。

图 1 BIBFRAME记录片断:个人名称

作为取代MARC的设计,BIBFRAME词表主要面向书目数据,较少涉及规范数据,但从书目数据中包含的检索点部分,可看出新格式对规范控制的认识,即关注实体本身,而非其规范名称。

3.3 RDA的“四路径”及对规范检索点的灵活态度

RDA于2010年正式发布,在多方面继承了原有标准AACR2,其不同在于给每个实体定义标识符元素,因而可以不依赖名称形式进行识别,这从规则层面解决了规范控制依赖名称形式的问题。另外,在开发RDA文本的同时进行元素和取值词表的URI注册,以适应关联数据的应用。

自发布以来,RDA持续修订(更新)。2017年2月的更新中,包含对规范检索点/首选名称规则的重要修改。修改后的规范名称不再强调一致性,而是可以适应不同社群需要、灵活选择表达。(1)取消所有条款中按名称、题名顺序构建作品规范检索点的规定,作为“对非英美社群的强大信号,提供灵活性”[19]。如对中文编目来说,接近传统上仅用题名(而非英美惯例的“名称-题名”)作为作品标识。(2)对所有记录元素规定中的定冠词“the”(该)用不定冠词“a/an”(一个)代替,表明允许多个首选名称。如RDA9.2.2.2中,将“从下列来源确定该首选名称”替换为“从下列来源确定一个首选名称”。RSC现任主席Dunsier在RDA-L邮件组中提到RDA希望在国际文化遗产界实施,“在能够实施RDA前,各界、各机构不应该也不必决定一个元素的‘首选’标签,毕竟在国际书目控制(UBC)的15年间,国际图书馆界并没有做到”。“简单地说,当来自一个机构库、图书馆管理系统和机构档案的数据,均使用RDA关联在一起(通过URI或规范控制号对照),那么每个来源使用一个不同的首选名称,会发生什么?结果是多个首选名称,数据由其他更有效方式合在一起”[20]。

其“更有效方式”体现在RDA未来的“四路径”中。2017年4月,RDA进行为期一年的全面修订工作即“3R项目”(RDA工具包重构与重新设计),在内容方面主要修订任务是与LRM保持一致。同时,修订后的RDA将确立完全以“四路径”转录和记录数据。“四路径”即非结构化描述、含规范检索点的结构化描述、标识符和关联数据URI[21]。其中URI为新引入路径,是RDA进一步融入关联数据应用的反映。Dunsire对“四路径”与LRM用户任务间关系的解释为:对于“识别”,如果有本地标识符或全域IRI,则不需要“首选”名称字符串;对于“查找”与“探索”,还是需要供人读取的名称;但强调的重点由“规范形式”转向名称的多种形式,可参考VIAF[22]。即名称的作用在于“查找”与“探索”而非“识别”(区分),因此名称形式较“首选”更为重要。至于规范的集中功能,本地标识符或全域IRI显然优于可能还需要附加元素进行区分的“首选”形式。

3.4 MARC21格式对记录与实体的区分

尽管处于被取代位置,MARC21的更新仍在持续进行。事实上,PCC近年来陆续成立MARC中URI工作组、NACO身份管理工作组等,致力于MARC环境中关联数据的应用,同时也为MARC数据转换到关联数据环境做准备。

由MARC的URI工作组提出、2017年8月得到批准的MARC格式建议,在原MARC子字段$0规范记录控制号的基础上,新增子字段$1实体URI标识符。该建议适用于各种MARC格式(书目、规范、馆藏、分类、社区信息),涉及大量代码与检索点字段[23]。此建议明确区分“标识描述事物的‘记录’或‘规范’实体的URI”与“直接标识事物本身的URI(真实世界对象)”,即区分实体名称与实体本身,这与LRM模型的理念相同,也与BIBFRAME的开发相一致。

4 结语

图书馆长期以来规范控制的主要成果或价值,是汇集同一实体的各种名称形式,并将其与具有相同名称形式的其他实体相区别。确定“规范形式”曾经是规范控制中的重要任务,但在网络互联时代已经不再具有特别意义。实际上,规范控制原本是基于实体的,在国际化的多语言文化环境下,执着于选择实体的某个名称形式显然是没有意义的。在实体管理的标准与技术日渐成熟的情况下,国内相关标准应该与时俱进,不再让编目员将精力浪费在确定“规范形式”上,而是将其判断放在选择正确的实体上,实现优质的规范控制。

当然,面对实体的众多标识符系统,同一实体的不同标识符间链接仍然是亟待解决的问题。从2010年以来的相关标准研发成果可知,用标识符解决名称依赖,由强调名称形式选择转变为通过标识符实现对实体或身份的管理,已经成为规范控制的发展方向。

[1]丘东江.图书馆学情报学大辞典[M].北京∶海洋出版社,2013.

[2]NIU J F.Evolving landscape in name authority control[J].Cataloging &Classification Quarterly,2013,51(4)∶404-419.

[3]郝嘉树.境外名称规范项目及发展趋势研究[J].图书与情报,2016(2)∶123-132.

[4]PCC.Vision, Mission,and Strategic Directions[EB/OL].[2017-11-20].https∶//www.loc.gov/aba/pcc/about/PCC-Strategic-Plan-2015-2017.pdf.

[5]熊光莹.图书馆编目工作中的一项核心工作——规范工作(一)[J].大学图书馆学报,1989,7(2)∶57-59.

[6]周欣平.汉语拼音在北美地区的推行——记北美图书馆由韦式音标向汉语拼音的转换[J].中国语文,2001(1)∶40-44.

[7]贾君枝,石燕青.中文名称规范文档与虚拟国际规范文档的共享问题研究[J].中国图书馆学报,2014,40(6)∶83-92.

[8]富平,黄俊贵.《中国文献编目规则(第二版)》[M].北京∶北京图书馆出版社,2005.

[9]IFLA.Mandatory Data Elements for Internationally Shared Resource Authority Records∶Report of the IFLA UBCIM Working Group on Minimal Level Authority Records and ISADN.Frankfurt∶IFLA UBCIM Programme[EB/OL].[2017-12-01].https∶//www.ifla.org/publications/unimarc-formats-and-related-documentation.

[10]刘炜,张春景,夏翠娟.万维网时代的规范控制[J].中国图书馆学报,2015,41(3)∶22-33.

[11]国际图书馆协会和机构联合会.规范数据的功能需求[EB/OL].[2017-12-01].https∶//www.ifla.org/files/assets/cataloguing/frad/frad_2009-zh.pdf.

[12]IFLA.Functional Requirements for Subject Authority Data(FRSAD)A Conceptual Model[EB/OL].[2017-11-05].https∶//www.ifla.org/files/assets/classification-and-indexing/functional-requirements-forsubject-authority-data/frsad-final-report.pdf.

[13]IFLA Library Reference Model(LRM)[EB/OL].[2017-09-25].https∶//www.ifla.org/publications/node/11412.

[14]IFLA.IFLA Library Reference Model∶A Conceptual Model for Bibliographic Information.[EB/OL].[2017-12-01].https∶//www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017.pdf

[15]国际图联2017年新标准[EB/OL].[2017-08-22].https∶//www.ifla.org/node/11720.

[16]BIBFRAME Authorities,Draft Specification[EB/OL].[2017-11-05].http∶//www.loc.gov/bibframe/docs/bibframe-authorities.html.

[17]What’s New in BIBFRAME 2.0[EB/OL].[2017-09-25].https∶//www.loc.gov/bibframe/docs/bibframe2-whatsnew.html.

[18]BIBFRAME 2.0∶Expressing Roles[EB/OL].[2017-10-16].http∶//www.loc.gov/bibframe/docs/pdf/bf2-roles-march2017.pdf.

[19]GLENNAN K.RDA Developments of Note[EB/OL].(2017-01-21)[2017-10-01].http∶//www.rda-rsc.org/sites/all/files/RDA%2BLRM%20to%20CCDA.pdf.

[20]More than one preferred name?[EB/OL].(2017-02-08)[2017-10-01].http∶//lists.ala.org/sympa/arc/rda-l/2017-02/msg00009.html.

[21]DUNSIRE G.Outcomes of the 2016 RDA Steering Committee Meeting[EB/OL].(2016-12-04)[2017-10-01].http∶//www.rda-rsc.org/sites/all/files/RSC%20Outcomes%202016.pdf.

[22]DUNSIRE G.Appellations,Authorities,and Access Plus[EB/OL].(2017-06-24)[2017-10-01].http∶//www.rda-rsc.org/sites/all/files/Appellations%20Authorities%20CCDA%20Annual%202017.pdf.

[23]MARC PROPOSAL NO.2017-08[EB/OL].(2017-05-16)[2017-10-01].https∶//www.loc.gov/marc/mac/2017/2017-08.html.

猜你喜欢
标目标识符编目
浅析5G V2X 通信应用现状及其侧链路标识符更新技术
基于底层虚拟机的标识符混淆方法
计算机应用(2022年8期)2022-08-24 06:30:36
国家图书馆藏四种古籍编目志疑
天一阁文丛(2020年0期)2020-11-05 08:28:36
《传奇汇考标目(别本)》的版本及其他
戏曲研究(2020年4期)2020-07-22 06:32:28
中文图书在版编目数据标目中存在的问题及对策研究
甘肃科技(2020年21期)2020-04-13 00:33:54
基于区块链的持久标识符系统①
粤剧编目整理之回顾与展望
戏曲研究(2017年3期)2018-01-23 02:51:01
数字美术馆“数字对象唯一标识符系统”建设需求浅议
中国美术馆(2016年6期)2017-01-19 08:44:24
图书馆编目业务外包发展探讨
河南科技(2014年22期)2014-02-27 14:18:37
医学论文中制表的注意事项
吉林医学(2013年30期)2013-08-15 00:53:03