刘华梅
叙词表与其他词表的互操作标准
刘华梅
我国最新修订的叙词表编制标准,新增了叙词表与其他词表的互操作内容,主要从映射模型、映射类型、映射技术、映射数据管理与维护等方面指出了叙词表互操作的通用原则和方法,并具体分析了叙词表与其他各种受控词表之间建立映射及维护的问题。互操作标准的提出,不仅可以指导和规范我国叙词表和其他受控词表之间的互操作实践,而且为受控词表的跨系统互操作研究提供了强有力的支持,具有十分重要的意义。表1。参考文献5。
叙词表标准互操作受控词表
我国现有的两部叙词表国家标准是GB 13190-1991《汉语叙词表编制规则》和GB/T 15147-1994《多语种叙词表编制规则》,分别颁布于1991年和1994年,其内容主要是对纸本叙词表的编制予以规范。随着时间的推移,这两部标准已使用了二十多年。在这一时期,计算机技术和网络技术的巨大变革,使叙词表的编制环境、管理水平和应用环境都发生了很大变化:从单纯编目到知识组织,从纸质文献组织到电子资源、网络资源的组织;从叙词表到各种概念体系,词表种类、载体类型日趋多样化、复杂化;编制技术手段从纯手工编制发展到计算机辅助编制。在这种背景之下,叙词表编制标准的适应性受到了严峻的挑战,修订任务自然而然地提上议事日程。
另一方面,随着电子化、数字化、网络化的快速发展,叙词表、分类表等传统知识组织工具,不仅广泛应用于图书、文献的分类主题标引,也适用于网络信息资源的组织和检索。但主题词表、叙词表、分类表和网络分类法等多种信息组织方式的存在,使得用户在检索相同学科或主题文献时,需要使用不同的检索标识,在用户不熟悉各种词表的情况下,检索变得尤为困难。由此可见,要实现语义检索,提高检索效率,叙词表和其他词表之间的互操作是一条重要途径[1]。为了实现不同信息系统间的资源共享,各国都非常重视互操作的问题。国际标准、国家标准都逐步将受控词表互操作的内容纳入到词表标准范畴中,这更表明了词表互操作的重要性和必要性。我国要想在该领域占有一席之地,必须借鉴国际标准中的相关内容,制定出符合我国具体实际的叙词表标准,以指导和规范我国叙词表和其他受控词表互操作的实践。
美国国家标准ANSI/NISO Z39.19-2005(《单语种受控词表编制、格式与管理规则》),从2005年开始修订,已于2010年5月13日正式发布。该标准对原标准作了全面修订,提供了单语种受控词表(包括同义词环、分类表和叙词表等)在内容、显示、构建、测试、维护和管理等方面的原则和规范。此外,还新增了互操作的内容,包括:互操作的必要性,影响互操作的因素,多语言受控词表、检索、标引、集成数据库和集成受控词表等不同场景中互操作的应用,多个受控词表语词间关系的存储和维护。最后,还在附录中总结了实现互操作的方式,包括继承/仿建模式、翻译/改编模式、卫星子表模式、节点链接模式、直接映射模式、共现映射模式、中心转换模式、临时列表模式[2]。
英国国家标准BS 8723(《用于信息检索的结构化词表》),是英国标准局从2005年开始修订的叙词表标准,是对BS 5723和BS 6723进行的修订、整合与补充。该标准首次超越了叙词表的界限,从叙词表扩展到结构化词表,将分类表、主题词表、本体、名称规范文档、专业分类法等收纳进来,把互操作问题提升为词表编制的一个重要组成部分。全文共包括五个部分,其中第四部分BS 8723-4为词表之间的互操作,内容包括跨词表互操作的结构化模型,基于上下文的映射、不同结构词表和多语种词表间的互操作、映射和其他关系数据的管理、映射词表的显示,以及映射系统的功能等等[3]。
2007年,国际标准化组织(ISO)开始以BS 8723为基础对ISO 2788和ISO 5964进行修订和扩展,命名为ISO 25964(《叙词表及与其他词表的互操作》)。ISO 25964包括两部分内容,第一部分为用于信息检索的叙词表ISO 25964-1,于2011年8月15日正式发布;第二部分为与其他词表的互操作ISO 25964-2,于2013年3月15日正式发布。其中,第二部分主要涉及叙词表间以及和其他类型词表之间实现互操作的原则和实际问题,描述、比较了受控词表间实现互操作时涉及的元素和重要特点,推荐建立和维护叙词表之间或叙词表和其他类型词表间的映射,另外还描述了映射类型、信息检索中映射的应用、识别候选映射的方法、映射数据的管理、映射词表的显示等等[4]。
经过修订的叙词表国际标准,都新增了受控词表互操作的内容。这势必对互操作的未来发展产生重要影响,不仅为各国编制或修订相关标准提供了经验和可参考的模型,而且可以推动受控词表互操作的规范化发展,促进互操作在信息服务中的应用。
正是在上述背景下,全国信息与文献标准化技术委员会(简称文标会)开始组织我国的叙词表编制标准修订工作。此次修订工作本着遵循国际标准的原则,对之前的标准进行了彻底、全面的修订。新修订的标准名为《信息与文献 叙词表及与其他词表的互操作》,分为两个部分。第一部分是用于信息检索的叙词表,第二部分为与其他词表的互操作,由文标会第五分会组织相关单位人员共同完成。第一部分主要起草单位有华东理工大学、国家图书馆、中国科技信息研究所、北京大学、解放军南京政治学院、中国国防科技信息中心,于2011年开始着手修订,2014年形成草案。该草案经过多方征求意见并修改,最终通过文标会的审查,并于2015年5月由国家标准化管理委员会批准为国家标准GB/T 13190.1-2015[5]。第二部分主要起草单位有山西大学、国家图书馆、华东理工大学、中国科学院文献情报中心、南京理工大学,于2015年开始修订,目前已形成草案,正在征求意见阶段。在修订过程中,各部分内容都广泛征求并参考吸收了图书馆与信息机构专家学者的意见。
关于词表互操作问题,在以前的国内标准中没有专门涉及,此次专门将其作为词表编制的一个全新的、重要的内容,单独作为标准的一部分进行阐述。互操作标准主要从映射模型、映射类型、映射技术、映射数据管理与维护等方面指出了叙词表互操作的通用原则和方法,并具体分析了叙词表与其他各种受控词表(包括分类表、标题表、规范文档、本体、同义词环等)之间建立映射及维护问题*信息与文献 叙词表及其与其他词表的互操作 第2部分:与其他词表的互操作(征求意见稿)。
3.1跨词表映射的模型
映射是指一个词表中的概念和另一个词表中的概念建立关系的过程,是实现词表互操作最基本的方式,因此映射将是本标准的核心。标准中首先提到叙词表和其他受控词表有3种基本映射模型:结构统一、直接连接、中心结构。结构统一模型中,所有参与映射的词表的概念具有相同的等级结构和相关关系,通常用于同种类型不同语言词表之间的映射。直接连接模型强调的是没有相同结构的两个或多个词表之间的连接,词表的每个概念与其它词表的每个概念建立直接映射,可形成各自交互的、双向或单向的连接。中心结构模型通常是指定一个词表为中心或者综合性结构,其它词表与其建立映射,可以是中心词表的每个概念映射到其它词表的相应概念,也可以是其它词表的概念映射到中心词表的相应概念。当然,在实际应用中,三种模型也可以互相结合使用。另外,在一些特殊情况下,不需要对全部概念进行映射,可以只选择使用的概念或者来自索引或目录的概念进行映射。
3.2映射类型
通常叙词表和其他词表的映射分为三种基本类型:等同、等级和相关,如果有其他复杂的词表类型参与映射(如本体),也可以考虑额外的映射关系类型。等同映射是指概念范围完全一样的概念之间建立的关系,包括简单等同、复合等同两种,从另一角度又分为精确等同、非精确等同及部分等同三种。等级映射是当一个概念的范围完全包含在另一个概念的范围之内时,则概念间建立等级映射关系,概念间的关系可以是属种、实例、整体与部分。相关关系是指概念间在语义上有一定程度的关联,但又不符合等同或等级映射时建立的相关映射。
3.3映射技术
传统方式中,映射的识别是一个人工智力操作的过程,需要一个或多个熟悉相关领域、掌握映射词表语言、能很好理解词表结构的专家,一个概念一个概念地进行映射。当前,完全可以利用计算机辅助映射,一种方式是用计算机直接对来源词表和目标词表的语词进行匹配,选出候选映射;另一种方式是利用同一元数据或标目记录下不同词表的共现语词,通过共现算法选出有效的映射。当然,为了提高映射的质量,建议所有自动生成的候选映射都接受专家的审核。
3.4映射数据管理、存储与维护
映射、映射集合和映射集群通常存储在数据库中,且需要对每种映射中涉及的数据(包括来源词表、目标词表、概念标识符、优选词、系统符号、映射类型、映射说明等)进行详细说明。另外,存储模式可以用于或改造后用于映射的发布,如果需要在语义网上使用,推荐SKOS兼容格式。映射数据的维护特别复杂,应该选择使用可持续维护映射的工具和程序。该标准中详细列出了来源词表或目标词表更新时对映射的影响及需要采取的行动。比如来源词表删除一个概念,就需要在映射集的旧版本中设置有效注释来表明该概念限制使用,而在映射集新版本中就要删除该概念。
3.5与叙词表进行互操作的受控词表类型及建议方案
该标准涉及的互操作受控词表类型有综合性分类表、记录管理分类表、专业分类表、标题表、本体、术语表、名称规范表、同义词环,并详细介绍了叙词表和各种类型受控词表之间互操作的建议方案,相关内容如表1所示。
表1叙词表和其他受控词表互操作的建议方案
受控词表类型与叙词表互操作的建议分类表a.概念与类的映射。b.类的范围取决于类名、上下位类、描述性注释及相应的索引款目。c.对于简单类建立精确等同或非精确等同映射,对于复杂类通常需要建立复合等同映射。d.映射声明的表达使用类号表示类,而不使用类名或者相应的索引款目。标题表a.标题/复合标题与概念的映射。b.从标题表到叙词表的映射,尽可能将来源字符串映射到目标叙词表中先组式概念;如果没有,则映射到目标概念的组合。c.从叙词表到标题表的映射,来源叙词表中任何复杂概念尽可能映射到列举的标题或字符串;如果没有,则按照词表及相关文档中提供的组配规则,创建一个适当的组合。本体a.利用已有叙词表的内在知识,创建新的本体。b.叙词表和本体互相补充使用,将本体的推理能力与叙词表的检索能力结合。c.叙词表和本体都使用语义网标准如SKOS、OWL表示。术语表a.选择式映射。b.术语表作为概念或语词的来源,可用于叙词表的构建和维护。c.检索应用中作为叙词表的补充支持全文检索。名称规范表a.选择式映射。b.最适合建立精确等同映射。c.映射申明中使用优选词或唯一标识符。
上述叙词表和其他受控词表互操作的建议仅为标准中所涉及的,在具体的操作中,还应根据受控词表的类型、语义关系及应用场景等因素进行调整,以达到更好的互操作结果。
在当前日益发展的语义环境、关联数据的大背景下,不管是对于希望利用元搜索引擎检索多种内容的检索者,还是对于使用跨领域受控词汇进行标引的标引者,实现叙词表和其他受控词表间的互操作都是大势所趋。叙词表编制标准中加入互操作内容正是顺应形势,为我国实现叙词表和其他受控词表互操作的实践和研究指明方向,其优点可概括为以下几点:
(1)该标准遵循国际标准原则,与国际标准保持一致;同时为满足汉语词表互操作的需要,增加了汉语语词及映射实例,便于用户理解和使用。
(2)该标准对各种映射模型、映射类型的选取规则,先组概念的处理规则,映射数据和关系的保存、维护,以及映射后整合词汇的显示等方面都做了明确说明,为实现叙词表和其他受控词表互操作提供了原则和适用性指南。
(3)该标准几乎全部收纳了目前已有的受控词表,包括分类表、标题表、本体、术语表、名称规范表、同义词环等,覆盖范围广泛;并且通过对叙词表和各种类型受控词表的语义构成和关系进行对比分析,为叙词表和各种类型受控词表之间的互操作提供了可参考的建议方案。
(4)将叙词表互操作内容归入词表编制标准,不仅可以指导和规范叙词表和其他受控词表互操作实践,而且为多类型、多语种、多学科的受控词表通过互操作实现交换、共享和集成整合提供了强有力的支持,从而便于其应用于多个信息系统,实现跨系统互操作。
该标准是参考国际标准制定的全新内容,国内之前没有词表互操作方面的相关标准可供参考,所以难免会存在一些问题和不足,从形式和内容上总结主要有以下两点:
(1)该标准是我国首次针对词表互操作问题制订的规范,并在参照国际标准的基础上编制而成,可能存在某些语言表述不太容易理解的问题。
(2)该标准只给出了叙词表与其他受控词表互操作的建议,每种互操作情况下只提到了可能应用到的场景及可能出现的映射类型,而没有提及具体实现的映射方法,对用户来说缺乏可操作性参考。
当然,互操作问题是针对当前叙词表编制和应用环境提出的全新内容,其制定是否符合汉语叙词表的特点,是否适用于汉语叙词表的互操作,都需要在实践中进行检验,期待更多学者和专家参与到互操作的研究与实践中,使我国的词表互操作朝着更规范、更全面、更实用的方向发展。
1 张琳,宋文.从叙词表编制标准看叙词表和其他受控词表的互操作[J].情报理论与实践,2012(12).
2 Guidelines for the construction, format, and management of monolingual controlled vocabularies[S/OL]. [2016-01-07]. http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r2010.pdf.
3 Structured vocabularies for information retrieval-Guide—Part 4: Interoperability between vocabularies[S/OL].[2016-01-07].http://www.docin.com/p-278116358.html.
4 Information and documentation—Thesauri and interoperability with other vocabularies—Part 2: Interoperability with other vocabularies[EB/OL].[2016-01-07].http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658.
5 信息与文献 叙词表及与其他词表的互操作 第1部分:用于信息检索的叙词表[EB/OL].
[2016-02-24].http://www.csres.com/notice/44921.html.
(刘华梅副研究馆员国家图书馆中文采编部)
Interoperability Standard between Thesauri and Other Vocabularies
Liu Huamei
The latest revision of thesauri compilation standard in China, adds the content of thesauri interoperability with other vocabularies, mainly points out the general principles and methods of thesauri interoperability from the aspects of mapping model, mapping types, mapping technology and mapping data management and maintenance, etc. And it specifically analyses the mapping between thesauri and other kinds of controlled vocabularies. Interoperability standard not only can guide and standardize the practice of interoperability of thesauri with other controlled vocabularies, and also can provide strong support for the research on controlled vocabularies interoperability across systems, thus it has very important significance. 1 tab. 5 refs.
Thesauri Standard; Interoperability; Controlled Vocabularies
2016-01-15