网络环境下的知识组织系统研究与发展概述

2010-07-12 06:04孙凌云广东工业大学图书馆广州510090
图书馆理论与实践 2010年3期
关键词:词表术语语义

●孙凌云(广东工业大学 图书馆, 广州 510090)

知识组织系统,如分类法、词表、词汇数据库、本体、叙词表都旨在揭示某一领域的潜在语义结构。现代的数字化信息系统提供了比传统的物理图书馆更多的映射方法和信息选择次序。数字化环境使得从复杂情景中揭示信息的可能性更大。因此,我们在复杂的、跨学科的知识领域开发对于终端用户操作有用且有意义的知识组织系统所面对的技术和智力上的挑战同样巨大。使用相应的工具来辅助利用信息资源,进行信息资源的组织和检索,正是网络环境下知识组织系统的主要应用方向。一方面网络知识组织系统是传统知识组织系统的重要组成部分与分支;另一方面网络知识组织系统超越了传统的知识组织系统,是其未来发展方向。

1 知识组织系统的演进

知识组织系统 (knowledge organization systems,简称KOS)是我们用来定义并组织表述真实世界物体的术语和符号的系统,在具体应用中我们往往将它们泛指为语义工具。不论KOS是以什么形式出现,其基本方法都是相同的,不同的是采用这些方法的程度和范围。KOS的应用经历了四个阶段:查寻、查寻加浏览、分面加多维、检索中加入属性特征。

随着现代信息技术和数字化资源的迅猛发展,网络环境下KOS(netwo rkedkn owl edgeor gan izat ions ystems,简称NKOS)呈现出新的特点:① 吸取不同知识组织系统的特长,集中起来优化使用;② 等级结构与元数据式的“特征”结合;③ KOS、元数据与专用置标语言的结合使用;④ 多个知识组织系统结构在学习科学概念中的结合使用;⑤ 对计算机可理解性的强调;⑥ 可视化与传统形式的结合使用。网络环境下的KOS(NKOS)正在从机器可读走向机器可理解。

2 网络知识组织系统的表示

2.1 网络知识组织系统的类型

Gail.Hdege将NKOS分为术语列表、分类法和关系列表。术语列表,包含一系列有完整定义的术语,通常不包括术语之间的关系,如规范档、术语表、字典、地名词表等;分类法,强调关于主题的集合的创建,对术语之间的关系揭示着重于属分关系,一般是树形结构的,如标题词表、分类法、专类分类法、类目结构等;关系列表,强调术语及其之间的多方面描述,术语之间关系的揭示不仅仅局限于用、代、属、分参等关系,还可以包括整体部分关系、蕴涵关系等多种复杂的关系,一般是网状结构的,如叙词表、语义网络和本体等。[1]下图所示为目前较为认同的NKOS分类体系。

图 知识组织系统结构

2.2 网络知识组织系统的表示

NKOS的表示是NKOS体现其价值与作用的基础,如果无法以恰当的方式表达NKOS,就无法对其进行有效利用。因此将NKOS所描述的概念、概念间的关系和知识结构以机器可理解的形式表示出来是NKOS要解决的首要问题。NKOS发展前期是KOS的电子化,包括KOS的MARC描述和数据库化,用数据库存储和表示便利了对KOS的管理和访问。随着web网的普及,实现了用HTML网页提供基本的浏览和查询功能。KOS用HTML表示,不同KOS在体例上、结构上、内容上的异构性依然存在,不便于计算机的自动处理和利用。由于NKOS是基于网络的,而语义web的基础语言是XML,为了保障兼容性,合适的NKOS表示语言应当是基于XML的。

2.3 网络知识组织系统的表示语言

在基于XML的语言体系中,SKOS是一种新兴的NKOS表示语言。SKOS是W3C于2004年发布的作为受控词表乃至概念框架表示的语言标准,目前尚处于发展阶段,但它的简洁、通用、易扩展、与语义web和传统图书馆学情报学联系紧密等特点,已逐渐引起人们的重视。目前国内详细介绍SKOS的文章很少。SKOS包括三个主要部分:核心集(SKOS Core),用于表示除Ontology外的几乎所有其他NKOS;映射(SKOS Mapping),用于概念框架之间的映射;扩展(SKOS Extensions),用于辅助SKOS的特定应用。其中SKOS Core比较成熟,已经形成了相应的语法标准和应用标准,而后两者还处于发展阶段。[2]

3 网络知识组织系统主要研究方向

从JCDL、ECDL、DCMA历次会议NKOS研究主题可以看出,2002年之前叙词表、分类和元数据是讨论的重点,2002年之后,本体、语义网、互操作、标准/协议、主题地图、系统管理和服务成为NKOS研究的热点。[3]目前NKOS研究热衷于技术,其技术研究与实践联系非常紧密,几乎每次的NKOS分会讨论中都有相关技术的应用实例报告,并且均是当前项目的最新进展。目前,世界范围内有很多已建成或在建的NKOS项目。

3.1 网络知识组织系统的互操作

互操作主要是为解决多语言映射和异构系统的问题。语言障碍和异构系统是用户利用知识信息的最大障碍。因此,互操作成为NKOS重点研究的一项技术。

Marcia Lei Zeng和Lois Mai Chan两位学者总结了KOS互操作的8种实现方式:继承/仿建,以现有的复杂的词表为原型,创建专业的或简单的词表;翻译/改编,从其他语言的词表翻译、改编形成自己的词表;卫星子表,对现有词表的某个主题进行扩展,形成新的子表,称为原表的卫星;直接映射,直接在不同KOS的词语之间或者词语与分类号之间建立等价关系;共现映射,通过KOS词语在元数据记录中的共现关系建立术语间的映射;中心转换,将参与互操作的多个KOS映射到一个共同选定的中心KOS上,两个KOS之间的互操作可以通过中心KOS的转换实现;临时列表,根据查询词临时从不同的KOS提取相匹配的对象,组建临时对应列表;协议连接,通过建立KOS服务协议供其他应用程序访问,创建连接环境,实现KOS 的互操作。[4]

对于独立创建的KOS,映射和协议是实现KOS互操作的主要方式。在参与互操作的KOS比较明确时,映射方式比较适用。而在参与互操作的KOS并不明确时,协议方式较为合适。临时列表是基于对查询提问的字面匹配的,互操作的效率和准确性不是很高,但实现起来比较简单。可见,各种互操作方式有其各自的特点和适用范围,在具体的信息资源共享活动中需要从实际出发选择合适的方式。

3.2 网络知识组织系统的标准化问题

Z39.19是关于词汇控制工具最主要的标准。它提供了单语种词汇控制工具(包括同义词环、专类类表和词表等)的内容、显示、构建、维护和管理等方面的原则和规范,充分考虑了标引非传统纸质文献的要求,也提出了在网络环境下的显示要求。BS5723是英国制定的关于单语言词表的标准,颁布于1987年。2005年发布的《BS8723:用于信息检索的结构化词汇》全面取代了BS5723。BS8723共有5个部分,其中第1、2部分已于2005年出版,第3、4部分于2007年出版,第5部分尚在拟定中。越来越受到关注的ISO NP 25964(全称是Structured vocabularies for information retrieval),即用于信息检索的结构化词汇,其主要内容就是源于BS8723协议。

W3C在参考了多种现存的KOS标准后于2004年发布SKOS推荐标准,它是一个基于语义网技术表示受控词表及其它知识工具的概念框架。SKOS是欧洲学者提出的,他们大力研究并积极推广,但是北美学者对此似乎反应冷淡,这不知是由于学术背景的差异还是欧美的学术对峙。鉴于W3C在网络语言标准化方面的权威地位,SKOS尽管还是一个推荐标准,但已经被用于若干大型词表的表示,包括欧洲的多语言环境词表GEMET、英国的档案词表UKAT、澳大利亚公共事务信息服务词表APAIS等。北京大学信息管理系KVision研究小组采用SKOS描述了中国分类主题词表的一个片断,并基于此实现了一个语义检索系统。

3.3 网络知识组织系统的应用

3.3.1 信息检索

多年以来,只有接受过训练的编目及标引人员会使用KOS进行标引,生产相应的服务产品。KOS的用户大多是图书馆员及其他专业检索者,但是近年来,由于电子数据和电子出版物的激增,以及对信息检索困难的关注,人们对专业人员和最终用户都能使用的KOS 重新产生了兴趣。[5]

EdwardT.O’Neill博士和麦麟屏教授提出对《美国国会图书馆主题词表(LCSH)》的应用改造,在网络环境下要求KOS具有简单易用性。Edward T.O’Neill博士和麦麟屏教授的文章介绍了由他们主要负责、OCLC牵头、有美国国会图书馆(LC)和美国图书馆学会(ALA)图书馆馆藏与技术服务协会/主题分析委员会ALCTS/SAC参与的《FAST(主题词汇的分面式应用)》项目的工作成果是一个建立在LCSH的术语和关系上、在结构上趋向于后组配、句法简单的、用于处理数字化资源的词汇表。随着FAST在2003年年底的正式推广,处理网络资源的工作从此有了可靠的、规模庞大的、综合的主题词汇表,而对这个词汇表的管理工作量又是微乎其微的,基本上是全自动化的,这种简单易用的工具将被大批从未受过图书馆学专业技能训练的人所使用。FAST的意义在于它对传统知识组织系统工具的开发、改造、利用,并投身于对新的网络环境的服务义务之中,其影响将是巨大的。

3.3.2 术语服务和词汇注册

术语服务。通过Web服务技术在网络上提供分布式的词汇服务是目前NKOS服务的一种主要形式。已提供这类服务的词表有:AGROVOC、AAT、CSA/NBII生物复杂性词表(Biocom plexity Thesaurus)、美国国家农业词表(NAL)、亚历山大数字图书馆项目(ADL)中的地名表协议等。

词汇注册服务。“分类法仓库”(Taxonomy Warehouse) 站点提供KOS的注册服务,任何机构都可以将自己创建的KOS提交到该站点注册。目前在该站点登记在册的KOS多达660个。类似的项目还有:Becta Terminology Studio,HILT Terminoloyg Service,XMDR Extended Metadata Registry,NSDL Metadata Registry等。词汇注册服务可以作为数字图书馆体系结构中的一个关键组件来实现,它的主要功能有:登记和管理创建者提交的各类NKOS;发布和发现关于术语的信息;证实术语的真实性和状态;发现术语间的关系;支持推理、映射等功能;提供对相关资源的导航;促进不同控制词汇系统间的互操作等。词汇注册服务要求采用开放标准和通用结构(如Zthes,SKOS,MARC等)描述登记在案的KOS,它还可以提供编程接口,同时向用户和职能代理提供服务。

3.3.3 其他应用

出版商采用电子排版系统开发其出版物的文摘和索引服务产品。大型的期刊出版商,如Elsevier建立了它们自己的可提供书目记录的系统,且书目记录能够连接到文献全文。随着在线电子期刊内容的增长,人们越来越需要系统由单纯提供目次和期刊卷期浏览,转变为支持全文检索和KOS检索。电子期刊产生了附属的KOS,特别是分类表。例如,Elsevier的网站提供主题分类表,为该网站2000多个子网站提供检索入口。

商业领域应用规范档和分类表。例如美国应用在采购和政府统计中的《标准工业分类表》(SIC)和《北美工业分类表》(NAICS);疾病与治疗方案一一对应的疾病码在医生、医院和保险公司中使用。越来越多的组织机构建立网站后,将创建附属的KOS,以支持其运作。

团体机构是KOS最大的创造者和使用者。企业内网和知识管理系统的创建者已经发现了数百种专门的分类表、术语表以及其他在组织内使用的词表,其中很多都是为特定任务创建的,其适用的主题领域及目标用户都比较窄,但是对这些用户来说,它们仍是丰富的情报资源。例如,美国能源部(DOE)的环境管理科学计划(EMSP) 和科学技术信息办公室创建数字图书馆为EMSP的管理者提供支持。研究人员编制了“需求范畴表”和“科学范畴表”来组织环境科学网(ESN)。ESN利用这些分类表为DOE内部的其他相关资料及来自美国环境保护署(EPA)、美国航空航天总署(NASA) 分布数据库的相关资料提供支持。围绕这些分类表组织的词表,将与网络挖掘工具一起使用,将会为特定主题领域的计划管理者提供更相关、更准确的网络资源。

4 结语

NKOS代表了知识组织系统的发展方向:数字化、网络化、语义化、协议化和自动化,其技术、方法的广泛应用为知识组织系统的发展带来了勃勃生机。NKOS除了为特定社群或用户提供信息检索的主要功能外,还能够在促进数字图书馆发展中发挥作用。在这方面还有很多实际的应用性强的研究课题,如NKOS的半自动构件和维护,NKOS辅助信息资源组织检索,知识组织系统最前沿的发展——语义网(Semantic Web) 和实用分类系统(Ontologies)等。在研究技术的同时,研究者必须关注最终用户的需求,在以用户为中心的基础上研究开发新技术。NKOS也将随着技术的开发和广泛应用而迅速发展。

[1] Gail H.Systems of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files[M].Waste mston:The Digital Library Federation,2003:4-7.

[2] Zeng ML,Lois Mai Chan.Trend and issues in establishing interoperability among knowledge organization systems[J].Jounralof American Societyfor Information Science and Technology(JASIST),2007,55(5):377-395.

[3]王一丁,王军.网络知识组织系统表示语言:SKOS[J].大学图书馆学报,2007(4):30-35.

[4]司莉,等.知识组织系统在我国数字图书馆中的应用及界面研究[J].情报科学,2007(3):446-450.

[5]司莉,舒欣.国外网络知识组织系统研究现状与发展趋势[J].图书情报知识,2008(9):82-85.

猜你喜欢
词表术语语义
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
语言与语义
叙词表与其他词表的互操作标准
“上”与“下”语义的不对称性及其认知阐释
国外叙词表的应用与发展趋势探讨*
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
常用联绵词表
语义分析与汉俄副名组合