张忠秋 (集美大学图书馆 福建 厦门 361021)
近年来,专家系统、语义网、知识挖掘、自动标引、自动网页标注等技术以及HTML、XML、RDF、OWL规范已经逐渐被应用于分类表和主题词表的生成与构建中,国内外分类表与主题表的结构、描述和使用方式正在发生着质的变化,追踪与分析这些变化对构建我国新型的知识组织体系具有重要意义。
《中国图书馆分类法》(以下简称《中图法》)是我国建国后出版的一部具有代表性的大型综合性分类法,1999年出版了第4版,2001年《中图法》电子版1.0正式出版,具有多视窗、多维显示、任意类目显示、印刷版格式显示和MARC(Machine Readable Cataloging,机器可读目录)格式的显示功能,是我国分类法史上的一个里程碑。2005 年,《中国分类主题词表》(以下简称《中分表》)(第2版)电子版正式出版,2009年《中分表》Web版发布,其中包含《中图法》(第4版)Web版。2010年《中图法》编辑委员会研制了《中图法》(第5版)Web版,其试用版于2011年12月在网上发布。该版本提供在线浏览、互动显示和多途径检索服务;能与多个Web OPAC(Online Public Access Catalogues,联机公共目录查询系统)连接,提供多库实时检索和学科导航服务;可以为用户提供评论注释服务和实时更新数据的服务。而美国的《杜威十进分类法》(Dewey Decimal Classification ,简称DDC)从1989年开始出版电子版,1996年推出视窗杜威,2000年后推出网络杜威,2003年DDC22版正式发行。由此可见,纸版的分类表和主题词表正逐渐被通过网络访问的电子表服务系统所取代。
针对手工编制词表费事费时、智力要求高的缺憾,国外通过合并现有词表、用户生成词表、通过语法分析自动构建词表、通过同现分析自动构建词表等方法开展了词表自动构建技术研究[1]。计算机辅助编表方式逐渐处于主流地位。有代表性的叙词表编制软件有Term Tree 2000、MultiTesPro 2007、WebChoirTCS-10, 能实现数据导入和输出以及对词和对词间关系进行处理和控制,具有查询与显示等功能[2]。目前,机编软件正在向服务多样化、一体化、网络化方向发展。
我国从《中图法》、《汉语主题词表》(简称《汉表》)的单一发展到后来逐步产生了一体化的信息组织语言——《中分表》 ;《中图法》相继出现了《资料法》、《简本》、《少儿版》、《索引》、《使用手册》、《期刊分类表》等产品,受控语言呈现多样化与集成化、版本系列化特征。2009年,中国科技信息研究所启动了《汉表》的编制与修订工作,正在构建能提供英文、定义、关系、属性、多维分类和形式化概念描述等多层面知识的《英文科技超级词表》,效果显著[3]。以侯汉清为代表的课题组利用分类号、主题词、关键词之间存在的概念对应关系,构建了一个以《中图法》为基础的分类知识库,用以实现信息的自动标引和自动分类,并取得了一定成效[4]。
《粮农组织农业术语汇编》允许16种语言跨语言检索,欧盟《通用环境多语种叙词表》允许使用18种语言检索叙词表款目。《澳大利亚教育术语汇编》通过点击其网站的“LINK”按钮,能与多个叙词表相链接[5]。分类表与主题词表在经过小型化、专业化的发展之后,跨领域、多来源的相互兼容、映射、集成已经成为发展的主要潮流。
例如,国外《通行多语言环境叙词表》、《健康主题词表》提供RSS服务,《犯罪学叙词表》的检索界面上有微博服务。美国《医学主题词表》(Medical Subject Headings,简称MeSH) 除了采用基于概念的建模方式自动增加新词外,还通过共词聚类分析实现新词自动替换旧词及网络叙词表的自动更新[5]。美国伯克莱大学近期开发了入口词表模块(Entry Vocabulary Modules,简称EVM),通过自然语言到受控语言的转换为用户提供感兴趣的词汇,帮助其进行检索[6]。分类表和主题词表与用户的交互加强,表的更新方式日趋智能化。
可视化的分类表与主题词表的编制极大地增强了概念的易读性和表达性。欧阳宁等人利用本体编辑工具Prot é gé 对《中图法》医药卫生学大类进行了本体构建,成功地实现了该类目的可视化信息查询[7]。王子熙等人利用Personalbrain软件实现了《汉表》词间关系的可视化,为用户提供了直观的语义关系图,方便选词。伦敦商学院开发的《商业研究分类或主题词表》以同心圆形式所形成的概念网络空间向用户更直观地展示概念间的关系,《思维导图》则以三维动态语义网形式显示概念及其间关系,同时还提供个性化定制功能[5]。
本体作为一种全新的信息组织方法,代表了网络信息组织的发展趋势。国外一些叙词表已经实现了向本体的转化,如美国的《国家癌症元词表》已经出版了OWL版本[5],美国国会图书馆已经发布了《国会图书馆主题词表》的SKOS (Simple Knowledge Organization System, 简单知识组织系统)语义化描述版本。而在我国,贾君枝等人利用Java技术实现了《汉表》XML文档的自动生成[8]。深圳大学曾新红课题组编制了中文叙词表本体,并在其基础上实现了中文叙词表本体共建共享系统,可快速实现我国130多部主题词表的本体化升级和网络化共建共享[9]。薛建武等人在利用W3C新推出的本体描述语言标准SKOS的基础上,结合《国防科学技术叙词表》分析了SKOS对于概念、属性、映射的描述方法,完成了本体的转换[10]。王军等人介绍了基于《中分表》和计算机类的书目数据自动构建本体的方法,展现了传统知识组织资源对于网络信息资源利用的潜在价值[11]。
分类表与主题词表的集成、互操作主要是解决异构系统和多语言映射的问题。例如,美国OCLC(Online Computer Library Catalog,联机计算机图书馆中心)建立了术语服务平台向各类应用程序提供基于多种词表的词汇服务;美国自然科学数字图书馆开发了元数据注册平台来支持各类词表的发现和重用;欧盟在多语言词表和词表的互操作方面进行了多年实践[12]。 我国中文一体化医学语言系统(Chinese Unified Medical Language System,简称CUMLS)整合了10余个生物医学领域的主题词表、分类表、术语表及医学语料,形成了由医学词表、词义网、构建工具组成的知识组织系统,形成了一个多维的语义网络,大大地提高了检索效率[13]。同时,关联数据开始在受控词表中应用。目前,W3C 发布了“图书馆关联数据应用指南”并宣布SKOS实现了全面关联数据化。《美国国会图书馆主题词表》(Library of Congress Subject Headings, 简称LCSH) 以SKOS格式将LCSH全部关联数据化并开放下载,还创建了不同资源之间的关联,如将LCSH与瑞典联合目录进行关联,目的是构建一个计算机能理解的具有结构化和富含语义的数据网络[14]。
目前,社会正在从纸质媒体时代进入全媒体时代,人们正处在全面和泛在的数字知识环境中,知识创造的方式和过程在发生变化,全文检索、链接技术、接口语言和网关技术建立的随机访问机制和意义聚类机制为机器之间的交流和检索建立了坚实的语言基础。知识组织的结果从静态的文本格式发展为动态的多模式的链接,传统的知识组织系统(Knowledge Organization System ,简称KOS)开始转向网络的知识组织系统(Net Knowledge Organization System, 简称NKOS),信息组织从单纯的语法处理 (主题法、分类法)转变为语义处理(如专家系统、语义网络表示法),知识组织的方式方法随之发生了根本性变化。1980年张琪玉的著作——《情报检索语言》出版,标志着我国检索语言学科建设的开始。信息组织向自动化、集成化、智能化的网络知识组织方向发展,而知识组织已成为情报语言学、计算机科学、人工智能学、现代语言学、认知心理学等共同研究的领域,信息组织语言与理论正处在向知识组织理论范式转换的进程中。
目前,国际上信息组织标准内容除进行全面的修订以外,还增补了电子功能与显示指南、叙词表管理软件的功能说明、词表之间的互操作、数据模型与交换格式等内容。例如,ISO(International Organization for Standardization, 国际标准化组织)发布了MARC格式的 XML模式标准草案(简称ISO/DIS 25577)和有关叙词表方面的标准草案——《信息与文献工作——叙词表及与其他词表的互操作》 (ISO 25964),国际图书馆协会和机构联合会(International Federation of Library Associations and Institutions,简称IFLA)发布了《主题规范数据的功能需求》( Functional Requirements for Subject Authority Data,简称FRSAD),美国修订了《单语种受控词表编制、格式与管理规则》(简称Z39·19),英国升级了《用于信息检索的结构化词表指南》(简称BS8723),IFLA起草了《多语种叙词表编制指南》(简称IFLA指南)。
信息组织标准的规范范围在扩大,强调体系化,如对描述语言和框架进行规范;对信息技术、分面技术在叙词表编制中的应用的规范;对叙词编制软件、可视化技术以及描述语言的规范;对叙词表的互操问题的规范。W3C在制定了XML、RDF和OWL 等网络标准规范后, 2005年提出了用于支持使用叙词表、分类法、标题表及术语表等的简单知识组织系统,作为受控词表和概念框架网络语义表示的推荐标准, 2008年又对其进行了补充、更新。
随着网络成为用户信息利用的主要环境,分类表、叙词表、主题词表等受控词表逐渐向概念地图、语义网、本体的知识组织体系扩展, 信息组织在内容上向知识组织延伸,信息组织工作者需要在以人为本的理念指导下,以知识揭示功能、学科导航应用、智能检索应用、知识学习应用、文本信息处理应用作为功能定位,以提高检索效率、在无序信息世界中创造秩序作为知识组织追求的具体目标,构建分类语言与主题语言新型知识组织与服务范式和强大且富有活力的新型知识组织系统以及我国从信息服务向知识服务转型的重要基础设施。
网络版分类表与主题词表具有修订便利、动态性强的优势。新型知识组织系统的总体目标是建构一个立体的,具有一定“接口”能力的,与数字资源的自动标注、自动标引、知识检索、可视化应用的智能手段相适应的分类表与主题词表体系,以满足各类信息组织的需要。
网络版分类表与主题词表的功能定位为:①在结构上,宏观上对现有表的结构、体系、标记等进行改造,构建立体结构的概念语义网络,构建多语种索引、微观词表或后控词表。微观上,采用分面分析建立更加详细的类目体系或参照系统,增加入口词,从网络数据库中的关键词、网站热点词、网络检索界面相关词显示、大众网站标注词和网络百科资源搜集新词,建设术语素材库,在词间关系和类目的显示方面通过交替立类链接法、多面展开法增加揭示维度。②在界面上,通过等级显示、轮排显示、族项显示与可视化显示方式全面展示概念及概念间关系,便于对分类表与主题词表的浏览、检索和导航。第一,允许采用关键词、布尔逻辑、通配符、截词和组配检索。第二,能够进行全文浏览与等级关系全显示。第三,设立用户指南和使用帮助,能像印刷版形式一样显示主表、复分表/附表、使用手册的全部内容。③ 实现动态化词表管理。第一,多渠道、多技术方法地发现和补充新词和类目。第二,定期更新和维护类表的网站,添加用户参与的类目评注。④在完善其标引和检索功能的基础上,扩展检索的自动查询、可视化、向本体转化、辅助学习等功能。
目前,国内机编软件的应用还处于初步发展阶段。我国机编软件系统应着重研究以下几方面:①叙词表管理系统,具备批量载入和导出、查询和显示、词汇和词间关系的自动添加、编辑、修改和删除、一致性检验、打印排序等事务性操作功能。②智能化维护更新系统,完善自动构建技术,自动获取网络新知识,获取新词汇。利用Web 2.0技术加强与用户的互动,完成在线讨论、修订和分工管理。③可视化导航系统,用以揭示概念和术语的方位,展现概念和术语之间的联系,便于用户从全局了解信息的分布状况。
本体表的最大特点是具有互操作性,改变了以往电子版分类表与主题词表的静态描述网页的方式,便于计算机理解和自动处理。本体化构建是目前受控词表发展的重要方向,能极大地推动分类表与主题词表的动态更新,丰富了词间关系,使不同分类表与主题词表之间、受控表与本体表之间的映射成为可能,为语义网环境下的应用奠定了基础。
本体分类表与主题词表的编制原则:①严格限定或重新定义分类表与主题词表的词汇和句法、类目之间的属种关系、实例关系、整体与部分关系,使计算机可以自动实现对语义的处理、知识建模和属性的聚类。②进行形式化描述。目前转换为本体的描述语言有 XML(S)、RDF( S)、SKOS、 OWL等,比较来看,这4种描述语言在表述能力、人工干预程度、花费成本、推理性方面是不断增强的。由于SKOS和OWL都是建立在RDF上的应用,并且SKOS是一种比OWL简单又易扩展的语言,建议采用SKOS建立本体词表,加强规则推理再向OWL迁移的逐步过渡方式构建本体表[15]。
目前,国外主要通过继承(仿建)、翻译改编、卫星词表、直接映射、共同映射、中心转换、临时列表和协议连接等几种形式实现互操作。对此,我国近期亟须做好以下工作:①建设以《中分表》为核心的兼容词库表,将国外著名的分类表与主题词表译成中文,对《中图法》、《汉表》等进行多语种改造,研究多个不同受控表的映射与集成方法。②构建集成术语体系,提供术语的外文、定义、关系、属性、多维分类和形式化概念描述等多层面的知识,对概念和词间关系进行统一整合,实现语言间的互操作。③ 构建我国受控语言关联数据管理平台,使分类表与主题词表成为组织信息资源的通用、共享和共建的基础枢纽。
①在选词、编制、兼容表示、应用接口、管理和维护等各个环节构建完整标准体系。第一,全面修订我国分类表与主题词表标准,增加网络版表的编制和应用相关技术内容,增加可扩展的词间关系符号、规定灵活的表的组织和显示方式。第二,构建我国统一的各类集成词表框架和标准。在MARC与XML、RDF、SKOS、OWL等语义网相关标准的基础上,发布中文受控词表互操作的数据模型和交换格式,建立中文网络本体语言规范。②构建我国的分类表与主题词表的关联数据形式与框架,制定我国的关联数据技术规范。需要强调的重点在于:第一,定义和描述我国分类表、主题词表、规范文档、本体叙词表通用的数据格式,以便实现数据的共建共享。第二,用 URI 来揭示受控分类表与主题词表。第三,利用 HTTP 访问协议来存取受控表,促进受控词表的重用和分享。
从万维网到下一代的语义网,从数字图书馆到EKnowledge,从分类法、主题法到信息组织,再到知识组织,传统的分类法与主题法面临着范式转变。语义网环境下分类法与主题法研究应从以下几方面开展:①知识组织理论推动的分类法与主题法研究,包括知识标引与描述研究、NKOS研究。②分类法、主题法网络组织方法与新型语言模型研究,受控词表集成、互操作及术语映射的实现机制与方法研究。③ 分类表或主题词表构建与使用中的个性化、可视化、自动化、标准化研究。④用户知识检索行为与知识服务机制研究。研究不同用户的检索行为方式与需求,以构建语义网时代“以用户为中心” 的新型分类表与主题词表。
[1]杜慧平.国外计算机辅助编制叙词表软件评价[J].现代图书情报技术, 2009(9):17-21.
[2]杜慧平,何 琳,侯汉清.基于聚类分析的自然语言叙词表的自动构建[J].国家图书学刊,2007(3):44-49.
[3]贺德方,乔晓东,朱礼军.国内外词系统发展趋势研究[J].数字图书馆论坛,2008(6):44-48.
[4]侯汉清,薛春香.用于中文信息自动分类的《中图法》知识库的构建[J].中国图书馆学报,2005(5):82-86.
[5]司 莉,柴 源,周李梅,等.国外网络叙词表的现状调查及发展趋势[J].图书馆杂志,2011(7):22-26.
[6]刘华梅,侯汉清.自然语言转换为受控语言的语义工具:入口词表模块[J].情报科学,2007(1):93-96.
[7]欧阳宁,胡飞燕.基于本体的《中图法》类目可视化查询系统的设计[J].图书情报工作,2009(5):43-46.
[8]贾君枝,卫荣娟,罗林强《.汉语主题词表》XML文档的自动生成研究[J].现代图书情报技术, 2009(5):50-54.
[9]曾新红.中文叙词表本体:叙词表与本体的融合[EB/OL].[2012-09-08]. http://nkos.lib.szu.edu.cn/OntoThesaurus/OriginalLayout/5.pdf.
[10]薛建武,勾 苗,吴 拓.基于SKOS的国防科学技术叙词表向本体的转换研究[J].情报学报,2011(3):310-317.
[11]王 军,程煜华.基于传统知识组织资源的本体自动构建[J].情报学报,2009(5):651-657.
[12]王 军,卜书庆.网络环境下知识组织规范研究与设计[J].中国图书馆学报,2012(4):39-45.
[13]李丹亚,胡铁军,李军莲,等.中文一体化医学语言系统的构建与应用[J].情报杂志,2011(2):147-151.
[14]黄永文.关联数据在图书馆中的应用研究综述[J]. 现代图书情报技术,2010(5):1-7.
[15]贾君枝,卫荣娟.叙词表形式化描述语言的比较研究[J].图书馆杂志,2010(1):27-30.