冉从敬,涂文艳
面向动态数字出版的信息技术领域主题分类规范研究*
冉从敬,涂文艳
文章介绍数字出版时代传统出版行业面临的挑战,调查国内外数字出版与信息技术领域主题词表标准规范研究现状。以我国信息技术领域主题词表编制为例,介绍其技术路线、编制方法、编制原则以及词表特点,为科教领域动态出版标准规范研究提供借鉴。
动态出版数字出版信息技术主题词表分类标准
引用本文格式冉从敬,涂文艳.面向动态数字出版的信息技术领域主题分类规范研究[J].图书馆论坛,2016(8):60-64.
1.1研究背景及概念
随着数字时代的到来,传统的传媒形态发生了巨大变化,出版物载体从纸介质一统天下到音像、电子、多媒体、网络出版和数字出版并起。数字出版使出版物内容形式、编辑模式、生产流程、传播介质和管理模式等都有了创新。中国新闻出版研究院“第十二次全国国民阅读调查”数据显示:2014年数字化阅读方式(网络在线阅读、手机阅读、电子阅读器阅读、光盘阅读、Pad阅读等)的接触率为58.1%,较2013年的50.1%上升了8.0个百分点,首次超过了图书阅读率。《2014年新闻出版产业分析报告》指出,2014年中国共出版电子出版物11823种,较2013年增长1.0%;数字出版实现营业收入3387.7亿元,较2013年增长33.4%,占全行业营业收入的17.0%,这表明我国数字出版继续保持较高增速,行业地位继续提升,传统出版与新兴出版的融合发展进一步深入。
自20世纪90年代以来,互联网信息技术、数字化技术的不断变革引发了出版行业的变革与创新,先后出现“桌面出版”“电子出版”“网络出版”“全媒体出版”“数字出版”“复合动态出版”等新出版形态和概念[1]。目前数字出版是我国出版界普遍接受和认同的能够比较全面总结和概括新时期出版业形态特点的概念。但是,对于如何定义“数字出版”仍存在不同看法。目前一般认为,数字出版产品包括数字图书、数字报纸、数字期刊、数据库出版物、手机书、手机报、手机刊、手机音乐、电子书、动漫和网络游戏产品[2]。动态出版是指采集和管理结构化、可重用的数字内容,并使之可以按需以任何媒体形态分发的新型数字出版形式。动态出版与传统出版的区别在于其信息来源渠道与发布平台的多样化、集成化、自动化、个性化。
我国关于主题词表的研究始于20世纪50年代,至今已编制修订了上百部综合性、专业性的主题词表。主题词表又称叙词表,是一种情报语言,目的是标引文献,使用户根据词表提供的主题词检索出相关结果。随着计算机技术的发展,其功能发生相应的变化,被作为一种词库用于文献数据库的自动标引和组配工具[3]。目前尚未编制出比较系统完善的主题词表供数字出版使用,因此,编制一部分类科学、体系完整、自动化程度高、互操作性强的主题词表显得尤为重要。
1.2研究目标及意义
为应对新媒体、数字出版的挑战,科技部于2012年发布《动态数字出版关键支撑技术研发与应用示范》研究项目可行性报告,该研究项目投入资金庞大,参与研究主体多样化,目标是实现“一次制作,多元发布;深度标引,多重应用”的新型出版方式。基于该项目,武汉大学于2012年申报“面向科技教育领域的动态数字出版标准规范研究”课题,以期建立相应的规范标准和完善的专业知识分类体系;研究面向信息技术领域的数字出版主题词表编制方法,包括主题词表的定位和范围界定、主题词表编制原则、分类方法和目录体系编制原则以及编码方法的确定、主题词表及其间的相互关系的维护等方面,编制信息技术领域主题词表;构建以本体为基础的知识库,并考察适用于动态科教数字出版的本体元素间的相互关系。
叙词表的构建和使用是文本挖掘和信息检索的基础[4]。为此,编制《信息技术领域分类主题词表》可以使我国出版行业拥有完善统一的数字内同结构化标准,给内容交换、重组再利用、面向不同载体发布等操作带来便利。与此同时,内容提供商的出版单位可以适应多渠道发行,避免因内容转化而出现大量不必要的内容重复。此外,通过对相应规范标准的建立,实现不同系统之间高品质、个性化的多媒体体验,为整体提升我国数字出版行业的生产力和竞争力做出先导型贡献。
2.1国外数字出版与主题词表标准规范研究现状
20世纪90年代初,英美等发达国家的出版商开始开发在线数据平台,数字出版行业标准也得到充分发展,建立起完整的标准体系,包括标识符类标准、元数据标准、数据格式标准、数据交换标准。电子数据交换标准、版权类标准以及管理类标准[5]。出版资源利用上也有很多规范,如ISO颁布的ISO1951:2007标准、流行的DocBook(一些标准和工具的集合)、DITA(一个基于XML的体系结构,用于发布技术信息)等数字内容描述规范。目前资源描述框架(Resource Description Framework,RDF)理念已广泛应用于美国、欧洲的数字出版与数字图书馆建设,国际上根据资源描述框架标准进行数字内容资源聚合。在传统的学术出版物编写、著录方面,国际标准规范有《ISO 690信息与文献——书目参考——内容、形式和结构》《ISO 999信息与文献——索引的内容、组织和编排指南》等。在元数据著录、电子数据交换、数字资源的标识与链接等方面,国际标准有《都柏林核心元数据集》(Dublin Core Element Set)、《电子书元数据》(E-book Metadata)、《ISO 11179系列标准》(ISO 11179 Series Standard)、《电子资源国际标准书目著录》(International Standard Bibliographic Description for Electronic Resources)、《机读编目格式标准》 (MAchine-Readable Cataloging)、《图书在线信息交换标准》(ON-line Information eXchangeFor Books)、《数字对象唯一标识符标准》(ISO/DIS 26324Information and documentation-Digital object identifier system)。
在主题词表编制上,国际上通用的主要有ISO2788《单语种叙词表编制规则》、ISO5964《多语种叙词表的编制规则》以及在ISO2788和ISO5964基础上更新和扩展的ISO25964标准。2008年7月ISO首先推出ISO WD25964-1,2008年底ISO推出ISO CD25964-1,并面向各国广泛征求意见。尽管国外在出版资源利用及主题词表编制标准上发展较为成熟,但是面向动态数字出版的标准规范研究仍比较缺乏,尤其是在信息技术领域缺乏一个内容专业化、体系科学化、标准规范化、操作可视化的面向动态数字出版的主题词表。为此,加强面向动态出版的信息技术领域主题词分类规范研究顺应科学技术发展的需要,能够促进科教领域数字出版业的健康有序发展。
2.2中国数字出版与主题词表标准规范研究现状
目前中国出版单位掌握了大量的内容资源,如何最大化地利用这些资源,生产出满足纸质、网络、手机、手持阅读设备、户外大屏、高清电视等各种媒体终端阅读需求的多形态的内容出版物,进而实现从产品销售到知识服务的转变和升级,是出版单位在应对新媒体、数字出版面临的最大挑战。由于缺乏业务经验和技术力量,各出版单位投入大量的人力物力制定格式规范,然而按照各自形成的存储格式规范加工出来的数字内容资源格式不尽相同,加工质量参差不齐,可复用的程度相差很大,可交换性很低。虽然中国对国际上成熟的元数据体系的中文标准化工作取得了一定成效,但实际应用仍然存在问题。比如,内容加工缺乏统一标准,资源整合不当,数字出版技术标准不统一。数字内容产品具有丰富性、结构性、复杂性、动态性、综合性以及数字出版的文本格式多样化等特点,都是导致数字资源出版标准难以统一的重要原因。此外,数据交换、数字出版支撑平台建设标准不一,技术架构多样化等也限制了中国数字出版产业的健康发展,造成人力物力财力等浪费。
主题词表编制主要有4个国家标准:(1)GB/T 13190—1991《汉语叙词表编制规则》,以ISO2788:1985《单语种叙词表编制规则》为参照,结合《汉语主题词表》等叙词表的编制经验。(2)GB/T15417—1994《文献多语种叙词表编制规则》,修改采用ISO5964:1985,规定以汉语为交换语言的多语种叙词表的编制原则、词间关系处理和语言处理原则。(3)GB/T19486—2004《电子政务主题词表编制规则》。(4)GB/T 3860—1995《文献叙词标引规则》,修改采用ISO5963:1985《文献工作——文献审读、主题分析与选定标引词的方法》,通过对叙词标引过程进行控制,规范标引人员的叙词标引和提高检索人员的检索质量。此外,相关行业标准有:(1)GJB1776A—1999《军用主题词表编制规则》,是国家军用标准,规定军用叙词表编制中应遵循的原则、方法和要求。(2)GJB5098—2004《军用电子叙词表编制规范》,是国家军用标准,规定了编制军用电子叙词表的基本规则和应遵循的技术规范,对军用电子叙词表的体系结构、数据组织、功能要求、运行环境、数据交换等主要内容进行规定[6]。由此可见,中国在主题词表的相关标准建设上相对成熟和完善,但面向动态数字出版的相关标准,在信息技术领域尚未建立比较完整的主题词表,为此《信息技术领域分类主题词表》的编制研究在依据和参考现有标准的基础上,应建立符合自己特点的分类主题词表。
3.1技术路线设计
传统的叙词表构建过程分为3个技术子过程。首先是概念和术语的收集,其次是概念和术语的形成和定义,最后是组织概念和术语[7]。综合多种方法和标准,该《信息技术领域分类主题词表》采取的技术路线是“融合—改造—创新”思路。采用多种形式,组织各领域专家研讨,结合数字出版现状和国家有关领域的总体要求,整合与组织各相关标准,进行补充完善和协调配合,编制符合现状的动态数字出版标准体系,通过应用示范进行工程化验证,并在后续应用中不断进行完善和改进。更具体而言,主要是按照构建数字内容类型定义规范和知识分类体系的路线进行研究。
构建动态数字科教出版主题词表的技术路线是数据采集分析与理论研究相结合的方式。首先将研究领域限定在科技出版中最活跃的信息技术出版物领域,调研和采集已有知识组织体系及其相关元数据集,从已有的数据库中抽取的关键词和用户检索词等一起构成来源素材;利用设计出的数字内容类型规范(词形规范、词义规范)等遴选规范形成概念;在借鉴综合性词表和专业词表概念语义关系的基础上,借助词共现,建立概念间相关属性关系;同时建立涵盖全学科的范畴体系,并对概念进行相应范畴体系归类,最终形成动态数字科教出版相关领域主题词表。
3.2词表编制过程及特点
3.2.1词表编制流程
(1)明确词表的定位与范围。《信息技术领域分类主题词表》是用于电子工业出版社内部使用的、面向信息技术领域的专业主题词表,带有主题词范畴索引(即分类体系),因此又称为分类主题词表。《信息技术领域分类主题词表》作为规范的、带有范畴索引的主题词表可以起到规范标引用词的作用。它给出版社所有的内容编辑人员提供了一套统一的标引参考标准,保证了标引用词的规范性、一致性和科学性,可以有效防止自由标引带来的凌乱化,有利于文献聚类和数据挖掘,同时也为未来实现自动标引奠定了基础。
此分类主题词表不仅适用于文本类信息分类标引标准,还适用于数据、图片、声视频信息的分类和标引;不仅适用于传统出版物的分类标引,还适用于电子书、数据库等各种新型出版物和数字内容资源的分类标引,是出版社所有内容资源的基础性加工参考标准。
(2)确定主题词来源及词表结构。主题词来源丰富,包括最常用的分类工具书《中国图书馆分类法》(第五版)、《中国科学院图书馆图书分类法》(第三版)、《中国人民大学图书馆图书分类法》(第六版)以及信息技术领域的相关国家标准,专业工具书、专业词典、使用手册。此外,还通过对信息技术领域文献的关键词、摘要进行词频统计,收集相关主题词等。该词表根据实际需要分为13个一级类,其中前7个一级类目主要针对内容,称为内容类目;后6个一级类目主要针对非内容要素,称为非内容类目。
(3)分类编码方法的选择。词表中的每一级类目以及主题词类均由类目编码和类目词组成。一级类目采用数字字符顺序和字母顺序编码,如01、02,A、B等。二级类目、三级类目和四级类目分别采用两位数字编码,并采用顺序编号法。与中图法类似,编码的长度可以反映类目的等级和次序。内容类目的一级类目编码分别用01、02、03、04、05、06、07表示。非内容类目的一级类目编码分别用类目词中具有代表意义的汉字的拼音首字母C(出)、D(度)、J(机)、M(媒)、R(人)表示,并按字母顺序排序。
(4)词表的更新维护。随着信息科学技术的发展,各种新型信息技术及理论都会不断涌现,新的主题和概念随之产生。为能够即时对这些新的内容进行主题标引,就必须对《信息技术领域分类主题词表》进行周期性的更新和维护,以保证该词表能够涵盖信息技术领域最新的概念和主题。分类主题词表的维护包括各类目下主题词的增加、修改和删除,类目的增加、修改和删除。
3.2.2词表编制特点
(1)准确的主题定位。为科技教育领域最为活跃的信息技术专业领域编制主题词表顺应时代发展潮流,符合日益增长的市场需求。信息技术领域涵盖的主题内容丰富,涉及专业术语众多,并且更新淘汰速度快。为此,编制该领域的主题词表可以有效规范其在数字出版过程中的标准问题,提高数字出版质量,为其他专业领域标准规范的制定提供借鉴。
(2)科学的分类体系。《信息技术领域分类主题词表》结合多种体系分类方法与主题分类法,如《中图法》《科图法》《人大法》《中国分类主题词表》,并实现分类主题一体化显示,建立起独有的标识系统。
(3)完善的词表对应系统。除建立了科学的中文简体分类主题词表,本表的一大特点就是建立相应主题词的繁体与中英文的对照。繁体主题词主要根据我国香港、澳门、台湾地区的使用称谓习惯,建立对应词汇。比如,“网络”对应繁体“網路”,对应英文“net”或者“network”。
(4)高效的管理方式。主题词来源文件是由人工进行筛选并根据已有的分类体系确定《信息技术领域分类主题词表》的类目体系。然后借助计算机技术,开发主题词表自动生成系统,自动处理主题词各种形式的对应关系,主题词表与动态数字出版软件无缝连接。
(5)为建立本体知识库奠定基础。目前建立本体的主要方法是依据主题词表,利用本体构建工具来创建相应的领域本体。《信息技术领域分类主题词表》的编制完成帮助实现了该领域本体的形式化和可视化显示,用户可查找本体中的概念,浏览本体的等级结构及查看概念间的关系,并具备文本自动标引、文献信息的语义检索与可视化检索、术语服务等功能。
主题词表广泛应用在信息科学领域,可以帮助标引工作者和搜索用户准确的找到某一知识领域的词汇,标准化的词汇可以提高检索效率,保证检索结果的准确率。此次《信息技术领域分类主题词表》的构建为我国其他知识领域在主题词表构建研究上积累了一些经验。比如处理主题词中英文繁体拼音的对应关系时由于语言习惯,很多繁体字并不能够通过逐字翻译,更有一些习惯性用法如“网络”称为“網路”“三连通分支”称为“三連接組件”等。使用Excel自带的函数计算语词的出现频次,可以提高主题词采集的效率与准确率。随着互联网、计算机技术发展,主题词表的网络化、自动化、标准化是支撑数字出版行业健康有序发展的重要保障。主题词表的构建应根据信息环境的本质和需求来发展,这就意味着对信息环境、话语和语言的深入了解,通过多种方法对知识进行采集分析。
[1]程维红,任胜利,路文如,等.我国科技期刊由传统出版向数字出版转型的对策建议[J].中国科技期刊研究,2011(4):467-474.
[2]全国出版专业职业资格考试办公室.数字出版与数字出版产品[M].上海:上海辞书出版社,2011:66-82.
[3]余丰民.国内主题词表研究脉络初探[J].情报科学,2014(5):12-17.
[4]Robert M.Losee.Decisions in thesaurus construction and use[J].Information Processing&Management,2007,43(4):958-968.
[5]华夏.数字出版标准建设发展研究[D].北京:北京印刷学院,2014.
[6]刘春燕,沈玉兰,刘华.ISO25964的技术内容分析及对我国叙词表编制标准的修订启示[J].图书情报工作,2009(8):25-29,38.
[7]Marianne Lykke Nielsen.Thesaurus Construction:Key Issues and Selected Readings[J].Cataloging&ClassificationQuarterly,2004,37:3-4,57-74.
(责任编辑:刘洪)
Research on Subject Classification of Information Technology during the Dynamic Digital Publishing Era
RAN Cong-jing,TU Wen-yan
This paper discusses the challenges facing traditional publishing industry in the digital publishing era,and studies current research on standard specification of digital publishing and information technologythesauri,at home and abroad.Taking Chinese information technology thesaurus as an example,the authorsgive an introduction of the techniques,methods,principles and characteristics of thesaurus compilation,thus providing referencesfor the research on standard specificationof dynamic publishing in the fields of science and education.
dynamic publishing;digital publishing;information technology;thesaurus;classification standard
*本文系国家科技支撑课题“面向科技教育领域的动态数字出版标准规范研究”(项目编号:2012BAH88F00)、博士后特别资助课题“基于信息可视化技术的知识产权学术演化规律研究”(项目编号:2014T70199)部分研究成果之一
冉从敬,武汉大学信息资源研究中心、武汉大学信息管理学院教授;涂文艳,武汉大学信息管理学院硕士研究生。
2016-05-05