面向数字动态出版的主题词系统实现*

2016-06-01 12:38冉从敬郭晓婉
图书馆论坛 2016年9期
关键词:词表主题词表标引

冉从敬,郭晓婉

面向数字动态出版的主题词系统实现*

冉从敬,郭晓婉

随着出版产业与数字技术、信息网络技术加速融合,传统出版与数字出版并重发展格局逐步形成,解决数字出版知识库建设不规范和数据内容片段及其相互关系描述不完整等问题成为数字出版的重要课题。文章聚焦于信息技术领域,编制《信息技术领域分类主题词表》,开发主题词分类处理系统软件,介绍主题词分类处理系统从设计到实现的全部过程。

信息技术领域 数字动态出版 主题分类词表

1 研究概述

1.1 研究背景

随着互联网的发展,目前理念与技术的融合使数字出版愈加重要[1]。图书、杂志、报纸、音像等传统出版产品一般以单一媒体、单一渠道进行分销和传播[2],数字革命则改变了传统出版的供应链[3]。在此背景下,国内外涌现出不少数字出版服务模式,如以电子书为主要出版形式的单品种服务模式、按需印刷服务模式、以数据库出版为主的知识服务模式和在线教育服务模式。这些数字出版服务模式的主要特点包括:出版正在转型为基于细颗粒度的知识挖掘和信息服务;数字出版物传播渠道和终端阅读呈现多样性;用户的个性化和可定制化需求越来越强烈;数字出版物的跨媒体应用越来越广泛,数字出版消除了纸质出版物生产和销售中的金融壁垒[4]。这些特征要求出版单位能够利用知识主题或本体对数字内容进行结构化的组织和管理,实现多种媒体、多种形式、多种渠道的数字出版物同步生成,进一步根据用户的不同需求快速形成不同形式和内容的产品及服务。

面对这种新型数字出版模式应用需求,出版单位亟待改造自身的技术装备,构建满足数字出版需求的内容生产系统,建立可重用的结构化内容资源库,并以此为基础进行数字内容的多渠道发布和内容的重组利用,最终形成跨媒体、专业性、分层次的数字出版发展格局,为出版单位的内容产品树立竞争优势。然而,我国传统出版单位在发展道路上还存在种种问题,主要包括数字出版行业标准不规范、专业知识分类体系不完善、不能满足日益增长的跨媒体多终端阅读应用需求、大量非结构化文档资源处理成本高、传统出版流程数字化改造过程复杂、数字出版的商业模式难以确定[5]。本研究聚焦于信息技术领域,根据中文主题词表、英汉信息词典、简繁对照词典、简繁对照词表,抽取对照词表,抽取对应的中文、英文、繁体和拼音的主题词,输出包含以上信息的主题词表,制定面向动态数字出版的主题词分类处理系统。在信息时代,主题词表依然是重要的检索工具,《汉语主题词表》《中国分类主题词表》在中文检索语言的标准化过程中发挥了关键作用,促进了现代知识组织和信息处理的发展[6]。本研究在借鉴众多相关词表的基础上编制《信息技术领域分类主题词表》(以下简称《分类主题词表》)。

1.2 研究目标、成果和技术框架

本研究的主要目标是建立动态数字出版系统,实现内容的“一次制作、多渠道发布、跨媒体出版”,面向广大用户提供个性化的按需出版服务。研究成果是10万个主题词已经完成提取,初步建立了中文、繁体、拼音、英文的对应关系,并开发软件系统对中英文繁体拼音的对应关系进行自动化处理;并将研究领域限定在科技出版中最活跃的信息技术出版物领域,调研和采集已有的知识组织体系及其相关元数据集,从已有的数据库中抽取的关键词和用户检索词等构成来源素材;利用设计的数字内容类型规范(词形规范、词义规范)等遴选规范形成概念;在借鉴综合性词表和专业词表概念语义关系的基础上,借助词共现,建立概念间相关属性关系;建立涵盖全学科的范畴体系,并对概念进行相应范畴体系归类[7],最终编制《分类主题词表》。主题词表作为信息组织工具,能有效地组织和使用数字文件资源,因此其编制仍然是一项重要工作[8]。本研究分类词表的构建框架见图1。

图1 面向信息技术领域主题词表的技术流程图

2 《分类主题词表》的编制与应用

2.1《分类主题词表》定位及范围

《分类主题词表》是电子工业出版社内部使用的、面向信息技术领域的专业主题词表,带有主题词范畴索引,该词表可以起到规范标引用词的作用,给出版社所有的内容编辑人员提供了一套统一的标引参考标准,保证标引用词的规范性、一致性和科学性,可以有效防止自由标引带来的凌乱化,有利于文献聚类和数据挖掘,也为未来实现自动标引奠定了基础。《分类主题词表》不仅适用于文本类信息分类标引标准,还适用于数据、图片、声视频信息的分类和标引;不仅适用于传统出版物的分类标引,还适用于电子书、数据库等各种新型出版物和数字内容资源的分类标引,是出版社所有内容资源的基础性加工参考标准。

2.2 《分类主题词表》参考文件

《分类主题词表》在编制过程中综合多方力量,参考众多相关文件而形成,这些文件主要包括信息技术中文编码字符集、信息交换用汉字编码字符集、信息分类编码的基本原则和方法、信息与文献术语、语种名称代码、中华人民共和国法定计量单位、中国分类主题词表、中国图书馆分类法、计算机科学技术名词、计算机科学技术名词、信息技术术语词典、最新电子名词辞典等多种分类工具和信息技术领域术语表。

2.3 《分类主题词表》介绍

2.3.1 概况

《分类主题词表》是带有范畴索引的主题词表。所谓范畴索引,是按照主题词的学科含义聚类并建立索引,以便于族性检索。分类主题词表灵活性高,维护复杂度低,还能在一定程度上说明不同主题词在概念和语义上的关联。

(1)编制原则。电子工业出版社出版的《信息技术领域分类主题词表》是在参考《中国分类主题词表》《中国图书馆分类法》《中国科学院图书馆图书分类法》《中国人民大学图书馆图书分类法》的基础上,充分考虑电子工业出版社的图书出版情况而编制。《分类主题词表》可以实现分类和主题一体化标引,为文献和数字内容加工工作创造了良好的条件。

(2)分类方法与类目体系编制原则。《分类主题词表》根据实际需要分为13个一级类,其中前7个一级类目主要针对内容,称为内容类目;后6个一级类目主要针对非内容要素,称为非内容类目。内容类目分别是计算机技术、自动化技术、电子工程、电信工程、电工技术、机械和仪表、交通运输;非内容类目包括出版物、机构、物理媒介、人物与角色、读者和计量单位。一级类目下面可细分成二级类目、三级类目和四级类目。类目具体的层级根据实际需要进行设置,主题词一般位于最细一级类目之下。

(3)编码方法。词表中的每一级类目以及主题词类均由类目编码和类目词组成。一级类目采用数字字符顺序和字母顺序编码,如01、02,A、B。二、三、四级类目分别采用两位数字编码,均采用顺序编号法。二、三、四级类目的数字编码均采用顺序编号法。类目编码的长度可以体现出类目的等级和次序。内容类目的一级类目编码分别用01、02、03、04、05、06、07表示。非内容类目的一级类目编码分别用类目词中具有代表意义的汉字的拼音首字母C(出)、D(度)、J(机)、M(媒)、R(人)表示,并按字母顺序排序。

2.3.2 《分类主题词表》维护方法与流程

近年来,随着信息科学技术的快速发展,新型信息技术及理论不断涌现,新的主题和概念随之产生。为能够及时对这些新的内容进行主题标引,就必须对《分类主题词表》进行周期性的更新和维护,以保证词表能够涵盖信息领域最新的概念和主题。《分类主题词表》的维护包括类目下主题词的增加、修改和删除,类目的增加、修改和删除。

在修订主题词时,必须依据科学性与使用性相结合的原则选词,注意词的学名与俗名的关系处理和词形的选择。在新增主题词时,选定的主题词要符合汉语的结构特点以及各学科的通用性,对外来语词要注意选用较通用的译名。选定的主题词必须一词一义,不选用概念容易混淆、词义不清的语词作为正式主题词。新选定的主题词尽量同国内外主题词表兼容。主题词的增加应尽量放置于专指性强的类目下,若无,则考虑“其他”类目。

在修改或删除主题词时,主要考虑该词内涵具有时代局限性,词义不清,则可以删除该词。该词不规范、不通用,已被另一词性代替,则选择另一词为正式主题词。该词有错别字或词义错误,则修改更正该词,若不能更正,则删除。增加、修改和删除主题词都可以在《分类主题词表》中直接进行,但需要追主题词增加、修改和删除后必须通知所有信息编辑人员开始使用、修改使用或停止使用这些主题词。

《分类主题词表》的分类体系实质上是具有分类意义的主题词的范畴索引。随着《分类主题词表》中的主题词的增加,新的主题词可能会重新聚类形成新的类目,这时就要求增加、删除和修改类目。

2.4 《分类主题词表》的功能与应用

2.4.1 规范出版物或内容单元的标引用词

《分类主题词表》的各级类目和主题词可以直接用于各种出版物、数字资源及内容单元的标引。对出版物或内容标引单元的标引分为分类标引和主题标引两种。分类标引以出版物或内容单元的学科或专业属性为主要依据,进行类目划分。在进行分类标引时,必须对出版物进行仔细的主题分析,而不能单凭题名进行分类。必须符合专指性和实用性要求,将其分入适当的类目,而不能分入范围大于或小于实际内容的类目。主题标引是针对出版物所论及或涉及的主题进行标引,而不是对出版物内容的学科性质进行标引。进行主题标引时,必须选用词表中最切合主题的词汇标引,一般不选用其上位词或下位词标引。若无专指词,则选用一个最直接的上位词或最近义的、最相关的主题词。该分类主题词表可以实现分类与主题标引的一体化。

2.4.2 提高检索性能

通过掌握《分类主题词表》,出版物编辑可以使用规范的主题词作为数字内容的标引用词,提高主题标引的质量,便于实现文章自动关联和内容挖掘。《分类主题词表》是简单的本体,借助层级语义关系,可在一定程度上实现语义检索,有利于提高检准率和检全率。

2.4.3 过滤非法标引词

将《分类主题词表》与标引系统关联,可实现出版物内容标引用词的校验和过滤功能。如果出现不规范的标引词进入标引系统,机器可自动报警,并将非法标引词过滤出来。

2.4.4 《分类主题词表》的应用

《分类主题词表》与《科技类图书结构化处理规范》都是电子工业出版内部的基础性标准规范,既可以用于图书的分类主题标引,还可用于可重用内容单元的分类主题标引。

在图书结构化处理过程中,对于整体图书和所有的可重用单元,必须给与详细的元数据标注,这些元数据信息借助两种形式存在:一是主题信息,编辑加工人员需要选择主题词,对图书或内容单元涉及的主题进行揭示;二是元素属性,比如对所有图书和可重用单元都可以增加“读者对象”这个属性,其选值包括“初学者”“熟练者”“精通者”等三种。在编辑加工人员对图书内容进行结构化处理的时候,可以从该《分类主题词表》中选择规范的主题词作为元素的属性值进行设置。

《分类主题词表》编制完成后,最终开发出面向动态数字出版的主题词分类处理系统,该系统是经过系统架构设计、系统功能设计、系统界面设计这一完整的设计流程构成的,旨在实现利用主题词支持数字动态出版的“一次输入,多次使用”。

3.1 系统架构设计

系统架构设计是指该主题词分类处理系统的总体结构,该系统能够实现数据的输入、处理、查询、展示、输出整个完整的流程,系统的整体架构包括数据入库、数据预处理、主题词分类、主题词查看、主题词编辑、主题词输出。

实现这一系统架构包括三方面的准备:一是搭建一个主题词数据库,采用数据采集分析与理论研究相结合的方式,搭建一个集中、统一管理的主题词数据库,建设面向主题词分类的原始数据表、工作表等,统一主题词数据管理,为后续的数据应用和数据共享提供有效支撑;二是实现主题词一体化处理流程,各模块功能相互配合,共同为主题词分类与展示提供技术支撑,完成业务流的配合实现;三是建设面向主题词分类的业务应用,主题词分类包括自动分类、半自动分类和手动分类。

3.2 系统功能设计

主题词分类处理系统功能模块包括数据入库、预处理、处理、查看、编辑、输出等,每个功能模块根据业务不同又细分子业务功能,以下就各模块的功能性需求进行介绍。

数据入库的基本功能包括分类编码入库、主题词入库、参考词入库、英汉词典入库、简繁词典入库。分类编码入库是从参考词中抽取分类编码的目录,包括简体名与编码;主题词入库是把未分类的主题词加入到工作表中,以便后续的分类处理;参考词入库是将参考主题词入库,包括编码与简体名,该表是自动分类表的参考基础;英汉词典入库是将英文名与其对应的简体名输入到数据库中;简繁词典入库则是将简体名与其对应的繁体名输入至数据库中;简繁英词典入库先整理信息技术领域分类主题词表(简体繁体对应表),将其简体、繁体、英文一一对应并输入数据库中。

预处理包含的功能依次为中文转换拼音、复制英语名、查找英汉词典、查找简繁词典、简体英文提取、繁体字首字处理、查找参考英文、繁体数据清洗、数据来源标记、繁体手动纠错、新词重新过滤、复制简繁英词表和繁体字去重。

处理是利用开发出来的程序调用未处理的词,根据已分类词,按照一定的算法处理,人工干预确定未分类的分类编码。处理包括自动分类、半自动分类和手动分类三个模块。

自动分类是将工作表里的记录与参考表里的记录匹配,获取参考表的分类编码,赋值给工作表里的分类编码字段。半自动分类主要包括四个方面的内容,一是查询待处理词;二是设置关键词,系统根据关键词查找已分类的词,用以作为未处理分类的依据;三是根据关键词,系统查找未分类词,供用户选择,以便同待处理词合并一起分类;四是用户根据参考词,选择并设置待处理词的编码,同时选择其他未分类词。手动分类是通过手动输入的方式给未分类词进行类别划分,并提交到数据库。

查看菜单主要提供查询工作表、参考表、分类表的查询功能,包括查看未分类词、已分类词和高级查询。

编辑功能可以对工作表进行清空、修改、删除和添加等操作。清空分类编码,操作后不可恢复,所以在使用该功能的时候要谨慎。修改可以按照“简体名”“繁体名”“汉语名”“英文名”“编码”“标记”等进行条件选择,然后进行“范围限定”,并进行相应字段的修改。删除则分为批量删除和选择删除两种。

输出主要包括输出参考词表、未分类词表、已分类词表和分类词文档,以Excel表格的格式输出。

3.3 系统界面设计

登录界面和功能界面,见图2、图3和图4。

图2 登录界面

图3 功能界面1

图4 功能界面2

3.4 数据结构设计

本研究主要对数据结构设计的原则性内容及设计思路、建库内容与流程进行介绍。根据词库涉及内容,建立相应的数据库,包含CodeExcel表、EnglishChinese表、FanDic表、FanDic-Sec表、FanDicThird表、ReferExcel表、Work-Excel表、WorkExcelBefore表、WorkExcel-Refer表。以CodeExcel表为例,具体表结构见表1。建立以上表结构后,将数据导入,并存在统一的*mdb文件中,以供系统读取、写入使用。

表1 CodeExcel表

4 结语

本研究聚焦信息技术领域,先通过整合多方资料,制定《分类主题词表》,包含10万个从现存标准中提取的信息技术领域的词语,既有中文、英文、拼音,还有繁体。在词表基础上开发出主题词分类处理系统软件,该软件能够实现数据的输入、处理、查询、展示、输出整个完整的流程和相应的对应关系,容许批量主题词的导入和规定格式主题词的导出。本研究理论与实际相结合,开发出实用软件,这个过程体现出来的特点和意义包括:形成一套完整的标识体系;兼容分类法和主题法等重要的信息组织方法;分类体系兼顾分面分类法和等级分类法,将二者融为一体;完成中文简体与繁体主题词在信息领域的对照;实现中英文主题词在信息领域的对照;完成主题词全周期软件开发;成功实现计算机辅助分类和人工分类相结合,利用主题词支持了数字动态出版的“一次输入,多次使用”。

[1]姚柏年.数字出版商业模式研究[D].上海:华东师范大学,2012.

[2]葛存山,张志林,黄孝章.数字出版运作模式研究[J].科技与出版,2008(9):51-55.

[3]Ho H Y,Wang LW,Cheng H J.Authors,Publishers,and Readers in Publishing Supply Chain:The Contingency Model of Digital Contents Production,Distribution,and Consumption[J].SystemsEngineering Procedia,2011(2):398-405.

[4]Ben Hunter.The Effect ofDigitalpublishingon Technical service in University libraries[J].Journal of Academic Librarianship,2013,39(1):84-93.

[5]Hong Cheng W,Li Ren S,Rousseau R.Digital publishing and China’s core scientific journals:a position paper[J].Scientometrics,2014,98(1):11-22.

[6]ZhangW.ThedevelopmentandstructureoftheChinese Thesaurusforsubject indexing[J].InternationalInformation&LibraryReview,2004,36(1):47-54.

[7]曾建勋,常春,吴雯娜,等.网络环境下新型《汉语主题词表》的构建[C]//2011年全国知识组织与知识链接学术交流会.2011:43-49.

[8]Zeng W.Exploration and study of multilingual thesauri automation construction for digital libraries in China[J]. ElectronicLibrary,1983,30(2):233-247.

(责任编辑:何燕)

Implementation of Subject Headings System Based on Digital Dynamic Publishing

RAN Cong-jing,GUO Xiao-wan

As the integration with digital technology and information network technology speeding up,traditional publishing and digital publishing develop simultaneously.It is important for digital publishing to solve problems such as non-standard construction of knowledge base,fragmented data content and incomplete description of relationship among data.This paper focuses on the compilation of Classified Information Technology Thesaurus and the development of classification processing system of subject headings;then gives an introduction of the entire process of designing and implementing the system.

information technology field;digital dynamic publishing;subject headings

格式 冉从敬,郭晓婉.面向数字动态出版的主题词系统实现[J].图书馆论坛,2016(9):79-84.

分类处理系统软件设计

冉从敬,武汉大学信息资源研究中心、武汉大学信息管理学院教授;郭晓婉,武汉大学信息管理学院硕士研究生。

2016-05-05

*本文系国家科技支撑课题“面向科技教育领域的动态数字出版标准规范研究”(项目编号:2012BAH88F00)和博士后特别资助课题“基于信息可视化技术的知识产权学术演化规律研究”(项目编号:2014T70199)研究成果之一

猜你喜欢
词表主题词表标引
《汉语主题词表》
编制受控词表的著作权侵权风险及其应对策略
《〈汉语主题词表〉构建研究》
《汉语主题词表》
《〈汉语主题词表〉构建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
学术英语词表研究管窥
——三份医学英语词表比较分析
档案主题标引与分类标引的比较分析
大数据时代数字资源的主题标引研究
关于关键词标引的要求