王芳
摘要:针对图书发行标准检索复杂,利用率低等问题,本文在充分分析图书发行标准的相关特点的基础之上,融合现有本体构建技术,借鉴骨架法的更新及文档化机制,改进了七步法,提出一种基于图书发行标准的本体构建方法,并借助本体建模工具Protege实现对图书发行标准本体的构建。本文研究实现的图书发行标准本体构建方法是图书发行标准领域知识图谱构建的重要研究内容,是实现图书发行标准可视化检索的关键步骤。
关键词:本体构建;图书发行标准;骨架法;七步法
中图分类号:G250 文献标识码:A 文章编号:1007-9416(2019)11-0192-04
0 引言
标准是社会生活中规范人们生产活动不可缺少的一种重要文献,对推动行业的发展起到了至关重要的作用。目前现行图书发行领域标准几百种,每个标准都包括封皮、前言、范围、规范性引用、基本原则等标准主体约束内容,一般一个发行领域标准含有6-8个部分,每一个部分还若干个小节。因此,人们查阅所需标准信息时需要翻阅量很大,既浪费精力又浪费时间,直接导致图书发行标准信息利用效率比较低。本文旨在探讨图书发行标准本体构建方法,进而实现图书发行标准知识图谱构建,提高图书发行标准检索的效率,促进图书发行标准的利用率,推动图书发行行业的规范化。
本体(Ontology),是共享概念模型的明确的形式化规范说明[1],是知识图谱的重要组成部分。本体主要包含了五个基本的建模元素,分别是类或概念、属性、关系、约束和实例,通过这六个元素对对象进行形式化描述。图书发行领域标准最大的特点是规范,每个标准都是严格按照统一的规范书写,但规范不是一承不变的,它是随着社会的发展,发行领域要求的不断更新而不断改进的。因此,本文根据图书发行领域标准特点,研究现行较成熟的几种本体构建方法,最终,借鉴骨架法的更新机制,改进了七步法,提出一种基于图书发行标准的本体构建方法。
1 主流本体构建方法分析
本体的构建是个复杂的过程,需要系统化的方法来支持。目前比较主流的本体构建方法有METHONTOLOGY法[2]、五步循环法[3]、七步法[4]和骨架法[5,6]等。
METHONTOLOGY方法,该方法构建本体的步骤依次是:需求分析、知识获取、概念化、系统集成、通过OWL等本体表示语言进行形式化表达、本体评价和文档说明。该方法是专门用于构建化学本体的方法,并支持本体层次构建,但是该方法无法进行更新迭代。
五步循环法是一种环状的结构,循环中的五步分别是:选取构建本体的资源(数据库、文档或者其他本体)、概念学习、领域集中、关系学习、对构建好的本体进行评价。
七步法,顾名思义构建本体的方法有七步,所以被称作为“七步法”。七步分别是:确定本体构建的领域、考查复用现有本体的可能性、列举本体领域中的概念本体、定义本体中概念的结构层次、定义概念属性、定义属性的约束和本体的实例化。七步法忽略了本体构建过程中内容的更新。
骨架法,构建本体主要包含了四个步骤:明确本体构建的目的、执行本体构建、对构建完成的本体进行评估,最后对本体进行文档化保存。骨架法通过对本体的评估实现对本体的更新。
图书发行领域标准规范性很强,标准文档层次明晰,这一特征使其适合七步法构建本体。但标准规范一旦变化,标准的主体结构就随之改变,本体必须是可以更新的,也就必须要进行文档化保存。因此,结合骨架法的更新機制,改进七步法,研究提出了一种适用于图书发行领域标准的本体构建方法。
2 图书发行标准本体构建方法
图书发行标准的本体构建方法包括七步:确定本体构建领域及范围、获取并分析领域信息、定义本体概念和概念层次、定义概念的属性和属性约束、本体更新评估、本体实例化、文档化说明。图书发行标准本体构建方法的流程如图1所示。
(1)明确本体构建的领域。标准涉及各个行业,知识面覆盖多领域,难以统一规范,构建通用的知识本体较为繁琐,难以实现。本文研究的本体的构建领域是图书发行标准领域。
(2)获取和分析领域信息。明确了本体的构建领域之后,接下来就要收集现有的图书发行领域标准,并对其内容和结构进行分析,为本体概念的定义和概念层次的建立打下基础。
(3)定义本体概念和概念的层次。在收集和分析图书发行领域标准后,研究需要尽可能多的抽取图书发行领域的核心概念,这些核心概念能较全面地描述领域特征。
(4)定义概念的属性以及属性值约束。依靠本体概念还不能完整的描述图书发行领域标准,需要根据概念的特征,定义概念的属性,来全方面的描述某一概念所具有的信息。
(5)本体更新评估。通过对概念属性和属性约束的对比分析,评价图书发行领域标准是否已更新,如已更新就需要更改本体的定义,如未更新则进入本体实例化。
(6)本体实例化。定义好概念以及概念的层次结构以后,为了能够将构建的本体模型应用到实际问题中,需要给本体中的概念添加图书发行领域标准实例及其属性。
(7)文档化说明。由于领域知识是在不断更新变化的,因此,图书发行标准的本体内容不会是一直不变的,通过不断地获取新的图书发行标准知识,我们还要对原本的本体内容进行不断迭代和更新,因此本体的文档化存储是至关重要的。
3 图书发行标准本体的具体构建过程
3.1 图书发行标准领域信息分析
本文的研究数据是基于原中华人民共和国新闻出版总署发布的图书发行标准,包括术语标准、信息分类与编码标准、单证与标签标准、元数据与信息交换标准、作业与服务标准、管理标准共6类[7]。共收集各类标准百余项,进行分析及特征归纳。
每一个标准文档都是按照规定的规范书写,一般包含三部分:封面、前言、主体。封面包括标准的分类号、中英文名称、发布时间和实施时间等九项内容;前言包括归口单位、起草单位、起草人、上一级标准;主体部分包括范围、规范性引用文件、术语和定义,及其他具体标准规范的内容。比如:《出版物发行商务通用流程规范》的主体包括:范围、规范性引用文件、术语和定义、发行商务通用流程、商务谈判、采购、供货、对账等十一项,主体中的每一项又包括若干小项,如:对账又包括对账原则和对账单要素,而对账原则中还包括两小节内容。如表1所示标准的基本结构。经研究分析可见,图书发行标准领域规范性强,层次明确。
3.2 定义本体概念和概念的层次
通过对获取的图书发行标准信息进行分析和总结,得到如表1所示的标准的基本结构。根据标准的基本结构提取出核心概念,图书发行标准部分核心概念如表2所示。
同时,根据标准的基本结构定义多层本体架构,一级子层节点是封面、前言和正文;二级子层节点分别为一级子层节点的包括项,依次类推分层。
3.3 定义概念的属性及属性值的约束
依靠本体概念还不能完整的描述某一领域,需要根据概念的组成信息等,定义概念的属性,来全方面的描述某一概念所具有的信息。属性值的约束,可以使概念的表述具有一致性和规范性,避免构建本体的时候,产生太多杂乱的知识。本体中属性可以分为两类,分别是对象属性和数据属性。
对象属性用于描述概念之间的关系,例如“引用”(Reference)这个属性,用于关联“图书发行标准”概念和另外一个“行业标准”概念,其描述的是一个图书发行标准和另外一个行业标准之间的关系,如图2所示。通过研究图书发行标准之间信息,得到两个发行标准之间的关系有:父标准、子级标准、引用关系等。
数据属性指的是概念的“内在属性”,表示概念本身具有的特质,如图3所示。
图书发行标准本体中的部分属性值和对应属性值约束如表3所示。
3.4 本体评估及实例化
通过对本体概念和概念层次的比对分析,评估本体是否已更新,如已更新就需要对本体定义进行更新,部分更新可复用原有的属性和属性约束,全部更新的需要重新定义。图书发行标准领域一般是在原标准的基础上改进,因此多为部分更新,可以复用原有属性和属性值约束。
本体实例化操作就是对于本体中的每一个概念,创建相应的实例,然后填写实例对应的属性。基于图书现有的发行标准,本文进行了图书发行标准本体的实例化操作。如:CY/T140-2015(出版物发行商务通用流程规范)是图书发行标准的一个实例,其是一个行业标准,它的父级标准是GB/T1.1-2009(标准化工作导则),其父级标准的子标准还有CY/T52-2009(出版物发货单)和CY/T39-2006(图书流通信息规则)。如图4所示。
3.5 文档化说明
图书发行标准的本体内容不会一直不变的,随着行业发展的需要,图书发行标准的修订也一直在进行,通过不断地获取新的图书发行标准知识,我们还要对原本的本体内容进行不断迭代和更新。因此,需要对构建好的本体进行文档化存储,以便该本体内容在以后的工作中能够继续使用。
本体描述语言OWL[8]能够实现图书发行标准领域本体模型的形式化表示,为后续数据实例化、本体评估等提供标准、统一的语言规范。图书发行标准本体OWL文件部分内容如下:
(1)概念的存储:
4 总结与展望
本文通过分析图书发行标准的特征,在研究现行主流本体构建方法的基础上,借鉴骨架法的本体评估和文档化机制,改进七步法,提出了图书发行标准领域的本体构建方法,明确了本体概念及层次的定义,说明了属性和属性值的约束,采用本体建模工具Protege[9]实现图书发行标准本体的构建。图书发行标准领域本体构建方法是该领域知识图谱构建的重要部分,该方法的提出与实现促进了图书发行标准的利用率,将有效推动该行业的规范化。此外,各标准领域普遍存在着较强的规范性和明确的层次关系,因此,该方法可以推广应用到其他标准领域的本体构建,实现标准领域的知识图谱构建,为标准领域可视化检索的实现提供了新的研究思路。但由于Protege是一种手动构建本体的工具,当本体出现更新时,迭代更新的工作量比较巨大,因此,将进一步研究图书发行标准本体自动化构建。
参考文献
[1] Studer Rudi,V.Richard Benjamins,Dieter Fensel.Knowledge engineering: principles andmethods[J].Data&knowledge engineering,1998,25(1):161-197.
[2] 余凡.领域本体构建方法及实证研究[M].武汉:武汉大学出版社,2015.
[3] Seul-Ki Lee,Ka-Ram Kim, Jung-Ho Yu. BIM and ontology-based approach for building cost estimation[J].Automation in Construction,2014,41:96-105.
[4] 马旭明.本体构建方法与应用[J].信息与电脑,2018,(05):33-35+38.
[5] 岳丽欣,刘文云.国内外本体构建方法的比较研究[J].情报理论与实践,2016(08):119-125.
[6] Gregor D,Toral S,Ariza T,et al.A methodology for structured ontology construction applied to intelligent transportation systems[J].Computer Standards &Interfaces,2016,47:108-119.
[7] CV/Z 13-2011,出版物发行标准体系表[S].
[8] Lohmann,Steffen,Link,et al.Web VOWL:Web-based visualization of ontologies[J].International Conference on Knowledge Engineering and Knowledge Management. Sprnger International Publishing,2014:154-158.
[9] 李景.主要本體构建工具比较研究[J].情报理论与实践,2014,29(2):109-111.