章维亚 杨世瀚
摘 要:智慧博物馆的发展为藏品信息的知识化组织提出了新的需求,基于本体工程学的方法,提出博物馆藏品信息的知识化结构模型,构建博物馆领域本体,建立推理引擎,充分表达和发展博物馆领域的知识体系,并开发博物馆领域的智能应用系统。以博物馆藏品信息为中心的博物馆本体知识库既克服了传统的账目式信息结构的不足,又可表达藏品的展览信息、文化信息、美学信息、传播信息等重要的非物质信息。本文基于博物馆本体知识库开发了一个智能应用。
关键词:智慧博物馆;藏品知识结构;本体工程;本体语言
中图分类号:TP391;G264 文獻标识码:A 文章编号:2096-4706(2019)17-0001-05
Abstract:The development of wisdom museum has put forward new demands for the knowledge organization of collections information,which is based on ontology engineering method. This paper proposes a knowledge structure model of museum collection information,constructs museum domain ontology,establishes reasoning engine,fully expresses and develops museum domain knowledge system,and develops intelligent application system in museum domain. The museum ontology knowledge base centered on museum collection information not only overcomes the shortcomings of traditional accounting information structure,but also expresses important intangible information such as exhibition information,cultural information,aesthetic information and dissemination information. This paper develops an intelligent application based on museum ontology knowledge base.
Keywords:intelligent museum;collections’knowledge structure;ontology engineering;ontology language
0 引 言
博物馆的核心是藏品,博物馆信息管理系统中只有藏品的物质信息,更有意义的非物质信息从来没有被组织起来。传统的基于关系数据库的藏品信息管理方法和技术,曾经对博物馆信息化发展起到了巨大的作用[1]。随着智慧博物馆的发展和兴起,传统的关系数据库信息结构受到较大的挑战,新的博物馆知识库尚没有建立起来,智慧博物馆还依然停留在概念阶段。智慧博物馆要求所有信息互联互通,对知识分享和传播提出更高的要求,“以人为本”的“物、人、数据”三者之间动态双向多元信息传递模式是智慧博物馆的主要特征[2],这里的“多元信息”即可以理解为知识,知识是信息更高层次的抽象,它提炼了信息之间的关系,它把相关信息组织在一起形成了知识化的信息结构,它是智慧博物馆的数据结构基础之一。同时,智慧博物馆理念下的藏品信息外延也不断扩大,博物馆藏品不仅具有物质上的信息,如材质、尺寸、年代等,更重要的是其背后的文化历史信息、艺术信息、美学信息等,所以博物馆藏品信息结构不仅需要类目和管理信息,更需要包含藏品的其他相关信息,这也是对博物馆的信息知识化组织的基本要求,而传统的博物馆信息系统对这些非物质信息从来没有组织起来。
信息的知识化组织是一个复杂的信息工程过程。作为知识描述的重要手段,本体是领域本体工程的核心概念。知识本体[3]是共享的概念模型之形式化规范说明。博物馆领域知识本体的构建是博物馆知识工程的一部分,是博物馆界亟待建立的博物馆领域本体,它必须兼容遗留的藏品物质信息,也必须涵盖藏品的非物质信息。博物馆领域本体工程是对博物馆领域知识进行构建、组织、维护和管理的标准化软件工程过程,这个过程包括领域知识分析原则与方法,领域本体设计、构建、开发之方法和工具,本体的维护、测试、验证、评价、共享与重用等内容。
1 本体工程开发模型
一个好的领域本体具有以下几个特征[4-6]:客观清晰、完整性、一致性、最小承诺和单调可扩展性。领域本体工程是一个领域知识获取的过程,一般分成需求分析和领域分析、确定领域范围、考虑重用、列举术语、定义类、定义属性、定义限制、增加实例等几个阶段,在建模的每个阶段都有验证或评估的要求动作,这个过程是不断迭代和不断精化的过程。
1.1 需求分析和领域分析
进行需求、领域和用例分析是任何软件工程设计的关键阶段。这个阶段允许本体工程师夯实工作基础,并确定各个工作任务的优先次序。领域专家在这个阶段的工作尤为重要,是起决定作用的。分析阶段必须做到:明确定义知识的性质和本体的能力,使即将要构建的本体可以通过推理机能回答的问题;确定体系结构;考量使用传统知识工程方法的有效性问题等。
这个阶段的主要目的是要考虑基于本体的应用程序能够良好地进行系统演化或者进行动态的知识演化、能够支持与其他系统(如众多的遗留系统)的互操作性、促进和增强系统与用户的接口、促进领域术语和概念的标准化工作等。
在处理知识的时候,特别强调要区别对待这些信息:声明性领域知识和过程性领域知识,即是什么和怎么样的知识;本体和解决问题的方法,本体是知识的载体,解决问题的方法是知识的使用过程;可变知识和不变知识,一般背景知识是不可变的,行业的新理念、新方法、新技术等不断发展变化的知识;知识的来源和知识的可信任水平,一般知识的来源不同,则可信任水平不同。
1.2 确定领域范围
这个阶段要明确回答这些问题:构建的本体将被用来做什么?构建智能应用,语义查询还是知识挖掘?软件实现的时候本体将怎样被使用?多用于推理还是查询?本地使用还是分布式使用?共享方式是什么?我们希望本体知道什么,即表达什么样的知识?我们想要的知识的范围是什么?
1.3 考虑重用
要考虑两个方面,一个是重用已经被证明是好的本体或者本体片段,一个是即将构建的本体要能方便地被重用。
1.4 列举术语
通常从需求分析文档中抽取名词和动词,从领域专家口中获取专用术语等来进行非正式的术语列举。主要是名词和动词,名词将作为类定义的基础,动词将作为属性定义的基础。一种卡片归类的非正式方法可以帮助列举术语:由领域专家和本体工程师组成一个小组,制作很多小卡片,每张卡片上写一个术语,然后把这些卡片按照相关性大小分成一些小堆,把相关性较强的小堆放得靠近些,然后不断地讨论和重复这个过程,最后得出一个比较满意的基本分类好的术语列表。
1.5 定义类
一个类就是领域中的一个概念,类是具有相似属性的元素的一个集合,类中的元素叫作类的成员,类里面包含的是其成员的必要条件。首先需要对类进行定义,定义类除了要明确地用文字进行含义说明之外,可能还需要形式化地用数学符号精确定义出其所有成员的必要条件来。除了显而易见的领域概念之外,还要发现一些新的概念和类。发现类的方法通常有:
(1)可以独立存在的事物是一个类,通常是名词。
(2)修饰语有时可成为一个类,通常是副词和形容词。
(3)扩展概念,把一组事物放在一起考虑它们的共同点,往往可以扩展出新的概念。如:从动物和植物两个概念,可以拓展出生物的概念,因为它们都有生命。
(4)增加一些我们需要的抽象概念。
(5)标识一些可以定义的事物。
第二个重要的工作是标识 类之间的关系,这阶段识别“整体-部分”关系和“继承”关系,特别是类间的继承层次关系,所有的类都应该在继承层次结构中。典型的开发类间层次关系的方法有:
(1)自顶向下法,先定义最一般的概念,然后再逐渐特殊化。
(2)自底向上法,先定义最特殊的概念,然后把它们归类起来,一般化为一般性的概念。
(3)组合法,即结合自顶向下和自底向上两种方法,同时从深度和宽度上扩展类。
1.6 定义属性
这个步骤和上下两个步骤(定义类和定义限制)要频繁交互。属性描述了类成员的特征,严格的本体要求,只要对A类的成员成立的属性,如果B类是A类的子类,那么这些属性对B类的所有成员也成立。在类层次中定义属性时,遵循最高层次类定义属性原则,即把属性定义尽量应用到继承层次中最高层次的类中去。客观事物的属性类型一般有:
(1)内在属性,如文物的质地、颜色、重量等。
(2)外在属性,如文物的名称、年代、研究价值等。
(3)整体-部分属性,如某带盖瓷器文物的盖子是整体文物的一个组成部分。
(4)与其他对象的关系属性,如同一个墓葬出土的两个文物具有“相同文物来源”关系。
在本体中用两种属性来表示:
(1)数据属性,即简单的数据类型属性,包含基本数据类型的值,如文物的尺寸(数值)、名称(字符串)等。用来定义客观事物的内在属性和外在属性。
(2)对象属性,即复杂的属性,它包含其他的对象。常用来定义整体-部分属性和关系属性。
从需求文档中寻找属性的方法一般就是两个,识别修饰词和识别关系。修饰词一般是形容词和副词,基本上形容词和副词都定义了对象的一个属性;表示关系一般从动词入手,动词一般反映了两个或多个对象之间的关系。
標识属性的方法一般是围绕定义的类去问一些问题:这个类的所有成员具有什么特征?这个类的部分成员具有哪些特征?这个类的哪些属性需要记录和标识?这个类的成员具有哪些动作或者活动?这个类的成员和其他类的成员有哪些关系,发生哪些互动,交互需要有什么条件和限制?等等。然后回答这些问题并记录下来,讨论并识别出属性,对照属性的特征,评估每个属性具有的特征,并详尽记录下来。还需进一步讨论属性之间的分类,并识别属性之间的继承层次关系等等。最后达成一个本体工程师和领域专家都基本认可的属性定义成果。
1.7 定义限制
定义限制就是限制属性的定义域和值域,也叫属性限制。属性限制一般有三种,全局限制,局部限制和基数限制。前面指定属性的类型就是一种限制,这种限制是全局的,即这些限制会对属性的所有实例都有效。其他限制都是局部的,它们只在包含它们的类中起作用,一个是全称量词限制,一个是存在量词限制,还有一种限制就是基数限制。限制既可以在定义域上,也可以在值域上,也可以同时在定义域和值域上有限制。
定义限制的方法是,对关系属性的定义域和值域问这样的问题,然后正确回答:这个属性是对所有的对象都成立吗?是对部分对象成立吗?还是只对某一个或者某几个对象成立?这个属性的定义域限制是复杂的,可以表示成一个公理吗?这个属性的值域限制是复杂的,也可以表示成一个公理吗?等等。
1.8 实例化
在定义好类、属性和限制之后,就可以添加类的实例了。这个填充实例到本体中的步骤和其他的过程相比相对独立。一般地说实例的数量远大于类的数量,手工添加是一个很大的挑战。通常我们一般从遗留的关系数据库中自动获取,或者开发专门的工具从Excel表格等电子文档中读取,还有就是借助软件工具从文本库、资料库中进行自动地抽取。
1.9 验证和评估
本体工程的每个阶段的都该有验证和评估。在工程过程之初就该有验证和评估计划,由专门的测试评估小组和开发小组配合进行评估和验证工作。验证和评估计划要包含:阶段验证目标、评估要达到的目标、验证的方法是工具自动还是人工走查、验证结果的评估和反馈、再评估和再验证计划等。
2 博物馆本体设计
工程的方法为构建好的领域本体提供了工程上的支撑。博物馆领域本体的构建就是要明确定义博物馆领域的术语以及它们之间的关系,即主要开发工作内容有:用类定义博物馆领域内的概念;定义这些概念之间的层次关系;定义属性和属性类,为对象和关系增加限制;定义实例并指定它们的属性值。
2.1 本体开发环境和工具
本体的开发是一项复杂的工程。设计思想先进、结构良好的开发环境对于本体的开发具有重要意义,本体开发环境可以按照一定的开发方法辅助本体工程师完成开发工程的各个环节,尽量减少本体工程师的工作,分析评价本体以减少本体中的错误。本文的博物馆领域本体的开发,按照上面介绍的迭代本体工程方法,采用Protégé[7]开发工具和关系数据库本体抽取工具RoBridge[8]来开发。
2.2 博物馆领域本体
从《博物馆藏品信息指标体系规范(试行)》[9]中的3个指标群、33个指标集、139个指标项中初步抽取出175个概念,从需求分析文档中手工提取了108个概念。把概念进行工程化处理后定义了237个类,其中非物质信息相关的类119个;从规范指标体系文档中抽取,指标项基本可以表示成指标集的属性,指标群和指标集是包含关系,直接抽取属性189个;从需求文档中抽取动词、形容词、数量关系词等获得属性500多个。
根据类和属性可以建立语义图,其中的非物质信息的语义图片段如图1所示,矩形表示复合概念,椭圆表示原子概念,箭头表示关系,标记的文字表示类名、关系名和属性名。
限制反映了领域规则,通过分析逐步定义了89条限制,规则会随着开发过程的迭代逐渐增多,数量也逐渐稳定下来。如:书画有款识;有的瓷器有款识;有的瓷器有文字和款识;有的青铜器有文字;只有出土文物有出土地和出土日期等等。藏品信息知识化模型的应用过程,就是本体概念模型的实例化过程。根据定义好的模型,先把各个概念的实例递增地逐个定义,如某博物馆的瓷器藏品为2709件,就会定义2709个藏品的实例和2709个藏品信息的实例;再增加各种关系实例,包括对象关系和数据关系,这是一个递增的过程;最后通过推理机会自动发现一些新的概念和关系,也可以加入到知识库中,这也是一个递增的过程。这个将构成知识库的主要部分。本次的工程实践中基于具体的一个博物馆共定义了近10万个藏品实例和关系实例,涵盖了所有没有争议的博物馆藏品的信息,包含了大部分在博物馆服务中高频率使用的非物质信息,包括展陈、交流、传播、研究等。
3 本体存储和表达
一种知识的本体表达语言可称为OWL(Ontology Web Language)[10],可以用来方便地描述上述定义的信息结构,即博物馆藏品知识库,这种规范的知识表达方式有利于知识的共享和传播。藏品的物质信息目前基本都存储在关系数据库中,第一全国文物普查之后,这个数据库更加规范和完整了。根据文献[8]的方法,可以自动地把关系数据库的结构和记录转化成OWL表示,自动生成的标准OWL文件,可以直接使用也可以用工具进行编辑,这里我们采用工具Protégé来进行编辑。博物馆藏品的非物质信息利用此工具建立的语义图,自动生成OWL文件,并进行一致性和正确性验证。编辑好后的OWL文件以文件的形式存储在服务器硬盘上。
4 基于本体知识库的信息系统
4.1 信息系统体系结构
建立了层次的博物馆知识系统结构,如图2所示。最底层是关系数据库和知识库并存的数据层,工具模块R2O[8]会自动地把关系数据库的数据转换成知识本体。在计算层,以知识推理引擎为核心,为具体的智能应用提供知识和语义检索服务,同时知识管理模块为管理员用户提供本体知识库和关系数据库到本体转换工具的操纵管理接口。各种基于知识库推理的智能应用系统构成业务应用层,普通用户直接与应用层的模块进行交互。
4.2 知识推理和语义检索
知识推理和基于知识的语义检索,是基础设施的核心。Pellet[11]是一个完全支持OWL的Java語言开源推理机,可以方便地和Protégé集成,能嵌入Jena API和OWL API,为开发人员提供了一个包含从构建到推理全过程的开发环境。我们的推理引擎建立在Pellet基础之上,Pellet采用描述逻辑的包含关系推理作为理论基础,算法采用Tableau算法[12,13]。推理引擎基于OWL API和Pellet API接口向智能应用开发者提供基本的本体推理服务。推理引擎的结构如图3所示。
OWL API是提供给应用开发用户操作本体文件的标准接口,是一系列函数的集合,是专门为应用平台中实现对OWL本体进行创建、修改、删除和查询等操作的应用程序接口,它主要包括本体解析器和编写器,推理机接口等等。其主要过程为:先创建本体管理器,再创建本体读写器读入本体文件,然后调用推理机执行推理服务,最后给出推理结果并清理运行环境。
Pellet API是在OWL API的基础上设计的推理机API,在包括了OWL API的所有推理功能的同时还提供了有效的属性层次推理。其工作机理为:先进行本体加载和解析,再进行本体的验证或者修复(预处理),形成规则库和事实库,然后再访问推理机并实现推理服务。基于Pellet API,推理引擎提供的基本推理服务有四类,各个服务都以封装好的推理引擎的应用程序接口形式提供。同时建立了基于知识推理的语义检索机制。SPARQL[14]是本体结构化查询语言,我们把检索关键字都封装成SPARQL查询语言来对本体进行检索,在检索前,先进行关键字预处理,把关键字与领域知识库的内容和推理结果进行同义词替换与匹配,扩展SPARQL查询语句,再来进行本体查询,实现语义检索。
4.3 智能应用系统开发
领域内的智能需求是无限的,基于知识和推理的可能,应用程序也是无限的,其核心在于智能业务分析和对知识基础设施的理解和应用。
4.3.1 开发策略
在知识平台上的应用开发与传统基于数据库的信息系统开发有很大的不同,其开发重点不再是业务流程和限制,也不再是数据驱动,而是知识驱动的开发,以提出问题和解答问题为中心,更像是一个问答系统。基本开发流程包括需求分析、问题表达及期望答案设计、问题形式化、推理开发、答案解释和展示等等过程。其中,问题设计是一个把业务需求转换成有序问题集合的过程。对回答的设计是推理过程的一个人工预演,并给出预计答案的正确形式或可接受形式,也可以作为推理程序的一个测试计划;而问题形式化是指把问题表示成SPARQL程序的过程。例如管理者想了解本馆的所有国家二级以上的瓷器文物的基本情况,以准备和兄弟馆进行一次古代瓷器联展。可以将其分成几个问题,本馆的所有二级文物有哪些?哪些是瓷器文物?哪些文物没有外展?它们联展历史是什么?最常联展文物的美学和研究情况有哪些?建立一个简单的评价瓷器文物参与联展推荐程度的规则;依据规则查询符合要求的文物作为推荐,并给出理由。
4.3.2 博物馆宣教智能问答机
基于知识库系统开发一个简单的博物馆宣教智能问答系统,使普通参观者能够对博物馆中馆藏瓷器相关的知识进行比较深入的咨询。问答系统的客户端是基于触摸屏的,不允许输入文字,但是可以通过动态出现的选项来提示用户点击探索进一步的知识。在展示界面,选择一件瓷器之后,会出现瓷器的基本介绍,然后在屏幕的右边会列举出一些选项供用户选择,如文物等级、出土情况、文物价值、文物鉴别、相关文物等,这些选项是根据知识库随机生成的,而且对不同的文物,出现的选项是不一样的。进一步选择之后,再出现不确定的选项供用户选择,这个过程不断循环,模拟一个无限知识探索和学习的过程。
实现这个系统的基本原理就是,不断地把用户的选项组合成问题,并把它表示成SPARQL查询语句,到知识库中查询,把查询的结果的第一项作为结果展示,从推理结果的对象中提取关联度高的关键词作为这个页面的选项动态生成出来,在结果界面右侧作为选择项来提示用户进一步探索文物知识。
5 结 论
本文应用本体工程学的方法探索并建立了博物馆领域本体知识库,把博物馆藏品的非物质信息作为重要的领域知识包含进去,为智能博物馆的建设和智能应用开发打好了基础。今后的重点工作有:知识库的管理维护、完善和扩展,知识库上智能应用开发,问题语料库的建立等,为智能应用快速开发提供强力支撑。
参考文献:
[1] 王建平.论博物馆藏品信息管理 [J].中国博物馆,2001(2):82-91.
[2] 宋新潮.关于智慧博物馆体系建设的思考 [J].中国博物馆,2015,32(2):12-15+41.
[3] Studer R . Knowledge engineering:Principles and methods [J].Data & Knowledge Engineering,1998,25(1-2):161-197.
[4] Clancey,William J. The knowledge level reinterpreted:Modeling how systems interact [J].Machine Learning,1989,4(3-4):285-291.
[5] Morik K. Underlying assumptions of knowledge acquisition and machine learning [J].Knowledge Acquisition,1991,3(2):137-156.
[6] Gruber T R. Toward principles for the design of ontologies used for knowledge sharing? [J].International Journal of Human-Computer Studies,1995,43(5-6):907-928.
[7] Musen M. The Protégé project:A look back and a look forward [J].AI Matters,2015,1(4):4-12.
[8] Yang S,Wu J. Mapping Relational Databases into Ontologies through a Graph-based Formal Model [C]//Sixth International Conference on Semantics. IEEE Computer Society,2010:219-226.
[9] 国家文物局.博物馆藏品信息指标体系规范(试行)(文物博发[2001]81号) [S/OL].[2008-07-09].http://www.sach.gov.cn/art/2008/7/9/art_90_2819.html.
[10] Bechhofer S. OWL:Web Ontology Language [J].Encyclopedia of Information Science & Technology Second Edition,2004,63(45):990-996.
[11] Sirin E,Parsia B,Grau B C,et al. Pellet:a practical OWL-DL reasoned [J].Journal of Web Semantics,2007,5(2):51-53.
[12] Horrocks I,Sattler U,Tobies S. Practical Reasoning for Expressive Description Logics [M]// Logic for Programming and Automated Reasoning. Springer Berlin Heidelberg,1999.
[13] Horrocks I. Practical reasoning for very expressive description logics [J].Logic Journal of IGPL,2000,8(3):239-263.
[14] Angles R,Gutierrez C. The Expressive Power of SPARQL [C]//International Semantic Web Conference. Springer,Berlin,Heidelberg,2008:114-129.
作者簡介:章维亚(1980-),女,汉族,湖北武汉人,硕士,研究方向:智慧博物馆、瓷器保管与研究;杨世瀚(1972-),男,汉族,湖北荆门人,博士,研究方向:智能决策、智能信息处理。