基于Jena的电影素材领域本体构建及推理研究

2016-02-23 06:28王劲东朱永华
计算机技术与发展 2016年8期
关键词:实例本体检索

王劲东,武 频,朱永华

(上海大学 计算机工程与科学学院,上海 200444)

基于Jena的电影素材领域本体构建及推理研究

王劲东,武 频,朱永华

(上海大学 计算机工程与科学学院,上海 200444)

在电影素材数字化和大数据环境下能够快速准确地检索到目标电影素材,实现电影素材的自动关联,减少人工干预成为快速语义检索和智能推荐的研究重点。为了解决该问题,提出了一种基于Jena的电影素材领域本体推理模型。在电影领域专家的参与下抽取电影素材相关术语和概念,然后根据OWL语言规则,利用本体建模工具Protégé构建电影素材领域本体,并进行了语义公理和自定义规则的推理,描述了本体概念、属性相互之间的关系及本体构建和推理的细节。建立了一个基于Lucene影视素材的检索查询系统,进行了基于关键字查询和拓展查询。结果表明,该本体推理模型可以很好地对电影素材的知识进行表示,支持基于语义推理的智能查询,并且有较高的效率。

电影素材;领域本体;Jena;推理

0 引 言

电影素材蕴含着丰富的价值,是电影制作过程的艺术宝库。电影素材本身包含的知识与电影素材知识库相结合能够大大丰富电影素材的信息,为电影制作提供信息。在影视动漫创意产业实施过程中,作为影视动漫产业的基础和关键,电影素材的管理维护在电影文化创意及制作业务的全流程中起到了至关重要的作用。它需要一套有效的电影素材数据资源库的管理技术与工具。视频制作过程的海量信息,包括维护文本、图形、图像、动画、视频、音频等结构化、半结构化和非结构化三种大数据。

电影素材语义模型包括:电影素材是什么,电影素材可以应用在哪里制作场景以及电影素材的应用环境。因此,电影素材信息不仅包括电影素材的色彩、形状、内容以及制作信息等,更重要的是电影素材本身所蕴含的艺术价值以及对当时社会、人文信息的反映。目前,在多媒体检索领域主要有基于文本的检索和基于内容的检索。在大数据环境下,基于文本的检索的查全率和查准率不高。因此,文中研究电影素材整体和电影素材部件、电影素材部件和部件间的关系,通过电影素材语义标注方法标注的电影素材的内容设计并构建一个领域本体。通过该本体对检索条件进行推理,实现电影素材整体、电影素材部件的检索。

1 相关工作

目前对海量非结构化的电影素材数据进行检索往往达不到预期的结果。国际标准—MPEG-7可以很好地描述媒体内容,逐渐成为基于内容描述和检索的规范。李伟等[1]提出了基于内容的电影动画素材检索;刘东波建立了基于本体的动画素材检索系统[2];郭嘉琦[3]建立了基于本体的电影领域检索模型;曾维明[4]建立了基于本体的电影领域的推荐系统。但是目前电影素材的检索还是基于电影领域的某一块领域,并没有从整个电影领域去实现电影素材的关联。

文中的基于语义本体的电影素材分类方法以及语义推理的电影素材检索研究包括两方面的特色:

(1)电影素材领域本体的构建是整个研究的核心。构建一个完整的包含电影素材各种关系的本体将为后续研究打下坚实的基础,包括电影素材的构件部件、大小、位置、时间、主题等元数据信息,涵盖了社会、经济、历史、建筑、人文、动漫等多领域语义信息。

(2)电影素材的检索效果与推理展示关系用户满意度。将电影素材与电影素材关联起来,为电影制作人员所用,并能够快速准确地得到电影素材及其相关的电影素材是文中的重点。

2 本体相关概念

所谓本体[5](Ontology)是一种共享概念模型的形式化规范说明,是对知识世界的一种描述。该定义主要包含四层含义:概念模型、明确、形式化和共享。其中,概念模型是指从客观世界中抽象出事物的相关概念并建立其相应的关系而得到的模型,该模型所表现的含义不同于具体的一些环境状态;明确是指在本体所使用的概念及这些概念的相关约束条件都有着明确的定义;形式化是指本体能被计算机处理,如果不能被计算机处理,这个本体就是无意义的;共享是指本体中体现的是人类共同认可的知识,它反映的是相关领域中被公认的概念集。

2.1 领域本体

所谓的领域本体[6](domain-specific ontology)就是对学科领域的一种知识描述,包括学科中的概念、属性、概念间的关系以及属性间关系的约束。特定的学科知识都有显著的领域特性,而领域本体能够更为合理而有效地进行学科知识的表示。领域本体可以表示某一特定领域范围内的特定知识。这里的“领域”是根据领域本体构建者的需求来确立的,它可以是某个特定学科领域,或者这个学科领域的某个特定范围,也可以是几个学科领域的结合。

2.2 领域本体的构建

理论上,可以通过5种类型的构件类/概念、关系、函数、公理和实例来形式化描述一个本体。领域本体的类(Classes)和概念(Concepts)的含义很广泛,可以指任何事物的描述,如功能、行为、工作描述或者策略和推理过程等,是对领域知识术语的描述。

文中用C表示类集,I表示类集中的实例集,R表示关系集合,Ax表示公理集合,来约束类间的属性及关系,所以本体可以表示为一个四元组,O=(C,I,R,Ax)。若把上述关系集合R划分成函数和关系,即加入函数F,公理A,那么就把四元组变成五元组[7],O=(C,R,F,A,I),作为基本的建模原语。

领域本体的构建一般都有领域专家的参与。领域本体的构建方法[8]主要有METHONTOLOGY、骨架法、KACTUS工程法、SENSUS法、IDEF-5方法、七步法等。不同的领域本体可以采用不同的构建方法,文中主要采用斯坦福大学开发的七步法构建本体。

2.3 Jena简介

Jena[9]是一个基于Java框架的本体语言开发工具包,最早来源于SIRPAC API的工作,可以支持多种本体描述语言构建本体。Jena自带相关推理机制,有着完整的本体解析、存储、推理和查询函数以及相关调用接口[10]。构建本体是为了让计算机能解析本体并进行推理,得到需要拓展和一些隐藏的信息。领域本体在通过一致性检验后,存入知识库中并进行推理,得到额外的隐含信息[11],即推荐出来的信息。Jena2提供了ARQ查询引擎,实现RDQL和SPARQL查询语言,从而支持对模型的查询。另外,查询引擎与关系数据库相结合,可以将本体中的数据存入到关系数据库中。基于Jena的推理机支持OWL[12]的公理推理和自定义规则的推理;将已生成的本体模型同相应的推理机联合,能从本体所描述的实例和类中推出隐含信息。

3 电影素材本体的本体模型的构建

3.1 本体模型的建立

(1)确定核心类及类的等级关系。电影素材领域本体是以现有的影视素材网站和多媒体文件为知识源所构建的,电影素材本体主要分为五个核心类:文本(影视评论、剧本、演员导演信息、影视新闻等等)、图片、视频、音频、工具(影视制作工具)。其中,图片的子类又可以分为人物、动物、植物、自然景观、人文景观、物品、社会纪实(真实反映具有实效性的人或事,灾难、战争、贫困等)、生活百态(反映社会各阶层人群的社会活动和社会现象),其中人文景观的子类又包括城市、街道、建筑、园林、民居等。图1为部分电影素材本体概念简单层次图。

图1 部分电影素材本体概念简单层次图

(2)确定类间非等级的语义关系。分析电影素材及结构关联确定整体部分关系、同义关系、不相交关系、操作关系等。创建的概念间语义关系如下:

整体与部分关系(IsPartOf)指概念间的构成关系,如设置“城市景观”类的部分类为街道类、民居类、建筑类和园林类。

同义关系(equal)指概念之间或者属性之间有相同的含义,如周星驰和“星爷”指同一个人。

不相交关系(disjointWith)指概念间没有交集,如“动物叫声”和“人类声音”。

操作关系指概念间存在操作或者被处理关系,如视频剪辑工具可以处理视频。

(3)确定数据属性。本体的层次概念确定以后,还要确定概念的数据属性,例如图片类的子类—人物类主要包括人物类型、人物行为、版权、景别(近景、中景、远景、全景、特写)、拍摄角度(正平视、仰视、斜视、俯视、侧视)、季节(春季、夏季、秋季)、格式(jpg、bmp、gif等),父类的属性子类一定也会继承。

(4)构建本体。目前本件构建工具一般采用Protégé(斯坦福大学医学院生物信息研究中心开发的一款本体构建工具),它是基于Java语言开发的用来进行知识获取和本体编辑的软件。Protégé提供了本体概念类、属性、关系和实例的构建,并且用户只需在本体概念层次上进行领域本体模型的构建,进而屏蔽了具体的本体描述语言。Protégé4.3的特点是插件可以拓展特殊的功能,具有方便快捷的图形化的用户界面,简单易用,支持OIL、DAMA、OWL、RDF等语言,适合本体的概念化和形式化阶段。图2为电影素材本体的部分图解。

图2 电影素材本体的部分图解

(5)创建实例。以Picture类的子类Human为例,取电影《大话西游》的一张图片,如图3所示。

图3 《大话西游》图片实例

生成的OWL文件片段如图4所示。

图4 人物图片实例的OWL文件片段

可以看出,该图片名称为XiYou_23,人物个数为两位,人物行为为站立,图片格式为jpg,人物类别为青年,图片版权属于电影《大话西游》,景别为中景,视角为仰视,图片中人物所处的季节为冬季。

3.2 基于电影素材本体的推理规则构造

文中采用的是基于Jena的推理技术。在构建本体的过程中,通过推理机对其一致性进行检测并得到一些隐含的信息。Jena内自带了一个通用的规则推理机,该推理机根据其自带的前向链、后向链以及混合的规则触发机制进行解释的方式进行推理[13]。该推理机除了支持OWL的公理推理,还可以基于自定义规则的推理,在推理过程中把需要进行查询推理的本体和推理机进行绑定,进而得到需要检索的模型对象InfModel。最后借助Model API和Ontology API就可以对已建立的模型对象进行操作和处理。

Jena本身已经自带了一定的通用推理规则,用于检查概念的可满足性以及类之间的关系和属性的传递性、互逆、不相交等其他一些通用推理规则。通过这些通用规则可以对本体类别信息、属性信息和实例信息进行拓展推理和查询。基于电影素材本体的基本规则归纳如表1所示。

例如传递性的规则1,对称性的规则6和属性继承规则11可以描述为:

Rule1:(?a rdfs:subClassOf ?b),(?b rdfs:subClassOf ?c)->(?a rdfs:subClassOf ?c)

Rule6:(?a name ?b)->(?b name ?a)

Rule11:(?a rdfs:subClassOf ?b),(?a has ?q)->(?b has ?q)

表1 电影素材本体的基本规则

为了满足在应用过程中的个性化需求,还可以自定义一些推理规则作为对基本推理规则的补充。自定义规则的构造是根据本体中的逻辑结构推理出某类或者某个实例不存在或者不明显的属性,也就是隐含的信息。例如

Rule14:(?a has property ?q),(?q>100 M)->(?a is a big vidio)

Rule15:(?a part of ?b ),(?b hasSeason winter)->(?b hasSeason winter)

Rule16:(?a hasname ?q),(?b songname ?q)->(?a part of ?b )

Rule14的意思是视频片段a拥有属性q(视频大小),如果q的值大于100 M,则认为视频片段a是大视频。

Rule15表示图片a是b的局部图片,如果b图片季节属性为冬季,则a图片季节属性也是冬季。

Rule16表示音频类文件音乐类的子类歌曲实例a名字为q,且视频类的子类音乐类的子类mv类的实例属性“歌名”为q,则认为音频a为视频b的一部分。

4 基于推理规则的查询实现

通过Jena的推理引擎对定义的规则进行推理,然后将满足条件的实例加入到相应的查询结果中,如下所示:

Rule17:(?a belongArea china),(?a issueYear ?q),(?q>2013)->(?a is new Chinese song MV);

这条规则的推理结果是满足发行年代大于2013的内地歌曲MV实例归类最新内地歌曲MV,是音乐类的子类,音乐类又是电影片段的子类。歌曲MV拥有发行年代(issueYear)、地区(belongArea)、歌手(singer)、时长(duration)、格式(vidioStyle)、歌曲类型(songStyle)等基本属性。

推理过程主要是:使用Model Fctory中的CreateOntology Model方法来创建model,加载本体模型文件Movie.owl,然后加载推理规则文件Movie.rules,接着创建推理机reasoner,使用Create infModel()方法来创建含有推理规则的模型对象infModel,最后推理并产生结果。图5是对“最新内地歌曲MV”的查询结果。

图5 对“最新内地歌曲MV”的查询展示

建立基于Lucene搜索引擎[14]的查询系统。由图5可以看出,在搜索框输入“最新内地歌曲MV”的查询结果为《Love With You》和《老婆》,其展示结果按照MV发行年份的顺序排序,展示框的右边显示的是实例的父类及更上层的类。虽然该电影素材本题库中的实例还不够完善,但是从查询结果来看,不仅完全满足了查询要求,而且很高效。

5 结束语

文中采用本体构建工具Protégé4.3完成了电影素材领域本体的构建,并利用该模型进行了有效的电影素材推荐。主要内容如下:

(1)梳理出电影领域的术语,并根据抽取的术语构建概念模型,用本体建模工具Protégé4.3完成了电影素材领域本体的构建。

(2)根据本体推理工具Jena进行了语义公理和自定义规则的推理,并通过实例查询验证了推理的有效性。

文中构建的电影素材本体及其推理方法可以广泛用于电影素材的检索查询和电影素材的推荐,但是由于电影素材本体涵盖太多的概念,在领域本体的构建过程中还不够完善。下一步研究将会完善电影素材本体及其规则库,将Jena推理技术和本体概念相似度计算相结合进行电影素材的拓展查询和智能推荐。

[1] 李 伟,王树梅,王 玲.基于内容的电影动画素材检索[J].计算机工程,2007,33(12):222-224.

[2] 刘东波.基于本体的动画素材检索系统设计与检索模型研究[D].长沙:湖南师范大学,2009.

[3] 郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学,2007.

[4] 曾维明.基于领域本体的语义检索及个性化推荐算法研究[D].南京:南京理工大学,2010.

[5] Studer R,Benjamins V R,Fensel D.Knowledge engineering,principles and methods[J].Data and Knowledge Engineering,1998,25(12):161-197.

[6] 刘 萍,胡月红.领域本体学习方法和技术研究综述[J].现代图书情报技术,2012,28(1):19-26.

[7] 柴留祥,何 丰.基于Jena及其本体推理的研究[J].计算机技术与发展,2011,21(11):117-119.

[8] 李 勇,张志刚.领域本体构建方法研究[J].计算机工程与科学,2008,30(5):129-131.

[9] McBride B.Jena:a semantic web toolkit[J].IEEE Internet Computing,2002,6(6):55-59.

[10] 袁 辉,李延香.语义Web环境下文献搜索引擎功能的研究[J].电子设计工程,2013,21(5):12-14.

[11] 刘 宁,李冠宇,邵 彬.Jena2推理机制的研究[J].微计算机信息,2010,26(11-3):173-175.

[12] 7 OWL Web本体语言指南[EB/OL].[2009-04-09].http://zh.transwiki.org/cn/owlguide.htm.

[13] Kim J,Jeong D,Baik D K.Ontology-based semantic recommendation system in home network environment[J].IEEE Transactions on Consumer Electronics,2009,55:1178-1184.

[14] 周登朋,谢康林.Lucene搜索引擎[J].计算机工程,2007,33(18):95-96.

Research on Reasoning and Construing of Movie Material Domain Ontology Based on Jena

WANG Jin-dong,WU Pin,ZHU Yong-hua

(School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China)

Under the environment of the digitization of movie material and the big data,it is the focus of research for fast semantic retrieval and intelligent recommendation to quickly and accurately retrieve the target film material,and realize the automatic relevance of movie material and reduce the manual intervention.In order to solve the problem,a reasoning model of domain ontology for movie material based on Jena is proposed.The related terms and concepts of film material is extracted with the participation of experts in the field of cinema,then the movie material domain ontology is constructed with the ontology modeling tool Protégé based on OWL rules.Then,it uses inference engine to perform reasoning for semantic axioms and user-defined rules,which describes the relationship of concept and attributes of ontology with each other and the details of the construction and reasoning for the ontology.Search query system is constructed based on Lucene,supporting keyword-based query and expand query.The results show that the model can well represent the movie material knowledge,supporting intelligent recommendation based on the semantic reasoning with a high efficiency.

movie material;domain ontology;Jena;reasoning

2015-09-26

2015-12-29

时间:2016-08-01

上海市科学技术计划项目资助(14590500500)

王劲东(1988-),男,硕士研究生,研究方向为软件测试、并行计算、图像处理等;武 频,副教授,博士,研究方向为CFD数值计算、高性能计算、图像处理等。

http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0842.008.html

TP391

A

1673-629X(2016)08-0030-05

10.3969/j.issn.1673-629X.2016.08.006

猜你喜欢
实例本体检索
眼睛是“本体”
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
一种基于社会选择的本体聚类与合并机制
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education