基于本体的专业资源库语义模型研究

2009-07-10 09:03黄凤爱蒋永平文艳华
现代情报 2009年5期
关键词:本体

黄凤爱 蒋永平 文艳华

〔摘 要〕本文针对当前教学资源建设面临的两大困境——资源的可重用性低和利用不足,将语义Web的思想和本体技术,引入到专业资源库模型构建中,提出了基于本体的专业资源库语义模型。以搭建《测控技术与仪器专业资源库》为例,探讨该系统语义模型的可行性,并讨论了本体模型的建立和概念查询的实现。

〔关键词〕本体;语义模型;专业资源库;概念查询

〔中图分类号〕TP399 〔文献标识码〕A 〔文章编号〕1008-0821(2009)05-0052-04

Research on Semantic Model of Ontology-based Resources LibrariesHuang Fengai1,2 Jiang Yongping1 Wen Yanhua1

(1.Information Engineering College,Guangdong University of Technology,Guangzhou 510006,China;

2.Library,Guangdong University of Technology,Guangzhou 510006,China)

〔Abstract〕According to the requirements of being used repeatedly and effectively on the educational resource,this paper presented a semantic model of ontology-based resources libraries.The ideas and technologies of semantic web were introduced.With measurement & control technology resources libraries,the feasibility of the model was illustrated.And besides,the foundation of ontology and the realization of concept retrieval were discussed.

〔Keywords〕ontology;semantic model;resources libraries;concept retrieval

随着现代教育的发展,网络学习(E-Learning)打破了教师授课的传统模式,把获取信息的途径扩展到因特网所能覆盖的任何场所。网络学习的有效开展依靠的是数字化教学资源的广泛共享和有效利用。

在目前的教学资源建设中,大多只是在资源上增加语法级元数据和结构元数据的标注信息来实现资源的组织和共享[1],这样,网络和计算机只是作为一种简单的载体和辅助工具来支持网络学习,不能提供智能服务和知识层面的发现和重用。增加语法级元数据的方法即利用XML(eXtensible Markup Language,可扩展置标语言)描述资源来实现共享[2]。XML的语义要靠人既有知识去理解,所以对于计算机来说,并不具有语义,也就达不到语义层面的重用。增加结构元数据标注就是使用LOM(Learning Object Metadata,学习对象元数据)和DC(Dublin Core,都柏林核心集)等元数据标准组织资源。各种元数据标准虽然能够在一定程度上揭示教学资源的内容,但是现有元数据的简单结构,对于复杂事物的建模能力有限,不能揭示资源的内在含义和联系,加上多个数据之间采用的术语不一致,所以智能推理及用户检索结果的查全率和查准率依然得不到提高,资源利用效率低下。

本体作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国内外众多科研人员的关注。在教育资源建设方面,Marvin Tan和Angela Goh应用领域本体,实现了基于语义的教学资源的分类,浏览和查找[3]。但是,在国内还少有这方面成熟的研究成果。

将语义Web的思想和本体技术,引入到专业资源库模型的构建中,并以《测控技术与仪器专业资源库》为例,给现有数字化教学资源增加语义描述信息,针对资源的可重用性和利用效率,采用基于语义的机制对资源进行组织和管理,并探讨了该模型的可行性。

1 系统模型

基于语义Web的思想和本体技术,本课题组设计了如图1所示的专业资源库系统模型。

元素材资源层的原始数据按照素材类型分别存放,由媒体素材库、试题库、试卷库、课件库、案例库、文献资料库、网络课程库、常见问题解答库和资源目录索引库组成。

资源描述层以XML作为语法层,RDF(Resource Description Framework,资源描述框架)作为资源描述模型,本体库定义的概念作为语义元数据,对元素材资源进行标注,生成相应的标注文件。

本体模型层的专业资源库本体由9个分别对应上述不同素材类型的子本体和1个《测控技术与仪器》领域子本体组成,为资源库提供语义元数据的共享含义,包括在资源结构、上下文层次和内容分类上的理解。

逻辑推理层由本体模型层和资源描述层共同生成一个教学资源语义模型,推理引擎基于专业资源库本体,查询引擎基于资源标注文件。

交互层和用户界面层是在资源库语义模型上的各种应用,包括为用户提供基于语义的搜索、知识重用、个性化学习服务以及内容推送等。

下面就系统模型的核心部分进行研究,重点讨论本体模型的建立和概念查询的实现。

2 本体模型层

本体模型层是整个系统模型的支撑,是资源库实现知识重用和语义共享的基础。

2.1 本体建模

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模型上给出这些词汇(术语)和词汇间相互关系的明确定义[4]。因此,在设计本体之前,首先要对其进行建模,即用形式化方法定义本体的语义。目前还没有一种一致的形式化本体定义标准,不同研究者根据他们不同的研究与应用背景,给出了不同的形式化定义。如四元组定义[5-6],五元组定义[7-8],六元组定义[9-10]

本体的建模元语包括:类(Classes)或概念(Concepts)、关系(Relations)、函数(Functions),公理(Axioms)和实例(Instances)。从语义上分析,实例表示对象,概念则是对象的集合,关系代表领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集:R:C1×C2×…×Cn,函数是一类特殊的关系,公理代表永真断言。本体是以关系为中心的,概念之间的关系体现的是本体模型的语义联系。

根据实际需要,对资源库本体结构进行研究,得到其形式化定义如下:

定义1 资源库本体是一个六元组:

O={C,A,R,H,I,X}

其中,C是概念的集合;A是属性的集合;R是关系的集合;H是概念层次;I是实例的集合;X是本体公理的集合。

定义2 资源库本体中概念C是一个三元组:

Ci={Namei,Commenti,Syni}

其中,Namei是概念i的概念名,是惟一的;Commenti是对概念i的自然语言解释;Syni是概念i的同义词,可以为空,也可以有多个。

定义3 定义相似词汇关系:Syni(A,B),当且仅当A是本体中的概念名,B是A在语义上相似的词汇。相似词汇关系是对称的。

定义4 根据需要,我们考虑R的3种基本语义关系:

R={Is-a,Instance-of,Part-of}

其中,Is-a为上位关系,表示概念之间的种属关系,是一个二元关系C1×C2,若C1=is-a(C2),则C1是C2的上位概念,比C2更具一般化;Instance-of关系表示实例与概念之间的从属关系;Part-of关系表示概念之间部分与整体的关系。

为了实现语义上相关知识的推理,定义:

公理1 种属概念关系是传递的。

2.2 领域本体构建

研究基于语义的教学资源组织模型,其基本思想是利用领域本体和语义链网络明确指示资源之间的语义结构,所以下面举例讨论《测控技术与仪器》领域本体的构建。

学科分类以及学科各知识点的分类,是一种典型的概念分类体系。因此在领域分析和领域专家参与的基础上,参照《中国分类主题词表》,根据2.1本体建模定义的关系,构建《测控技术与仪器》领域本体。《测控技术与仪器》专业中的所有概念,形成了一个分类层次结构,如图2所示。

本课题组选用斯坦福大学的protégé,建立了《测控技术与仪器》领域本体,核心类层次图如图3所示。

资源库本体以文件的形式储存,采用W3C(World Wide Web Consortium,万维网联盟)2004年发布的本体描述语言OWL(Web Ontology Language,Web本体语言),生成领域本体文件。

3 资源描述层

资源描述层以本体模型为基础,为概念查询中语义模型的建立提供支持,目标是把教学资源按照本体模型的层次结构进行组织。

资源描述模型选用RDF框架,以增强数据模型在应用程序间交换的语义表达能力。RDF模型采用主体(Subject)、谓词(Predicate)、客体(Object)三元组模式,属性边有着明确的语义,而非XML单纯的语法结构上的包含关系,因此RDF模型能够实现资源语义元数据的标注。

资源自动标注的实现思路是从本体模型中抽取语义元数据,利用Jena提供的API,以语义元数据为属性创建教学资源的RDF模型,形成标注文件,存放于资源标注库。这样,将资源的语义结构明确定义并与原始资源分离,通过对标注文件的操作来访问资源,能够更有效地定位、查询和管理数据资源,同时能够更好地支持异构数据源之间的互操作。

如图4所示为某元素材资源的RDF模型。ex是媒体素材本体的名称空间前缀,为了进一步增加系统模型的互操作性,重用了Dublin Core的5个属性:title,creator,subject,type,date。

4 逻辑推理层

逻辑推理层从本体模型层和资源描述层中提取数据,形成一个描述教学资源的语义模型,通过推理引擎和查询引擎为系统模型上层基于语义的应用,特别是概念查询的实现提供支持。

4.1 推理引擎

推理引擎以资源库本体模型为依据进行语义推理和扩展,这种推理建立在逻辑的基础上,因此逻辑推理算法和技术的发展可以应用于本系统模型中,以提高系统语义推理和查询的能力。

逻辑可分为命题逻辑(Propositional Logic)、一阶逻辑(First Order Logic)、描述逻辑(Description Logic)和框架逻辑(Frame Logic)。描述逻辑研究概念知识的表示问题,由4个部分组成:表示概念和关系的构造集、术语公理集合Tbox、实例断言集合Abox以及Tbox和Abox上的推理机制。描述逻辑基于概念和角色,概念解释为对象集,角色解释为对象之间的二元关系。

本系统选择的本体描述语言OWL基于描述逻辑,可以看作与其等价的知识表示语言。在逻辑推理层,领域本体的概念形成事实库,相当于Abox,本体模型的规则组成规则库,相当于Tbox,事实库和规则库共同构成推理引擎。如由本体模型的Syn关系,求得相似词汇;借助Is-a关系和传递公理,对查询进行扩展,是实现概念查询的第一步。

4.2 查询引擎

查询引擎采用W3C2007年发布的语义查询语言标准SPARQL(Simple Protocol and RDF Query Language,简单协议和RDF查询语言),对查询模型进行基于RDF三元组的概念匹配,这是一种区别于传统关键字匹配的检索机制。针对如图3所示的元素材资源的 一个SPARQL查询如下:

PREFIX dc:<http://purl.org/dc/elements/1.1/>

SELECT? v

FROM<media.rdf>

WHERE{?v dc:subject“温度传感器”@zh}

PREFIX定义的是dc的前缀;SELECT指定查询返回的内容是一个资源节点;FROM为可选项,提供查询操作使用数据集的URI,此处为一本地文件;WHERE子句由一组三元模式组成,用基于Turtle的语法表示。这些三元模式共同构成了所谓的图形模式。这个查询实现的原理是把图形模式的三元模式和资源的RDF模型进行匹配。将每个图形模式变量的绑定与模型节点进行匹配,而SELECT子句中指定的变量值则成为查询结果的一部分。因为在RDF模型(Subject-Predicate-Object)三元组陈述中,以URI(Uniform Resource Identifier,统一资源定位器)标识资源,所以该查询得到subject为“温度传感器”的资源的URI引用,这是实现概念查询的第二步。

概念查询实现的关键在于推理引擎合理的语义扩展和查询引擎正确的概念匹配。本课题组选择描述逻辑和SPARQL,保证了推理的可判性和RDF概念匹配的效率。

5 结 语

针对网络教学资源在互操作和利用率上的不足,提出了基于本体的专业资源库语义模型,初步实现了资源带语义的组织、管理和检索利用。该语义模型的核心是本体模型的建立和概念查询的实现:本体模型的建立把教学资源的内容和内在联系用知识表示语言统一定义,实现了资源语义能够被机器所理解的目标,资源在不同数据源之间的重用性得以提高;概念查询的实现使得用户查询建立在描述逻辑推理和RDF概念匹配上,查询结果更全面和准确,资源利用效率得到了提高。

参考文献

[1]Brase J,Nejdl W.Ontologies and metadata for E-Learning[M].Berlin:Springer Verlag,2003:579-598.

[2]黄凤爱.基于XML的图书信息管理系统的设计及实现[J].现代情报,2008,28(1):114-116.

[3]Tan M,Goh A.The use of ontologies in Web-based Learning:Proceedings of the 8th IEEE Int[A].Symposium on Wearable Computers[C].American,2004.

[4]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5):730-738.

[5]王洪伟,吴家春,蒋馥.基于描述逻辑的本体模型研究[J].系统工程,2003,(1):101-106.

[6]何丽,严冬梅.电子学习系统中的知识表示与知识发现模型研究[J].计算机工程与应用,2007,43(34):233-235,242.

[7]胡艳丽,白亮,张维明,等.知识网格中基于领域本体的智能检索[J].计算机科学,2007,34(8):202-207.

[8]王晓东,郭雷,方俊.本体驱动的文本虚拟样本构造方法研究[J].计算机科学,2008,35(3):142-145.

[9]赵波,冯洁.本体中继承关系的形式化表示及其应用[J].计算机工程与设计,2008,(1):154-156.

[10]蒋维,郝文宁,杨晓恝.军事训练领域核心本体的构建[J].计算机工程,2008,34(5):191-192,212.

猜你喜欢
本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考