基于本体的数字图书馆语义知识库构建研究

2015-02-22 01:51:20孟玲
图书馆学刊 2015年7期
关键词:知识库本体检索

孟玲

(徐州市工人文化宫,江苏 徐州 221000)

基于本体的数字图书馆语义知识库构建研究

孟玲

(徐州市工人文化宫,江苏 徐州 221000)

基于本体这种较为完整的知识表示方式,对数字图书馆传统知识模式的不足进行分析,阐述了本体的概念、实现原理以及建模优势,分析基于本体的数字图书馆语义知识库构建模式。

数字图书馆本体语义知识知识服务模式

计算机技术不断发展以及信息技术的不断升级,更高层次地提升了数字图书馆。面对图书馆中的知识与对知识的利用特点不同,简单的排列知识的处理方式不再适用[1]。在检索过程中,作为知识的组织方式,本体不仅能有效地解决信息检索的准确率和全面率,还能解决共享和重复利用知识的问题,在数字图书馆中,本体已经成为一种管理的工具。

1 数字图书馆知识组织模式中的不足

1.1内涵及原则

数字图书馆知识组织的目的就是序化繁杂的数字化信息为知识库,信息的数字化过程中要遵循一定的结构,这样提供给用户的系统性知识才能具有可操作性强的特点[2]。该知识库是一个循环系统,组成因素包括知识库、数字化信息资源以及用户,其内部机制的完善程度决定了其能否高质量运行系统并提供优质知识服务,其组织过程如图1所示。其内涵具体描述如下:知识组织的前提是筛选;对每个知识片段进行本质含义的分析挖掘出其语义和语用层次;对各知识因子间的关系进行准确的揭示,对知识单元的有机结构进行考察;关联知识因子的分析结果,组织形成知识库,供用户选择。

图1 数字图书馆知识组织过程

在对数字图书馆进行知识组织时,要遵循以下几种原则:网络化原则、系统性原则、标准化原则、共享性原则以及特色型原则。

1.2组织模式

目前在数字图书馆知识组织时,主要有分类法和主题法两种组织模式[3]。前者是从本质上把事物之间的区别与联系进行提示和把握。经过分类与组织后的知识,其全貌及内在联系得以揭示,且还有筛选的作用,分类法有一个比较显著的特点,即在对文献进行整理时其分类是按照学科和专业进行的,在揭示文献内容的区别和联系时多从知识分类的角度出发,并且从该角度提供检索文献途径,把事物和学科的概念充分融入知识分类体系中去。主题法则是从知识组织原则来看,在这种组织模式中,主题词表示知识因子,其组织的基本方式多采用语词标识系统[4],另外还引入了参照系统进行知识关联的表达。目前在组织数字图书馆知识时,比较常用的形式有两种,采用现有的词表主题和采用关键词法。

1.3存在的问题及不足

首先,知识导航不能实现知识共享。在数字图书馆中,开发知识系统既费时又费力,但目前在开发中只注重检索知识,而忽略了共享知识,或在知识共享时只是在特定的领域进行。因为范围较小,所以其导航功效体现得并不明显。一般来说,数字图书馆用户背景不同,其对术语和概念的理解也有所不同,所以在建立新的数据库时很难起作用,无法实现知识的共享。其次,在检索知识时关键词的语义涵义被忽略。图书馆中传统的知识服务模式在进行知识的检索时常借助检索目录和关键词的方法,关键词的语义被忽略,在知识检索结果中跟关键词词义相同的内容无法显示,会导致检索结果与用户需要偏离,出现检索结果没有使用意义的现象,知识检索的正确性和全面性有所降低。最后,无法进行知识资源的完全诠释。知识组织有主题法和分类法两种方法,但这两种方法本身也存在一定不足,比如很难完成知识的自动更新,容易导致各类知识资源的滞后现象,无法充分满足数字图书馆的需求。而且这两种方法有非常复杂的结构体系,操作不方便,图书馆资源的动态很难实现,不能系统地组织全部知识资源。

2 数字图书馆语义知识库的构建基础——本体

2.1本体概述

就学科范畴而言,本体最早出现在哲学领域,后来研究学者们从人工智能方面赋予了本体新的含义,并且本体本身的涵义还在不断变化中发展。目前而言,本体的代表性涵义比较多,从其多样化的定义表述中我们可以总结出其基本内涵。从本质上说,本体是一个概念模型,是特定领域知识的抽象化表达,内容包括对概念的定义、概念属性值及其限制、概念类的层次体系及其逻辑相互关系。不同于本体本身的是,概念体系的定义是明确的,在两个方面都有所体现:在对概念的内涵和外延进行表述时语言要尽量规范和明确;在对概念间的逻辑关系进行表述时要尽量规范化,在对特定公理性知识进行表述时语言要明确。概念体系也可以形式化描述,方便计算机对本体概念及关系的识别和处理,采用的知识表示语言包括OIL、DAML以及OWL等,经过知识表示语言对概念体系进行编码之后信息就处理成为显性知识,便于计算机的理解及对知识的语义处理。另外概念体系还可以反映领域知识的共享,其中反映的是概念集,共享是指那部分经过共同认可的知识,即本体针对的是团体的公式,而不是个人的认识,共享性才是本体概念交换和映射的基础。

2.2实现原理

本体思想实际上就是映射现实世界中的实体为本体中的概念[5],映射实体间的关系为本体中的关系,映射真理性知识为本体中的公理,把整个世界映射为概念世界,也就是本体。本体是依附于现实世界并用概念体系对实体相关知识进行管理。知识组织的基本思想可以利用本体来实现,其原理如图2所示。

图2 本体对知识组织的原理[6]

在数字图书馆中,首先要加工各种类别和形式的信息提取出知识,其载体仍是信息。在该知识层上添加本体层可以实现对知识的组织,而且领域公理的存在可以实现基于本体的推理。本体层的引入,解决了查准率和查全率低的问题。

2.3建模优势

利用本体进行数字图书馆语义知识库的构建有以下优势,首先,可以规范描述知识间的语义关系。本体方法的运用,有效减少了术语和概念上的歧义,使得在进行概念间关系的描述时可以更加广泛、详细和全面,在概念中添加属性值,添加映射关系到属性与属性之间,可以清晰地表述出在正规词表中不能描述的语义关系。在数字图书馆中本体描述提供了一个规范模型,可以保持语义上的一致性,使不同观点、不同目的、来自不同背景的人们之间都可以理解和交流。其次,可以实现知识重用和分享[7]。本体是共同认可知识的体现,是一种公约,是相关领域公认概念的反映,所以通过本体数字图书馆可以把相关知识领域的知识在描述和识别时尽量规范化,达成概念、知识以及概念之间关系的共识,实现共享和重用各学科领域本体。第三,可以实现知识检索,是知识组织的逆过程。基于概念语义对知识检索进行研究时,对领域知识的组织必须以本体作为语义模型,语义标注资源,形成语义元数据,才能对领域知识进行标识,最终实现检索领域知识的目的。最后,可以实现语义的互操作。针对异构系统之间互操作的问题我们采用的是元数据的方法,但是元数据只是基础,元数据之间互操作的实现还需要高层互操作协议来支撑,包括相关本体协议和元数据交换协议,后者也要采用本体技术才能真正实现异构系统之间的语义互操作。

3 基于本体的数字图书馆语义知识库构建模式

3.1构建规则

在构建本体的研究中已经有不少方法,也有一部分学者致力于本体构建的评估研究,但在研究时,其标准还不统一[8]。在进行本体构建时比较有影响力的规则有以下5种:首先要清晰,在进行术语定义时,本体要对其进行有效的说明,应进行与背景独立的、客观的定义。在用逻辑公理进行定义表达时,要以形式化的内容出现并且尽可能完整。在本体构建时要用自然语言对定义进行说明。其次要满足一致的规则,也就是说,面对与定义相一致的推理,本体应该支持。用本体对公理进行定义要与自然语言说明的定义有一致性。第三要符合可扩展性的规则。面对任务,本体不仅要进行概念基础的提供,为了满足特殊需求,还要基于原有的概念对新的术语进行定义。值得注意的是,定义新术语时原有的定义是无需修改的。第四,要满足编码偏好程度最小的规则。在构建本体时,在实际的系统中通常采用不同的知识表示方法,所以在对概念进行描述时,不能依赖每一种特殊的符号层。最后,要符合本体约定最小的规则。也就是说,在对本体进行构建时,只要约束定义最弱公理以及对通讯所需词汇进行定义,使得特定的知识共享需求得到满足即可。

3.2本体描述语言

对模型进行概念描述形式化并达到编写清晰的标准,还要满足以下要求:要有良好的语法和语义,有效的推理支持,表达的方便性以及充分的表达能力。目前本体的描述有很多仍处在不断发展演变过程中,具体包括CML、OWL、RDF、OIL等。其中XML是一种可扩展的标记语言,结合了SGML的灵活性和HTML的简单性,但缺乏完备的语义表达能力。OWL语言吸收了OIL和DAML语言的经验,能够把词汇表中词条以及词条之间的语义关系较为清晰地表达出来。

3.3构建方法

建立本体的方式目前还多依赖于手工,由于共同认可的开发方法的缺失,对不同的本体开发组而言,其设计标准和原则等都有所不同,但综合前期的研究结果来看,本体开发方法有以下几种类型:①由Fox和Gruninger等人提出的TOVE法,该构建过程包括5个阶段。②“骨架”法,该方法首先确定应用范围和目的,然后构造本体,最后是本体的评价。③KACTUS工程方法,该方法的描述语言是CML语言,这种语言是非形式化的,不能被程序执行。在开发时首先对应用进行说明,然后初步设计相关本体范畴,最后进行本体的构造。④Methontology方法,该方法与软件工程开发方法更为接近。除了以上几种方法,还有基于SENSUS的方法、IDEF5法以及斯坦福七步法。

3.4构建工具

根据本体描述语言,本体的构建工具可以划分为两大类,分别是基于Web和基于AI。其中前者包括OntoEdit、OilEd、WebODE等,这类工具有一个明显的特点就是独立于特定的语言,利用这种本体构建工具可以把处理好的本体描述格式自由地导入/导出,而且该种本体构建工具的开发环境是经过整合的,对大多数构建活动都提供了支持,新模块的添加步骤也很容易实现,可扩展性较好,能为本体提供更多的组件功能。后者包括Ontolingua、WebOnto以及OntoSau⁃rus等工具。这三种工具都是基于某种特定语言的,并且这三种工具都在不同程度上对基于AI的多种本体描述语言有支持作用。

3.5构建流程

笔者吸取本体建模方法的优点,充分结合了数字图书馆语义知识库的要求,对基于本体的数字图书馆语义知识库进行设计。首先是领域知识模块的建立,该步骤是构建领域知识本体的基础。其次要面对领域知识本体,要确定其目的和范围。在该阶段不仅要分析领域知识本体的需求,还要对领域知识本体的计划进行制定。在建设领域知识本体过程中制定计划是必不可少的,但其经常被无意地忽略,导致在开发时难以控制开发过程。再次要对可用本体进行考察。第四步是设计领域知识本体,包括收集和获取领域知识、重要概念和术语的罗列、知识的概念化、定义类及其等级、定义类的属性、创建实例。最后进入本体评价阶段,评价指标包括本体的几大特性,若评价指标符合要求,则最终以文档形式建立本体,若评价指标不符合规则,则要重新进行本体的设计,直至构建出符合要求的本体。

4 结语

在数字图书馆中,作为一种重要的技术和方法,知识组织领域本体的应用前景十分广阔,基于本体构建知识库在有效提高人们工作质量的同时,还提高了人们的工作效率。截至目前,在数字图书馆中本体的优点还未得到完全的发挥,还没能完全地开发数字图书馆的作用,但我们相信,在科技飞速发展的今天,通过图书馆工作人员的不懈努力,在本体技术的强有力支撑下,数字图书馆的知识服务模式会愈加完善。

[1]王芹.图书馆传统知识与现代知识服务模式比较分析[J].农业图书情报学刊,2009(4):137-140.

[2]李昕骞,饶若楠.一个基于本体的数据服务平台[J].微型电脑应用,2010(2):21-22.

[3]刘成山,赵捧未,刘怀亮.基于本体的数字图书馆语义互操作模型[J].现代情报,2009(10):56-60.

[4]庄善洁.基于知识管理的图书馆知识地图的绘制[J].图书馆学研究,2012(10):5-7.

[5]谭玉红,吴岩.关于学校知识管理中的“知识地图”研究[J].电化教育研究,2010(3):17-19.

[6]李星星.馆藏资源深度聚合及应用研究[D].武汉:华中师范大学,2013.

[7]刘卫宁.语义网环境下数字图书馆信息资源集成模型研究[J].图书馆理论与实践,2014(1):84-88.

孟玲女,1963年生,馆员。研究方向:图书馆信息化。

G250.73

2015-03-17;责编:杨新宽。)

猜你喜欢
知识库本体检索
Abstracts and Key Words
哲学分析(2023年4期)2023-12-21 05:30:27
对姜夔自度曲音乐本体的现代解读
中国音乐学(2020年4期)2020-12-25 02:58:06
2019年第4-6期便捷检索目录
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
高速公路信息系统维护知识库的建立和应用
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
《我应该感到自豪才对》的本体性教学内容及启示
文学教育(2016年27期)2016-02-28 02:35:15
基于Drupal发布学者知识库关联数据的研究
图书馆研究(2015年5期)2015-12-07 04:05:48
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
国际标准检索