陈瓅
摘要:本体是一种知识重用、知识共享和建模的重要工具。构建本体的方法很多,本文提出了一种自顶向下的领域本体构建方法,可从一定程度上减少概念冗余度,并按此法构建了一个文学领域本体。
关键词:本体;本体库;本体的构建方法
中图分类号:TP302.1 文献标识码:A 文章编号:1009-3044(2016)27-0181-02
近几年,网络文化呈快速发展态势,网络游戏、网络动漫、网络音乐、网络影视、网络文学、网络广播等迅速崛起,网络文化繁荣发展。随着网络文化的迅猛发展,在线文化内容日益庞大,如何在这海量的数据中识别出特定的内容也就显得较为困难。本体是一种知识重用、知识共享和建模的重要工具,领域本体库对于在线网络文化监控系统是不可或缺的,通过构建网络内容领域本体库可解决网络文化监控系统中内容识别的问题。
1本体
本体最早起源于哲学,其所研究的是世界万物的本源,即所有事物的客观,真实的存在[1]。
1.1本体的定义
在计算机领域中认为“本体是共享概念模型明确的形式化规范说明”。 本体根据不同的属性,可以将其进行不同的分类,分类方法也很多。根据领域依赖程度,可分为顶级、领域、人物、应用四类。
1.2本体的组成元素
本体的组成元素可归纳为以下[2]:
1)类或概念:指任何事务,如工作描述、功能、策略和推理过程等;
2)实例:各种元素;
3)关系:领域中概念之间的作用;
4)函数:一类特殊的关系,即用前n-1个元素唯一确定第n个元素;
5)公理:永真的描述。
1.3 领域本体的构建方法
Stanford大学的Noy和Hafner分析了早期著名的本体设计项目,并结合其开发和使用Progege 2000、Ontolingua等本体编辑环境的经验,给出了本体构建的七步法[3]:1)确定本体的领域和范围。即明确一些基本问题,以此确定本体的领域或范围;2)考虑对现有本体的复用。如果是对特定的领域进行细化或扩展,那么系统需要与其他的特定本体知识库或受控词汇的应用交互,则可对现有本体进行复用。3)确定本体的重要术语;4)定义类和类的继承;5)定义属性和关系;6)定义属性的限制;7)生成实例。
2 文学领域本体的构建技术
2.1创建领域术语集
根据上述七步法,要构建领域本体库,首先要构建领域术语集,由于这方面内容和范围纷繁复杂,本文根据中国的“四分法”将文学文划为诗歌、小说、散文、戏剧四大类,本论文将根据这四方面建立本体库。
2.2文学领域本体库的构造和实现
2.2.1建立类
本文中采用自顶向下模式构建文学本体库,顶层本体为文学,第二层为诗歌、小说、散文、戏剧,第三层再逐步求精、进一步细化,在构建本体的时候,还需充分考虑本体之间的联系。因此,本文中的类图也按此分层,最终构造出文学领域本体库。 这里以“小说”本体为例,给出部分类层次图,如图1。
2.2.2建立类的属性
根据以上四个本体构建类的属性,这里以章回小说为例,列出部分属性如表1。
2.3添加本体实例
在设计好类和属性之后,就可以添加各种类的实例了。创建类的实例类似于向数据库中的表录入数据,在属性图中已给出属性名及其取值范围。一个完整的本体由类、属性和实例组成。例如:小说本体中,章回类的实例为四大名著等;演义小说的实例为《隋唐演义》、《杨家将》、《东周列国志》、《明史演义》等。
2.4本体库的存储方式
目前对于本体的存储方式主要有三种:纯文本存储方式、数据库存储方式以及专门管理工具方式。文本方式适合于数据量较少的小型数据库,而专门管理工具通用性及扩展性差。考虑到本项目中数据规模较大,检索需求较频繁,故采用MySql数据库存储本体。
3 结束语
本文中在构建本体类的时,借用了软件开发中自顶向下的思想。首先确立“文学”这一顶层本体,然后分化为“诗歌”、“小说”、“散文”、“戏剧”本体,再据此进一步细化。从而,可从一定程度上降低概念的冗余度。当然,采用此方法建立的本体库在进行实例添加时,会存在一些二义性,因为有些文学的划分范围存在交叉部分。
参考文献:
[1] 李善平.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052.
[2] GRUBER T R.Towards principles for the design of ontologies used for knowledge sharing[J]. International Jouranl of Human and Computer Studies ,1995(43):907-928.
[3] Noy N F,McGuinness D L.Ontology development 101:a guide to creating your first ontology [R].USA:Standford University. 2001.SMI Technical Report.SMI-2001-0880.