卓月明
(吉首大学软件服务外包学院,湖南 张家界 427000)
基于FCA算法及中文特性的本体论构建*
卓月明
(吉首大学软件服务外包学院,湖南 张家界 427000)
本体论(Ontology)是语义网最重要的基础,可以用来描述特定领域(Domain)下的知识.提出一个以形式概念分析FCA(Formal Concept Analysis)加上中文特性的半自动化构建本体论方法,该方法能快速地建构出本体论的概念层及实例层,以达到知识的整合与分享,根据效率评估结果可知,本系统解决了网页数据种类繁多、文字前处理不易等问题.
本体论;语义网;形式概念分析;中文特性
随着网络的兴起,网络信息已成为人们获得信息的主要来源之一.然而,网络的信息过于繁杂,语义网的出现正是为了解决这个问题.对于语义网,本体论(Ontology)是语义网最重要的基础,可以用来描述特定领域(Domain)下的知识.通过本体论使得存在于全球信息网上的资源能够明确地被定义,因此不只是人们可以藉由本体论了解并获得网络上的资源,机器也可以通过本体论的描述,自动地存取或整合网络上的相关资源.但语义网的推行成功与否,依赖着本体论是否能快速地被构建及更新.大多数的自动、半自动构建方式只适合使用在英文语系的国家,在中文语系的本体论构建方法仍有许多不足之处尚待探讨.笔者基于上述考虑,提出了一个半自动构建中文本体论的方法,以达到信息分享及利用的目的.
1.1本体论基本定义及描述语言
本体论(Ontology),也称为实体论.在信息科技领域中,对本体论有许多不同的定义,最常被引用的定义如下:“An ontology is specification of a conceptualization.”[1]此定义表示本体论是某一概念的详细说明.当要使用本体论来描述一特定领域下的知识时,本体论是由概念(Class 或Concept)、属性(Slot、Property或Attribute)、实例(Instance)与关系(Relation)等元素组合而成的.
目前已有许多的本体论描述语言(Ontology language)被提出,这些本体论描述语言皆以XML语法为基础而发展出来,例如XOL(XML-based ontology-exchange language),OML(Ontology Markup Language),SHOE(Simple HTML Ontology Extensions),RDF/RDFS(Resource Description Framework Schema)及在RDF/RDFS的上层所发展出来的DAML+OIL(DARPA Agent Markup Language + Ontology Inference Language),它改进了RDF/RDFS功能上的不足.
1.2本体论构建的相关技术
1.2.1 本体论构建方法 目前已有编辑本体论的工具被开发来帮助本体论的构建,但是手动的构建本体论仍有不少困难.除了通过工具帮助构建本体论外,本体论的建构方式很多,在本体论学习(Ontology Learning)的领域中有许多方式可以帮助自动构建本体论,如信息检索(Information Retrieval)、机器学习(Machine Learning)、数据挖掘(Data mining)、语言学(Linguistics)等.
文献[2]提出一种本体论学习方法,其步骤如下:抽取(Extract)→修剪(Prune)→精炼(Refine)→重复使用(Import/Reuse).
研究中发现,目前构建本体论的方法大致可分为下面几类:以文字聚类[3]为主、以字典[4]为主、以知识库为主、以关系型法则[5]为主、以概要关系(Relational schemata)[6]为主.
1.2.2 形式概念分析 1982年Rudolf Wille 提出形式概念分析(Formal Concept Analysis,FCA)[7],该分析法是一种从数据中取得概念结构(Conceptual Structures)的方法,并且将这些取得的概念结构以图形化的方式表现出来,如概念阶层图,以探索资料的相依性.FCA常常应用在概念的聚类(Conceptual Clustering)、数据分析、信息的检索(Information Retrieval)、知识探索和本体论工程上.除此之外,FCA 也常常使用在文件分类系统的辅助上.
在FCA中,概念(Concept)主要是由2个部分所组成:(1)“Extension”,该部分是概念的所有对象(Object)集合;(2)“Intension”,该部分是这些对象所包括的所有特性(Attributes).这可以从获得的内容(Data Table)中的所有概念了解并且介绍一个假设的阶层.
图1 中文特性说明示意图
1.2.3 中文特性 中文特性中,开头和结尾字一样时,这些字具有强烈的语义相似度(Semantic Similarity).但在研究中发现开头字相同时语义相似度不如结尾相同时相似度高,例如张家界国际大酒店、张家界茶叶,同样是张家界开始的文字,但却不属于同一个概念(Concept),一个是住宿概念中酒店的Instance,一个则是茶叶的一个Instance,两者并没有相同的特性.因此,只考虑以名词为结尾且字相同时的状况及动词相同的情况.以瘦西湖温泉度假村和天颐温泉度假村为例,它们的组合是瘦西湖、温泉、度假村及天颐、温泉、度假村,两者皆以度假村为结尾,明显可知2个都是属于度假村而且都是温泉度假村的一种,它的度假村名称分别为“瘦西湖”和“天颐”,因此可以清楚地知道这2个有相同的特性.再者,可以看出一个字的结尾通常是这个字的概念层,而由结尾字往前进行文字的组合,是概念层的子概念(温泉度假村是度假村的一种),整个字则是这个概念的实例(Instance)层,如图1所示.
图2 系统架构
半自动化构建本体论系统架构如图2所示,整个系统主要由3大模块构成.
(1)数据格式转换模块.
由于网页的资料格式目前没有固定的格式,在处理上较为不易,因此先将网页上之格式去除,只取得文字部份,并将其转换成XML格式档案以提供领域词汇处理模块进行处理.
(2)领域词汇处理模块.
此模块将文字数据经由词法分析(Lexical Analysis)、名词与动词的抽取等处理并配合其他函式库,得到具有代表性的词汇(Lexical).共有下面几个阶段:词汇分析、关键词抽取、同义辞典、关系抽取与特性抽取.
(3)本体论建构模块.
将本体数据网页处理成词汇库后,本体论建构模块将词汇库利用建构算法产生本体论.笔者构建的旅游领域的本体论如图3所示(旅游一般包含住宿、交通、美食、景点等).整个构建的算法过程如图4所示.
图3 本体论架构
图4 本体论建构
KF-IDF计算公式为
其中docs(w,cat)表示文字w在特定目录(Category)中有几份文件出现w,cats(word)表示word在几个目录中出现过.
笔者提出了基于FCA及中文特性的半自动化的本体论算法,可以节省人力和物力,解决了网页数据种类繁多,文字前处理不易等问题.在数据内容不易取的特征值的情况下,使用FCA加上中文特性来构建本体论,并使用KF-IDF替代TF-IDF来取得特定领域下的专有字词,供本体论构建的数据使用,辅助从网页信息中半自动构建出本体论.
[1] GRUBER T R.A Translation Approach to Portable Ontology Specications[J].Knowledge Acquisition,1993,5(2):199-220.
[2] ALEXANDER MAEDCHE,JOERG UWE KIETZ,RAPHAEL VOLZ.A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.Sp2010/Semantic.Web.Ontology.Papers/kietz00method.pdf.
[3] ALEXANDER MAEDCHE,STEFFEN STAAB,ANDREAS HOTHO.Ontology-Based Text Clustering[EB/OL].[2014-04-12].http://www.cs.cmu.edu/~mccallum/textbeyond/papers/hotho.pdf.
[4] JORG UWE KIETZ,RAPHAEL VOLZ,ALEXANDER MAEDCHE.Extracting a Domain-Specific Ontology Learning from a Corporate Intranet[EB/OL].[2014-04-12].http://www.aclweb.org/anthology/W/W00/W00-0738.pdf.
[5] ALEXANDER MAEDCHE,STEFFEN STAAB.Discovering Conceptual Relations from Text[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.w08/Semantic.Web.Ontology.Papers/maedche00discovering.pdf.
[6] PAOLA VELARDI,MICHELS MISSIKOFF,ROBERTO BASILI.Identification of Relevant Terms to Support the Construction of Domain Ontologies[EB/OL].[2014-04-12].http://dl.acm.org/citation.cfm?id=1118225.
[7] AUAN THANH THO,SIU CHEUNG HUI,TRU HOANG CAO.Automatic Fuzzy Ontology Generation for Semantic Web[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(6):842-856.
(责任编辑 陈炳权)
OntologyConstructionBasedonFCAandFeaturesofChinese
ZHUO Yueming
(Software & Outsourcing Institute,Jishou University,Zhangjiajie 427000,Hunan China)
Ontology,the most important foundation of the semantic web,is used to describe the knowledge of a specific domain.In this study a methodology to construct ontology semi-automatically is proposed.By using the Formal Concept Analysis (FCA) algorithm and the specific features of Chinese language,the methodology builds both concept and instance layers of ontology quickly.Experiments have shown promising potential for the methodology in knowledge integrating and sharing.
ontology;semantic Web;FCA;features of Chinese
1007-2985(2014)06-0035-03
2014-05-26
卓月明(1970—),男,湖南慈利人,吉首大学软件服务外包学院副教授,硕士,主要从事数据库和智能计算研究.
TP391.1
A
10.3969/j.issn.1007-2985.2014.06.009