李鹏,刘胜全,2,刘艳,张华楠,刘华鹏
1.新疆大学信息科学与工程学院,乌鲁木齐830046
2.新疆大学现代教育技术中心,乌鲁木齐830046
当前语义Web[1]研究领域中,本体(Ontology)[2]通过对概念及其相互关系的规范化描述,可勾画出某一领域的基本知识体系。但在许多应用领域中,由经典本体支持的形式化概念不足以表示模糊信息,通常的解决方法是将模糊集理论[3]引入本体以处理模糊信息。因此,模糊本体(Fuzzy Ontology)的构建方法成为亟待解决的问题。
手工构建模糊本体费时费力,常需要领域专家的解释,故自动构建方法成为目前国内外主流的研究趋势,主要有基于模糊概念模型、基于语言变量、基于MDA及基于模糊聚类的构建方法等。其中基于模糊聚类的构建方法是依据模糊集理论,将模糊聚类技术引入到模糊本体的自动构建中,是目前模糊本体构建的研究热点之一。文献[4]提出了一个模糊本体自动生成框架,其自动生成方法分为以下几步:模糊形式概念分析、概念层次生成、模糊本体的框架生成。文献[5]研究了一种从模糊背景生成模糊本体的方法,通过模糊概念格聚类生成模糊概念层次。文献[6]提出一种基于模糊概念格的概念距离聚类方法来构建模糊本体。但上述文献对模糊概念间相似度的计算还存在不足,忽略了内涵和外延对模糊概念的制约关系,最终影响了模糊概念聚类的质量。本文提出一种基于模糊概念相似度的模糊本体构建方法,对模糊概念的相似度从内涵和外延两个方法进行了计算,并引入权重因子对内涵和外延进行调节,以适应不同领域中模糊概念的特点。
本体是共享概念模型的明确的形式化规范说明[2]。包含5个基本的建模元语:概念、关系、函数、公理、实例。模糊本体表示的是模糊概念及其之间的模糊关系。模糊本体可用四元组OF=(CF,P,R,X)来表示,其中CF为模糊概念集,P为属性集,R为模糊概念集与属性集之间的笛卡尔积,X为公理集。模糊概念可表示为CF=,其中oi是对象,ai是oi的属性[4]。
运用模糊概念聚类方法构建模糊本体,其构建框架如图1所示。
图1 模糊本体构建框架图
其主要思想是首先抽取领域内的不确定信息形成模糊形式背景,再运用渐进式算法从模糊形式背景中构建出模糊概念格,然后采用基于模糊概念相似度的概念聚类算法将模糊概念格聚类并转化为模糊概念层次,最后映射得到模糊本体原型。
为处理现实世界中的不确定信息,将模糊集理论与形式概念分析(FCA)相结合,从特定领域的不确定信息中构造模糊形式背景,在构造好的模糊形式背景上运用一定的构建算法构建出模糊概念格,这一过程称为模糊形式概念分析[7]。模糊形式概念分析建立在以下概念基础之上。
定义1 模糊形式背景。一个模糊形式背景表示为F=(O,A,I),其中O为一个对象集合,A为一个属性集合,映射I称为隶属度函数。这个函数满足:I(o,a)=μ,其中o∈O,a∈A,μ∈[0,1]。
定义2 模糊概念。给定一个模糊形式背景F=(O,A,I)和阀值Φd,对∀O1⊆O:
对∀A1⊆A:
则模糊概念是二元对C1=(O1,A1),O1⊆O,A1⊆A,f(O1)=A1,g(A1)=O1。其中O1和A1分别为模糊概念C1的外延(extent)和内涵(intent)。
定义3 模糊参数δ。对于对象集合O,属性集合A=f(O),a∈A:
参数δ描述的是对象的平均隶属度。
定义4设(O1,A1)和(O2,A2)为模糊形式背景(O,A,I)的两个模糊概念,当且仅当O1⊆O2,则有A1⊆A2,则(O1,A1)是(O2,A2)的子概念,(O2,A2)是(O1,A1)的父概念。
定义5 模糊概念格。模糊形式背景F的所有模糊概念的集合记为CS(F),CS(F)上的结构是一种偏序关系。若满足O1⊆O2,则(O1,A1)≤(O2,A2),通过此关系得到的有序集-CS(F)=(CS(F),≤)称为模糊形式背景F的模糊概念格。
算法1 模糊概念格的渐进式构建算法
用Intent(C)表示概念节点C的内涵,Extent(C)表示概念节点C的外延。
步骤1 模糊概念格-CS(F)初始化为空。
步骤2 从模糊形式背景F取出一个对象x,形成节点({x},f({x})),如果-CS(F)中没有节点C使得f({x})⊆Intent(C),则将节点({x},f({x}))加入-CS(F)。
步骤3 扫描-CS(F)中的所有节点,找出所有内涵小于等于新增对象x内涵的节点C(Intent(C)⊆f(x)),则节点C为更新节点。将每个更新节点更新为(Extent(C)∪{x},Intent(C)),边不更新;转步骤5。
步骤4 扫描-CS(F)中的所有节点,如果节点C与x的内涵交集不等于-CS(F)中任意节点的内涵,则定义为产生子节点(交集相同的节点中取外延最大的),将每个产生子节点与此x一起生成新生成节点(Extent(C)∪{x},Intent(C)∩f(x))。如果-CS(F)中存在新生成节点的更新节点,则更新这些节点,否则加入新生成节点到-CS(F),并连接新生成节点到它的子节点和父节点。
步骤5 直到所有的对象加入-CS(F)中;否则转步骤2。
步骤6 搜索-CS(F)中所有没有子节点的节点,如果这样的节点多于一个,则生成底节点(Φ,A),并增加底节点到这些点的边。搜索所有没有父节点的节点,如果这样的节点多于一个,则生成顶节点(Φ,A)加入-CS(F),并增加顶节点到这些点的边。
随着模糊形式背景中对象和属性数量的增加,模糊概念格中的模糊形式概念数量也会随之增长。同时,很多对象会因为属性值上的细微差别而被分到不同的模糊形式概念中,实际上,这些对象应该属于同一模糊概念,这样模糊概念格就存在许多冗余的概念。故应采用概念聚类的方法对模糊概念格中模糊形式概念进行处理,并产生层次结构。
基于模糊概念相似度的概念聚类算法,其中心思想是计算模糊概念格中有父子继承关系的模糊形式概念的内涵和外延相似度,增加内涵及外延的权重因子,使之可根据所分析的目标概念格的特点调节,并以此为依据将相似度较高的模糊形式概念聚为一类,以取得较为满意的聚类结果。
对于两个模糊形式概念C1=(O1,A1),C2=(O2,A2),C1为C2的子概念,给出概念相似度相关定义如下:
定义6 外延相似度(similarity on Extent)两个概念的外延相似度是用其外延集合的交集的势的2倍除以两个概念的外延集合的势的和的结果。
定义7 内涵相似度(similarity on Intent)两个概念的内涵相似度是计算其内涵集合交集中的每个属性在各自概念中的δ的偏差值的绝对值,再将其值减1的绝对值的和的2倍除以两个概念的内涵集合的势的和的结果。
由于在模糊概念格中不同的模糊形式概念所包含的相同的属性还可能存在程度上的差异,因此这里计算内涵相似度时用到了模糊参数δ。
定义8 概念相似度(similarity on concept)两个概念的总体概念相似度根据其外延和内涵的相似度来进行计算。
其中,α和β分别为外延和内涵相似度的权重因子,可以根据所分析的目标模糊形式概念格的特点进行调节。
算法2 基于模糊概念相似度的概念聚类算法
输入:模糊概念格-CS(F),相似度阀值Ts;
输出:模糊概念聚类-CS′(F)。
步骤1预处理,读取-CS(F)中的边集CXCY(Cx为CY的父节点,边包括父子节点及节点间相似度相关参数)。
步骤2 顺序查找边集中的边CiCj(CiCj∈CXCY),计算概念相似度sim(Ci,Cj)。
步骤3 若sim(Ci,Cj)>Ts,聚类CiCj成为一个新节点Cij;否则转步骤5。
步骤4 更新节点Cij({OX∪OY},{AX∪AY}),并代替父节点Ci,更新边集,Ci的父节点连到Cij,Cij连到Cj的子节点,删除子节点Cj。
步骤5 转到步骤2,直至不存在边CiCj,使得sim(CiCj)>Ts成立
步骤6 边集存入-CS′(F)。
模糊概念聚类有以下性质[8]:
(1)模糊概念聚类有层次关系,其层次关系可从模糊形式概念格中的模糊形式概念导出,即若两聚类中的形式概念存在父子关系,则两聚类也存在父子关系。
(2)一个模糊形式概念至少属于一个模糊概念聚类,但可以同时属于多个模糊概念聚类。
根据模糊概念聚类层次及模糊本体中元素的对应关系,运用映射规则可以构造模糊本体原型。映射规则如图2所示。
图2 模糊概念聚类与模糊本体的映射规则
由图2中模糊概念层次到模糊本体的映射规则可知,模糊概念层次中的概念节点标识就是模糊本体的概念类名,概念节点的内涵是模糊本体中相应概念的属性,概念节点的外延是模糊本体中相应概念的实例,节点属性的隶属度值是模糊本体相应概念的相应属性的值,模糊概念层次中概念间的层次关系是模糊本体相应概念间的关系。这样就把模糊概念层次映射成了模糊本体,包括模糊本体概念、模糊本体概念属性,以及其隶属度的值、模糊本体实例和模糊本体概念间分类关系。
通过上述映射规则得到的模糊本体原型,还需要领域专家的参与,添加概念间非分类关系以及属性、公理、实例等,扩充模糊本体原型,才能得到比较完善的模糊本体。
本文在Eclipse平台下,采用Java语言实现模糊概念格的渐进式构建算法和基于模糊概念相似度的概念聚类算法,选用文献[6]给出的实例数据,以连续5天的天气为对象,以温度、紫外线、风力和雨水为属性,设定阀值Φd为0.5,约简后的模糊形式背景如表1所示。
表1 模糊形式背景
根据模糊形式背景表1,采用算法1[9]构造模糊概念格,如图3所示。
图3 模糊概念格
各模糊形式概念的构成及模糊参数值如表2所示。为方便描述,在表2中模糊形式背景中的7个属性分别用符号a、b、c、d、e、f、g来代替。
表2 模糊形式概念构成表
利用第3章的基于模糊概念相似度的概念聚类算法,对图3模糊概念格进行聚类。计算模糊概念格中有父子继承关系的模糊形式概念的概念相似度,如下所示。
本实例中选取α=β=0.5(即内涵与外延权重相当的情况下):
sim(2,3)=0.60,sim(2,5)=0.70
sim(3,4)=0.58,sim(3,6)=0.53
取相似度阀值Ts=0.59,对模糊概念格进行聚类,如图4所示。
图4 模糊概念聚类示意图
由于节点1和节点7分别是领域内最大概念和空概念,所以在模糊本体构建中不作考虑,切断其与其他节点的关系。
根据第4章映射规则,由图4映射得到模糊本体原型如图5。每个节点为模糊本体中一个模糊概念,节点的层次关系为模糊本体中的分类关系。
图5 模糊本体原型
以模糊概念B为例,其属性为温度高(0.6),紫外线强(0.6),紫外线弱(0.9),风力大(0.8),其实例为2、4、5,它是模糊模糊概念A的子概念。
在实际应用中,还可以在领域专家的指导下,将模糊本体原型导入本体编辑工具Protégé,添加概念间的非分类关系以及属性、公理、实例等,最后得到较为完善的模糊本体。
在逻辑学上,概念包含了概念的内涵和外延。概念的内涵是概念所反映的对象所特有的属性,特别是本质属性在概念中的反映。概念的外延是具有概念所反映的本质属性的对象。概念的内涵和外延具有反变关系,即指同一个从属关系中,内涵越丰富,外延就越小;反之,内涵越简单,外延就越大。故在模糊概念聚类中,全面衡量模糊形式概念的内涵外延的相似度是聚类的关键之处。
对比本文聚类方法与文献[5]和文献[6]方法,以聚类后模糊概念数量等于3为例,采用不同的聚类算法进行模糊聚类后的模糊本体原型,如图6所示。
图6 模糊本体原型对比图
可以看出,采用本文聚类算法产生的模糊本体更符合概念的反变关系,即模糊本体的上层概念外延较大,内涵较简单,表示的概念较为抽象;下层概念外延较小,内涵较丰富,表示的概念较为具体。不仅如此,本文在计算模糊概念相似度时引入了内涵和外延的权重因子,可以根据所分析的目标概念格的特点进行调节,力求更逼近领域中模糊概念实际的语义度量。
研究了模糊本体构建中的基于模糊概念相似度的概念聚类算法,与文献[5]和文献[6]提出的模糊本体构建方法相比,本文算法对模糊概念间的相似度从内涵和外延两个方面进行了计算,并增加内涵和外延的权重因子,可针对不同领域的模糊概念的特点对内涵和外延的比重进行调节。下一步的工作,将对模糊本体原型的生成算法以及模糊推理方法进行研究。
[1]Berners-Lee T,Hendler J,Lassila O.The semantic Web[J].Scientific American,2001,284(5):34-43.
[2]Borst W N.Construction of engineering ontologies for know ledge sharing and reuse[D].Enschede:University of Twente,1997.
[3]Zadeh L A.Fuzzy sets[J].Information and Control,1965,8(3):338-353.
[4]Quan T T,Hui S C,Cao T H.FOGA:a fuzzy ontology generation framework for scholarly semantic Web[C]//Proceedings of the 2004 Know ledge Discovery and Ontologies Workshop(KDO’04),Pisa,Italy,2004.
[5]强宇,刘宗田,李旭,等.一种基于模糊聚类的模糊本体生成方法[J].计算机科学,2006,33(4):148-150.
[6]李慧琳,刘宁,李冠宇.模糊本体构建的概念距离聚类方法[J].计算机工程与设计,2012(4):1538-1541.
[7]刘宗田,强宇,周文,等.一种模糊概念格模型及其渐进式构造算法[J].计算机学报,2007,30(2):184-188.
[8]Tho Q T,Hui S C,Fong A C M,et al.Automatic fuzzy ontology generation for semantic Web[J].IEEE Trans on Know ledge and Data Eng,2006,18(6):842-856.
[9]强宇.模糊概念格模型及其应用研究[D].上海:上海大学,2006.