周建慧,张旭龙,高 云,郭艳萍,彭 炜
(山西大同大学 计算机与网络工程学院,大同 037009)
复杂产品的设计涵盖多个学科领域的工程知识,面向具体的设计任务实例,在各学科领域本体存在的基础上,构建融合多个学科领域的集成化本体能够为设计任务提供相关的工程知识[1]。不同学科领域的本体,无论是在结构层面还是在内容层面,均存在较大的差异,导致多领域本体之间的规模差异较大。
本体集成是指以不同领域或相同领域下的多个本体,采用信息集成的手段,求同存异地建立一个集成化的本体。本体集成能够为异构系统之间互通信和互操作提供有效的支撑[2],其过程是对本体中存在的异构信息的集成处理过程,本体集成中所能利用的异构信息包括词法信息、结构信息、语义信息、外部信息、个体信息等[3~6],充分利用上述信息,能够计算本体中节点之间的相似度,进而为本体集成提供依据。
目前常见的本体集成工具包括GLUE[7~9]、ASMOV[10~12]、Falcon[13]、DSSim[14]、Lily[15]等。这些工具也利用不同类型的信息进行相似度的计算。它们存在一个共同的特点:通常情况下,多本体的集成策略采用两两依次集成,即有本体O1,O2,O3,…,On,将O1与O2集成获得O12,再将O12与O3集成获得O123,依次进行最终获得O123…n。两两依次集成更加适用于相同领域下多本体的集成,因为在相同领域条件下,领域本体的论域相同,其大多数概念和结构相似或者说领域本体的交集较大,两两依次集成获得的中间本体的规模与原有领域本体的规模差距较小。
然而多领域本体之间的论域不同,大多数概念和结构不相似或者说领域本体的交集较小,所以两两依次集成获得的中建本体的规模将不断增大,例如O12与O3的规模差距较大,在O12与O3的集成过程中,将因为规模差距较大带来信息不对称的现象,导致集成效果降低,本体之间信息不对称现象越严重,本体集成效果越不理想[16]。
基于上述原因,本文针对性地提出了一种新的本体集成方法,如图1所示,该策略避免了领域不同带来的影响,首先通过相似度计算获得多个领域本体两两之间的映射结果,然后对映射结果进行联结获得全局映射结果,最后以全局映射结果为载体将领域本体中的节点依次按照规则合并至其中,最终获得本体集成结果,总体流程的算法伪代码如表1所示。
表1 算法总体流程伪代码
图1 基于映射联结的本体集成总流程图
元素级相似度是指领域本体中节点之间在字符串或语义层面的相似度。字符串相似度以领域本体节点的名称作为计算条件求取相似度;语义相似度以领域本体节点的解释性文本作为计算条件求取相似度。由于专业领域术语较为规范,且有明确定义,即解释性文本,因此在求得两类相似度之后,取二者中较大的相似度作为最终的元素级相似度。
1)字符串相似度
字符串相似度采用QRST方法进行计算。设字符串x和字符串y,采用中文分词方法获得x和y的分词结果分别为{x1,x2,…,xn}和{y1,y2,…,ym},由式(1)计算字符串x和字符串y的相似度,式中相似度量值simstring(x,y)与Q值成正比,与R、S、T值成反比。
QRST方法中关键要素的含义如下:
Q代表字符串x和字符串y中均存在的词汇总数;
R代表字符串x中存在、字符串y中不存在的词汇总数;
S代表字符串x中不存在、字符串y中存在的词汇总数;
T代表字符串x和字符串y中词汇的总数;
λ为调节系数,其含义是如果字符串x和字符串y中出现了相同的词汇,认为字符串x和字符串y的相似度较大,则将λ值调增;反之则调减。
2)语义相似度
语义相似度的计算依赖于领域概念解释性文本,解释性文本通常以自然语言的形式存在,是对领域概念的说明,大多数情况下解释性文本由若干语句组成。在文本相似度计算的研究中,基于特征向量空间模型的文本相似度计算方法是一种最为普遍并被广泛应用的方法,该方法通过分词获得文本的关键词,依据关键词的词频确定特征词,通常以词频较高的词汇作为文本的特征词,在事先构建的向量空间中生成文本对应的特征向量,根据向量之间的夹角最终计算文本之间的相似度,夹角越小,相似度越高。
对于领域本体之间的节点对,通过判断其所属本体中附近节点的映射关系,计算节点对之间的相似度。寻找附近节点主要依赖于领域本体中的分类关系,即父子/兄弟关系。依据领域本体构建的原理和本体论的原理,结构级相似度计算的启发性规则分为三类:
1)父类规则:对于节点C1和C2,如果C1的父节点与C2的父节点存在元素级映射关系,则认为C1和C2在结构级上具有一定相似度。
设C1的父节点为SC1,C2的父节点为SC2,则C1与C2的结构级相似度计算方法如式(2)所示。
其中μP是父类规则中相似度衰减系数;
2)子类规则:对于节点C1和C2,如果C1子节点集合中大部分节点与C2子节点集合中的节点存在元素级映射关系,则认为C1和C2在结构级上具有一定相似度。
设C1的子节点集合为BC1,C2的子节点集合为BC2,则C1与C2的结构级相似度计算方法如式(3)所示。
其中μB是相似度子类规则中相似度衰减系数;设BC1包含m个节点,BC2包含n个节点,若BC1中存在k个节点与BC2中的k个节点具有元素级映射关系,则BC1与BC2的相似度计算方法如式(4)所示。
其中:ei1∈BC1,ei2∈BC2。
3)兄弟规则:对于节点C1和C2,如果C1兄弟节点集合中大部分节点与C2兄弟节点集合中的节点存在元素级映射关系,则认为C1和C2在结构级上具有一定相似度。
设C1的兄弟节点集合为RC1,C2的兄弟节点集合为RC2,则C1与C2的结构级相似度计算方法如式(5)所示。
其中μR是相似度兄弟类规则中相似度衰减系数;设RC1包含m个节点,RC2包含n个节点,若RC1中存在k个节点与RC2中的k个节点具有元素级映射关系,则RC1与RC2的相似度计算方法如式(6)所示。
其中:ei1∈RC1,ei2∈RC2。
上述三归类规则的结构级相似度求得后,通过加权求和的方式对三类结构级相似度进行融合,进而获得领域本体节点之间最终的结构级相似度,如式(7)所示。
其中α、β、γ分别为父类规则结构级相似度、子类规则结构级相似度、兄弟规则结构级相似度所占的绝对权重,并且根据领域本体分类关系构建的原理,可以得出启发性的规律:父子关系比兄弟关系更重要,父类比子类更重要,即α>β>γ。
每两个本体之间包含若干条映射关系,每条映射关系包含两个本体中的节点、映射类型和相似度。在进行映射结果联结之前,需要对映射关系按照某种规范进行形式化表达以满足计算机语言的执行要求。本文将采用范畴论原理对映射结果进行形式化表达。
考虑如图2所示的映射结果示意,其中包含两部分信息:映射关系信息和领域本体的信息。依据范畴论原理,对两部分信息分别进行形式化表达。
图2 本体映射结果示意图
1)领域本体的形式化表达
依据范畴论原理,领域子本体可以看作一个范畴,即领域子本体O1可以表示为范畴C1,领域子本体O2可以表示为范畴C2。则范畴C1和C2可以表示为:
其中eij为领域本体中存在映射关系的节点,ri和si为存在映射关系的节点在领域本体中的关系。
2)映射关系的形式化表达
依据范畴论原理,领域本体之间的映射关系可以看作态射,即图中所示的三条映射关系可以表示为:
除此之外,图中隐含了两条关系之间的映射关系,可以表示为:
领域本体的映射关系可以表示为:
有上述范畴论的表示,依据范畴论中的原理,可以获得如下结果:
其中态射f的取值为二元组,可以表示为:
L为映射关系类型,w为映射关系相似度。
对映射关系进行形式化表达后,针对映射关系的不同类型和权重对其进行联结以获得全局映射结果。映射结果中映射关系的类型包括相等、包含和不相交三种类型。相等关系表示两个节点完全等价;包含关系表示两个节点具有父子关系,不相交关系表示两个节点的子节点交集为空。相等关系主要用于映射结果中节点的联结,包含关系主要用于判断相等关系是否正确,不相交关系主要用于判断获得的全局映射结果中是否存在冗余或错误。
1)相等关系
当f满足f.L=“=”;f.w>δ条件时,即为相等关系。此时,依次判断态射f的定义域和值域,即映射关系连接的两个节点在其领域本体中与其他包含在映射结果中的节点的关系是否存在矛盾,若存在矛盾,则依据f的权重进行矛盾消解,消解规则将在下文详细阐述,此处重点阐述映射结果联结的规则。若不存在矛盾或矛盾消解后,随机选择一个态射f的定义域节点或值域节点添加至全局映射结果中。
2)包含关系
当f满足f.L=“⊇”or f.L=“⊇”;f.w>δ条件时,即为包含关系。包含关系用于判断具有相等关系的领域本体节点之间是否存在矛盾,以图2所示的本体映射结果为例,f1(e11)=e21,f2(e12)=e22。若f1.L=“=”并且f2.L=“⊇”,由于e11和e12在领域子本体O1中的关系r1为父子关系,同理s1也为父子关系,因此判定f1与f2存在矛盾,矛盾发生后,比较f1.w和f2.w的值的大小关系,保留权重较大的关系,即:若f1.w>f2.w,则忽视f2,反之则忽视f1并删除相等关系做出的操作。
3)不相交关系
当f满足f.L=“⊥”;f.w>δ条件时,即为不相交关系。与包含关系类似,当不相交关系连接的节点在全局映射结果中存在一级关系时,则判定该关系与一级关系存在矛盾,所谓一级关系,是指直接父子/兄弟关系,通俗地说,当A的上一级父节点或下一级子节点为B,则A与B存在直接父子关系;当A的上一级父节点C的下一级子节点为B,则A与B存在直接兄弟关系。矛盾发生时,同理,依据权重进行矛盾消解,保留权重较大的关系。
获得全局映射结果后,依次对每个本体中的节点与全局映射结果合并。如图3所示,首先需要基于全局映射结果对领域本体进行标定,将其中包含的节点进行标记;然后以标定节点为起点按照分类和约束关系查找其附近节点,并对查找获得的节点进行判断,判断其是否存在复合关系,复合关系是指领域本体中通过查找获得的节点可能与全局映射结果中多个节点均具有分类关系,对复合关系进行处理后,处理过程在下文详细阐述,将查找获得的节点与全局映射结果通过新增的方式进行合并;随后更新全局映射结果重复上述步骤直至领域子本体中所有节点均被标记,迭代结束。
图3 节点合并流程图
1)标定领域本体
标定领域本体是遍历全局映射结果中所有的节点,若存在该节点则将其标记。
2)查找附近节点
标定领域本体后,以被标记的节点为起点,在领域本体中依次查询其父节点和子节点,并将其加入节点合并候选集中。
3)复合关系判断与分解
复合关系判断是领域概念合并过程中的关键问题,复合关系是指如果领域本体中被标记的节点x存在父节点y,而y与除x外的其他某被标记的节点z存在分类关系,则称y在具有复合关系。例如图4所示的领域子体和全局映射结果中,右侧领域本体中,节点“仿人机器人”与被标记的节点“导航系统”和“机器人”同时存在分类关系,则称节点“仿人机器人”在全局映射结果中具有复合关系。
图4 节点复合关系示例图
当出现复合关系时,则需要对全局映射结果中的分类关系进行分解,即将分类关系{导航,subClassOf,机器人}分解为{导航,subClassOf,仿人机器人}和{仿人机器人,subClassOf,机器人}。分解的依据来自于领域本体中被标记的节点之间的分类关系。
4)节点与全局映射结果合并
所有复合关系通过分解处理后,将领域本体中的节点添加至全局映射结果模型中。添加完成后,以更新后的全局映射结果为基础,重新标定领域本体,重复上述步骤,当领域本体中所有领域概念均被标记时,则认为该领域本体的节点已全部合并至全局映射结果中,算法结束。
本文将以工业机器人机构领域本体、控制领域本体、力学领域本体的集成为例进行详细说明。首先,分别通过本体映射获得两两之间的本体映射结果,计算结果如表2所示,映射过程的参数如前文所述,根据经验,λ取2.2;参照GLUE中的参数取值,μP和μB取0.8,μR取0.7(GLUE中μR取值也为0.8,本文认为兄弟关系的重要程度低于父子关系的重要程度,因此取0.7);参照Falcon中的参数取值,α、β、γ分别取0.5、0.3、0.2;然后将映射结果进行形式化表达后,分别对映射结果之间存在的相等关系、包含关系和不相交关系按照上文给定的规则进行合并,获得合并后的全局映射结果,如图5所示;最后,将领域本体中的节点依次与全局映射结果合获得最终集成结果,如图6所示。
图5 全局映射结果片段实例
图6 集成化本体片段实例
表2 工业机器人多领域本体映射结果
本文以本体集成的准确率、召回率以及冗余度作为评价指标,与常见的本体集成系统DSSim、GLUE、Falcon、Lily进行对比,对比结果如图7所示。可以看出,本文方法除准确率不及GLUE,召回率和冗余度都优于其他方法。
图7 实验结果对比图
本文根据多学科领域本体规模差异性明显的特点,针对两两依次集成在多领域本体集成中存在的问题,提出一种面向多领域知识融合的本体集成方法。该方法依据映射结果一次性生成全局映射结果,随后依次将每个领域本体与全局映射结果合并,规避了因规模和复杂度依次递增而产生信息不对称现象最终影响其集成结果的问题。通过实例验证和对比,说明本文提出的方法更加适用于多领域本体的集成,在召回率和冗余度方面表现的效果较优。能够应用于复杂产品的设计与制造系统中,为不同专业学科系统之间的互通信和互操作提供一种解决方案。