基于本体的机械零件知识库语义查询

2017-07-19 11:02陈劲杰周庆曙
电子科技 2017年7期
关键词:深沟结点知识库

于 欢,陈劲杰,周庆曙,周 媛

(上海理工大学 机械工程学院,上海200082)



基于本体的机械零件知识库语义查询

于 欢,陈劲杰,周庆曙,周 媛

(上海理工大学 机械工程学院,上海200082)

针对当前机械零件知识库系统,在机械设计问答系统中查询效率低下的问题,为其建立语义查询,用以提高系统的查全率和查准率。文中设计了基于本体概念的相似度和相关度查询扩展处理过程,通过对用户初始查询输入的扩展,提高机械零件知识库查询检索效率并使用Lucene为系统建立机械零件信息查询索引。通过实验证明,基于知识库的语义查询效率明显提高。

机械零件;本体;语义查询;查询扩展

基于本体的机械领域知识库定义和描述了零件资源的概念以及零件之间的联系,便于知识的重用和分享,为机械设计问答系统提供高效可靠的知识系统。当前知识库系统查询效率低下,传统的查询技术不能满足精准查询的要求,本文提出利用语义查询提高系统查全率和查准率,提高系统查询效率。

语义查询是基于本体知识的分析查询,其目的在于理解用户输入的自然查询语言,基于本体的概念匹配,根据推理规则,通过查询扩展推导查询语句在语义层次上的含义,实现对同义、上下文和同级概念的查询,优化查询过程和结果。机械零件知识库的本质是OWL本体模型,是语义查询的基础。本文语义查询是在查询三元组构建基础上,对查询语句进行扩展和分析,并通过 Lucene 检索引擎完成语义查询过程,返回结果,查询过程如图1所示。

图1 机械零件知识库本体查询流程图

1 语义相似度和相关度的查询扩展

基于本体概念的语义相似度和相关度查询扩展的基本思想是:首先,运用语义相似度、相关度、综合值的计算方法,计算出各初始检索词与本体概念间语义相似度和相关度的综合值并存储。然后,将综合值大于扩展阈值的概念作为新检索词,并把其综合值作为新检索词的权重。最后,将新检索词及其权重一起加入扩展的检索词集合中。查询扩展流程如图2所示。

图2 基于本体的概念相似度和相关度的查询扩展流程

2 语义相似度与相关度计算

2.1 语义相似度计算

概念相似度是指,两个概念在同一本体中可以互相替换而不改变本体语义结构的可行程度。相似度的取值范围在[0,1]之间。假设本体层次树的根结点为R,对应于层次树上的任意两个结点X、Y,N(X)表示从结点X到根结点R所经过的结点个数,N(Y)表示从结点Y到根结点R所经过的结点个数,N(X)∩N(Y)表示从X到R与从Y到R共同经过的结点个数(交集),N(X)∪N(Y)表示从X到R与从Y到R经过的总结点数(并集),L(X)、L(Y)分别结点X和Y所处的层次,D(X,Y)表示从X到Y所经过的路径长度,则本体中任意两个概念X、Y间的相似度为

(1)

概念间相似度的计算需要考虑概念语义重合度、概念层次差、概念间路径长度等因素。在计算概念间语义相似度的过程中,对于一个已经构建好的领域本体,假设只考虑本体的上下位关系,并且不存在类的多重继承关系,那么本体就可以简化成一颗层次树,如图3所示。

图3 考虑相似度的本体结构

2.2 本体概念间语义相关度计算

概念语义相关度反映两个概念相互关联的程度,可以用两个概念在本体中共现的可能性来衡量,取值范围为[0,1]。在计算语义相关度时,不考虑概念的相似性,即省略上下位关系,只保留有关联的概念,如图4所示。

图4 考虑相关度的本体结构

假设X、Y是本体结构中的任意两个结点,用SP(X,Y)表示从X到Y的最短路径长度,当X、Y不连通时,SP(X,Y)的值为无穷大。领域本体中任意两个概念间的相关度计算为

(2)

其中,λ为可调节的参数,表示相关度为0.5时概念间的最短距离值。

假定λ=3.0,根据式(2),可以得到本体概念间的相关度

2.3 语义相似度和相关度的综合值

语义相似度和相关度对于概念间的相互关系都有影响,在进行查询扩展时需要综合考虑这两个因素。本体概念相似度和相关度综合值的计算为

Sim_Rel(X,Y)=Sim(X,Y)+Rel(X,Y)
-Sim(X,Y)×Rel(X,Y)

(3)

在语义相似度和相关度以及综合值计算的程序实现过程中,需要创建ConceptLevel、SimRelValue、PropertyInfo3个MySQL数据表。其中,ConceptLevel表以结点ID、结点概念、父结点ID、结点层次的列顺序存储本体的概念信息;SimRelValue表以概念1、概念2、相似度、相关度、综合值的列顺序存储概念对的语义相似度和相关度信息;PropertyInfo以属性名、概念1、概念2、最短路径长度的列顺序存储概念间的关联信息。

3 查询扩展的实现

3.1 查询扩展过程

基于本体的概念相似度和相关度查询扩展的具体软件编程实现流程:

步骤1 获取经过语义角色标注得到的初始检索词集合,并将初始检索词存放在数组中;

步骤2 从数组中取出一个未处理的初始检索词,设置其权重为1,并把检索词和其权重一起加入扩展集合中;

步骤3 检查初始检索词是否为知识库本体中的概念,如果是,进行下一步,否则跳转到步骤5;

步骤4 从概念相似度和相关度的信息表SimRelValue中,查找与初始检索词的语义相似度和相关度的综合值大于扩展阈值的概念作为新检索词,将综合值作为新检索词的权重,并把新的检索词和其权重加入扩展集合;

步骤5 检查是否还有未处理的初始检索词,如果有,跳转到步骤2,否则进行下一步;

步骤6 输出扩展的检索词及相应权重集合,查询扩展结束。

3.2 实验结果与分析

分析自然查询语句“深沟球轴承的尺寸有哪些”,其语义角色标注结果为“[A0深沟球轴承] 的 [02尺寸] 有 [A1 哪些]”,对应的查询三元组为<深沟球轴承,尺寸,?>,初始检索词集合为{深沟球轴承,尺寸}。在轴承本体信息中,谓语“尺寸”的定义域是轴承具体的型号,根据初始检索词集合进行检索不能反馈检索结果,违背设计检索系统的初衷。

按照本文提出的查询扩展方法对自然查询语句“深沟球轴承的尺寸有哪些”进行扩展。式(1)~式(3)中的参数取值为α=5.0,β=1,γ=0.2,λ=3.0,调用Jena API解析本体结构,得到初始检索词与部分概念的语义相似度、相关度和综合值如表1所示。

表1 初始检索词与部分概念的语义相似度、相关度和综合值

由表1可知,当扩展阈值Δ取值0.5时,则扩展检索词集合为{深沟球轴承,6 4030.617 2,6 4040.617 2,6 4050.617 2,6 4060.617 2,6 4070.617 2,径向接触滚子轴承0.617 2,尺寸,17 mm0.865 8,19 mm0.865 8,20 mm0.865 8,21 mm0.865 8,62 mm865 8,62 mm0.865 8},元素右上角的数字为语义相似度和相关度的综合值。

分析查询扩展结果,经过查询扩展处理的检索词集合相比于初始检索词集合增加了12个元素,其中“深沟球轴承”的扩展词有6个,“尺寸”的扩展词也有6个,共增加了48个查询三元组。查询三元组数量由1个增加到49个,验证了基于本体的查询扩展方法的有效性。

4 机械零件知识库的索引建立

对用户初始输入进行查询扩展后得到检索词集合,需要结合机械零件知识库的索引检索到结果信息。采用Lucene3.0为知识库建立索引,Lucene是一个Java实现的开源软件库,通过简单易用的API隐藏了复杂的索引和搜索操作实现的过程。本文从机械设计手册、机械类教材、机械类网站等收集了50篇机械类文本文档(其中,轴承类相关文本文档30篇)存储于本地磁盘内,为知识库建立索引,结果如图5所示。

图5 Lucene创建轴承知识库索引的界面

5 结束语

基于机械领域零件知识库,提出其语义查询过程,论证其应用优势,该方法同样适用于其他领域本体知识库,随着本体资源日趋完善与丰富,将为语义查询带来更多的进步挑战,语义查询的实现过程需要更加健壮,算法需要进一步优化提升,以提供更优的查询服务。云时代的到来,为大规模的知识存储带来新的机遇,今后将结合Hadoop、Spark等分布式技术存储本体,现阶段的语义查询如何与分布式知识存储相结合,将带来新的研究问题。

[1] 钱景,徐涛,张育平.领域化业务构件的数据模型可执行语义研究和实现[J].电子科技,2013,26(4):14-16.

[2] 党亚洲.基于本体的机械零件资源库语义检索研究与应用[D].乌鲁木齐:新疆大学,2015.

[3] 李艳.基于Protégé的毒品类型本体模型的构建[J].信息技术,2013(7):172-174.

[4] 张忠平,赵海亮,张志惠.基于本体的概念相似度计算[J].计算机工程,2009(7):17-19.

[5] 杜来红.机械零件本体化语义建模研究[J].价值工程,2015,34(36):258-258.

[6] 韦慧,葛世伦.基于 OWL的制造工艺知识本体模型[J].江苏科技大学学报:自然科学版,2007,21(2):85-89.

[7] 甘健侯,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011.

[8] Xue N.Labeling chinese predicates with semantic roles[J].Computational Linguistics,2008,34(2):225-229.

[9] 王红霞.基于本体的语义查询扩展应用研究[J].科技通报,2016,32(1):118-122.

[10] 李艳,王重英,屈正庚.基于主题词表的旅游政务系统本体构建研究[J].信息技术,2015(3):53-56.

[11] 潘补补.数字资源利用评估研究[J].图书馆学研究,2012(13):86-89.

[12] 吴昊.基于本体论的知识推理查询系统的研究[D].镇江:江苏大学,2005.

[13] Borst W N.Construction of engineering ontologies for knowledge sharing and reuse[J].Universiteit Twente,1997,18(1):44-57.

[14] 施雅贤,李璞,肖宝,等.面向旅游领域的语义查询扩展方法[J].计算机工程,2010,36(18):43-45.

[15] 张冬明,牛占文,赵楠,等.基于本体的产品设计知识表示方法[J].计算机应用,2012,32(1):206-209.

[16] 李华昱,欧阳纯萍,徐九韵.基于领域本体和关系模型的XML语义集成方法[J].计算机应用,2011,31(12):3258-3263.

Semantic Query of Mechanical Parts Knowledge Base Based on Ontology

YU Huan,CHEN Jinjie,ZHOU Qingshu,ZHOU Yuan

(School of Mechanical Engineering, University of Shanghai for Science and Technology, Shanghai 200082, China)

A semantic query for the knowledge base with the idea of ontology is proposed to improve the query efficiency and precision of the mechanical design question-answering system. The article designs the query expansion process of the similarity and relevancy based on ontology concept, to improve the query efficiency of the knowledge base via the extension of the initial query term from user input, and creates the index of the machine part info using Lucene. Experiments verifies that the semantic query based on the knowledge base significantly improves the query efficiency.

machine part; ontology; semantic query; query expansion

2016- 09- 11

上海市自然科学基金(13ZR1458500)

于欢(1991-),男,硕士研究生。研究方向:机械信息化。

10.16180/j.cnki.issn1007-7820.2017.07.025

TP391;TH13

A

1007-7820(2017)07-090-04

猜你喜欢
深沟结点知识库
深沟球轴承外圈表面凹坑缺陷分析
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
深沟球轴承装配注脂头的优化设计
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
深沟造林条件下秸秆覆盖对土壤养分和盐分变化的影响
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
位置与方向测试题
岁月