陈志飞 岳琪 陈广胜
(东北林业大学,哈尔滨,150040)
基于森林病虫害领域本体的概念相似度算法改进1)
陈志飞 岳琪 陈广胜
(东北林业大学,哈尔滨,150040)
传统的基于本体概念的相似度算法过于依赖层次结构,且忽略了许多影响概念间语义相似度的因素。针对这一问题,通过引入边权重关系、语义相关度影响因素,提出1种新的基于森林病虫害本体的语义相似度的计算方法。结果表明:改进后的相似度算法比传统算法更接近林业相关领域的专家经验值,证明了该方法的准确性及有效性,体现了林业领域本体概念间的复杂关系。
语义相似度;本体;森林病虫害
在当今知识型经济社会,海量的林业信息已成为国家重要的战略资源。然而,随着信息资源逐渐增多,传统的基于关键字层次的信息搜索已经不能满足人们的需求,用户无法准确得到基于真实语义的搜索结果。如何为用户提供更准确、更全面的检索方式已成为一个亟待解决的问题。随着问题的出现,领域本体这一概念逐渐成为解决这一问题的方式。领域本体主要描述的是特定领域内概念与概念之间的关系[1]。它可以将人机交互通过语义连接的方式,使得信息检索在各领域内具有更高的检索效率及准确度。因此,在林业研究领域,基于本体进行信息检索对解决复杂的林业问题是一个新的方向。
目前,很多学者对基于领域本体的信息检索进行了研究,他们认为利用领域本体能够针对复杂的问题进行高效的语义检索,而语义相似度计算是基于本体信息检索研究中的关键环节[2]。传统语义相似度计算方法主要有2种。第1种是基于语义距离的计算方法[3],该算法通过分析本体的层次结构,利用不同概念之间不同的语义距离来区分相似度。这种算法虽然简单,但是过于依赖本体的层次结构而忽略了不同概念之间更深层次的语义关系,并且通过语义距离计算出来的相似度容易受到层次结构的影响,不同的层次结构下同一组概念间的相似度会有偏差。第2种是基于信息内容的计算方法,该算法以Resnik提出的[4]为代表,Resnik认为本体概念间的相似程度取决于它们共享信息的程度,通过判断2个概念之间的属性集之间的关系来进行相似度计算。但这种方法没有考虑到本体的层次结构,得到的结果准确度不高。
笔者通过研究以上方法,进一步分析了本体概念间的特点,提出了一种改进的本体概念相似度计算方法。在构建林业病虫害领域本体的基础上,加入概念间的边权重关系及语义相关度因素,得到一个新的相似度计算方法,并通过试验得出准确度更高的结果。
本体随着计算机在人工智能领域的不断发展,被国内外众多研究学者所关注,通常它被定义为“共享概念模型的明确的形式化规范说明”[5]。基于本体的研究已在工业、农业等多个领域有较多进展,然而在林业领域特别是基于森林病虫害领域的本体研究相对较少。由于本体这种知识建模工具能够很好地描述概念以及概念与概念之间的关系,将本体应用在森林病虫害领域,对挖掘出该领域内树木、害虫、疾病、防治措施等不同概念间的内在关系有着重要的意义。图1是一个本体的树形图示例,它代表了一个基本的本体层次结构。图中1到18号节点代表着本体结构中的实例或属性,每条有向边表示概念之间不同的语义关系。
图1 一个本体的树形图示例
语义相似度是一个主观性很强的概念,而概念与概念之间存在着复杂的语义关系,他们不能抛开
具体的应用而得到统一的定义[6]。若一组概念在不同的句子中存在较高的替换率,则它们具有较高的相似程度,也可以说,这2个概念的相似度较大。定义a,b为图1中的任意两个概念节点,S(a,b)为二者的相似度,则根据语义相似度的定义,可以得出以下性质:
(1)若概念a与b相似,则S(a,b)∈[0,1]。
(2)若概念a与b在任何语句中都可以相互替换,则S(a,b)=1。
(3)若概念a与b没有共性,则S(a,b)=0。
本体层次可以用树状图的形式来表示[7]。图2是利用本体构建工具Protégé建立的一个森林病虫害领域本体。由于实际的森林病虫害本体构建起来比较复杂,因此,以简单的森林病虫害本体作为研究范本。图中的节点代表森林病虫害本体的属性或实例的概念,实线为该本体中上下位的关系(只给出继承关系、同义关系、实例关系),虚线表示节点之间具有一定的相关性。
图2 基于森林病虫害本体图
2.1 语义距离
在同一个本体树中,2个节点之间最小的边长距离称之为概念间的语义距离[8]。定义:分别设a,b为本体树中的2个节点概念,二者的语义距离记作Dist(a,b)。若a,b之间的最小边长距离越大,即语义距离越大,则它们的相似度越低。用SDist(a,b)来表示概念a与b的语义相似度,则Dist(a,b)与SDist(a,b)存在着如下对应关系;若Dist(a,b)越大,SDist(a,b)越小;反之,SDist(a,b)越大。因此,用α作为语义距离与语义相似度之间可调节的影响参数,得到:
(1)
2.2 语义重合度
语义重合度代表着本体树中2个概念节点到达本体树根节点的共同节点数与所有经过的节点数之间的关系。定义:用U(i)代表节点到达根节点的所有节点集合。U(i1)∩U(i2)表示从概念i1所在结点和概念i2所在结点到根结点共同经过的结点集合,U(i1)∪U(i2)表示从概念节点i到根节点所经过的所有节点的集合。因此,用β作为可调节的影响参数,SCoin(a,b)代表节点a与b之间的语义重合度,得到:
(2)
2.3 概念深度
概念深度是指概念节点到达根节点的最小路径,在本体层次结构中,处于越底层的节点深度越大,其概念的定义越详细。定义:Ddepth(i)表示概念节点i在本体中的深度,用SDept(a,b)表示节点a与b之间概念深度的相似度大小。因此,用γ作为可调节的影响参数,得到:
(3)
2.4 概念密度
概念密度是指该节点具有的直接子节点的数目,文中的直接子节点包括孩子节点与孙子节点;若没有子孙节点,则密度为0。一般来讲,在同一本体树当中,概念的分类均是由简单到复杂,由抽象到具体。越处于深层的节点其子节点分化越细,概念之间的区分度越小,相似度越高。定义:Ddegree(Ppublic)Anc表示本体树中与a,b两个概念节点最近的公共祖先节点的度(表示最近公共祖先节点的孩子节点与孙子节点的数量和),用Ddegree(Nnode)max表示本体树中各节点度的最大值,用SDens(a,b)表示节点a与b之间概念密度的相似度大小。因此,用λ作为可调节的影响参数,得到:
(4)
2.5 边权重关系
在构建本体时,由有向边连接的概念之间往往存在多种不同的关系。而不同的关系类型会影响概念之间的相似程度。本体主要考虑3种关系类型:同义、继承、实例关系。其中继承表示两个概念其中一个是另一个的具体细分,且具有更多的性质;而实例则代表概念间具有整体和部分的关系。例如,在构建的森林病虫害本体中,红松是常绿针叶林的一个实例,常绿针叶林属于一个整体,包含红松、油松等其他树种。二者为整体和部分的关系。而红松和油松之间具有同义关系,两类松树均属常绿针叶林,且均易得锈病。因此,本体不同概念间的有向边关系并不完全一致,在计算概念间的语义相似度时,需要引入边权重关系。边权重关系的大小定义为W(s,p),当概念子节点s与父节点p为同义关系时,W(s,p)=1;当节点s与节点p为继承关系时,W(s,p)=1/2;当节点s与节点p为实例关系时,W(s,p)=1/3。如果在本体结构图中,概念间由n条边相连,则分别记为W1、W2、W3、W4、…Wn,用SWeig(a,b)表示节点a与b之间边权重的相似度大小,用μ作为可调节的影响参数,则能得出:
(5)
2.6 语义相关度
语义相关度描述的是概念之间的相关程度,它与语义相似度并不相同。在本体中,若2个概念相似,则意味着二者在某些特征方面一致;若2个概念相关,它们所表现的特征却可能并不一致[9]。在森林病虫害领域,考虑不同概念间的语义相关度尤为重要。如油松与锈病2个概念的特征并不一致,然而锈病却是油松的主要病害,二者之间有着密切的相关性。土壤改善与黄化病在本体层次结构中相似度并不高,概念的特征重合度较低,土壤改善却是防治黄化病的有效方法,二者同样有着紧密的相关性。由此可见,在本体树中,某些概念节点之间往往存在着关联关系,通过关联关系连接的路径长度相比语义距离路径短得多。因此,语义相关度是衡量概念间语义相似度的又一个重要影响因子。定义:若概念a,b之间相关,则定义DdistAct(a,b)用来表示概念a到概念b实际最短路径长度;如果概念a,b之间不相关,则DdistAct=(a,b)=∞。因此,用θ作为可调节的影响参数,用S(a,b)Rela表示节点a与b之间的语义相关度,可以得到:
(6)
3.1 计算模型
经过以上分析,在构建林业病虫害领域本体的基础上,引入了边权重关系及语义相关度因素,结合上述公式(1)到(6),最终得到改进后的概念间语义相似度的计算模型:
(7)
3.2 与传统方法的差异
本算法以简单的森林病虫害本体(图2)为基础,设定了合适的可调节参数,分别取α=7、β=2、γ=4、λ=4、μ=2、θ=3。由于目前研究领域本体概念间相似度的计算方法仍无法保证一定程度的准确性,因此,将改进的算法与刘景方的传统算法[10]进行比较的同时,还引入林业相关领域专家的分析结果进行对比。结果如表1所示。表1中概念a和概念b代表图2本体中随机选取的14对概念节点。其中领域专家经验值是由9位领域专家分别对14组概念对进行语义相似的评估,并对结果取平均值得出,结果保留2位有效数字。表1中第1组数据的概念:森林病虫害(概念a1)与营造混交林(概念b1),以文献[10]中的传统算法得出的相似度值为0.118 3,通过改进的算法得到的相似度值为0.133 0,将二者的数据与领域专家经验值(0.14)进行对比,发现改进后的算法与专家经验值吻合较好。
表1 基于森林病虫害本体概念间的相似度比较
改进算法在传统的基于语义距离、信息内容的相似度计算方法的基础上,引入了边权重关系、语义相关度等因素,并应用于森林病虫害领域,依据森林病虫害数据之间的内在语义联系,得出了符合该领域的语义相似度值,为以后研究复杂的林业领域问题提供了基础。该算法相对于传统算法更加接近于领域专家的经验值,也证明了算法改进的可行性与科学性。
图3 基于森林病虫害本体语义相似度的3组数据趋势比较
[1] 杨月华,杜军平,平源.基于本体的智能信息检索系统[J].软件学报,2015,26(7):1675-1687.
[2] SELVARETNAM B, BELKHATIR M. Natural language technology and query expansion: issues, state-of-the-art and perspectives[J]. Journal of Intelligent Information Systems,2012,38(3):709-740.
[3] HOURALI M, MONTAZER G A. An intelligent information retrieval approach based on two degrees of uncertainty fuzzy ontology[J]. Advances in Fuzzy Systems,2011.doi:10.1155/2011/683976.
[4] 王凡,陈健.基于概念相似度计算的多策略本体映射研究[J].计算机技术与发展,2015(4):38-42.
[5] 高蕾娜,史延枫,李艳丹.基于特定领域的加权语义相似度算法研究[J].成都大学学报(自然科学版),2015,34(3):259-261,274.
[6] 刘锋,郭维威.一种优化的基于领域本体语义距离的概念相似度计算模型研究[J].曲阜师范大学学报(自然科学版),2015,41(4):55-59.
[7] RAJPUT Q, HAIDER S. BNOSA: A Bayesian network and ontology based semantic annotation framework[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2011.doi:10.1016/j.websem.2011.04.002.
[8] 李杰,初砚硕,程亮,等.基于疾病本体的疾病相似性计算方法[J].生物化学与生物物理进展,2015,42(2):115-122.
[9] 潘彩霞,薛佳妮,于辉辉,等.基于本体的鱼病诊断专家系统的构建[J].广东农业科学,2015(1):157-160.
[10] 刘景方,邹平,张朋柱,等.一种改进的本体概念语义相似度算法研究[J].武汉理工大学学报,2010,32(20):112-117.
Improvement of Concept Similarity Algorithm Based on Domain Ontology of Forest Diseases and Insect Pests//
Chen Zhifei, Yue Qi, Chen Guangsheng
(Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(9):112-115.
The traditional similarity algorithm based on ontology concept is too dependent on a hierarchy structure, and ignores many factors that affect the semantic similarity between concepts. A different method of calculating the semantic similarity based on the ontology of forest diseases and insect pests was proposed by the introduction of edge weight relationship and semantic correlation. The improved algorithm is more faithful to the experience value of forestry related domain experts than the traditional algorithm, proves the accuracy and effectiveness of the method, and also reflects the complex relationship between the domain ontology concepts.
Semantic similarity; Ontology; Forest diseases and insect pests
陈志飞,男,1990年10月生,东北林业大学信息与计算机工程学院,硕士研究生。E-mail:464138177@qq.com。
陈广胜,东北林业大学信息与计算机工程学院,研究员。E-mail:kjc_chen@163.com。
2015年11月10日。
S763.1;TP399
1)林业公益性行业科研专项经费(201504307)。
责任编辑:程 红。