基于临床领域本体的语义信息检索模型研究

2016-06-13 03:03蒋秀林朱文婕谢静陈玉娥
常州工学院学报 2016年2期
关键词:查全率查准率

蒋秀林,朱文婕,谢静,陈玉娥

(蚌埠医学院公共课程部,安徽蚌埠233000)



基于临床领域本体的语义信息检索模型研究

蒋秀林,朱文婕,谢静,陈玉娥

(蚌埠医学院公共课程部,安徽蚌埠233000)

摘要:传统的基于关键词和关键词向量空间的检索模型在查全率和查准率上效率较低,在临床领域本体的基础上,通过分析和讨论了改进的概念间语义相似度和相关度混合计算方法,提出基于临床领域本体的语义信息检索模型。实验结果表明,该混合计算方法是可行性的,能有效提高语义信息检索模型的查准率。

关键词:临床领域本体;语义相似度计算;信息检索模型;查全率;查准率

1概述

在网络技术和信息技术飞速发展的今天,信息资源飞速增长,用户更多关注的是如何在海量的信息资源中快速高效地获取所需要的知识。传统的Web服务是通过关键字或关键字向量的相似度匹配来实现的,但缺乏语义关系,导致查全率和查准率不高[1]。随着领域本体概念的引入和语义Web技术的发展,大大提升了服务信息的语义表达能力,且大大提高了检索系统的查全率和查准率。

在医疗领域,语义相似度和语义相关度计算不仅可以提高检索医学信息资源的性能,还可以有效地促进异构临床知识的集成。目前国内外已有大量的研究成果是关于概念间语义相似度和相关度计算的,这些成果中基于本体的语义相似度计算的方法主要分为基于语义距离的计算方法[2]、基于信息量的计算方法[3]、混合计算方法[4]3种,其中:第1种方法简单直观,但只考虑语义距离,比较片面;第2种方法具有较高的理论严谨性,但依赖于语料库的选择;第3种方法考虑因素较全面,但计算公式复杂,计算效率会降低。

针对上述情况,本文提出一种基于医学领域本体的改进的语义相似度和相关度混合计算方法,并应用在语义信息检索模型中。

2基于临床医学本体的语义信息检索模型构建

2.1医学本体的概念

领域本体(domain ontology)是专业性的本体,描述的是特定领域中概念和概念之间的关系,提供了某个专业学科领域中概念的词表及概念间的关系,并研究如何定义特定领域中的概念、概念之间的关系、发生活动以及该领域的主要理论和基本原理[5]。

文中采用本体层次树结构描述医学本体的概念体系,在层次树中结点表示医学本体中的概念,边表示医学本体中概念与概念之间的关系。采用Protégé工具编辑医学本体,用OWL语言描述。鉴于实际使用的医学领域本体的复杂性,文中给出一个简单的医学本体实例,如图1所示。

图1 医学本体片段实例

2.2改进的语义相似度和相关度混合计算方法

2.2.1基于语义距离的相似度计算方法

在本体层次结构树中,概念间的相似度与概念在树结构中的距离有关。刘群等就认为,如果2个概念间的语义距离越大,相似度就越低,反之则越高[6-8]。

表1给出语义相似度计算的基本性质,用Sim(a,b)表示概念a和概念b之间的相似度。

表1 语义相似度计算规则

在本体层次树中,假设边的权值记作1,概念a所在结点到概念b所在结点的层次深度为h,概念a到概念b的语义距离为2个结点间所有连通路径中最短路径的边的权重之和,记作dis(a,b)。对传统的语义距离计算进行扩展,给出改进的基于语义距离的语义相似度计算公式,如式(1)所示。

(1)

式中α、β为调节因子。

2.2.2概念间的语义相关性

相似性是相关性的一个特殊方面,它仅说明2个概念在某些特殊方面有一定的重合,度量概念间语义关系的另一个重要指标是语义相关度。一般用2个概念在同一语境中共同出现的可能性来衡量,取值在[0,1]之间。例如图1中的“rhododendrondauricum”和“chronicbronchitis”相似度非常低,但相关度非常高,“rhododendrondauricum”是治疗“chronicbronchitis”的药物之一。

文献[6-7]中指出在本体层次结构树中,除了概念间的上下位关系外,还有概念间的关联关系,而关联关系通过最短路径来描述,描述关联关系的路径比上下位关系的路径要短。假设用minPath(a,b)表示概念a到概念b所经历的最短路径长度,则概念a和概念b的语义相关度计算公式如下

(2)

式中φ为可调节因子,为提高计算效率,设定φ=1。当概念a和概念b不存在关联时,minPath(a,b)为∝,Rel(a,b)=0。

2.2.3混合计算公式

结合式(1)和式(2),给出改进的混合计算公式,即

SimRel(a,b)=θ1Sim(a,b)+θ2Rel(a,b)-Sim(a,b)×Rel(a,b)

(3)

式中θ1、θ2为调节因子,本文中为提高计算效率,均设定为1。

2.3语义信息检索模型构建

在临床医疗信息检索系统中,信息检索的效率决定着医护工作人员的工作效率,为降低知识匹配的复杂性及规模,提高知识匹配的效率,本文中使用双层知识匹配模型。首先,对用户检索的条件进行分词处理,并用医学本体(OWL语言)进行描述。其次,采用模型中的第1层OWL-S进行语义解析,得到检索条件的语义知识,再通过推理机进行语义推理(不属于本文研究的内容),过滤掉不符合条件的知识本体。最后,采用第2层匹配进行精确过滤,对第1层匹配的结果和医学本体库中的知识,使用混合语义相似度计算方法进行相似度计算,并对计算的结果进行排序,返回给医护人员选择。语义信息检索模型如图2所示。

图2 语义信息检索模型

3实验分析和结果

在图1所示的简单医学本体中,取部分概念按照综合式(3)进行语义相似度计算,并将结果与医学领域专家分析的结果进行对比。为提高计算效率,设定式(1)~(3)中的调节因子α、β、φ均为1,得到实验结果如表2所示。

表2 部分临床医学概念语义相似度综合计算结果及对比

由表2可知,语义路径的深度、语义概念间的距离以及语义概念之间的相关度对语义相似度的影响和现实中的临床领域情况相符合。在未引入综合计算公式时,chronic bronchitis和bronchus 的相似度值0.148 6,远小于human body和bronchus 2个概念的相似度值0.473 2,显然这不符合临床领域的实际情况。因此,引入综合计算公式意义重大,且计算结果与实际领域较接近。

上述实验得到的数据将存放在知识库中,在检索临床信息时,根据输入的数据和查询阈值检索出符合要求的词表,并按照词的权值大小进行排序,存储到知识库中,为临床信息检索提供依据,从而提高系统的查准率。本文以江苏省某医院临床信息管理系统为实践背景,试验选取了项目组成员和5位临床科室的工作人员测试了1周。从实验数据中选取了部分记录(3 106条结果)计算和分析了基于语义距离的计算方法[9]、基于信息量的计算方法、混合计算方法[10]以及本文中的计算方法在该系统中的检索覆盖范围(查准率),如图3所示。

图3 4种计算方法的查准率比较

4结语

本文在传统的相似度计算公式中引入语义距离、语义最短路径和语义相关度,得到一个综合计算语义相似度的计算机公式,并将该公式应用于语义信息检索模型中。通过实验验证了该计算方法的可行性和有效性,并验证了本文中的语义信息检索模型在查准率上有了一定的提高。一个好的信息检索模型不仅要有高的查准率,还要有高的查全率,因此今后还需在查全率方面进行进一步的研究。

[参考文献]

[1]HECHMANN D,BRANDHERM B,SCHMITZ M,et al.Gumo:The general user model ontology[C]//International Conference on User Modeling.Springer-Verlag,2005:428-432.

[2]徐德智,吴庆军,陈建三,等.一种基于概念信息量的相似度传播算法[J].计算机科学,2009(36):174-178.

[3]黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463.

[4]RESNIK P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the 14th International Joint Conference on Artifical Intelligence.Montreal:Mogan Kaufmann,1995.

[5]蒋秀林,谢强,丁秋林.基于领域本体的用户模型的研究[J].计算机应用研究,2012(2):606-608.

[6]刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002,7(2):59-76.

[7]张艳霞,张英俊,潘理虎,等.一种改进的概念语义相似度计算方法[J].计算机工程,2012(12):176-178.

[8]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012(2):8-13.

[9]CASTELLS P,FERNANDEZ M,VALLET D.An adaptation of the vector-space model for ontology-based lnformation retrieval[J].Knowledge & Data Engineering IEEE Transactions on,2007,19(2):261-272.

[10]LI Zhaolong,DU Junping.A conceptual semantic similarity calculation model based on tourism domain ontology[C]// 31st Chinese Control Conference.Hefei:IEEE CPP,2012:3863-3868.

责任编辑:陈亮

Semantic Information Retrieval Model Based on Clinical Domain Ontology

JIANG Xiulin,ZHU Wenjie,XIE Jing,CHEN Yu′e

(Department of Public Curriculum,Bengbu Medical College,Bengbu 233000)

Abstract:The traditional retrieval model based on keywords and keyword vector space has a low efficiency in terms of recall and precision ratios.On the basis of the clinical domain ontology,the paper has analyzed and improved the computing methods of correlation between concepts and hybrid correlation.The paper also proposes a semantic information retrieval model based on clinical domain ontology.The experimental results show the feasibility of the method proposed,and it has effectively improved the efficiency of semantic information retrieval model in recall and precision ratios.

Key words:clinical domain ontology;semantic similarity calculation;information retrieval model;recall ratio;precision ratio

doi:10.3969/j.issn.1671- 0436.2016.02.010

收稿日期:2016- 01-13

基金项目:安徽省教育厅高等学校省级质量工程项目(2014jyxm208);蚌埠医学院科研项目(Byky1306;Byky1305)

作者简介:蒋秀林(1987—),女,硕士,助教。

中图分类号:TP391

文献标志码:A

文章编号:1671- 0436(2016)02- 0043- 04

猜你喜欢
查全率查准率
基于颜色网络图像检索方法设计及应用探讨
海量图书馆档案信息的快速检索方法
中国最具影响力的综合搜索引擎比较研究
基于数据挖掘技术的网络信息过滤系统设计
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
基于颜色特征的生猪口蹄疫监测方法研究
基于Web的概念属性抽取的研究