一种基于本体的测绘图书检索方法

2014-02-08 09:32徐洪秀孙立志樊红
城市勘测 2014年2期
关键词:学科分类中图法权值

徐洪秀,孙立志,樊红

(1.天津市测绘院,天津 300381;2.武汉大学测绘遥感信息工程国家重点实验室,湖北武汉 430079)

1 引言

随着科学技术的迅猛发展,各种测绘科技及相关文献信息资源与日俱增。传统的图书资料检索方法多为全文检索、字段检索、模糊匹配、精确匹配、布尔逻辑检索、限制检索、嵌套检索和邻接检索,这些方法的本质都为基于串匹配方式的检索,都属于关键字检索范畴[1,2]。而关键字检索存在着很多不尽如人意的地方,一方面影响着检索的查全性,如关键字检索会遗漏很多信息,不同的词可以表示相同的意义;另一方面影响着检索的查准性,如返回大量的无关信息,用户通常需要做很多的过滤工作,一个词在不同的语境中有不同的意义[3,4]。武汉大学图书馆等众多大学图书馆仍采用传统关键字检索,且图书分类没有统一,普遍采用中图法和科图法两种分类方法,因此图书资料数据存在着数据源异构,相同的图书资料表示方式不同。本文针对武汉大学图书馆信息科学分馆检索的需求,在测绘图书资料的检索中加入语义技术,在分析图书分类相关领域参考资料的基础上,按照本体构建过程,使用开源本体构建工具Protégé构建测绘学科信息公共本体、测绘学科分类—中图法本体及测绘学科分类—科图法本体;利用Oracle 11g语义技术的存储功能,基于已建立的本体构建测绘学科本体库;实验三种本体映射方法,选择采用最适合的概念名称和层次结构相似度权值组合的本体映射方法来构建测绘学科分类本体映射模型解决数据异构问题;利用Oracle 11g语义技术的查询和推理功能,设计并实现测绘学科图书语义检索原型系统,并对系统进行检索实验,给出检索的查全性和查准性评价。

2 测绘学科本体库构建

2.1 测绘学科相关本体构建

本体作为语义技术的基础,其对信息形式化的表达可以提高信息检索的性能[5],因此测绘学科本体构建是否恰当、标准,会对语义检索起到决定性的作用。通过咨询武汉大学图书馆专家,得出本体构建所依据的参考资料,包括中国图书馆分类法(简称中图法)、中国科学院图书馆图书分类法(简称科图法)及测绘学科叙词表。

分析相关资料并咨询图书馆专家可以得出以下结论:同一种分类法概念间存在着明显的包含关系,例如P2测绘学包含P23摄影测量与遥感;两种分类法概念之间存在着映射关系,例如中图法中的P2测绘学和科图法中的56.1测绘学存在着映射关系;在测绘学科内,学科之间也存在着各种联系,例如P23摄影测量与遥感与P207测量误差与测量平差存在着联系。通过对中图法和科图法分析可知,分类号是学科概念的唯一标识,可将分类号作为概念的属性分别添加到三个本体中;叙词对用户搜索起到一定的指导作用,可以将其按照学科类别添加到测绘学科信息公共本体中;叙词的英文翻译对用户的英文关键字搜索起到作用,可以将其按照学科类别添加到测绘学科信息公共本体中;作者和出版社信息对于语义检索起到一定的辅助作用,可以通过从图书数据中抽取并添加到测绘学科信息公共本体中,推荐给用户使用。

在以上分析的基础上,基于Protégé工具生成测绘学科信息公共本体、测绘学科分类—中图法本体及测绘学科分类—科图法本体。三种本体的类分别来自于相应分类法中的学科概念,本体的层次关系来自于相应分类法中的概念层次关系。

2.2 测绘学科本体库构建

一个语义库只有一个语义数据网络,但一个语义网络可以有多个语义模型,每个语义模型又对应着一个语义表[6,7]。本文以构建的本体为基础,利用Oracle 11g语义技术构建测绘学科本体库。语义模型的构建过程可分为创建存储RDF数据的模型、将Protégé生成的OWL数据规范化和将语义数据载入模型3个步骤[8]。本文按照以上步骤构建支持测绘图书检索的语义网络,该网络包括测绘学科信息公共本体、测绘学科分类—中图法本体及测绘学科分类—科图法本体3个语义模型。

3 测绘学科分类本体映射模型构建

针对图书资料存在着数据源异构问题,本文通过构建中图法和科图法间的本体映射模型来支持测绘图书语义检索,从而提高检索的检全性。通过实现三种本体映射方法并进行实验分析,选择概念名称和层次结构相似度权值组合的本体映射方法来构建本体映射模型。

3.1 本体映射方法实验分析

(1)基于概念名称相似度计算的本体映射方法

通过对测绘学科分类本体元素特征的研究,采用基于概念名称之间的语法相似度作为概念名称的相似度。它在一定程度上反映了概念之间的相似性,可通过类似编辑距离的方法得到[9,10]。首先对本体进行遍历,得到每个本体的概念名称,然后按照编写的字符串匹配算法算出两个概念间的名称汉字交集个数和差集个数,获得相应的深度系数,得到两个概念间的名称相似度,表1中列出几对类名称和相应的相似度结果。

基于概念名称相似度方法构建的本体映射关系结果 表1

(2)基于层次结构的相似度计算的本体映射方法

通过对测绘学科分类本体的研究发现,假如父概念在语义上是相似的,则他们的子概念也很有可能是相似的;如果两个概念具有相同子概念,则这两个概念也很有可能是相似的;如果两个概念具有相同的兄弟概念,则这两个概念也很有可能是相似的。本文在此的基础上采用了以下计算方法来计算层次结构的相似度,如下:

其中,Sim(e1p,e2p)、Simset(e1c,e2c)及 Simset(e1s,e2s)分别表示概念e1和e2的父概念、子概念集及兄弟概念集相似度值,α、β、γ分别表示相应的权重因子。父概念相似度值直接由名称相似度算法计算得到,子概念集及兄弟概念集相似度值则分别通过计算两个集合间的概念相似度值矩阵,并选出n对相似度值最高的概念相似度值的算数平均数作为集合的相似度值,其中n为相应集合中元素个数的最小值。通过式(1)可以看出,两个概念的结构相似度值由上述的相似度值和相应的权值来决定,那么权值选取的适宜性对结构相似度的值有一定的影响。

根据对本体特征元素的分析,可知父概念的权重要大于等于子概念的权重,子概念的权重要大于等于兄弟概念的权重[11,12]。另外3个权值因子的算数和为1[13]。在此原则的基础上,采取不同的权值来做实验分析,根据得到的相似度值大于相应阈值的映射对数目来选择较好的权值组合,本文根据此实验选出较好的3个权值组合,实验结果如表2所示。

层次结构相似度权值实验1 表2

通过分析实验结果可以选取第二组或第三组作为结构相似度的权值组合。但不能仅凭相似度最大的映射对数目多来确定权值组合,也要对映射对正确的数目来进行分析,实验的结果如表3所示。

层次结构相似度权值实验2 表3

综合上面两组实验分析,选择第二组权值组合来计算结构相似度,既能保证得到多并且准确的映射对数目,部分结果如表4所示。

基于层次结构相似度方法构建的本体映射关系结果 表4

(3)概念名称和层次结构相似度权值组合的本体映射方法

对于选用多策略组合进行本体映射的方法来说,权值选取不合适,则会降低单个策略的贡献从而对最终的映射结果造成关键的影响[14,15]。为了保证单个策略的贡献最终反映到综合相似度的结果上,本文采用权值的自适应计算方法,即使用Sigmoid函数来确定最终的综合相似度,公式如下:

式中Adaption为本体适应度,用来反映映射可信度和单一策略可信度对相似度的影响。其中分子表示每种策略的本体适应度与相应的相似度通过相应公式计算的和,分母表示各个策略本体适应度的和。当i取1时,应用的单一策略为名称级,当i取2时,应用的单一策略为结构级。通过动态结合待映射本体的特征和每种映射策略所得的映射数目比重,计算出每种策略的和谐度作为该映射策略的权值,来更加合理地反映各映射策略的表现差异。本文本体适应度的计算是通过对概念名称及层次结构两种策略进行可信度计算,选取适合的阈值获得单一策略的可信度、映射的可信度,再根据它们的贡献因子结合计算求得。在确定阈值及贡献因子参数组合时,采用逐一实验的方法,即选取一个值不变,其他3个值进行变化,将参数值代入公式得出相似度值,取得待映射本体中每个概念的最大相似度值的映射对,并根据人工判断出正确的映射对数目。通过多次实验,将适合测绘学科分类本体的本体映射模型的参数列举在表5中。其中名称级可信度和结构级可信度的值不受参数的影响,名称级映射可信度和结构级映射可信度受名称级阈值和结构级阈值两个参数及名称级可信度和结构级可信度的影响,名称级本体适应度和结构级本体适应度受策略贡献值和映射贡献值及名称级映射可信度和结构级映射可信度值的影响。本文选择最好的第四组参数作为获得测绘学科分类本体的本体映射模型的参数。

策略权值相应参数实验 表5

通过权值自适应计算得到每个待映射本体对的相似度值,对测绘学科分类—中图法本体的每个概念取相似度最大值的映射对作为映射关系,表6中列举了几对类名称和相应的相似度结果,该方法是前面两种方法的综合,所以其兼容了前两种方法的优点,具有较好的映射结果。

基于多策略权值组合方法构建的本体映射关系结果 表6

3.2 模型构建

设计测绘学科本体的本体映射模型算法,首先进行本体特征的提取,分别计算名称和层次结构相似度,采用权值的自适应计算方法,结合计算出的名称和层次结构相似度来计算出综合相似度,通过建立的规则对隐含的映射对进行发掘,对得到的映射对进行映射修正得到最后的测绘学科分类本体的本体映射模型。

由于本体信息不够丰富,根据相似度方法不能发现全部的映射对,可通过制定一些启发式规则来寻求可能的映射对,共制定4条规则,分别是:

(1)如果候选映射对的父结点、子节点以及邻居结点都存在映射关系,则可以认为该候选映射对也存在映射关系;

(2)如果候选映射对的父节点存在映射关系而部分子结点存在映射关系,则可以认为该候选映射对也存在映射关系;

(3)如果候选映射对的父节点不存在映射关系而所有的孩子结点存在映射关系,则可以认为该候选映射对也存在映射关系;

(4)如果候选映射对其中一个概念在另一个本体中没有细分到这层,并且如果它的父节点和该候选映射对的另一个概念为映射关系,则可以认为该候选映射对也存在映射关系。

本文根据实验证明上述规则适合测绘学科分类本体映射模型的构建。根据隐含映射挖掘出的映射对共45对,表7中列举出了部分结果。其中以“专业测绘”为例,其在中图法作为一个类进行编目,但在科图法中并没有分这一层,所以根据规则,其父亲“测绘学”的映射类为“测绘学”,所以将其与其父类的映射类组成映射对。

测绘学科分类本体映射模型-映射对挖掘结果 表7

在找到源本体中的所有映射关系后,还要对这些映射对是否正确进行判断。如果是正确的映射关系,本体间应符合本体自带的类公理,包括类公理sub-Classof、equivalentClass、sameAs 及 disjointWith。通过人工的方法对获得的映射对进行修正,把违背类公理的映射对进行删除。

4 测绘图书语义检索原型系统及实验分析

4.1 语义检索流程

在进行语义检索之前,首先是构建本体映射模型。进入检索模块时,根据学科导航选择中图法分类下的相关学科,通过映射模型自动找到与之映射的科图法分类下的学科名称,并根据学科得出该学科领域里的专家推荐关键词及用户可能感兴趣的作者和出版社信息,再加上用户输入的关键词,这些构成语义检索的条件。用户在进行语义检索时可以自由选择条件并对条件进行组合查询。系统的执行流程如图1所示。

图1 检索执行流程图

4.2 语义检索原型系统实现

测绘学科图书语义检索原型系统,主要实现本体映射模型的构建、图书的语义检索及添加图书和相关语义信息功能。本体映射模型模块实现本体映射模型构建过程中的诸多算法,包括查看本体层次结构,名称概念相似度、本体结构相似度、综合相似度的计算及阈值的实验及查看映射结果。检索功能包括普通检索和语义检索:普通检索选择检索项并输入检索词,通过对关键字匹配进行检索;而语义检索过程为用户首先通过学科导航选择感兴趣的学科,输入感兴趣的关键词和选择专家推荐的关键词及有可能感兴趣的作者和出版社信息,然后进行语义检索,如图2~图4所示。

图2 本体结构相似度在不同权重及阈值下的映射对及相似度计算

图3 综合相似度在不同权重因子及阈值下的映射对及相似度计算

图4 在测绘遥感技术学科下进行语义检索

4.3 检索实验结果分析

本文以武汉大学图书馆信息科学分馆现有图书目录数据为检索数据库,利用测绘学科图书语义检索原型系统进行普通检索和语义检索的实验,分别从查准和查全两方面进行实验分析。

(1)查全分析

根据本体映射模型可以找到中图法本体到科图法本体之间的映射关系,由于测绘学科信息数据库中既有中图法表示的数据,也有科图法表示的数据,如果不建立映射关系,在查询数据时就会丢失一部分数据。例如用户想查询“摄影测量学与测绘遥感”学科下,关键词为“测量”的图书,在未加入本体映射模型进行语义检索,结果共有71条记录。而加入本文所构建的本体映射模型进行语义检索,结果为81条记录。通过查询出的图书目录可知,在测绘学科信息数据库中与关键词“测量”匹配的并且属于“摄影测量学与测绘遥感”学科下的图书有71条记录是由中图法进行分类的,而有10条记录是由科图法进行分类的。由此可见,针对测绘学科信息数据的异构问题,通过本体映射模型可以提高数据的共享性,提高检索的查全性。

(2)查准分析

普通检索是对关键词进行匹配或者多个检索项进行组合匹配查询。语义检索的过程是通过学科导航来选择感兴趣的学科,对学科范围下的数据信息进行初步检索。然后通过选择感兴趣的关键词、作者和出版社信息进一步进行语义检索。相比普通检索,语义检索可以通过准确的定位每个匹配项目从而提高检索的查准性。例如用户想查询属于“摄影测量学与测绘遥感”学科,关键词为“遥感”的图书目录,用普通检索方式对测绘学科信息数据库进行检索,结果为299条图书目录,而用语义检索,则有7条目录。通过查询出的图书目录可知,多出的292条并不属于用户想查询的学科范围内的图书。通过反复实验分析得知,语义检索不仅可以提供专家推荐的关键词、相关学科范围内感兴趣的作者及出版社信息为用户进行组合条件查询提供方便和专业知识的推荐,而且还可以提高检索的准确性。

5 结论

信息通过本体的形式可以让计算机同人一样,理解信息要表达的语义信息,让计算机可以按照人的思维去理解和处理信息,就可以提高检索的查准性和查全性。本文通过构建测绘学科本体库及测绘学科分类本体映射模型来解决图书数据异构问题。通过实现语义检索原型系统,并进行多次检索实验验证语义检索可提高检索的查准性和查全性。本文研究的方法为下一步语义检索拓展到整个测绘科技文献,包括为测绘期刊、测绘成果等及中外多种语言文字提供科学参考。

[1] 胡必云,黄因生.基于语义的Web信息检索[J].计算机技术与发展,2006,16(10):71 ~73.

[2]Berners-Lee T,H.J.L.O.,The Semantic Web[J].Scientific American.2001,284(5).34 ~43.

[3]安杨,边馥苓,关佶红.GIS中地理本体的建立与比较[J].武汉大学学报·信息科学版,2006,31(12):1108~1111.

[4]李霖,朱海红,王红等.基于形式本体的基础地理信息语义分析——以陆地水系要素类为例[J].测绘学报,2008,37(2):230 ~235.

[5]王继东,张瑜,李娜.基于本体的语义检索技术研究与实现[J].计算机技术与发展,2009,19(10):134~137.

[6]Zhe Wu,George Eadon,Souripriya Das,Eugene Inseok Chong,Vladimir Kolovski,Melliyal Annamalai,Jagannathan Srinivasan.Implementing an Inference Engine for RDFS/OWL Constructs and User-Defined Rules in Oracle[A].In:2008 IEEE 24th International Conference on Data Engineering[C].Cancun,Mexico,2008:1239 ~1242.

[7]刘纪平,栗斌,石丽红等.一种本体驱动的地理空间事件相关信息自动检索方法[J].测绘学报,2011,40(4):502 ~508.

[8]SPARQL Query Language for RDF.W3C Recommendation 15 January 2008[DB/OL].http://www.w3.org/TR/rdfsparql-query/#introduction.

[9]曹泽文,钱杰,张维明等.一种综合的概念相似度计算方法[J].计算机科学,2007,34(3):174 ~175,191.

[10]M.Ehrig,Y Sure.Ontology Mapping-An lntergrated Approach.In Proceedings of lst European Semantic Web Symposium[J].Heraklion,Greece,Springer,LNCS.2004(5):10~12.

[11]Alexander Maedche,Boris Motile,Nuno Silva,Raphael Volz.MAFRA-A Mapping Framework for Distributed Ontologies[A].13thInternational conference,EKAW2002,guenza,Spain,October 1-4,2002.Proceedings Volume 2473/2002:235.

[12]A Rodriguez,M Egehofer Determining Semantic Similarity Among Entity Classes from Different Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(2):442~456.

[13]Giunhiglia F,Shvaiko P,Yatskevich M.Semantics schema matching[R].Trento:University of Trento,2005.

[14]J.Euzenat and P.Valtchev.An integrative proximity measure for ontology alignment.In:Proceedings of the Semantic Integration workshop at the International Semantic Web Conference,2003:66 ~71.

[15]Mitra.P,Wiederhold.G,Kersten.M .A Graph-Oriented Model for articulation of Ontology Interdependencies[J].

猜你喜欢
学科分类中图法权值
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
高校二级学院科研管理模式研究
基于权值动量的RBM加速学习算法研究
审计学成为一级学科可行性研究
基于多维度特征权值动态更新的用户推荐模型研究
中医药信息学教育发展历程回顾与学科发展现状分析
基于学科分类下的交互式电子白板设备应用绩效评价
知识图谱视角下《中国图书馆分类法》研究演进与思考
《中图法》与《中分表》修订信息(连载3)