基于面本体的情境搜索研究

2013-07-11 09:36周竹荣
计算机工程与应用 2013年5期
关键词:本体文档语义

王 敏,周竹荣

西南大学 计算机与信息科学学院 计算机科学与技术系,重庆 400715

基于面本体的情境搜索研究

王 敏,周竹荣

西南大学 计算机与信息科学学院 计算机科学与技术系,重庆 400715

搜索引擎从1994年第一次被提出以来,经历了几代的发展,从简单的关键字匹配技术,发展到了广泛使用链接分析和相关度反馈等技术[1]。当前的搜索引擎发展趋势是增加搜索结果的覆盖面和提高用户的相关度。

目前已有将用户情境引入信息搜索的研究,这些研究的目标是从某一特定方面反映用户当前情境,从而贴近用户需求。常用的方法通常是按领域进行分类搜索,或者通过对用户的浏览历史进行用户的特征分析来表示用户情境等。但是,当前的情景搜索研究,还不能够充分考虑用户的当前状态,全面体现用户的即时情境信息,同时搜索的查全率和查准率都有待提高。为了解决这些问题,本文提出了基于面本体的情境搜索,将用户的搜索过程与用户当前情境关联起来。根据情境本体对用户输入的关键词进行语义扩展,生成相应的搜索本体。通过面本体标注各类异构文档,最后利用洪泛相似度算法进行搜索本体与面本体的本体匹配,从而实现情境搜索。本文的工作可以较全面地利用用户的当前情境信息,从各个“面”,返回用户情境相关联的搜索结果。

1 相关研究

目前,国内已经有把情境因素应用于信息搜索的尝试,比如腾讯公司推出的腾讯搜搜,它认为情境搜索是综合考虑用户情境的一种智能化搜索[2]。通过对用户意图的深入理解,在用户使用互联网服务的各种场景下提供给用户的最贴切的搜索服务,强调“以人为本”,也就是以用户为中心,根据其搜索行为的时间、地点、输入、需求、习惯、背景等因素,通过情境匹配得到最适合的搜索结果,再将这一结果通过用户的搜索情境因时因地地呈现给用户。腾讯搜搜采用的技术主要是针对庞大的用户数据进行海量的Hidden Web数据挖掘,通过庞大的用户关联来表示用户情境。

同时,国外已经出现了基于情境因素的信息搜索研究,只是每种研究对情境的定义与表示都是不一样的。Lawrence[3]通过用户选择搜索信息的类别,把详细的信息

CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0939.028.html分类作为情境信息提交给搜索引擎,返回的结果跟提交的信息密切相关。另外一些工具通过自动地分析用户桌面上的文档,将用户常用的文档内容生成情境信息提交给搜索引擎[4]。还有一种方法是将用户之前的浏览信息和历史操作作为用户的情境数据,根据用户的浏览与操作习惯,通过一种个性化定制的方法来搜索信息[5]。此外,还有一些常用的方法是通过链接分析[6]或者启发式搜索[7]来表示用户的情境信息。与这些方法不同的是,本文使用本体来表示用户的情境信息,本体拥有良好的概念层次结构,能够支持逻辑推理,非常适合信息检索中的基于要领的检索的需求。

2 基于面本体的情境搜索模型

2.1 总体思想

在信息搜索中,用户输入的查询信息往往是未经语法和语义规范化处理的关键词,由于这些查询词语有多义性和片面性,它们不能准确表达出用户的搜索需求,所以需要对用户输入用来查询的关键词进行语义扩展。语义扩展技术是在原来查询的基础上加入与用户用词相关联的词,组成新的更长的,语义上更准确的查询词,这样可以在一定程度上弥补用户查询信息不足的缺陷。

情境是对当前环境持续变化的状态表示,这种环境既包括用户环境,也有当前搜索的物理环境和计算环境,因此,基于情境对用户查询关键词进行语义扩展能更贴近用户基于自身环境的需求。情境可以用面来表示,因为面是一种表达领域知识的元数据,通过面将领域知识的整体信息分解为含有具体意义的部分信息,生成面本体,使领域知识的表达更为体系化,结构化。因此,提出一种基于面本体的情境搜索模型(Faceted Ontology-based Context Search,FOCS),FOCS模型结构如图1所示。

图1 基于面本体的情境搜索

FOCS模型的总体思想是:首先构建情境本体,利用情境本体对用户输入的查询词进行语义扩展,生成与当前用户情境相关联的搜索本体,再通过标注各类异构文档形成基于不同领域的面本体;然后搜索本体与面本体通过相似度洪泛算法进行本体匹配,在面本体中匹配出与搜索本体最相似的面本体的子本体,最后通过相关函数将子本体转换成由标题,日期,链接,内容这几个关键字段组成的数据信息,形成搜索结果,返回给用户。本文主要的研究重点是在情境本体和面本体的基础上构造情境搜索模型,由于将本体转换为数据信息的技术比较成熟,这部分内容本文不作详细介绍。

2.2 相关定义

2.2.1 情境搜索

定义1(情境搜索(Faceted Ontology-based Context Search,FOCS))基于面本体的情境搜索可抽象为四元组的概念模型,表示为FOCS=<SO,FO,UI,map(SO,FO),res(RO,Doc)>。

SO表示搜索本体,是由用户输入的查询关键词通过情境本体进行语义扩展生成;FO表示相关领域的面本体,通过文档标注生成;情境本体和面本体都是领域本体。UI是用户接口,它的作用是通过函数Vq:INquery→RCsetin将用户输入的关键词进行语义扩展生成相应的搜索本体;map(SO,FO)是匹配搜索本体和面本体的相似度洪泛映射,通过map(SO,FO)实现本体匹配;res(RO,Doc)函数将匹配的结果本体转换成相应的数据信息,形成搜索结果,返回给用户。

2.2.2 领域本体

领域本体是用于描述特定领域知识的一种专门本体,它由概念,属性,对象,关系和子领域本体组成。本文对领域本体的形式化定义如下。

定义2(领域本体(Domain Ontology,DO))表示为一个五元组,即DO=<C,Ac,Hc,R,f>。

其中,C={c1,c2,…,cn}表示特定领域概念集合;Ac表示概念属性的集合;Hc(Arc)⊆C×C是一个有向关系,表示为一个有向无环图;R表示概念之间的非层次关系;f表示概念的实例集合。

下文定义的面本体和情境本体是领域本体的实例化表示,本身属于自身特定领域的一种领域本体。面本体用来规范不同领域的搜索数据,情境本体用来规范用户的情境信息数据。面本体可以包含情境本体,情境本体是面本体的子集,可以通过本体匹配来筛选取出面本体中与由情境本体扩展形成的搜索本体最相似的部分,以此来实现情境搜索。

2.2.3 面本体

在面搜索里,各个不同领域的文档信息以面为单位被标注,文档根据不同的面,按概念的层次结构进行分类,通过与不同的领域本体进行索引形成相关领域的面本体,在基于共享一系列面本体的基础上,系统能语义的搜索信息,提供给用户更智能的搜索内容。

定义3(面(Facets,FS))一种为信息空间定义的可供选择的,可按相应概念进行层次划分的元数据。对于每一个领域,可按以下五个面进行划分[8],即,领域(Discipline),实体(Entity),性质(Property),活动(Action),修正(Modifier)。

图2 计算机领域的面本体

定义4(面本体(Facet Ontology,FO))领域本体的实例化表示,将事物的各个面按概念层次进行表示的数据模型。面本体的形式化定义为:FO={FC,Ac,Hc,R,f}。FC表示在领域,实体,性质,活动,修正五个面上相应的概念。图2表示了一个计算机领域的面本体。

2.2.4 情境本体

情境表示对可执行环境持续变化的状态表示,可执行环境包括计算环境,用户环境和物理环境。情境需要表明的信息需要符合一个4W1H原则,即谁(Who),时间(When),地点(Where),内容(What),方式(How)。本文对情境的定义如下:

定义5(情境(Context))用来描述一个实体特征的相关信息,基本的属性有四个,位置,身份,活动,时间。这四个属性是对特定情境实体的一种初始化特征描述属性,这些属性不仅符合了4W1H原则,同时也提供了其他情境信息的线索。

定义6(情境本体(Context Ontology))领域本体的一种实例化,表示与之相关联的事情的各种层次分类,包括当前的场景,事件,社会等。其形式化定义为:CO={CC,Ac,Hc,R,f},其中CC={cc1,cc2,…,ccn}表示各个情境的概念集合。

情境本体[9]可以分为上层本体(Upper Ontology)和特定领域本体(Domain-Specific Ontologies)。上层本体是一个高层本体,描述了基本情境属性的通用特征,包括位置,身份,活动,时间。特定领域本体是一个本体集,定义了相关子领域的通用概念和特征。情境本体的通用描述图和一个具体的情境本体描述图如图3、图4所示。

2.3 关键算法

2.3.1 基于情境本体的语义扩展算法

定义7(用户接口(User Interface,UI))用二元组表示UI=<INquery,vq:INquery→Csetin>。

将用户输入的查询关键词通过情境本体进行语义扩展是情境搜索的一个重要步骤,在FOCS模型中用函数vq:INquery→RCsetin来实现语义扩展。INquery表示用户输入的查询词。vq表示用户需求生成函数,将用户输入的查询词,通过情境本体进行语义扩展生成相应的搜索本体。

图3 情境本体的通用描述图

图4 具体的情境本体

本文所提出的基于情境本体的语义扩展就是建立在利用子类关系进行扩展的方法之上的,其基本思想是利用本体中的路径来进行用户查询的扩展,本文所用到的本体是一种表示情境概念的领域本体,它能够充分地表达出用户的角色,环境等当前的情境信息。情境本体作为情境概念的组织方式,概念之间的关系主要是层次关系,可以把情境本体通过IMO规格转换成相应的情境图。上下层次关系与平行层次关系用情境图来表示即父子关系和兄弟关系,语义扩展可以从上下层次或平行层次进行扩展,用情境图来表示即是从父节点,孩子节点,兄弟节点进行扩展。

本文基于情境本体的语义扩展算法(Context Ontologybased Semantic Expansion,COSE),以用户输入的关键词为基本节点,通过情境图进行相应的兄弟节点,父节点,孩子节点的扩展。为了控制扩展范围可以参照文献[10],定义语义集合SRC(c,r),SRP(c,r),SRS(c,r),分别表示情境图中孩子概念集合,父概念集合和兄弟概念集合,其中语义半径r(r>1),表示概念与其相关概念之间的距离,c∈A表示待扩展的语义概念。

基于情境本体的语义扩展算法(COSE):

2.3.2 基于本体映射的情境搜索算法

在本文中,搜索本体映射面本体的基本思想是,将搜索本体和面本体通过IMO规格转换成为相应的有向无环图,称为搜索图和面图。搜索图中的每一个元素映射其在面图中最相似的子图,搜索本体到面本体的映射就转换成了搜索图在面图中获得最佳的子图的图匹配问题。

Melnik等人在2002年的时候,提出了一种多功能的图匹配算法SF[11]。该方法的基本思想是将要匹配的模型转换为带标记的有向图,这些图用来做迭代不动点计算,由计算结果可知一个图里的哪些节点和另一个图的节点相似。相似度的计算的基本思想为:如果两个节点是相似的,当它们的邻接元素也是相似的。两个元素的相似性部分传播给了它们的邻居,这种传播方式类似于IP广播。在FOCS模型中,假设有搜索本体S1,面本体S2,首先将S1和S2转换成相应的搜索图G1和面图G2,图中的每条边,用一个三元组表示(s,p,o),分别是 源点,边名,目的点。

定义8(相似度传播图(Pairwise Connectivity Graph,PCG))由搜索图和面图中具有相同权值的边的节点组成的新的节点的有向图。用三元组((x;y);p;(x′;y′))表示。其中,PCG(A;B)<==>(x;p;x′) €A and(y;p;y′) €B。关键是p要相同。

如图5所示,模型A、B从两个有向图中建立起它们的PCG。图中的每个节点,都是A和B中的元素构成的2元组,叫做匹配对(map pairs)。

图5 相似度传播图

定义9(传播推导图(Induced Propagation Graph,IPG))从PCG推导而来,加上了反向的边,边上注明了传播系数(Transmission Coefficient,TC),其值为1/n,n为相应的相同权值的边的数目,如图6所示。

图6 传播推导图

定义10(映射对)经过相似度洪泛计算后的匹配对的结果称作映射对(mapping),记作ó(x;y), 其值大于0,代表了节点x∈A和y∈B的相似度,是在整个A×B的范围上定义的。

相似度的计算就是基于ó-values的迭代计算。假设ói代表了第i次迭代后的结果,ó0代表初始相似度,由初始匹配的字符串相似度得出,通常与情境本体所在的领域相关。在下面的例子里,设ó0=1。每次迭代中,ó-values都会根据其邻居节点对的ó-values乘以相应节点对的传播系数来增加。例如,在第一次迭代ó1(a1;b1)=ó0(a1;b1)+ ó0(a;b) ×0.5=1.5。类似地,ó1(a,b)=ó0(a,b)+ó0(a1;b1)× 1.0+ó0(a2,b1)×1.0=3.0。接下来,所有ó值进行正规化,比如除以当前迭代的ó的最大值,保证所有ó都不大于1。所以在正规化以后,ó1(a;b)=1.0,ó1(a1,b1)=1.5/3.0=0.5。

本文提出的情境搜索模型用面本体标注各类异构文档,因此,基于上面相似度洪泛的计算过程,给出一个基于面本体的相似度洪泛算法(Faceted Ontology-based SFJoin,FOSFJohin),算法的输入是由搜索本体和面本体,搜索本体属于面本体。算法的输出是由映射对表示的结果本体,结果本体是面本体中与搜索本体最相似的部分,是面本体的子集。基于面本体的相似度洪泛算法表示如下:

3 实验

本文提出的基于面本体的情境搜索模型(FOCS)用一个中等规模的数据集在一个实验性的原形系统里实现。为了测试加入情境因素的基于本体的信息搜索系统与没有相关技术的信息搜索系统的差异,用下面三种信息搜索的技术来进行比较:(1)通用的使用关键字匹配的信息搜索;(2)使用本体作为知识表示的信息搜索[12];(3)加入了情境因素的使用本体作为知识表示的信息搜索(FOCS)。

实验采用从CNN科技频道下载的相关电子文档进行测试,用Ontotext实验室开发的基于KIM平台[13]的本体知识库(Knowledge Base,KB)提供的领域本体对CNN科技频道的数据进行标注,该领域KB包含278个类,131种属性,34 689个实例和462 848个句子,总共包括705 MB的RDF文本格式。在一个原型系统上进行实验[14]。采用信息检索领域广泛使用的查准率(Precision)和查全率(Recall)来评价实验结果。

查准率=检索到的相关文档数/检索到的全部文档数

查全率=检索到的相关文档数/系统全部相关文档数

在基于KIM平台的基础上,用七组假设的数据进行检测,结果对比如表1示。

表1 关键字搜索法,本体模型搜索与FOCS比较

表1展示了七个关键词分别输入关键字搜索,本体模型搜索与FOCS模型得出的查全率与查准率,三个信息搜索系统的查全率与查准率对比如图7,图8所示。

图7 关键字搜索,本体模型搜索与FOCS模型的查准率对比图

图8 关键字搜索,本体模型搜索与FOCS模型的查全率对比图

从实验结果生成的表与图提供的分析数据可以看出,较之于传统的关键字匹配的搜索,采用了本体作为知识表示的信息搜索系统,不仅规范了用户的查询输入,还能识别检索语义,因此,采用本体作为知识表示的搜索模型较于仅用关键字匹配的搜索模型,可以提高用户搜索的查准率与查全率。

本文所提出的FOCS模型在户接口部分增加了基于情境本体的语义扩展,在搜索过程中,FOCS模型用面本体进行异构文档标注,使用面本体与搜索本体进行本体匹配,更全面,更准确地汇集了相关的信息数据。因此FOCS模型比仅用本体作为知识表示的信息搜索系统的查准率更高。

4 结束语

本文将本体技术融合到信息检索中,首先利用情境本体中的概念词汇,对用户在客户端输入的关键词进行语义扩展,规范用户自然语言的查询输入,提取有检索意义的概念词组;同时,利用情境本体中定义的概念关系来识别和扩展用户检索的语义,将其与用户特定的情境信息相关联。其次将异构数据库中的文档按领域进行标注生成相应的面本体,规范了数据库的信息表示;最终通过本体匹配从用户的情境角度,返回用户的查询信息,实现情境搜索。

[1]Sherman C.Inkomi inside[EB/OL].[2010-08-15].Http://websearch.about.com.

[2]孙良.用情境搜索开启未来之路[J].程序员,2010(3).

[3]Lawrence S.Context in web search:data engineering[J].IEEE Computer Society,2000,23(9):25-32.

[4]Duda R O,Hart P E.Patter classification and scene analysis[M]. New York:John Wiley and Sons,1973.

[5]Bharat K.SearchPad:explicit capture of search context to support web search[C]//Proceedings of the 9th International World Wide Web Conference.Amsterdam:[s.n.],2000.

[6]Sherman C.Link building strategies[EB/OL].[2010-08-15].http:// websearch.about.com.

[7]Finkelstein L,Gabrilovich E,Matias Y,et al.Placing search in context:the concept revisited[C]//Proceedings of the 10th International World Wide Web Conference.Hong Kong:[s.n.],2001.

[8]Giunchiglia F,Dutta B.Faceted lightweight ontologies[D]. Italy:University of Trento,2009.

[9]Gu T.An ontology-based context model in intelligent environments[C]//Proc Communication Networks and Distributed Systems Modeling and Simulation Conf.San Diego,California,USA:[s.n.],2004.

[10]张磊.基于语义Ontology聚类研究[J].应用科学学报,2007,25 (1):74-80.

[11]Giunchiglia F,Shvaiko P.Semantic matching[J].Knowledge Engineering Review Journal,2004,18(3):265-280.

[12]Vallet D,Fernandez M.An ontology-based information retrieval model[C]//2nd European Semantic Web Conference (ESWC 2005).Berlin:Springer-Verlag,2005:455-470.

[13]Kiryakov A,Popov B.Semantic annotation,indexing,and retrieval[J].Journal of Web Semantic,2004,2(1):47-49.

[14]Castells P,Fernandez M.Self-tuning personalized information retrieval in an ontology-based framework[C]//1st International Workshop on Web Semantics(SWWS2005).Berlin:Springer-Verlag,2005:977-986.

WANG Min,ZHOU Zhurong

Department of Computer Science and Technology,Institute of Computer and Information Science,Southwest University, Chongqing 400715,China

This paper describes a new model based on the faceted-ontology,FOCS,for performing search in context.In the model, the keywords inputted by users are semantic expansion by context-ontology and the related search-ontology is produced.And it annotates all kinds of heterogeneous documents by faceted-ontology.The realization of context search is mapping search-ontology and faceted-ontology by the similarity flooding algorithm.The experimental results show the FOCS is better than the traditional search in the facets of recall and precision.

faceted ontology;context ontology;context search;similarity flooding algorithm

为了将用户的搜索过程与用户当前情境相关联,提出一种基于面本体的情境搜索模型(Faceted Ontology-based Context Search,FOCS)。FOCS根据情境本体对用户输入的关键字进行语义扩展,生成相应的搜索本体。通过面本体标注各类异构文档,利用洪泛相似度算法进行搜索本体与面本体的本体匹配,实现情境搜索。实验结果表明,提出的方法应用于搜索引擎,与传统的信息搜索比较,具有更好的查全率与查准率。

面本体;情境本体;情境搜索;相似度洪泛算法

A

TP391

10.3778/j.issn.1002-8331.1107-0474

WANG Min,ZHOU Zhurong.Context search based on faceted ontology.Computer Engineering and Applications,2013, 49(5):127-131.

王敏(1987—),女,硕士研究生,主要研究方向:语义网与面向服务计算;周竹荣(1970—),男,博士,副教授,硕士生导师,主要研究方向:语义网与面向服务计算。E-mail:creaking@swu.edu.cn

2011-07-25

2011-10-19

1002-8331(2013)05-0127-05

猜你喜欢
本体文档语义
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
语言与语义
基于本体的机械产品工艺知识表示
基于RI码计算的Word复制文档鉴别
“上”与“下”语义的不对称性及其认知阐释
《我应该感到自豪才对》的本体性教学内容及启示
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
认知范畴模糊与语义模糊
专题