基于本体的旅游产品映射的应用研究

2015-09-26 02:02王卫东张琳
现代计算机 2015年17期
关键词:实例本体概念

王卫东,张琳

(上海海事大学,上海 262500)

基于本体的旅游产品映射的应用研究

王卫东,张琳

(上海海事大学,上海262500)

0 引言

近年来,线下旅游与线上旅游相互交融旅游行业信息大量分散的遍布在网络中,使得传统的旅游行业也得到了快速的发展。"传统+联网”模式的飞速发展,随着阿里去啊、上海真旅、去哪儿、不夜城、美团及中国旅游信息网等旅游门户网站的不断发展,通过在各大旅游网站上进行需求搜索成为旅客获得旅游信息的主体方式。然而大量网站在信息构建都是基于传统的方式,已有的信息无法很好地实现共享和重用,计算机无法智能地识别网络中的信息使得用户在搜索旅游信息时不易及时找到自己想要的信息。由于本体论在解决信息交互和共享方面具有明显的优势,本体相关技术在实现旅游信息共享和重用方面也得到的大量研究者的重视。

1 本体

本体(ontology)最初是指对事物本质研究的一种存在论,在计算机中用来表示将信息形式概念化的,用来表示领域知识中对象,概念和和各个实体间的关系[1]。随着互联网时代的到来和不断成长,本体己有由原来的哲学领域知识运用到计算机领域来领域如人工智能、电子工程、远程教育、电子商务等。本体论在信息领域一直没有一个明确的规定,比较有代表的是Borst指出的:“本体是共享概念模型的形式化规范的说明”[2]。这个定义从以下四个方面来完善了本体在计算机科学领域的定义[3]:

①概念模型(Conceptualization):通过抽象出客观世界中事物具有的共同特征得到的一些抽象模型,概念模型表达的信息和实际的状态信息有直接的关联。

②明确化(Explicit):所使用的概念信息都具有明确的约束和完备性。

③形式化(Formal):本体化的信息能被计算机智能化获取和处理。

④共享(Share):本体化得到的信息是可以被相关领域人士所认可的,可实现重用的。

(1)旅游业为游客提供旅程中的各种服务,随着生活质量的不断提高,人们对于旅游要求的多样性和各大旅游网站针对个性化旅游路线的推出,这些服务涉及到不同行业。通过在网络上搜索和“2014-2018年中国网上旅行预订行业未来发展及投资研究报告”得到,旅游本体大概可以分为如下几类:旅行路线、旅客概况,住宿、交通、饮食、景点、购物等,旅游本体库如图1:

图1 旅游本体库

2 本体映射

在构建本体过程中不同的时刻有着不同的需求,导致在相同领域内存在许多构建在不同技术上的本体。由此导致了在同一个领域中存在多个本体的现象,使得在实现不同本体间相互重用产生许多问题[4]:(1)用不同的名称代表相同意义的信息,即同义异音,以及不同含义的信息用相同的名称来表示,即同音异义;(2)在构建本体时不同的本体表达形式,造成本体数据的冲突;(3)不同的需求导致在创建本体是导致不同本体的层次冲突。

为了实现异构本体间的复用,在解决上述提到的三个导致不同本体冲突问题主要采用以下三种方法[5]:

(l)在异构本体间建立从属关系,使得源本体包含目标本体。这种方法的缺点是在修改源本体信息后需要重新建立从属关系。

(2)将源本体和目标本体进行合成形成一个大型的公用本体,但是由于不同本体技术构建得到的本体不一样使得合成后的本体实用性差,而且不宜于修改和维护。

(3)在异构本体间通过相似度计算的桥梁实现异构本体的映射,实现源本体到目标本体的转换。

本体映射是一种常用的解决本体异构的方法。在旅游本体中对于不同时间不同地点等要求本体需要对应的修改,将异构本体进行合成使得合成后的大型本体不宜于修改和维护,所以基于相似度计算实现本体间重用是一种相对较好的方式。在本体映射相似度计算过程中,不同领域的本体有着不同的一些特性,对于旅游领域的本体,对于时间、数字、地点等要求都严格,所以在进行相似度计算过程中不能只考虑单一的相似度计算方面,采用一种综合的方法进一步改善计算的过程,从本体概念名称、属性、实例、结构等方面计算概念的相似度,寻找更加有效的概念相似度计算方法。通过将一个国内和一个国际的旅游本体进行相似度计算得到的结果和人们的主观得到的结果相近。证明了综合相似度计算的实际可用性。

层次聚类也称为树聚类,通过一定的准则将信息对象划分到不同的组之中。同一组内的信息有着较高的相似度和相关度。不同组之间关联性小。将数据对象进行数据结构上的分解合并形成一个树结构,在树结构中每个节点与其父节点、孩子节点,和兄弟节点存在一定的相似性。从而形成层次树的结构。一般来说,有两种类型的层次聚类算法[7]:

凝聚的层次聚类:通过自下而上将每个数据作为一个节点,然后合并节点从而形成一个节点组。

分裂的层次聚类:通过自上而下的方法,首先将所有的节点至于一个节点组中,通过阈值的选定将一个节点组分裂成为几个内部高度相似度的小节点组。

在层次聚类中确定两个节点组距离有以下四种方法[8~9]:

(1)最小距离:指两个节点组中所有节点最近距离表示两个节点组的最小距离:

(2)最大距离:指两个节点组中所有节点最近距离表示两个节点组的最大距离:

(3)平均值距离:指两个节点组中所有节点中两个中心节点表示两个节点组的距离:

(4)平均距离:指两个节点组中所有节点距离的平均值所表示的距离:

其中aibj分别表示a,b两个节点组中的节点。

(1)基于聚类的的概念相似度计算方法

目前在不同本体间相似度的计算大多是通过一种综合的相似度计算方法如通过计算概念名称的相似度、概念属性的相似度、概念实例的相似度等通过加权的方法得到最终的结果,在和采用单一的计算方法上有了很大的提高。但是在这其中无法避免计算量的增大,而且整个过程中联系在一起,使得计算过程十分的复杂。

针对上述提到的问题,提出了一种基于聚类的概念相似度计算方法,在计算本体相似度时,通过聚类算法将本体O1中的数据进行划分得到几个数据树,在进行与本体O2的概念B进行相似度计算映射时,如果O1中的A与其的相似度大于给定的阈值,则认为A所在的数据树所有信息与B的相似度大,可以将A所在组的信息所为相似度计算的候选集合,如果小于给定的阈值则在计算机计算过程中忽略不考虑两者的相似度将其过滤掉。最终可以得到一个完整的相似度计算候选集合,通过相似度计算中用候选集合来进行计算减少本体映射过程的计算量。

通过确定一个阈值,将本体O1中的概念o和O2中的得到的一组过滤后得到的概念组进行比较计算。过滤后得到的概念组通过概念名称的相似度进行判断。假设本体O1中的概念是X,本体O2中的概念是Y,若果得到的结果sim(Xname,Yname)大于阈值则X所在的节点组就成为相似度计算的候选集合,概念X、Y名字相似性度量公式为:

概念名称相似度:概念的名称相似度是最能直接反应概念结构也是最基本的方法之一,但是这种方法仅仅作用在字符串上不能很好地将概念的语义信息考虑进去,将名称按照字符串来计算相似度。常用的方法有Edit Distance,通过计算一个字符串到另一个需要经过的插入和删除等步骤[10]。

其中ci和cj分别表示O1和O1的概念集合,最终的名称相似度可表示为:

概念属性相似度:概念属性在一定层次上决定了概念的内在结构,在进行相似度计算过程中是不能忽略的一部分。而属性的语义贴近度反映了属性值之间的相似程度,。属性x,y的类型相似度记为sp(x,y),它满足以下三个基本条件[11]:(1)sp(x,y)=1;(2)sp(x,y)=sp(y,x);(3)0≤sp(x,y)≤1。如果两个属性的类型相同则相似度较高,类型不同的相似度较小。不同属性值类型的类型相似度可根据表1结果来计算。

表1

如不同本体概念A,B分别有多个属性。要计算A,B的之间的属性相似度,首先要通过属性的类型进行类型匹配进行属性的相似度计算。把可比较的属性对匹配记为(x1,y1),(x2,y2),…,(xk,yk)(k≤(m,n))。设A有m个属性,B有n个属性,则A与B的属性相似度计算公式如下[11]:

概念实例相似度:进行概念的实例相似度计算过程中有以下理论:一个孩子概念的实例也是其父概念和祖先概念的实例。如果概念所具有的实例全部都相同,那么这两个概念可能是相同的;如果两个概念具有相同实例的比重是相同的,那么这两个概念可能是相似的。用具体实例来计算概念C1和C2的相似度,记为:

基于实例的相似度计算是一种建立在机器学习的基础上实现的。本体Wi中的实例集合用Ui表示,N(Ui)表示实例集中的实例个数。用表示既属于A又属于B的实例个数。以P(A,B)为计算用例,有以下六个步骤[12]:

(1)用U1表示本体W1的全部实例集,分别用和表示属于A概念的实例集和不属于A的实例集;

(3)用U2表示本体W2的全部实例集,分别用和表示属于B概念的实例集和不属于B的实例集;

(5)将两个本体W1,W2进行位置的互换,重复(1)(2)(3)(4)四个步骤,最终得到p(A,B)和

(6)求得N(U1),N(U2),求得p

采用同样的方式求得:

然后用公式(3)计算A,B的实例相似度siminstance(A,B)。

概念关系相似度:在相似度计算过程中概念的类型关系和名称关系具有重要的作用是不能忽视的。由于类型关系和名称关系都是用字符串来表示的在类型相似度上唯一,所以可以用字符串匹配直接计算[13]。

其中w1,w2表示权值,表示关系和名称在关系相似度中起到的作用大小w1+w2=1。

设概念A和概念B之间共计算出n个RSim(Si,Tj),权值为Wi,所以A和B的关系相似度可有下公式求得,表示为:

综合相似度:将上述四个相似度进行合并求和结果相似度时子相似度的权值时随着子子相似度的变化而变化,合并公式如下:

其中 Xi分别表示 simname(A,B),simproperty(A,B),siminstance(A,B),simrelation(A,B)概念结构的相似度。其中δ表示权值由函数sigmoid[14]得到的:

3 实验工具与结果

在运用一个国际旅游本体和国内旅游本体上对该方法进行了实验:第一组测试数据是源本体,该数据本体旅游产品针对国内旅游进行了描述,第二组测试数据是目标本体,该数据本体旅游产品针对国际旅游进行了描述。实验是使用Java语言基础上在Eclipse IDE环境和Protege工具软件完成。将实验结果得到的结果和旅游领域专家主观得到的相似度进行对比如表2。

表2 实验结果

4 结语

文中源本体和目标本体分别是国内旅游和国外旅游的本体。由实验数据结果可知通过相似度计算和权值的设定得到源本体的概念映射到目标本体计算出概念相似度的表现力较强,具有较好的分辨能力,实验表明,本算法在计算概念间相似度方面得到的结果比较理想。和通过旅游领域专家得到的结果相近。本体的引入为解决旅游产品过程中的知识交互、共享混乱等问题提供了新的思路。将旅游产品只是共享融入本体相关技术,使现有知识、经验知识等共享与重用得到进一步的发展。

[1]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报(自然科学版),2002,38(5):730~738

[2]郑丽萍.本体映射的研究[D].济南:山东科技大学,2005

[3]Perez G A,Benjamins R V.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[A].In:Stockholm V R,Benjamins B,Chandrasekaraneds.Proceedings of the IJCAI-99 Workshop on Ontologies and Problem-Solving Methods (KRRS),1999:1~15

[4]史忠植.Ontology科技译名[J].科学术语研究(季刊),2004,6(4):13~14

[5]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报(自然科学版),2002,38(5):730~738

[6]Jiawei Han,Micheline Kamber著.数据挖掘概念与技术.范明,孟小峰等译.北京:机械工业出版社,2004.1~262

[7]张承立.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165~166

[8]朱俊武.面向企业本体复用的语义贴近度算法[J].计算机应用研究,2006(10):46~49

[9]朱莉.基于SVM和sigmoid函数的字符识别自适应学习算法[J].电子技术应用,2006(4)

[10]Alexnader Meadehe,Boris Motik.Ontologies for Enterpeise Knowledge Management[J].IEEE Intelligent Systemes,2003:26~33

Ontology;Tourism;Ontology Mapping;Similarity

Research on the Application of Tourism Product Mapping Based on Ontology

WANG Wei-dong,ZHANG Lin
(Shanghai Marititme University,Shanghai 262500)

1007-1423(2015)17-0054-05

10.3969/j.issn.1007-1423.2015.17.012

王卫东(1990-),男,安徽黄山人,硕士研究生,研究方向为本体映射在旅游品产中相似度的计算

2015-04-14

2015-05-25

目前旅游信息量大,且在网络在分布不均匀。这就导致信息架构方法的多样化,计算机不能很好自动识别旅游信息,使得旅游业在信息的分享和重用上遇到各式各样的问题。旅游业是对信息及时性和可靠性有着高度的依赖行业。在分析领域需求和旅游信息的基本需求后建立本体,通过一种选取候选集合实现本体映射相似度计算的方法在减少计算量的前提下实现不同本体间的共享和复用。通过一个国内和国际的本体进行映射得到的结果和人们主观上的结果相近,验证这种综合本体映射相似度在旅游本体上映射的正确性和有效性。

本体;旅游;本体映射;相似度

张琳(1973-),女,博士,副教授,硕士生导师,研究方向为港航信息化技术、智能信息处理、信息检索、本体与知识工程等

At present,tourism information of the network and large amount of distributed,heterogeneous computer knowledge,can't understand the semantic information,a large amount of information to achieve better sharing and reuse.The tourism industry is highly depended on the information industry.The establishment of the basic functions of tourism ontology based ontology modeling and analysis of tourism information,by means of an ontology mapping similarity calculation to realize comprehensive sharing and reuse between different ontology.Finally by the domestic and international ontology,the mapping results and effectiveness of the integrated ontology mapping similarity in ontology mapping of tourism.

猜你喜欢
实例本体概念
Birdie Cup Coffee丰盛里概念店
眼睛是“本体”
幾樣概念店
学习集合概念『四步走』
基于本体的机械产品工艺知识表示
深入概念,活学活用
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education