郭超 唐成务 陈彦萍
摘要:随着互联网技术的快速发展,越来越多的数据以服务的形式发布到Web上为用户服务。由于数据服务发布者存在不同的领域或行业,数据服务在描述存在语义异构性,为了更精准的匹配所需的数据服务,该文从对数据服务描述文档进行解析,提取关键标签的属性值,形成代表该数据服务的特征词文档,再对特征词文档进行聚类分析,结合领域知识,构建领域本体库,在领域本体库的基础之上,提出基于领域本体的数据服务语义标注方法,对数据服务进行语义标注,解决数据服务描述存在的语义异构性。
关键词:数据服务;领域本体;语义标注
中图分类号:TP319 文献标识码:A 文章编号:1009-3044(2017)06-0172-02
随着“互联网+”理念的涌现,越来越多的企业或个人加入到互联网中来,互联网中的信息也越来越多,为了方便信息的传递和分享,一些企业或个人以服务的形式对外发布自己的数据,为用户提供服务,这种方式被称为数据服务。然而,数据服务发布者存在不同的领域或行业背景,造成数据服务在描述上存在语义异构性,导致无法准确的匹配所需的数据服务,从而带来资源的浪费。传统的数据服务是数据密集型的Web服务,已有研究对数据服务的描述大多采用RESTAPI方式或者WS-DL式的Web服务,然而这类Web服务缺乏语义信息,在自动服务组合等方面存在不足。OWL-Sf ontology Web language forservices)实现了Web服务属性和功能明确的形式化表示,使得服务的描述具有了语义。但OWL-S对服务的动态信息描述不足,不支持服务的动态复合。本文在语义标注概念的基础上,结合领域本体及语义标注技术,提出来一种基于领域本体的数据服务语义标注方法,为后续的数据服务发现、调用提供基础。
1领域本体
本体(Ontology)起源于哲学,即概念的明确规范说明,是对世界上客观存在物的系统描述。近年来,人们将本体的概念引入人工智能、知识工程和图书情报领域,用于解决信息提取、知识概念表示和知识组织体系方面的有关问题。
由于应用领域的不同,对本体研究的侧重点也有所不同。涉及特定学科领域的本体,被称为领域本体(Domain Ontolo-gy)。领域本体是领域术语集和领域知识集的总体,是领域的概念化详细说明,可用本体语言将其详细说明。领域本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念,并从不同层次的形式化模型上给出这些概念和概念之间相互关系的明确定义,提供该领域中发生的活动以及该领域的主要理论和基本原理等。
由于本体工程到目前为止仍处于相对不成熟的阶段,还没有一个标准的本体构建方法。领域本体的建设还处于探索期,构建过程中存在着很多问题,主要问题分析如下:1)需求不充分和无计划性;2)建设过程缺少规范性;3)成果没有评价标准;4)忽视本体的共享和重用。用。
2基于领域本体的数据服务模型
由于数据服务描述中WSDL的语义缺乏性以及OWL-S存在着对服务动态信息描述不足、不支持服务动态复合的限制。本文将空间向量模型VSM引入进来,设计了一种基于领域本体的数据服务模型。使得数据服务兼具数据特征和语义双重优势,并能很好地进行服务组合及规划。
将数据服务中的WSDL文档中元素属性值进行解析,获得表示该数据服务描述文档的特征词集合。利用特征词向量之间的相似度和K中心算法对数据服务进行聚类,依据聚类的结果和相关领域信息构建相应的领域本体,即通过基于OWL-S将各个数据源的数据模型映射到一个全局共享语义本体上,实现跨领域用户对数据服务语义的理解。结合构建的领域本体,计算每个特征词的权重,将特征词集合及其权重依据本体的空间向量模型VSM进行存储,把含有这些特征词的WSDL文档与相应的特征词进行关联,从而数据服务描述文档与领域本体之间的概念相互关联,即可基于领域本体实现数据服务建模。
3基于领域本体的数据服务语义标注方法
为了解决Web上发布的数据服务之间存在的语义差异,本文结合构建的领域本体库,提出一种新的数据服务语义标注方法,对数据服务进行语义标注,解决异构数据服务之间的语义差异问题。
对所有的WSDL描述文档的特征词构建空间向量模型(VSM),WSDL描述文档以VSM特征项作为其表示的基本单位,所有特征项组成的一个n维特征空间向量:D=(T1,W1;T2,W2;Ti,Wi)表示一个WSDL描述文档,其中Wi为第i个特征项Ti在WSDL描述文档特征词中的权重。fij表示特征词i在第i个WSDL特征词文档中出现的频率,N表示所有WS-DL特征词文档的总数,ni表示出现有特征词i的WSDL特征词文档的个数。权重的计算方法为权重计算公式(1):
由圖2可以看出,与领域本体库相关的特征词,特征词在对应的特征词文档中的权重发生了变化,“travel”特征词在WS-DL特征词文档DS1中没有出现,“travel”特征词在WSDL特征词文档中的权重为0,但是结合领域本体改进权重计算公式之后,由于本体中与“travel”相关的概念在WSDL特征词文档DS,中有出现,利用改进的权重公式计算,“travel”关于WSDL特征词文档DS,的权重变为0.1789而不是0,而与本体无关的“ip”的相应权重则不变。这样当服务请求者以“travel”来查询服务时,与“travel”相关的概念在WSDL特征词文档DS,中出现,即使“trav-ez”没有在WSDL特征词文档DS1中出现,WSDL特征词文档DSl相对应的数据服务也能被检索出来为数据服务请求者服务。
5总结与展望
本文主要从数据服务的语义标注方面进行研究,提出一种基于领域本体的数据服务语义标注方法,该方法在构建的领域本体基础之上,结合数据服务描述文档的特征词向量,计算二者的语义相似度,完成对数据服务的语义标注,考虑如何对VSM进行改进以及对OWL-S的扩展是今后的工作中研究方向。