基于领域本体语义检索的关键性技术研究

2020-11-30 08:36张秀丽
科学与信息化 2020年31期

摘 要 随着信息社会的飞速发展,如何准确、全面的在大量信息中获取用户所需的信息成为研究热点。传统检索是基于关键字匹配,这种方式只涉及了字符匹配,并没有达到语义匹配的目的,导致检索结果或者庞大或者漏检。本文借助本体,将简单的字符匹配提升为语义性强的概念匹配,基于OWL-S服务描述框架,对服务进行分级匹配,最后将结果返回给用户,使得检索结果更加准确和全面,更能满足用户的检索需求。

关键词 语义检索;领域本体;OWL-S

引言

传统的检索基本上是基于关键字的信息检索,利用分词工具将用户输入的检索信息抽取出关键词,采用匹配算法在数据库中查找与该关键词相匹配的文档,返回给用户。这种检索方法缺乏语义上的处理,使得检索结果可能会不全面。针对这种不足,本文提出了基于领域本体的语义检索技术研究,通过本体所构建的语义关系的应用,提高了检索的查全率和查准率[1]。

1语义检索技术

本文研究的语义检索的关键技术主要包括领域本体构建模块、查询扩展模块和服务匹配模块。各模块协同完成用户检索任务。

1.1 本体理论

本体是概念模型的形式化的规范说明,具有概念性,明确性,形式性和共享性。本文通过七步法的思想构建交通领域本体,由Protege来实现。

1.2 查询扩展

由于用户输入的查询语句很难反映具体的查询需求,因此需对其做查询扩展。将查询语句分解为关键词汇集合,依次抽取集合中的关键词与本体概念做资源映射得到同义本体概念集合,根据本体结构对新得到的同义本体概念扩展,得到扩展后的查询概念集合。

1.3 服务匹配

本文借助OWL-S服务描述框架进行服务匹配。OWL-S是一种具有语义的描述Web服务属性和功能的标记语言。OWL-S从服务概况、服务模型和服务基础三方面定义了Web服务的语义信息。对于服务匹配过程通过服务概况来实现。服务概况从服务的非功能信息和功能信息描述Web服务。非功能信息提供了面向用户的可读信息。功能性信息主要是指服务的输入、输出、前提和效果,简称IOPE。

(1)非功能信息匹配算法。用户在查询时会提供一个OWL-S文档,对所需服务进行描述,服务发布者也会向注册中心提供一个OWL-S文档,对所提供服务进行描述,非功能信息匹配即为短文本匹配通过词语间相似度进行计算。先对注册服务进行聚类处理,将类别一致的服务聚类到一起,这样请求服务只需与各簇的代表服务进行匹配,达到设定阈值后则与该簇内的所有服务进行匹配,若未达到设定阈值则无须与该簇内的服务进行匹配,这样大大提高了检索效率[2]。

①根据经典K-means算法对注册服务进行服务聚类,得到各簇的代表服务。②对服务请求文档R和各簇代表服务文档A进行预处理,得到两个词语集合R1和A1。③依次取R1和A1中的元素通过词向量按位累加的方式,计算两个词语的向量表示,利用余弦相似度计算两个向量的相似度。④利用词向量相似度代表文档相似度,设置相应的阈值,超过该阈值的进行下一步的功能匹配,未超过的则舍弃。最终得到非功能信息相似度S1

(2)IOPE功能信息匹配算法。注册服务在非功能信息匹配符合设定的阈值后进行IOPE功能信息匹配。定义一个请求服务Wr,输出满足功能的服务集Ws。

①将Ws 置空。②对于符合设定阈值要求的服务聚类,假设该聚类中有k个服务,将请求服务Wr依次与中的注册服务进行基于PE参数的匹配,匹配成功进行3,否则执行第6步。③将请求服务Wr依次与中的注册服务进行IO参数匹配,匹配成功进行第4步,否则执行第6步。④根据IOPE匹配的结果及其权重计算总体匹配度T,设定一个匹配阈值x,若T>=x则将此服务添加到匹配结果集Ws中,若T

(3)基于PE参数的匹配。定义Pa、Ea表示服务提供者的PE描述信息,Pr、Er表示服务请求者的PE描述信息,发布服务Wa(Pa,Ea)与请求服务Wr(Pr,Er)关于PE参数的匹配方式如下:①匹配:若Pr∈Pa,Er∈Ea,即Wr∈Wa,表示服务提供者描述的前提和效果包含服务请求者的描述,此时完全匹配。②不匹配:Pr≠Pa,Er≠Er,即Wa≠Wr,表示服务提供者与服务请求者的前提和效果描述完全不一致,匹配失败

(4)基于IO参数的匹配。对于web服务一般具有多个输入输出参数,进行IO参数匹配时:

①对请求的输入概念集与服务的输入概念集进行两两匹配,根据本体概念相似度计算每个请求输入概念与注册服务的输入概念的相似度,对所有的相似度求平均值作为概念集合的相似度In。②同理得到输出概念集的匹配相似度On。③设置相应的阈值Im和Om,若In>=Im且On>=Om,则将该服务添加至相应的匹配队列里,否则过滤掉。④基于IO参数的服务相似度即为输入概念集相似度和输出概念集相似度的综合。

综合的服务匹配相似度为:

Match(SA,SB)=α*S1+ β*S2

其中α与β和为1,α和β可根据要求赋值以调节非功能信息和功能信息的权重大小。根据上述算法计算服务匹配的相似度大小并排序,最后将检索结果返回给用户,完成语义检索[3]。

2结束语

本文提出的基于领域本体的语义检索技术,借助本体使得关键词所包含的语义信息更明确,增强了用户的检索需求表达,提高了查全率和查准率。对请求服务和注册服务在进行分级匹配时融合了聚类的思想,极大地提高了服务匹配的效率,弥补了传统检索的不足。

参考文献

[1] 王李冬,张慧熙.基于HowNet的微博文本语义检索研究[J].情报科学,2016,34(9):134-137.

[2] 温有奎.信息检索系统的关联关键词推荐研究[J].数字图书馆论坛,2016(4):11-14.

[3] 杨月华,杜军平,平源.基于本体的智能信息检索系统[J].软件学报,2015,26(7):1675-1687.

作者简介

张秀丽(1994-),女;硕士研究生在读,研究方向:网络服务与信息安全。