基于本体技术的语义检索及其语义相似度分析

2017-03-06 23:41李晓红
电子技术与软件工程 2017年1期

李晓红

计算机信息检索是计算机技术的重要构成,但传统信息检索只能完成语法层面的匹配,并不能在对用户提供的检索信息进行理解和信息挖掘的基础上,进行信息筛选,极大的影响信息检索的效率和效果,为缓解此问题,人们尝试在本体技术的基础上,对语义检索和语义相似度检索的相关技术展开研究。在此背景下,本文针对基于本体技术的语义检索和语义相似度展开研究,为优化计算机信息检索功能提供参考。

【关键词】本体技术 语义检索 语义相似度

简单的机械式关键词匹配,是传统搜索引擎在应用的过程中,容易出现信息丢失、无关信息检索等问题的重要原因,所以人们尝试在传统搜索引擎的基础上,提出具有语义分析、知识检索、知识管理等功能的智能搜索引擎,而智能搜索引擎功能的实现,目前要建立在拥有较理想的概念层次结构、逻辑脱离能力,而且可进行语义信息表示的本体技术之上,结合语义进行。

1 基于本体技术的语义检索

1.1 基于本体技术的语义检索设计原理分析

传统信息检索主要通过条件检索和导航检索实现,而智能搜索引擎除了要应用以上两种检索方式外,更强调语义检索,即基于本体和用户的输入条件,完成语义推理过程,对用户检索的意图进行确定,进而以用户检索意图为檢索方向进行查询并向用户反馈的检索方式。可见基于本体技术的语义检索实际上就是用户通过用户界面,将搜索信息输入数据处理和语义推理模块,由其结合本体开发人员设计的本体知识库和数据仓库完成数据检索服务的过程,换言之就是利用本体技术将用户的搜索信息向搜索语义转化的过程。在本体知识库中主要存储着描述术语等价关系的同位语义关系,描述语术包含关系的上下位语义关系两种,前者用RelativeTerm表示,后者用BoraderTerm和NarrowerTerm表示,在本体技术知识库建立的基础上,结合使用规则,通过正向推理和反向推理,就可以将本体知识转化成RDFS语义闭包,向用户反馈,完成信息检索过程。

1.2 基于本体技术的语义检索实现过程分析

笔者认为要按照上述原理实现基于本体技术的语义检索,要保证语义检索系统包含以下三个结构:首先,数据服务器,在服务器中要包含以三元组形式存储的语义词典、知识库等领域知识集合体;其次,Web业务层,在此结构中,既要包括可以将用户信息检索输入信息向本体概念形式转化,并依据JenaOWL推理引擎完成推理分析,实现语义求解,完成数据服务器检索和反馈的信息检索引擎,又要包括为语义推理提供依据的推理引擎。再次,Web终端,此结构的功能是与用户建立连接关系,通过JSP技术对用户的搜索进行获取并将检索的结果向用户进行反馈。在以上三部分结构构成整体后,要完成信息检索,需要先设定检索算法,笔者认为在开始运行后,首先要通过计算机的检索条件界面对用户提供的查询信息内容进行获取,然后,依据结构中的功能语义词典,对其需求功能的同位表达式、上位表达式和下位表达式进行获取,然后将用户提供的检索信息与获得的各种表达式作为检索的条件进行检索,向用户反馈检索结果。在以上语义检索的过程中,必然要进行语义的推理,笔者认为在语义推理的过程中,首先推理机注册机制要依据RDF三元组表述和本体知识库形式,构建出产生包括推理机制模型对象的推理机,然后结合ModelAPI和OntologyAPI完成模型的处理。在此过程中需要注意以常规规则为基础的推理机,或以自定义规则、第三方规则为基础的推理机均可以结合实际需要进行灵活的选择。另外,数据导入模型、模型检索和检索结果显示过程均会影响到语义检索的实际效果,在技术选择方面均需要有意识的优化。

2 基于本体技术的语义相似度分析

语义相似度是以语义距离为衡量的概念,换言之如果两个语义之间的距离是无穷大的,则这两个语义之间的相似度是非常低的,而如果两个语义之间的距离无限接近于0,则可以视两个语义是高度相似的,所以要对本体技术语义相似度进行分析,要有意识的建立以距离为基础的语义相似度计算模型,在此模型构建的过程中,又要结合以下因素进行。首先语义重合度,即本体内部概念中上位关系概念相同概念的数量,此数据可以在一定程度上反映出本体概念的相同内容,在计算中直接将共同具有的内容以公共节点的形式表示。其次,语义深度,即本体内部概念所具有的层次深度,其通常与语义的相似度之间具有较显著的正相关性;再次,语义距离,即本体中两个节点连接通路中最短路径所要经过的边数,通常情况下,其具体的大小与语义相似度之间具有较显著的负相关性。另外,语义密度,即与概念具有兄弟关系的阶段的数量,通常情况下,其具体大小与语义相似度之间具有较显著的正相关性。在进行检索的过程中,向用户反馈的检索信息中包括的相似度信息通常为以上相似度反应匀速与对应的调节因子乘积之和。需要注意的是,除通过语义距离对语义相似度进行表示外,基于语义的属性、领域本体也可以构建出反应语义相似度的模型。

在语义相似度的计算模型确定后,在信息检索的过程中,要利用语义相似度进行信息检索,可以在概念初始化后,对相似度阈值进行确定,然后利用相似度计算模型进行语义相似度计算,并按照序列输出,为用户提供检索的结果,这在概率方面可以提升用户获得预期检索结果的概率。

3 结论

通过上述分析可以发现,现阶段人们已经认识到利用智能搜索引擎取代传统搜索引擎,在提升信息检索的效率和准确性方面的重要性,并在实践中有意识的基于本体技术进行语义检索的探究,并结合语义相似度对信息检索过程进行优化,语义检索虽然设计的难度比传统的关键词检索更大,但这是计算机信息检索功能优化的具体体现。

参考文献

[1]朱礼军,陶兰,黄赤.语义万维网的概念、方法及应用[J].计算机工程与应用,2013,11(21):167-168.

[2]白同强,刘磊.语义的研究与展望[J].吉林大学学报信息(科学版),2011,19(20):88-89.

[3]杜小勇,李曼,王大治.语义与本体研究综述[J].计算机应用,2012,14(07):152-153.

[4]黄卿贤,胡谷雨.基于本体的网络管理知识模型[J].北京邮电大学学报,2014,16(45):362-363.

作者单位

邵阳学院 湖南省邵阳市 422000