杨清琳+钱文标+杨晓雷
摘 要:通过建立领域本体知识库,改进传统检索系统基于关键词匹配存在的缺陷,将用户输入的自然语言查询经分析推理后上升到语义层面,构建了一个基于领域本体知识库的语义检索模型,提高了检索性能。
关键词:本体;知识库;语义检索
DOI:10.16640/j.cnki.37-1222/t.2018.04.196
0 引言
传统的搜索引擎技术虽然日趋成熟,但其主要是通过关键词机械式的匹配进行检索,存在如下问题:返回大量与检索主题无关或关联很小的结果,用户还需要二次筛选才能获得所需信息;用户需要的重要信息被漏检;跟检索主题无关的信息却被作为结果检索出来。本文结合领域本体知识库,设计一个面向特定领域的语义检索模型,将用户输入的自然语言查询语句上升到语义层面,把握用户真正的检索意图,提高检索性能。
1 语义检索的研究现状
语义检索技术为访问Web信息提供了有效思路,关于该技术近几年的研究工作,大致有基于本体的语义检索、自然语言处理和基于概念的方法等。Voorhees使用本体中的同义词和概念的子类关系对查询扩展进行探索[1];Fernández利用本体层次结构进行语义相似度的计算,并对文档使用本体概念进行标注后建立索引,实现了增强式的语义检索。国内的相关研究如宋俊峰[2]提出的基于本体的信息检索模型;武成岗在本体技术的基础上建立的多主体信息检索服务器。自然语言处理和基于概念的方法是另外两种常用的语义检索方法。分词、短语识别和词义消歧是自然语言处理中最为主要的技术[3]。
2 基于领域本体知识库的语义检索研究
2.1 本体知识库
本体作为一种概念建模的手段,能够利用本体节点中概念之间的关系描述出概念语义,而且还能实现逻辑推理。领域本体知识库是通过将特定领域中的概念和关系进行抽象提取,作为一种领域信息资源有效的组织框架。基于本体技术来构建领域知识库,通过逻辑推理可以发掘概念之间不明确的信息和隐含语义关联。将本体知识库引入到信息检索中,使用推理机制来扩展用户查询,实现从语义层面把握用户输入的查询语言,通过推理理解用户真正的检索意图,以排除自然语言表达描述存在的歧义,获得用户真正需要的有用信息,实现信息的智能语义检索。
本文采用本体编辑工具Protege手动建立本体。抽取特定领域的概念来设计本体模型,编辑本体中的元素,包括类、属性、实例,其中概念之间的主要关系为“同位”和“下位”。对构建好的领域本体利用Jena进行相应的推理操作。
2.2 语义检索模型设计
本文设计的语义检索模型,主要由四大关键模块组成,分别为:查询自然语言预分析处理、本体知识推理、语料文档前期处理和检索结果排序,本体知识库语义检索模型如图1所示。
2.2.1 查询自然语言预分析处理
查询自然语言预分析处理模块接收用户输入的自然语言,采用ICTCLAS汉语分词系统对用户查询语句请求进行分词,并过滤查询语句中的停用词、特殊字符和无意义的词,将用户查询语句分解为独立的词汇集合。
2.2.2 本體知识推理
具有语义推理能力是基于本体知识库的语义检索系统较基于关键字的检索系统的最大优势,也是语义检索系统模型的核心。推理系统通过将推理规则、策略编写成程序代码,实现语义自动推理。推理系统接收前期经过查询自然语言预分析处理的关键字后,结合本体知识库中的推理策略实现语义推理。在本文的检索模型中,由于所建立概念之间的主要关系为“同位”和“下位”,所以本文检索模型只能实现这两种逻辑关系的推理。原始检索关键字经过推理机进行语义推理后可以将本体知识库中与概念相关的类、对应的实例及关系加入到检索关键词中,扩展原始查询,再提交给检索引擎进行检索。
2.2.3 语料文档前期处理
建立语义索引库是语料文档前期处理的最终目的。本文利用网络爬虫工具Crawler从互联网上收集到近万个Web文档,存入检索信息库中作为测试语料,其处理过程如下:预处理web文档,然后去除HTML标签、停用词等,提取存储文档中的文本信息;对文本信息进行分词,并将特征信息作为特征词提取出来;然后将特征词比较匹配知识库中的概念节点,并将概念的同义词添加到文档概念集中,形成文档概念集;文档概念集的权重利用TF-IDF算法来进行计算,在一定阈值内的概念才作为文档的语义向量;构建倒排索引,其中概念列表存储在内存,而倒排列表和文档集则存在磁盘。
2.2.4 检索结果排序
检索系统检索出来的大量结果,用户通常只关注排在前面的那些检索结果,因此如何将用户最关心的返回结果排在前面关系到检索系统性能好坏。本文利用查询与文档之间的相关度(即文档得分)来对结果进行排序,并采用TF-IDF特征项权重计算方法来计算文档得分,其核心思想是:不同的概念在查询和文档中的重要程度是不一样的,因此如何给查询中的概念分配权重是文档得分计算的基础。最终进入到检索系统的查询向量由用户原始查询概念和经过推理系统推理后的扩展查询概念组成,本文分别计算原始查询概念和扩展后查询概念的权重,后对查询向量中每个概念的权重进行求和得到文档得分。
3 结束语
本文对传统的信息检索系统进行了改进,引入了本体知识库,建立了一种基于领域本体知识库的语义检索模型。后续的研究工作是如何完善本体知识库,实现对查询关键词更好更优的语义查询扩展,提高检索系统性能;并对检索到的文档的排序算法进行深入研究,结合用户的喜好,返回相关度高的结果文档。
参考文献:
[1]王旭阳,尉醒醒.基于本体的语义检索方法[J].计算机工程与设计,2016,37(09):2538-2542.
[2]宋峻峰,张维明,肖卫东等.基于本体的信息检索模型研究[J].南京大学学报,2005,41(02):189-197.
[3]陈振标.基于本体的语义检索技术研究[J].情报探索,2011(166):96-98.
作者简介:杨清琳,工程师,研究方向:知识库、本体论。endprint