王璐 于超 董亚则 彭馨仪
摘 要:针对基于关键词匹配的传统检索方法存在的不足,通过将语义引入到检索过程中,可以构建一个建立在本体基础上的语义检索模型。为了提高检索结果的准确率和全面率,通过使用本体的语义推理是一种很有效的办法。
关 键 词:查询扩展;语义检索;领域本体;语义推理
1.引言
在Web 2.0时代,随着互联网信息海量增长,亟须一种有效的机制来支持用户快速、准确地查找和组织所需的网络资源。然而,通过关键词进行检索,只有那些包含着全部或者部分关键词的目标文档或者目标语句才能被检索[1],无法对用户表示隐性信息。从本体技术诞生那一天开始,人们就试图进行基于本体的信息检索,利用本体来提高检索过程中系统对于语义的智能分析能力,从而达到提高检索效率的目标[2]。本文基于领域本体进行语义扩展,并在此基础上提出了一个语义检索模型。
2.领域本体构建
对于概念化的规范而又明确的说明被称为本体,本体的类型可以分为四种,即通用、任务、应用和领域本体。领域本体是在特定的专业领域中可以重复被使用的概念化单位,提供了特定的专业领域内的概念和概念关系,是对于领域概念的规范化表述。
在进行领域本体构建时,为了生成本体核心语义,需要通过多种获取知识的方法将特定领域内的概念及其关系,用准确的自然语言描述出来,而整个的描述过程是一个自顶向下,逐步求精的抽象过程。领域本体构建流程如图1所示。
3.语义检索模型的设计
基于本体的语义检索模型主要包括查询分析、文档处理、信息检索以及本体管理四大模块,具体模型如图2所示。
(1)本体管理
由于检索的效果在很大程度上取决于本体定义的质量,所以,基于本体的语义检索系统的核心是领域本体。因此,在构建基于本体的语义检索模型时不仅仅要在模型初期精确的定义本体,更重要的是要随着相应的领域知识结构的变化,及时准确的调整本体的定义,从而保证模型建立的精确高效。
(2)文档处理
通过网络爬虫将分布在Internet的Web文档收集到检索信息库中,对原始信息的进行分析处理,包括:去除HTML标签、去除停用词等,以提高处理的效率。为了建立领域本体与目标文档之间的关联需要进行如下处理:第一步,预处理目标文档;第二步,从目标文档中抽取特征信息,生成特征词;第三步,将本体与特征词进行匹配;第四步,实例化本体概念。
(3)查询分析
通过查询扩展可以极大的改善检索系统在检索任务中的效率。所谓的查询扩展指的是:基于本体,把与初始查询有关的词语或者与初始查询有关的语义概念添加到初始查询当中,从而得到一个新的查询的过程。将本体中概念与概念的关联程度进行量化,将量化后的结果作为范围扩展的依据,从而通过领域本体实现了语义扩展查询。客户端的查询语句提交给检索服务器之后,首先由检索服务器对查询语句进行语义比对分析并获取其关键词,然后根据客户端提供的优化参数来进行语义优化扩展查询[3]。
(4)信息检索
首先检索模型通过比对本体库中的信息以及经过处理的查询条件的相似度,然后根据相似度阈值进行相似度排序。
为实现语义检索模型相关功能,采用的开发技术如表1所示。
4.结论
结合传统的信息检索技术与本体技术,设计并实现了一个基于本体的语义检索模型。通过将基于本体的语义检索系统与基于关键词的检索系统相比较,可以看出前者有效的克服了使用后者进行检索而产生的问题:
(1)为了提高检索的准确率,基于本体的检索模型使用语义词代替关键词,借助于对语义进行推理的方法来查找目标文档所隐含的语义关系。
(2)为了使检索结果更好地满足客户的需求,以本体技术为核心,建立针对性强的本体知识库。
下一步将通过本体学习不断完善本体,使用语义标注对关键词进行更好更优的语义扩展,以获得更高效的检索结果。
参考文献
[1] 郑世明,任在安,宋自林.基于Ontology的语义查询分析研究[J].南京师范大学学报,2008,8(4):63-67.
[2] 齐红,张亮亮,李昕.基于玉米本体的语义检索系统[J].计算机工程,2011,37(4):34-37.
[3] 郑廷,郑诚.基于Lucene的语义检索系统[J].计算机工程,2008,34(16):92-94.