一种基于本体论的个性化网络信息检索模型

2011-03-29 07:51陆虹
河南图书馆学刊 2011年4期
关键词:库中信息检索本体论

陆虹

(郑州轻工业学院,河南 郑州 450002)

由于网络中的信息浩如烟海、内容庞杂、组织松散,为找到有用信息,人们经常要耗费大量宝贵的时间,人们在信息检索中普遍遇到了“返回信息过多”与“用户可用信息过少”的问题。如何协助用户方便有效地从浩如烟海的网络信息中获取有用的信息是非常具有现实意义的一个课题。鉴于此,本文提出了一种基于本体论的个性化网络信息检索的模型。

1 问题的提出

目前人们在利用搜索引擎进行信息检索的过程中,普遍遇到了“信息过载”的问题,即系统返回的信息量过多,远远超过了用户所能接受和处理的能力。虽然返回的信息数量巨大,但是有相当数量的信息却并不是用户所需要的,使得用户将大量的时间耗费在排除无关的信息上,也就是说搜索引擎的查准率较低;同时,又由于检索用户和网络文档对同一概念的表达形式往往会有差异,这又导致许多有用的信息用户无法检索到,也就是说搜索引擎的查全率也是较低的。造成这一现象产生的根本原因在于当前的搜索引擎存在有以下两大方面的不足。

1.1 基于关键词的标引和检索方式不符合语义理解的需要

现有的搜索引擎提供的检索方式几乎都是基于关键词的方式,虽然基于关键词的检索方式给人们的检索带来了很大的方便,但它却不能很好地表达用户的检索需求。这主要表现为:第一,关键词语言是一种自然语言,随着时间、地域、领域的改变,同一词汇可以表达不同的语义概念,即“一词多义”的现象;同一概念也可以使用不同的词汇表达,即“一义多词”的现象。第二,在人的大脑中,概念不是孤立存在的,它总是与其它概念之间存在着各种联系,用户在检索一个词时除了希望得到包含该词的资源之外,还希望得到与该词相关的其它信息。在传统的检索技术条件下,这种概念关联的检索是实现不了的。

1.2 个性化能力太差

现在的搜索引擎对所有的用户采用的都是同一种模式,不同的用户只要用相同的关键词进行查询,得到的结果将会是一样的。显然,这样的搜索引擎个性化能力太差,它没有考虑到每个用户的个体差异,不能根据用户背景、爱好的不同,获取用户不同的个性化信息需求,给出不同的检索结果。

从以上搜索引擎存在的不足我们可以看出,当前的搜索引擎在进行网上信息收集和提供查询服务方面存在着严重的效率和质量问题。本体论作为一种新的知识表示方式,由于具有良好的概念层次结构和对逻辑推理的支持,因而在实现智能化的网络信息检索中具有广阔的应用前景。通过本体论,一方面可以把信息检索从基于关键词的层次提高到基于概念的层次,从而提高系统的查准率与查全率;另一方面还可以对概念的相关性进行推理,挖掘出用户的真正需求所在,从而实现智能化的信息检索。

2 一种基于本体论的智能化网络信息检索模型

本文设计了一种基于本体论的智能化网络信息检索模型,其基本体系结构如图1所示。

图1 一种基于本体论的智能化网络信息检索模型

该模型主要由以下几个部分组成:用户界面代理、本体论服务器(包括用户偏好本体论库、任务本体论库和领域本体论库)、智能检索模块、文档分析器、个性化信息索引库以及智能搜索代理等。

2.1 用户界面代理

用户界面代理作为信息用户与智能检索模块之间的接口,除了具有接收用户提交的检索请求和智能检索模块返回的检索结果的功能外,它还具有提供用户对检索结果进行信息反馈以及对用户行为进行动态监测的功能。具体表现为:(1)建立用户个人档案。当用户首次登录时,用户界面代理要求用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。(2)对用户行为进行动态监测。对用户行为的动态监测可以包括:①计算用户对页面的浏览时间。②记录用户对页面特定部分的操作,如对某一部分的复制。③计算用户浏览页面距离现在的时间。(3)获取用户反馈信息。用户界面代理建立了用户对检索结果的评价机制,鼓励用户对检索结果给出量化的评价值,用于更新用户偏好本体论库中的内容。

2.2 任务本体论库

任务本体论库以机器可读的形式描述领域内任务专家的行为知识,阐明处理某一检索任务的策略、方法和过程,指导计算机自动实现检索任务目标的完成。当用户向系统发出检索请求时,智能检索模块根据相应的用户偏好本体论库和任务本体论库,指导检索过程沿着效果最优的方向进行检索。为了便于知识的共享和重用,任务本体论应该尽量采用独立于专业领域的结构设计,即专业领域知识的改变只会影响任务的操作对象,而不会影响任务本身的结构定义。

2.3 领域本体论库

领域本体论库中包含着一个领域中最基本的概念、概念的定义以及各个概念之间的语义关系,它通过概念蕴涵、属性关联、相互约束和公理定义等方法,组织成具有网状结构的、可共享的形式化本体论模型。

领域本体论库在信息检索系统中的作用主要包括以下三个方面:(1)利用领域本体论库对网页文档进行语义标引。对于智能搜索代理搜索到的网页信息文档,文档分析器首先对其进行特征词的抽取,然后可以在领域本体论库的协助下,判断网页信息文档特征词的所属领域,将其转换为本体论中的概念词,并与网页文档建立起映射关系,从而实现对网页文档的语义标引。(2)利用领域本体论库对用户的查询请求进行规范和挖掘。当用户进行查询时,检索系统根据用户的查询请求,调用领域本体论库中的相关知识,从中找出与用户查询关键词相对应的概念以及所属领域,供智能检索模块生成更精确的查询,以提高查询的准确率。(3)利用领域本体论库构建用户兴趣模型。利用领域本体论库构建的用户兴趣模型(用户偏好本体论库),不仅包含了用户的兴趣概念,而且还包含了用户兴趣概念之间的各种关联,这样用户在进行信息检索时,系统可以在用户兴趣概念之间进行推理,挖掘出用户潜在的兴趣概念。

2.4 用户偏好本体论库

用户偏好本体库是实现智能化信息检索的重要构件。通过用户偏好本体库,检索系统可以获取用户的兴趣所在,确定用户检索词在领域本体论中的位置,从而明确用户的个性化信息需求,使信息检索变得更有针对性。具体来讲,在用户输入检索词后,系统将首先把检索词提交给相应的用户偏好本体论库,查验是否属于用户已有的兴趣,如果是,智能检索模块将据此在个性化信息索引库中进行检索;如果不是,则可将检索请求与本体论服务器进行交互,使其在领域本体论库和任务本体论库的支持下完成信息需求的表达,同时在该用户偏好本体库中对这一新的爱好需求进行记录,方便以后遇到相似的检索词时,系统能较快地识别检索词所属的本体论领域,这样既可以节省用户检索的成本,又可以提高系统的检索效率。

2.5 智能检索模块

智能检索模块的功能是负责整个信息的检索过程。当智能检索模块收到用户界面代理提交的用户查询请求后,它首先将用户查询词语与本体论服务器中的用户偏好本体论库进行交互,验证它是否属于用户已有的兴趣:(1)若属于用户已有的兴趣,则将描述该兴趣的关键词转换为相应的领域概念词,并直接在个性化信息索引库中进行检索匹配,当匹配成功完成后,智能检索模块就把检索结果提交给用户界面代理返回用户;如果检索匹配失败,智能检索模块则向智能搜索代理发出查询请求,由智能搜索代理对网络信息资源进行相应的搜索。(2)若用户输入的查询词不属于用户已有的兴趣,那么智能检索模块就借助本体论服务器中的领域本体论库以及任务本体论库,筛选出符合用户信息需求的检索领域和相关的概念集,并在该用户的偏好本体论库中对这一新的爱好进行记录,然后通知智能搜索代理对网络上的信息资源进行相应的搜索。

2.6 智能搜索代理

智能搜索代理的主要功能在于对网络信息资源进行搜索。当智能搜索代理收到智能检索模块向其发出的搜索信号时,它首先记录下智能检索模块的检索请求,以便文档分析器进行过滤,同时完成对相关网络信息资源进行搜索的任务。为保持个性化信息索引库与网络信息环境更新变化的同步,智能搜索代理可根据要求连续运转。

2.7 文档分析器

文档分析器的功能主要是对智能搜索代理收集到的网络信息文档进行语义概念层次上的分析与过滤,只保留下与用户相关的网络文档,而过滤掉无关的网络文档。具体来说,首先,文档分析器需要对所收集到的每一个新文档进行网页特征词的抽取与加权。网页特征词的抽取,一方面可以从网络文档的标题、小标题、摘要和关键词中直接抽取,另一方面可以从网络文档的正文中抽取,从正文中抽取网页特征词时,目前大多是采取基于频率统计的算法来进行的。其次,对于抽取的这些网页特征词,文档分析器还需要在领域本体论的协助下,将其转换为本体论中的概念词语,以明确其真正含义。最后,还要把这些转换为本体论中的概念词语与智能搜索代理中记录的检索概念词集进行匹配,只有匹配成功的概念词语所对应的网络文档才是需要保留下来的。将这些保留下来的网络文档按照某种规则排序后存入个性化信息索引库中,供智能检索模块进行检索。

2.8 个性化信息索引库

建立个性化信息索引库是对客观信息空间的一种抽象,即从中抽取出与用户相关的信息实体,滤出无关信息。建立个性化信息索引库不仅满足了用户的个性化信息需求,节省了用户的有限精力,同时也提高了信息检索的整体效率。

个性化信息索引库中的网页信息是按照兴趣概念进行存储的,每个兴趣概念都与用户偏好本体论库中的兴趣概念相对应。当用户偏好本体论库中用户的兴趣发生变化时,个性化信息索引库相应地也会做出调整。在这里,我们假定个性化信息索引库中包含有一个对自身信息进行管理的管理服务器,管理服务器会把不符合用户兴趣的兴趣概念及其相应的网页信息从个性化信息索引库中删去,同时加进用户新产生的兴趣概念等。

3 基于本体论的智能化网络信息检索的优势

本文提出的基于本体论的智能化网络信息检索模型的实现,将在很大程度上改进当前搜索引擎存在的不足,不仅可以使检索系统具有更高的查全率和查准率,而且在一定程度上使检索系统表现出智能化和个性化。具体主要有以下几个方面:

(1)由于在检索系统中加入了用户偏好本体论库和领域本体论库,真正提高了信息检索的查准率和查全率。借助领域本体论库,检索系统可以规范用户的提问,使用户的检索用词与信息的标引用词在语义概念层面上达到一致,从而提高信息检索的查准率;借助用户偏好本体论库,通过对用户兴趣偏好的分析,使信息检索的领域更加明确,同样也有助于提高信息检索的查准率;通过用户偏好本体论库和领域本体论库中概念之间的各种关联,可以对用户查询的概念进行扩检,使信息检索的覆盖面更为宽广,从而提高系统的查全率。

(2)满足用户进行智能化和个性化信息检索的需求。一方面,用户可以采用自然语言来描述查询请求,系统利用本体论的推理功能,把出现在用户查询中的概念、属性、公理以及函数等信息进行综合考虑,挖掘出用户的真正需求所在,从而实现智能化的信息查询;另一方面,系统通过对记录用户检索浏览行为的日志文件以及用户反馈的评价信息进行分析,提取用户的兴趣概念,构建用户的兴趣模型,用户在进行检索时,系统就可以以该用户的兴趣模型为基础,更深入地理解用户的检索需求,从而进行更有针对性的个性化信息检索。

[1] 郑美玉.基于本体论的高校图书馆个性化书目推送系统[J].图书情报工作,2010(6):108-111.

[2] 李学庆,贾玉文.基于本体论的个性化网络信息检索[J].图书馆学研究,2007(1):67-69.

[3] 徐丽.本体论导引下的信息检索[J].情报杂志,2005(1):121-122.

[4] 昊金红.一种基于本体论的知识检索原型系统[J].情报杂志,2004(11):45-46.

[5] 董慧.基于本体论和数字圈韦馆的信息检索[J].情报学报,2003(6):648-649.

猜你喜欢
库中信息检索本体论
街头的人
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
张载哲学的本体论结构与归宿
从今天开始
智能盘库在自动化立体库中的探索和应用
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
微电影本体论辨析
教学型大学《信息检索》公选课的设计与实施