方 正
(大庆师范学院,黑龙江 大庆 163712)
Internet是一个庞大而又杂乱的网络。一方面,它为信息的发布者提供了广阔的空间;另一方面,这种快速、无序的信息增长对于信息的使用者来讲却意味着信息繁杂。目前Internet上已经拥有数百亿的网页,并且仍以极快的速度增长。在这些众多的网页中,包含着巨量的信息和知识。如何利用这些信息和知识,成为最热门的研究领域。虽然人们投入巨大的热情和精力研究信息检索问题,但是到目前为止,如何从大量信息中筛选出用户需要的信息,或对用户有用的信息,一直没有得到很好的解决。据英国莫里(MORI)调查公司的民意调查结果显示,只有18%的用户表示总能在网上搜索到需要的信息;68%的用户说他们对搜索引擎很失望;28%的用户表示还可以;其余5%为不知道。可见目前信息搜索引擎的改进完善的空间还很大,信息检索技术仍然需要进一步的研究和发展[1]。
信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机器学习等众多知识和学科领域。信息检索的主要目的是对信息表示、存储与组织,使用户更容易得到所需要或者感兴趣的信息。信息检索的过程可以简单地描述为:用户提交查询条件,信息检索系统根据该查询条件在文档集中检索出与其相关的文档子集,对这些相关文档子集中的文档按照与查询条件相关性的值进行排序,最后返回给用户有序的文档子集[2]。
信息检索从19世纪下半叶开始出现,从最初的手工检索,到20世纪50年代的计算机检索,再到目前的网络化、智能化检索,经历了多个发展阶段[3]。信息检索技术起源于图书馆的参考咨询和文摘索引工作,随着计算机和网络的出现,它的用户也由最初的情报专业人员发展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众。信息检索服务己成为信息时代一项必不可少的服务。随着网络的出现,从事信息检索研究和服务的人数也越来越多,将计算机技术、网络技术和信息技术相结合而成的现代信息检索技术已成为计算机科学研究领域的一个热点。信息检索的目的是从大量纷繁复杂的信息中筛选出符合用户需要的信息。构造检索模型是信息检索的核心技术,它主要包括三个方面的内容:文档与用户查询的表示,查询匹配策略,匹配结果的相关度表示。
布尔模型是基于集合理论和布尔代数的一种简单的检索模型。它定义了一个二值变量集合来表示文档。这些变量对应文档中的特征项,一般是由训练文档集中的词语或词组组成,如果词语对文档内容有贡献则赋予True,否则为False。检索过程中,查询被表示成有确切语义的布尔表达式,根据用户提交的检索条件是否满足文档表示中的逻辑关系将检索文档分为两个集合:匹配集和非匹配集。
向量模型是当前使用较多且效果较好的一种信息检索模型。该模型认为使用二值权值来表示文档与查询的相关性存在着太多的局限,因此提出了一种框架以便能够进行部分匹配,即通过给查询和文档中的标引词分配非二值权值来实现这个目标。这些词语的权值用于计算存储在系统中的文档和用户查询之间的相似度。向量模型利用检出文档相似度降序排列的方式来实现文档与查询的部分匹配。这样做最明显的效果就是结果集内的文档排列顺序比通过布尔模型得到的结果集要合理得多,能更好的匹配用户信息需求,获得较好的检索效果。向量模型的主要优点在于:
(1)标引词加权改进了检索效果;
(2)其部分匹配策略允许检出与查询条件相接近的文档;
(3)余弦公式根据文档与查询之间的相似度对文档进行排序。
向量模型也存在着不足:标引词被认为彼此之间相互独立。然而在实际检索中,考虑词语的独立性对于检索过程来说是一个不利的条件。由于许多标引词之间的相关性具有局部性,对它们不加分析的应用到集合中的所有文档中可能会影响到整体的效果。尽管向量模型结构简单,但对于一般集合来说它仍然是一个适应性强的排序策略。在向量模型的框图中,通过查询扩展和相关反馈,可以改善其所产生的排序结果集合[4-5]。
在信息检索系统中,通过对文档向量与查询向量的比较来计算排序。文档与查询的标引词必须进行匹配和加权才能计算排序。由于神经网络具有很好的匹配模式,人们很自然地想到把它作为信息检索的一种可供选择的模型。人类的大脑由几十亿个神经元所组成,每个神经元都可以看成是一个理想单元,当受到输入信号的刺激时,就会生成输出信号作为反馈。一个输出的信号通过链接反馈到其他神经元中,这些神经元自身又能发出新信号。这一过程可以在神经元的若干层之间来回反复,通常将其称为传递程。对输入信号的处理(如分析、解释)可能导致大脑作出物理反应(如效应)来回应。为了模拟突触链接在大脑中不断变化的强度,为神经网络的每一条边分配一定的权值,神经网络在信号传递的第一个阶段之后并没有停顿下来,文档结点依次直接向文档词语结点返回新的信号,接到信号后,文档词语结点再次直接向文档结点发出新的信号并重复这一过程。信号在每一次反复中会逐渐衰减,传递激活过程最终会停顿下来。即使文档不包含任何的查询词语,也有可能在这一过程中被激活。这一过程可以解释为内置词典的激活。为了改进检索效果,在第一个传播阶段之后,神经网络继续传递激活过程。在这一过程中,更改了初始的向量排序,这有点类似于用户相关反馈循环。为了使这种处理更加有效,可以定义一个最小激活阈值,处于该阈值之下的文档结点不发出信号[6-7]。
当前的搜索引擎主要以用户输入的查询关键词进行信息的检索。搜索引擎将与用户输入的查询相关的文档反馈给用户。但是用户输入的查询关键词往往不能完全准确地表达用户所要查询的意图。当搜索引擎以这样的关键词检索时,往往反馈给用户的信息不能使用户满意,当有些关键词有歧义时,搜索引擎反馈给用户的信息可能有很大的偏移。根据调查人们使用搜索引擎进行信息查找时,平均输入的查询关键词少于2个词。关键词太少很难将用户的查询意图表述清楚,因而搜索引擎在信息检索时都会采用关键词的扩展技术,增加意思相近的关键词到查询中,以改善检索效果。事实上,从对Web搜索引擎的观察来看,用户需要花费大量的时间来重构他们的查询来完成有效的检索。也就是说,第一个查询表达式应当作为检索相关息的一个初步尝试;然后,用户对初步检出的文档进行相关性检查,构建新的更为完善的查询表达式,以期检索到新的相关文档。这种查询重构包含两个基本的步骤:①利用新的词语来扩展初始的查询;②在扩展的查询中给词语重新加权。
针对查询扩展中局部分析方法查准率不高的缺点,提出一种新的方法。该方法通过分析与用户查询密切相关的文档,从而得到与其相关的文档类别,进而根据相关类别中的文档用词与用户查询用词的共现关系对查询进行扩展。通过与传统的局部分析方法、全局分析方法的实验对比,结果表明这种方法具有更快的检索速度和更高的查准率。
传统的基于关键词匹配的信息检索只是将用户的查询用词与数据库中的文档用词进行简单的匹配,由于普遍存在词语的不匹配和用户表达不完整的问题,因而这种检索的效果很差。基于查询扩展的信息检索正是用于解决上述问题的一种重要方法。查询扩展方法可以分成人工查询扩展和自动查询扩展两类。自动查询扩展和人工查询扩展相比,最大的优点在于避免了用户的直接参与。自动查询扩展方法又可以分为全局分析和局部分析两类。全局分析方法通常基于一种关联假设,即在文档集中,相互关联的词语会在该文档集的文档中共同出现,所以它利用整个文档集合中的词语共现信息进行查询扩展。局部分析方法假设查询检索出的排序前列的文档是与查询密切相关的,然后对这些文档进行分析以获得相关信息进行查询扩展。全局技术的计算代价非常高,主要是因为需要计算整个文档集合中所有文档用词之间的关系;局部技术的查准率得不到保证,主要是因为它只对初始查询检出的排序前列的文档进行分析,当这些文档中包含较多无关文档时,查询扩展将会加入大量无关的词,导致查准率的严重降低。
在信息检索系统中引入查询扩展,容易产生与原查询主题偏离的问题,严重影响系统的检索性能。通过研究提出一种基于局部类别分析的查询扩展算法,分析与用户查询相关的文档类别,并利用相关类别中词语的共现关系来选取扩展词,避免加入与原查询不相关的词,以缓解主题偏离的问题,提高检索系统的查准率。实验表明这种方法取得了较好的效果。
针对传统的信息检索模型只能进行精确匹配的问题,提出一种基于混沌神经网络模型的查询扩展方法。该方法利用混沌神经网络模型自身的记忆性、学习性和联想性,对用户的查询信息进行聚类分析和学习,跟踪用户的兴趣变化,从而推测用户的查询倾向,以用于扩展和重构用户的初始查询。通过与传统的向量模型的实验对比,结果表明新方法具有更高的查全率和查准率。
混沌是“无序中的有序”,有序是指其确定性,而无序则是其最终结果的不可预测性。非线性、非平衡性、确定性、动态性、内秉随机性、初值敏感性、时间序列的不规则性和有奇异吸引子是混沌的必然条件。1990年,Ikenguchi,Adachi,Aihara等人在前人推导和实验的基础上,提出了一个混沌神经元模型,该模型已成为一种经典的混沌神经网络模型,可得到比其他模型更好的结果。该模型考虑了神经元本身的线性动力学的混沌行为,可用于联想记忆。
传统的信息检索模型只能进行关键词的精确匹配,而且不能有效利用用户在查询时的行为信息。提出这种新的查询扩展方法,通过利用混沌神经网络的特性,对用户的查询和点击浏览的信息进行聚类学习和联想,推测用户的兴趣以实现对用户查询的扩展和重构。与传统的向量模型的对比实验表明,新方法具有更高的查全率和查准率,获得了较好的检索性能。
随着Web的迅速发展和日益普及,Internet成为人们搜寻各方面信息的主要来源,搜索引擎也在人们的日常学习、工作和生活中发挥着无法替代的重要作用。然而,用户在向搜索引擎提交查询时不一定符合规范,而且语言中存在着大量同义词和多义词现象,导致用户的查询用词与数据库中的文档用词有很大差别,这就给传统的基于关键词匹配的查询系统带来了巨大的困难;另一方面,由于当前的搜索引擎面向的主要是网络用户,不同用户输入相同查询检索到的结果相同,对于背景不同、专业知识不同的特定用户来说,这样的检索结果总是不能令人满意,这也成为困扰信息检索领域的又一问题。为了查找到更符合用户真实需求的信息,需要对用户的初始查询进行扩展和重构,使检索结果更接近于用户的真实需求。未来的工作将主要围绕以下四个方面展开:
1)继续研究查询扩展中的用户相关反馈、自动局部分析和自动全局分析这三类方法,将它们的优点结合在一起,以进一步提高信息检索系统的查全率、查准率和查询速度。
2)研究聚类算法在文本分类中的应用,选择合适的聚类算法与自动查询扩展相结合,在自动完成文本聚类工作的同时,对用户的查询进行扩展,以提高检出文档与用户查询的相关性。
3)继续研究人工智能方法在查询扩展方法中的应用,研究如何有效利用用户反馈和查询日志等信息来学习用户的查询行为,以进一步提高检索性能。
4)研究自动查询扩展技术在Web中的应用,把系统的数据库扩充到整个Internet。研究信息检索系统的可视化显示和交互性界面,允许用户可视化的开发和利用文档空间,提供帮助用户处理查询表达式的线索。
[参考文献]
[1]贺宏朝.一种基于上下文的中文信息检索查询扩展[M].中文信息学报,2002,16(6):32-37.
[2]张敏.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):13-14.
[3]岳文.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7): 26-29.
[4]吕碧波.基于相关文档建模的查询扩展[J].中文信息学报,2006,20(3):78-83.
[5]张选平.基于概念的信息检索查询扩展[J].微电子学与计算机,2006,23(4):110-114.
[6]王耀南.混沌神经网络模型及其应用研究综述[J].浙江大学学报,2006,21(2):121-128.
[7]何国光.混沌神经网络的信息搜索[M].北京:教育出版社,2002.