提高网络信息搜索匹配准确率的相关研究

2012-12-31 00:00:00金贵荣
科技资讯 2012年31期

摘 要:步入信息化时代,人们获取信息的主要方式就是通过网络。Internet上的信息量不断更新增多,虽然为人们提供了丰富的信息资源,但是却也加大了人们搜索所需信息的难度。一些搜索引擎,诸如百度、Google等虽然提供了网页搜索的便捷方式,但由于关键词的匹配是信息检索技术的基础,因此搜索结果往往存在冗余及多余无用信息,搜索匹配准确率不高。如何在浩瀚如海的信息空间里快速、准确的查找到所需信息,是目前人们关注的焦点问题。

关键词:网络信息 搜索匹配 准确率

中图分类号:TP391 文献标识码:A 文章编号:1672-3791(2012)11(a)-0002-01

1 搜索引擎技术

基于Internet信息检索技术,将Internet上的网页间建立相关联的索引数据库,便于用户检索时在库中快速定位信息并提供信息给用户即为搜索引擎。

搜索引擎由量大部分组成:前台和后台。例如:Google、百度等即为前台。前台主要用于为用户提供检索接口,依据用户的请求进行信息的检索,并反馈用户经过滤后的信息资源;后台用于实时搜集网页建立引擎。

搜索引擎可以大范围的进行信息源的检索,进一步提高召回率,且提升检索的全面性、综合性等。搜索引擎的缺点在于查询的时间相对较长。

2 造成网络信息搜索匹配准确率低下的因素

(1)无关、重复信息过多。由于传统搜索引擎需要返回的网页有很多,而且网页内存在大量无关且多余的信息,有部分网页内容相同,造成用户难以在海量信息中对所需信息准确、快速定位。(2)检索方式单一。由于通常情况下信息检索技术都是采用关键词匹配检索方式查询,关键词并不能将用户所需的信息资料准确的表达出来,或者用户很难找到合适的关键词进行查询。(3)关键词检索通常情况下仅使用词频信息,并没有涉及语义、句法及语用信息方面,所以只是在篇章或段落里面检索答案,并不是最明确的答案[1]。

3 网络信息搜索匹配原理

信息搜索就是进行网络信息的快速匹配。词汇的检测、匹配需要依据语言特征,通过对基础语言词汇数据进行对比、对核才能完成。网络信息特征是传统信息搜索方法进行检索的依据,但由于网络中的数据量较大,而且词汇存在相似的特征,造成网络中数据有很大一部分相似,传统的匹配搜索法检索结果会存在大量的非匹配词汇,用户在提取数据源时无法满足需求,导致搜索匹配准确率不高。

4 提高网络信息搜索匹配准确率的策略

(1)基于网页去重。在进行信息检索时将不同链接、却基本相同的信息资源进行后台整合,将多余的冗杂信息去除,就能够提高信息检索的精度及效率。

(2)基于分面、分类。对一个概念进行不同角度的划分或将其分成不同的侧面,进行细13091f9321483fa9408f5083cac5db9a349a87ae742f7f31ffce656df98ffb73分后编制能够替代主题词表的分类体系。这样用户进行信息检索时,先将检索到的关键词划分成为一些子类别,从中选择合乎自己要求的类别,选中后系统再次进行分类,直到用户满意或系统分类到达节点。这样将其一步一步细化进行检索能够快速实现用户所需信息搜索,且准确率较高。

(3)基于词频统计。统计法是信息检索的最基本方式之一。词频统计法又是最常用的统计方法。通常情况下作者都会在一篇文章中进行重点词语的强调,重点词语便会在文中反复出现。这样可以进行检索信息的关键词统计,并设置一个阈值,如果关键词出现的频率(词频率)超过了阈值,便会返回所对应的文章。还可以显示出关键词的顺序及在文中的位置。

(4)基于自动文摘。科技的进步带动了自然语言处理技术的发展,使其得到了广泛的应用。用户在进行信息检索时,自然语言处理技术会对检索到的网页、文档进行自动抽取摘要信息的功能,用户依据文摘选择符合自己需求的信息进行浏览,这样提高了检索的准确性及效率。

(5)基于知识的表示及处理。将与世界事实、关系及过程等信息编码,使其成为科学的数据结构即为知识表示。语义网络及产生式表示法是常见的两种知识表示法。采用知识表示方法进行信息检索,对于具有相同意义的关键词检索,当输入关键词以后,搜索的信息能够将同义的描述显示出来。

(6)基于超链接技术。超链接是一种网状检索,能够进行沿链访问,是以超链接网络作为浏览基础进行浏览的方式。当网络中的信息、文档依照不同的主题进行分类存储以后,主题词表以及分类体系间所具备的相关联系会形成网状的结构。将分类体系中的类作为一个节点,相互间的关系作为链,就形成了网状体系,在此基础上能够进行超链接检索。

(7)基于语料库。语言的词汇、语义、语法结构及语用信息都属于语料库范围。语料库是进行信息检索、统计、比较研究的基础。目前自然语言处理的各环节已经融入了语料库研究,并有机结合自然语言处理方法,有效的促进了对用户检索意图的理解,加深了知识表示,极大的推动了信息检索匹配的准确性。

(8)基于合适的网络检索工具。检索需求不同可以采用不同的检索引擎、专题数据库及主题指南等。这样可以较为准确的检索出所需的信息资料,提高搜索匹配效率。

(9)高效检索技巧:①打开多个检索窗口可以有效的节省检索等待时间。②关闭主页图像能够提升下载速度。③运用词组检索能够提高信息匹配准确性。④直接查找信息源,利用IP地址直接打开网页及网站。⑤选择就近的网络站点。⑥使用大型专业数据库进行搜索。⑦使用网络搜索软件。⑧不在上网高峰期进行信息的检索。

5 结语

伴随互联网的发展,信息资源将会进一步的增加、膨胀。为了提高网络信息搜索匹配的准确率,可以借助一些常用的技术方法等,并进一步理解用户检索意图,加上一些检索技巧能够有效的提升搜索匹配准确率。网络信息搜索匹配准确率的提升需要不断的进行探索研究,科技的进步必将促进网络信息检索技术的准确性提升。

参考文献

[1] 陈海光.HNC理论和随机模糊在问答系统中的应用研究[D].江苏:江苏大学,2009.