浅析数据库中的索引

2016-10-21 20:33刘彩利
大经贸 2016年5期

刘彩利

【摘 要】 数据库中的索引可使数据库程序无须对整个表进行扫描,就可查询到所需数据。本文主要讨论了索引的建立过程和基于分类的索引查询的过程,并给出了对检索结果进行排序的算法。最后通过实验对比了该检索方法与常规检索方法的检索效率和检索准确率。

【关键词】 索引 索引器 分类索引

1 索引的建立

(1)索引器简介

影响搜索引擎检索效率和查准率的最大的因素就是索引的质量。索引是一个搜索引擎最为核心的部分。通常情况下为了提高检索的效率、检索的查询准确率和良好的存储系统的利用率,都需要对信息本身建立高效的索引。而索引器就是搜索引擎与信息采集软件之间的“桥梁”。索引器就是建立索引数据库的工具,目前搜索引擎建立索引主要采用全文索引的形式。

(2)倒排索引

目前中文全文检索系统使用的索引方法主要有倒排索引和正排索引两种。

正排索引的索引表结构主要包含三部分:文档的编号、文档中的字和该字的位置信息,其中以文档编号作为关键字。这种索引的优点就是结构简单和容易维护,但是它也有很大的局限性:每次检索时都要扫描所有的文档。

倒排索引则采用文档中的字或者词作为关键字来进行索引,它的索引表结构中还包含文档编号和关键字在文档中的出现位置。倒排索引的优点就是一次能够查询到关键词在所有文档中的位置信息,因而相对于正排索引而言,它具有更高的效率,它的缺点就是索引表的建立比较复杂。

(3)基于单字的索引构造

字表索引的构建方法有很多种,下面介绍其中一种字表法索引库的构造方法。字表索引库的数据结构一般都采用字表,其中Pix表示字符i在源文档出现的位置,它的值为该字符相对于文档头部的偏移字符的数目。字表索引的建立过程就是先扫描整个源文档,然后将每个有效字符在源文档中的出现位置加入到对应的字表中。

字表倒排文档的字表包含字符在源文档中的所有出现位置,并为了区分位置与文档的对应关系,对该字符的字表进行了分段的处理方式,段和源文档之间有一个对应关系,段是表示字符出现在源文档中的位置。每个段包含三个部分:第一部分记录文档的编号,第二部分记录该字符出现在源文档中的頻率,最后一部分记录字符出现在文档中的所有位置。

2分类索引查询

分类索引查询的过程是用户首先在Web窗口中输入关键字,然后提交到Web服务器上,Web服务器接受用户发送过来的关键字信息,然后在索引服务器中检索相关信息,并对检索的结果信息进行排序,最后将结果返回给用户的过程。分类索引查询的步骤如下所示:

Step1:用户在输入关键字并提交以后,服务器端相应地会收到一个六元组。六元组的内容包括:关键词、区域、时间范围、类别标识、分类体系标识和检索范围,其中检索范围是标识此次检索是基于标题的检索还是全文检索。

Step2:服务器首先查询分类-服务器的映射表,然后根据该分类-服务器映射表找到存放该用户所要检索的资源的索引信息的服务器IP,然后将查询的任务分发给具体的其他几个索引服务器来执行相应的具体查询工作。

Step3:索引服务器在索引库中检索该关键字,取出符合条件的检索结果,并对资源进行打分,打分后按资源的得分情况对资源按由高到低的顺序进行排序,并将排序结果返回给前端的Web服务器。

Step4:Web服务器收到来自于各个索引服务器已经排过序的检索结果,然后利用归并算法的思想对结果重新排序,并将最终的检索结果反馈给用户。

3 结果排序

本平台对资源的打分算法采用经典的BM2500 公式(该公式由Robertson和Sparck Jones提出,见公式3.1),并在这个公式计算的结果上,增加了对平台资源权重的考虑,综合考虑这两种因素后,得到了本平台的资源打分算法。

式(3.1)中的tf表示查询词T在观察文档中出现的位置,qtf表示查询词T在查询中出现的次数,dl表示观察文档的长度,avdl表示文档的平均长度,通常以词或者词组作为单元来表示。w(1)表示查询项本身的权重,一般被称作Robertson/Sparck Jones(RSJ)权重因子,计算公式如式3.2所示:

其中N表示集合中的所有文档的数目,R表示与该查询项相关的文档数,n表示该查询项所查询出来的文档数,r表示相关文档中含有该检索项的文档数。通常在进行首次检索时,由于缺少相关性的信息,R和r取值为0,此时查询项的权重因子就简化为文档访问频度权重,如公式3.3所示:

本文提出的结果文档排序算法与传统的文档打分算法不同,传统的文档打分算法缺少与用户的互动,显然传统的算法不够人性化。本文提出的文档排序算法结合了用户对文档权重的打分值,最后与传统算法的得分值进行综合考虑得出结果。

先假设有一个文档 d,Q为查询词,Result(Q)为执行查询结果以后返回给用户的结果数目,Score(d)为资源的得分值,W(d)为资源的权重,C(d)表示总记录中包含资源d的个数,sum为查询结果总记录数。则此算法的步骤如下:

Step1:输入集合T={T1,T2,……,Tn};

Step2:对T中每个元素 执行sum+=Result(Q);

Step3:如果sum为零,则表示没有查到结果,转到Step5,否则执行Step4;

Step4:对结果中的每个文档d,返回文档得分C(d)*Score(d)+W(d)。

Step5:返回结果,程序退出。

4 本章小结

本文浅谈了索引的建立过程和基于分类的索引查询的过程,并对比论述了索引的一些算法。总之,有效的索引是影响数据库性能的因素中最重要的一项,一个良好、完善的索引可以显著提高数据库的性能。