基于相关性分析的搜索引擎设计

2018-09-17 05:36赵冰漫
科教导刊·电子版 2018年21期
关键词:搜索引擎相关性

赵冰漫

摘 要 随着计算机系统性能的提高和网络技术的不断进步,如何在互联网这个庞大的信息资源中提供高效的搜索服务,帮助用户在海量的数据中快速找到需要的信息是搜索引擎亟待解决的问题。通常用户只关心返回的排在前面的结果,然而当前搜索引擎返回的查询结果与用户需求的相关性并不高。于是搜索引擎的相关性设计--按照与用户查询的相关程度对搜索引擎的索引文档进行排序,成为当前研究的重点。

关键词 搜索引擎 相关性 用户查询 索引

中图分类号:TP391 文献标识码:A

0引言

本文对搜索引擎的相关性进行了深入的研究,主要工作归纳为以下几点:

(1)文本搜索引擎的相关性排序模型,采用向量空间模型。

(2)文本搜索引擎数据源采用网络爬虫实现。

(3)文本搜索引擎数据分类采用朴素贝叶斯算法。

1相关性分析与实现

TF-IDF:是一种常用的检索系统的加权技术。

基本思想:是每个字词的重要性随着它在文件中出现的次数成正比,与在其他文件中出现的次数成反比。

TF:Term Frequency:关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则: TF=为该关键词在这篇文章中的词频。

IDF:Inverse Document Frequency :逆向文本频率,是用于衡量关键词权重的指数,由:IDF=log()计算而得。

D:表示文章总数,DW:表示关键词出现过的文章数。

2基于向量空间的余弦算法

算法步骤:预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。

(1)预处理。预处理主要是进行中文分词和去停用词。然后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点、及乱码去掉。例如:“这,的,和,会,为”等词出现在任何一篇中文文本中,但是他们对这个文本所表达的意思几乎没有任何贡献。使用停用词表来剔除停用词的过程,就是一个查询过程,对每一个词条,看其是否位于停用词表中,如果是则将其从词条串中删除。

(2)文本特征性选择与加权。过滤掉常用副词、助词等频率高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。

(3)加权是针对每个关键词对文本特征的体现效果小大不同而设置的机制,权值计算参照IDF公式。

(4)向量空间模型VSM及余弦计算。向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d),对于其他要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)简记为D=D(W1,W2,…,Wn)把他叫做文本D的权值向量表示,其中Wk是Tk的权重,1≤k≤N。

两个文本D1和D2之间的内容相关度SIM(D1,D2)常用向量之间夹角的余弦值表示,即

式中W1k、W2k表示文本D1和D2第k个特征项的权值,1≤k≤N。

3朴素贝叶斯算法设计与实现

朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

文本分类在搜索引擎中属于必备语言处理模块,每篇文章都由成百上千个词语组成,可以当做个向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i个词语。文章的分类也可以视为一个分类标记集合C=(c1,c2,c3,…,cm)。在wi出现的情况下,文本是文本分类C的概率,可根据贝叶斯计算,公式为:

在文本分类的角度理解贝叶斯公式为:在wi词出现的情况下是否是文本类别取决于在文本分类cj情况下wi出现的概率,以及wi在所有词中出现的概率。p(w)的意义在于如果这个词在所有文档中出现,那么用wi去判定是否是cj的概率越低,越不具备代表性。

朴素贝叶斯是一种有监督的学习方式,可以利用伯努利模型以文件为粒度进行文本分类。可以归纳朴素贝叶斯大致分为数据准备、分类器训练及分类识别三个阶段。

(1)数据准备。语料库的准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定属性特征,并对每个属性特征进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上是由特征属性、特征属性划分及训练样本质量决定的。

(2)分类器训练。这个阶段的任务是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械阶段,根据前面讨论的公式可以由程序自动计算完成。

(3)分类识别。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

4结语

搜索引擎相关性的研究在未来还将是研究热点,学者将会从更加全面的角度剖析相关性的影响因素,增加用户习惯、需求等因素;检索功能也将不断得到补充,多媒体检索、移动检索等检索技术将成为未来各个搜索引擎企业重点研究的检索功能;同时,除了检索效率、网页相关性的评价研究外,检索结果排序、检索信息重复率、网页死链或响应时间等问题也将成为下一阶段亟待研究解决的重要问题。

参考文献

[1] 王黎.搜索引擎的相关性排序算法研究[D].合肥:中國科学技术大学,2010.

[2] 王亮.搜索引擎及其相关性排序研究[D].武汉:武汉大学,2004.

[3] 孙靖.基于云平台的数据库搜索引擎实现方法的研究[D].南京:南京邮电大学,2014.

猜你喜欢
搜索引擎相关性
小儿支气管哮喘与小儿肺炎支原体感染相关性分析
脑梗死与高同型半胱氨酸的相关性研究(2)
脑梗死与高同型半胱氨酸的相关性研究
会计信息质量可靠性与相关性的矛盾与协调
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌