Web信息检索中N层向量空间模型及特点分析

2019-12-21 08:50开磊
大众投资指南 2019年7期
关键词:信息检索文档运算

开磊

(安徽省合肥市安徽新华学院国际教育学,安徽 合肥 230088)

处在当前互联网信息时代的背景下,互联网信息总量不仅种类增多,而且数量不断增长,这就需要探索出精确、快速和高效提取信息的途径,这同时也是研究核心所在,备受社会各界的关注。

一、传统向量空间模型

随着社会的逐步发展和进步,不同类型的信息检索算法模型已经形成和应用。其中,Sallon等学者就对向量空间模型算法进行了构建,借助TFIDF对文档进行了转换,形成向量的形式,极大地简化了运算过程,有着大规模的应用。基于典型向量空间检索模型算法下,借助涵盖特征项构成向量可以对查询、文档进行表示,同时借助查询、文档二者间的向量夹角余弦当成度量相似性的过程,并且随着夹角的减小会使相似度逐渐增大。在对特定向量进行查询的过程中,通常需要将其同全部文档向量相似性进行比较,同时以相似度为标准,按照降序的规则来排列文档,并对最终的检索结果进行提交。上述方式具有多种优势,例如:简便化、处理速度较快和直观化等。然而文档集合下特征项总量比各篇查询、文档下特征项数量要大,所以查询、文档二者的向量代表形式下多数均是0。零项能够基于运算特征项相似度、权重,从而在空间、实践繁琐性方面存在问题,影响数据稀疏的状况。除此之外,抽取、查询匹配特征项时,相同特征项可以在文档各区域内出现,在显示文档内容能力方面有所差异。同时,相同区域内的文档,如果特征项存在差异,则对文档内容的表达能力也会有所不同。借助典型向量空间模型能够视作上述特征项对文档的表达能力相一致,不存在较大的差别。

推广应用向量空间模型之后,其在信息检索中发挥着非常重要的作用,然而在信息技术快速进步的同时,使用者的需求发生了很大的变化,这就导致向量空间模型的问题日益呈现出来,众多研究人员对此进行了分析,同时构建了改进算法。

建立向量空间模型的根本就在于,各篇文档、查询均涵盖了借助概念词进行呈现和表示相关内容的独立属性,各属性均能够视作概念空间下维数。所以,查询、文档均能够表达成不同属性的集合,这就会对文本结构下的词语、句子及段落的烦琐联系有所忽视。由此,就需要依次借助空间下独立点来代表查询、文档,同时,查询、文档二者的矢量间相继具有差异化的空间距离,此距离联系呈现于信息检索内,表示的即为查询、文档二者相似度。因此,在衡量查询、文档二者相似度的过程中,能够借助矢量距离进行表达。相似度运算相似度的方式较多,本研究借助余弦系数法,将查询、文档相关度借助矢量间夹角余弦进行表达。夹角在增大的过程中,距离就会相继拉远,但是余弦和相关度均会变小,不然就会呈现相关度逐渐增大的结果。

二、N层向量空问模型

针对文档进行N层组织结构分割,针对各层文本内容对特征项向量、权值进行构建,同典型空间模型相比,其运算权重及抽选特征项目相一致。由此,N层向量空问模型就是N层分割文档所获取向量空间模型。

本研究结合Web信息检索开展分析工作,因为Web页面的格式非常的特殊,规定各篇文档应至少涵盖三大部分,即为文档正文、文档标题及文档链接。同时这些内容在表达文档能力方面也存在一定的差异。吸引使用者进行阅览文档的直接途径就是链接文字,因此必须要去报文档表达能力最强的就是链接内容,之后才是标题,而文档表达能力最差的就是正文内容。基于Web信息检索的过程中,发挥N层向量空问模型的作用,能够针对Web文档,依据指向文档链接、正文及标题进行三层结构划分,集合具体情况也能够形成四层向量空间模型。

三、N层向量空间模型特点

(一)N层向量空间模型下的信息检索算法为:

1、对特征项库进行构造。对文档集合下特征项进行输入,形成特征项库;

2、对文档信息进行构建。在数据库内输入文档内容,形成文档信息库;

3、对文档向量信息库进行建立。针对各文档信息对各特征项权值进行运算,形成文档向量;

4、查询文档。对查询条件进行输入,借助布尔模型获取查询条件下文档向量,同各文档向量开展运算,获取文档、查询条件相似度;

5、对输出结果进行排序。根据相似度对查询结果进行排序。

(二)向量空间模型下检索信息方式的问题为:

1、运算文档向量权值时,对反比文献频率idfk进行了运用,所以在对文档进行增加时,应对向量进行再次运算;

2、借助链接能够变迁不同 Web文档信息,所以链接文本信息象征被链接Web文档的关键内容,借助向量空间模型来查询Web信息,不会对这些内容进行考虑。这就会使典型向量模型的查询速率降低,影响精确程度。

索引项权重wik即为索引项针对文档的关键性,也就是索引项能够大致区分文档。借助tf-idf法能够加权索引项,能够使索引项(较多不分文档较少出现,而较少文档经常出现)具有的权重增大。因为Web文档具有半结构化特点,特殊位置形成超链接、标题等各类域下的索引项。特殊位置内容对Web文档重要信息进行表示,所以索引项权重、位置存在紧密联系。借助tfidf法,在向量空间模型下,对索引项权重进行运算过程中,能够不考虑信息重要程度,导致Web信息检索系统输出结果顺序排列能力不高。

猜你喜欢
信息检索文档运算
浅谈Matlab与Word文档的应用接口
重视运算与推理,解决数列求和题
有人一声不吭向你扔了个文档
有趣的运算
基于RI码计算的Word复制文档鉴别
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例