采用向量空间模型的个性化信息检索方法

2016-04-05 08:20许建豪
关键词:信息检索语料库

许建豪

(南宁职业技术学院 信息工程学院, 广西 南宁 530008)



采用向量空间模型的个性化信息检索方法

许建豪

(南宁职业技术学院 信息工程学院, 广西 南宁 530008)

摘要:为了提升检索结果与用户个性化需求的符合程度,依托向量空间模型提出一种新的检索方法.将用户查询关键词和语料库内的文本信息都映射为向量,从而把检索过程转化为向量相似性的比对.在比对过程中,通过关键词权重突出用户个性化需求,通过余弦相似度判断符合程度.实验结果表明:文中方法的检索结果与用户需求的符合程度明显提高.

关键词:信息检索; 向量空间模型; 个性化需求; 语料库

目前,中国的互联网用户已近7亿,占全国人口的50%[1].人们对互联网日益依赖,需要从互联网上浏览和搜索各类信息.如何使信息搜索结果尽可能臻善,已经成为各大互联网信息搜索引擎密切关注的重要课题[2].从目前的搜索引擎设置看,网络用户在信息搜索时,一般只能输入几个关键词.但这些关键词并不一定能够准确地反映用户的兴趣和需求,加之很多搜索引擎就是通过词语匹配完成查找,更削弱了关键词丰富的自然语言特征,使检索到的信息结果差强人意[3].为此,信息检索领域的学者,致力于使搜索过程尽可能地符合用户的兴趣和需求,按照用户的个性化要求实现信息检索[4].国外学者在信息检索领域开展的研究工作较早,已具有比较丰富的研究成果[5-11].本文构建一个向量空间模型表达用户的个性化需求,并通过实验验证此方法的检索性能.

1个性化检索方法设计

在信息检索方法设计中,为了使检索结果更符合用户的个性化需求,要求抽象的检索模型对用户检索需求有足够的理解能力.基于此,文中选择向量空间模型作为构建个性化检索方法的基础模型.

1.1向量空间模型

向量空间模型(VSM)将要检索的文本信息表征为向量空间上的向量,将文本检索的过程映射为向量运算,进而通过向量空间上的待检索文本向量和模板文本向量的相似性匹配获得最终的检索结果.向量空间模型在文本信息检索中的应用,涉及到关键词、文件、相似性距离、向量空间模型等概念.

设向量空间是m维的,关键词是整个向量空间上的一部分,待检索文本信息用向量表示为Ti(ti,1,ti,2,…,ti,m),ti,j为第j个词语的权重.K为待查询的内容,其在向量空间的表示为K(k1,k2,…,km),kj为查询中第j个词语的权重.

对于查询向量和文本信息向量之间的相似度计算,可以采取很多种方法.文中采用两个向量之间的余弦夹角进行判断,即用余弦相似度方法判断两者之间的相似程度,即

(1)

用ft,k表示ti中关键词ki出现的次数,则ki在整个文本信息中出现的概率为

(2)

为了便于对词频概率的使用,一般需要执行归一化处理,即

(3)

在向量空间模型中,还要考虑每个词汇在多少个文本中出现,其反映了一个词汇的区分度.区分度越低,表明这个词汇被使用的越广泛.对于这个特征,描述方法为

(4)

式(4)中:Num为此次查询中文本的总数;ft为词汇出现的文本频率.

至此,可以根据空间向量的常见方法,计算关键词的权重,即

(5)

式(5)中:θi,j为关键词的权重;pi,j为每个词语出现的词频;Num为此次查询中文本的总数;ft为词汇出现的文本频率.

向量空间模型不仅可以实现查询要求和文本信息之间的匹配,还从词频、文频的角度增强关联性分析,具有反馈能力和一定的自然语言理解能力.

1.2检索方法设计

为了使检索到的信息结果尽可能地满足用户的个性化需求,需要和用户进行反馈.基于向量空间模型的经典反馈查找最佳结果的方法为

(6)

式(6)为理论上的向量空间模型反馈查询方法,为了简化其在实际中的运用,改写为

(7)

式(7)中:R0为用户初始设置的个性化查询向量;λ1,λ2,λ3分别为3个控制参数,以调整3部分之间的平衡,例如,经过反馈发现和用户检索需求不相关的文本数量更多,需要增大λ2以维持平衡.

2实验结果与分析

计算机硬件配置:酷睿双核、主频2.0 GHz的CPU,8 GB内存,500 GB硬盘.软件配置:Windows 7操作系统,Matlab程序设计语言及编译平台,Eviews统计分析软件.采用的文本信息检索对象为英国国家语料库(BNC).该语料库包含各种类型的文本信息子集,如经济领域、政治领域、军事领域、科技领域、生活领域等.

在文本信息检索的实验中,根据提出的基于向量空间模型的个性化检索方法,在BNC预料库中按照用户输入的关键词进行检索.因为很多关键词具有不同的领域特征,所以分别在一个领域和多个领域内搜索文本信息.科技领域内搜索文本信息的实验结果,如表1所示.表1中:A20,A30,A50,A1 000分别为检索结果中前20项,前30项,前50项和前1 000项的个性化符合程度的文献数. 由表1可知:当λ1=30%,λ2=70%,λ3=1%的配置情况时,文中方法的检索效果达到最佳.

选择局部匹配检索法(LM)、全局匹配检索法(FM)、反馈检索法(FD)作为比较方法,在BNC预料库上开展个性化检索实验,4种方法的对比结果,如图1(a)所示.由图1(a)可知:LM方法检索结果和用户个性化需求的符合程度最低,文中方法检索结果和用户个性化需求的符合程度最高.

表1 科技领域内文本信息的个性化检索结果

在多个领域内搜索文本信息的结果,如表2所示.由表2可知:当λ1=20%,λ2=80%,λ3=25%的配置情况时,文中方法的检索效果达到最佳.不同方法检索结果的比较,如图1(b)所示.由图1(b)可知:文中方法检索结果和用户个性化需求的符合程度最高,且在多领域条件下,这种优势更加明显.

(a) 单一领域                    (b) 多个领域图1 4种方法的对比结果Fig.1 Comparison results of 4 methods

序号调整参数设置个性化需求符合程度A20A30A50A10001λ1=10%,λ2=90%,λ3=1%0.45360.43240.41700.30292λ1=20%,λ2=80%,λ3=1%0.45880.43390.41830.30443λ1=20%,λ2=80%,λ3=5%0.46290.43510.41920.30784λ1=20%,λ2=80%,λ3=15%0.46740.43860.42050.31025λ1=20%,λ2=80%,λ3=25%0.47090.44260.42330.31436λ1=30%,λ2=70%,λ3=1%0.46530.44070.42240.31257λ1=40%,λ2=60%,λ3=1%0.46120.43540.41780.31068λ1=50%,λ2=50%,λ3=1%0.45380.43290.41660.30839λ1=60%,λ2=40%,λ3=1%0.45110.42810.41170.302510λ1=70%,λ2=30%,λ3=1%0.44820.42660.40990.295811λ1=80%,λ2=20%,λ3=1%0.44530.42130.40580.294312λ1=90%,λ2=10%,λ3=1%0.44140.41720.39960.2910

3结束语

引入向量空间模型,将用户的个性化搜索需求抽象为向量,并结合关键词权重计算区分用户在不同个性化需求方向上的强弱,采取余弦相似度判别方法执行检索工作,再根据反馈查找思想提升检索结果与用户检索需求的符合程度.在BNC预料库下的实验结果表明:无论是单一领域限制下的检索,还是多领域下的检索,文中方法的检索结果都更符合用户的个性化需求,明显优于LM,GM,FD等方法.

参考文献:

[1]邹聪.浅析网络免费学术资源在医学信息检索教学中的有效应用[J].内蒙古科技与经济,2014,316(18):74-76.

[2]MARS B,HERON J,BIDDLE L,et al.Exposure to, and searching for, information about suicide and self-harm on the Internet: Prevalence and predictors in a population based cohort of young adults[J].Journal of Affective Disorders,2015,185:239-245.

[3]陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报(自然科学版),2011,32(4):401-404.

[4]DARABAD V P,VAKILIAN M,BLACKBURN T R.An efficient PD data mining method for power transformer defect models using SOM technique[J].International Journal of Electrical Power and Energy Systems,2015,71(4):373-382.

[5]MADISON A,BUETTI S,LLEARS A.Singleton search performance predicts performance on heterogeneous displays: Evidence in support of the information theory of vision[J].Journal of Vision,2015,15(12):12-14.

[6]MONCHAUX S,AMADIEU F,CHEVALIER A.Query strategies during information searching: Effects of prior domain knowledge and complexity of the information problems to be solved[J].Information Processing and Management,2015,51(5):557-569.

[7]TANG Yuzhe,LIU Ling.Privacy preserving multi-keyword search in information networks[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(9):2424-2437.

[8]邹向坤.基于Delphi的病历卡片信息检索系统的设计与实现[J].河北北方学院学报(自然科学版),2015,31(4):113-115.

[9]陈秀丽.基于信息需求下电子商务档案信息检索的智能化研究[J].档案天地,2015(10):19-21.

[10]甘丽新,万常选,王明文.基于层次依赖的Markov网络信息检索扩展模型[J].计算机科学与探索,2014,8(12):1485-1493.

[11]KUMAR A V,ALI R F M,CAO Yu.Application of data mining tools for classification of protein structural class from residue based averaged NMR chemical shifts[J].Biochimica Et Biophysica Acta,2015,1854(10):1545-1552.

(责任编辑: 钱筠英文审校: 吴逢铁)

Research on Personalized Information Retrieval Method Using Vector Space Model

XU Jianhao

(School of Information Engineering, Nanning College for Vocational Technology, Nanning 530008, China)

Abstract:In order to improve matching degree between the retrieval results and of user′s personalized needs, a new method based on vector space model is proposed in this paper. Maps the user query keywords and the text information in the database to the many vectors, and then transforms the retrieval process to the comparison of the vector similarity. In the process, the user′s personalized needs are highlighted by the keyword weight, and the matching degree is determined by the cosine similarity. Experimental results show that the retrieval results of this method are significantly improved with the user′s requirements.

Keywords:information retrieval; vector space model; personalized needs; corpus

中图分类号:TP 181

文献标志码:A

基金项目:广西高校科研基金资助项目(YB2014495)

通信作者:许建豪(1977-),男,副教授,主要从事网络技术及信息检索的研究.E-mail:jianhaoxu@yeah.net.

收稿日期:2015-12-25

doi:10.11830/ISSN.1000-5013.2016.02.0175

文章编号:1000-5013(2016)02-0175-04

猜你喜欢
信息检索语料库
平行语料库在翻译教学中的应用研究
高职院校图书馆开设信息检索课的必要性探讨
《语料库翻译文体学》评介
网络环境下数字图书馆信息检索发展
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
基于JAVAEE的维吾尔中介语语料库开发与实现
语料库与生态化英语教学模式
语篇元功能的语料库支撑范式介入