闫蓉 高光来
摘要:针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。
关键词:伪相关反馈;潜在狄里克雷分配;主题模型;查询扩展
中图分类号:TP391.3
文献标志码:A
0引言
随着Web的普及,越来越多的用户希望从互联网上获取信息。对于目前主流的基于关键词的搜索方式,用户必须通过构造有限的查询词来表达信息需求(information need)。Carpineto等[1]在查询扩展综述中明确指出,大多数用户喜欢构造短查询交给搜索引擎,且构造的查询词多以1~3个词居多;并且用户的查询构造本身就是一个抽象的过程,查询构造结果具有模糊性、不确定性和描述的多样性。在这种情况下,由于缺乏上下文语境,搜索引擎很难完全理解用户的查询意图,返回的结果中经常会包含大量无关或相似的文档。特别是当查询词出现歧义时,返回的文档集会偏向于某一个主题,而该主题往往并不是用户潜在查询意图[2]。如果搜索引擎能够将与用户初始查询构造相关的信息全部返回给用户,那么,用户就可以在多个不同查询结果中找到自己最想要的结果。文献[3]的研究表明,提高用户体验较好的办法就是给用户提供尽可能多的不同信息,而这些信息中至少会有一个是与用户需求相关的。
查询扩展可以有效地解决用户表达问题。其基本思想是利用与关键词相关的词语对用户原始查询进行修正,弥补用户初始查询信息的不足,提高查全率。伪相关反馈(Pseudo Relevance Feedback,PRF)作为一种有效的自动查询扩展方法[4-6],其假设初检查询结果集中排名靠前的k个文档是与用户查询相关的,记为伪相关文档集,并从中抽取扩展词进行查询扩展。该方法的查询效果主要受制于选取的前k个文档的数目及质量[7-8],在其质量偏低的情况下,容易产生“查询主题偏移”现象。提升前k个相关文档的质量可以有效避免这种现象,形成真正与用户查询需求相关的伪相关文档集合。通常,改善伪反馈文档质量包括调整[9-11]和聚类[12]两种方法。其中,调整的方法包括对查询结果重排序和过滤两种方式:重排序的方法通过给查询结果集中各文档赋予不同的值来进行排序,通过构造算子[9]或是加权[10]完成;过滤的方法[11]主要通过给查询结果集中各文档添加若干特征,突显相关文档,提高相关文档的排名,从而达到过滤的目的。
以上这些伪相关反馈方法关注的重点仍是用户查询词的表象形式,而不是用户的内在实际信息需求,得到的伪相关文档中往往有很多是非常相似的,造成查询结果冗余的增加,不能很好地体现用户不同层面的查询需求[8]。本文研究认为,用户的查询需求并不是单一的,而是多层面和多角度的,要实现自动的查询扩展,就要求伪相关文档中的各文档内容既保证与用户原查询相关,又要保证其与用户多层面需求的一一映射关系,从而降低查询主题偏移的风险,进而获取与用户查询尽可能相关的信息来进行伪反馈。有鉴于此,本文提出一种提高伪反馈文档质量的排序模型REM(REorder Model)。该模型从文档隐含语义角度出发,通过对初检查询结果集中各文档进行重调序的方式,提高与用户查询主题相关文档的位序,确保二次反馈扩展源的质量,进而提高检索效果。
1基于检索结果排序的PRF模型
伪反馈文档质量不高实质上是由于搜索引擎对于用户查询理解不充分造成的,而要让搜索引擎完成这种充分理解是不大可能的。那么,如果能够将用户查询本身所有相关内容都尽可能地覆盖到,这样就可以在伪相关文档中减少不相关文档的数量,从而提高查询准确率。为了确保伪相关文档中各文档满足用户查询覆盖度的要求,本文提出一个排序模型REM。该模型将初检查询结果文档集中的各文档依据满足用户查询意图相关度程度进行重新排序,选择排名靠前的top-k个文档来构造二次反馈的扩展源集合。
1.1排序原则
Carbonell等[13]提出的最大边缘相关算法(Maximal Marginal Relevance, MMR)是用来解决查询结果多样化问题的一种方法。该算法分别对各文档与用户查询间的相关度和文本之间的相关度进行度量,所谓的边缘相关即为二者的线性组合。按照各文档的边缘相关最大化作为排序依据,提升在已有查询结果中与查询相关性尽量大、且与先前被选择的文档间相似性尽量小的文档的排名次序,完成对各文档的重定序。
本文的排序策略与MMR很类似,区别在于:本文认为初检查询结果集中的各文档还应当依据其与用户查询意图相关度高低来进行排序,并从排序结果中构造伪相关文档集。这就要求构造的REM排序模型,一方面要保证伪相关文档集中各文档与用户各层次查询需求的一一映射关系,另一方面要保证其中的文档间的相似度最小。本文假定初检查询结果各文档相关主题的语义集合涵盖了用户的查询需求。由此,构造REM模型的排序准则如下:排序结果集中的各文档要满足用户各层次查询需求,即需求覆盖度的最大化;同时还应保证各文档之间尽可能的不相似,即冗余度的最小化。
2文本相似度计算
式(2)中列出了两个相似度计算,它们是构造本文排序模型的关键。对于文本间相似度的计算方法大部分以基于向量空间模型[14]为主。该方法通过构造词典空间,将文本在词典空间表示为词向量的方式进行建模。但在真实数据集中构造的词典空间存在维度过高和数据稀疏的问题,而且在建模过程中未考虑文本中各词项的语义特征。在本文的排序模型中,目的是让伪相关反馈集中的各文档尽量满足用户各层面的信息需求,那么,在相似度计算中,应该选取一种更合适的,能考虑文本中各词项语义特征的文本表示方法。近年来,主题模型——潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)[15]被研究应用在文本相似度计算[16]中。LDA通过引入隐含主题(latent topic)概念,在主题空间(topic space)中用有限主题数目将文档表示成低维的文档主题向量,并且考虑了文本的语义特征,通过构造“词汇主题文档”模式来提取大规模数据集中潜在的主题(语义)信息。基于此,本文选用LDA主题模型抽象表示文本,用于计算文本间语义相似度。
信息检索本身对于词汇的精确度要求高。但是,LDA在建模过程中抽象的主要对象是整个数据集,对应用LDA模型生成的文本来说,文本被表示成所有主题的特定比例的混合。如果依此方式对用短文本构造的用户查询直接进行LDA建模,会由于数据稀疏的原因,使得这种文本表示结果不合适[17],势必会造成检索性能较差。所以本文在实验过程中,仅对进行Sim2(di, dj)计算的两个文本进行LDA建模,而对Sim1(di, Q)相似度计算,本文将直接利用经典的BM25[18]检索结果。对于LDA建模后的两个文本,本文使用JS(Jensen-Shannon)距离[19]计算文本相似度,如式(4)所示:
3实验设置及评价
3.1实验设置
3.1.1索引建立
本文使用lemur(http://www.lemurproject.org)工具建立文档索引和查询。实验数据集包括文档集和查询集,其中:文档集包括简体中文Xinhua(2002—2005)四年的新闻文档,共308845个文档;查询集包括简体中文ACLIA2-CS(0001 ~0100),共100个查询。由于数据集为中文数据,所以在进行检索和查询前,首先对文档集和查询集都进行了预处理,包括分词(采用的是中国科学院计算技术研究所的ICTCLAS)和去除停用词。
3.1.2LDA建模
在进行LDA建模前,为了降低少数低频词对文本建模结果的影响,对实验文档集作了进一步的预处理:去除部分虚词、形容词、副词等意义不大的词;删除文档集中出现频度小于5的词汇。最后对剩余的65082429个词项进行LDA主题建模。LDA建模的参数估计利用MCMC(Markov Chain Monte Carlo)方法中的Gibbs抽样[20]算法。初始设置主题个数M=10, α=50/M, β=0.01,Gibbs抽样的迭代次数为100。
LDA建模过程中主题数目M的设置非常关键,主要是因为主题数目与数据集密切相关。用LDA对数据建模后,数据会通过主题进行高度抽象和压缩,主题数目的设置应当以数据为根本,因为不同的主题数目会导致每个主题词项分布结果的不一样,直接影响文本的语义表达。所以对于不同的数据集,主题数目M的取值是不固定的。困惑度(Perplexity)[21]可以用来评价主题模型的生成性能,本文采用该方法作为评价指标来确定最佳主题数目M。一般地,困惑度取值越低,就表示模型更能发现数据中深层次的语义结构,模型的推广性就越好。困惑度的计算如式(6)所示:
本文实验中,依次取主题个数M=10,20,…,100,分别对LDA建模,分析困惑度的变化。实验结果如图2所示。从图2可以看出,当M=60,模型困惑度达到最小峰值,此时模型的生成性能最佳。因此,实验中选取主题数目M=60。
3.2实验评测标准和结果分析
初检的相关度排序方法选用的是典型的一元语言模型(Language Model, LM)方法,采用Dirichlet平滑方法,设置值为1000。LM是基于词项空间的统计结果来对用户查询和文档的相关度进行计算的,并没有考虑词语所表达的语义信息。选取其结果作为初检结果的目的,是为了验证引入表达语义信息的文本表示方法后,从浅层语义的角度是否可以通过文档位序的调整来达到提升扩展源质量的目的。因为大多数用户在检索过程中主要关注排名靠前的结果,实验结果应该考察其是否符合大多数检索用户的习惯,所以实验中主要从查询准确率方面进行评价,分别采用前n个结果的查准率Precision@n(简记为P@n)和平均查准率 (Mean Average Precision, MAP)来衡量。
实验中初检查询结果文档个数设定为K=50,并设置统一从排名前10个文档(即k=10)中抽取扩展词。文献[22]研究表明,扩展词个数的数目设定为10~20时,检索效果最好,所以实验中设置feedbackTermCount=20进行伪反馈。Baseline选取标准的BM25[18]伪反馈。REM算法中关于参数λ取值,本文采用贪心策略,当λ取0.7时,检索效果最好。为了有效验证REM方法,本文还和TF-IDF(Term Frequency-Inverse Document Frequency)伪反馈方法进行了比较。实验结果如表1所示。
从表1的结果可以看到,REM方法比Baseline(BM25)和TF-IDF伪反馈方法在MAP和P@5指标上有了明显的提高,说明REM方法对于提高检索效果是有效的;但在指标P@10上的结果略有下降,该结果其实正体现了本文的核心思想,即实际应用中对于搜索引擎提供的查询结果,应该做到查询的多样性与查询内容的相关性及有用性的折中。
为了进一步验证本文提出方法的有效性,将REM方法结果与直接对初检结果利用MMR算法进行调序的结果(VSM_PRF)进行了比较。在VSM_PRF方法中,文档采用向量空间模型文本表示方法,并基于Cosine系数计算文档间相似度。这样做,还可以比较两种不同文本表示方法对于检索效果的影响。另外,本文同时还与初始结果直接进行伪反馈的结果(LM_PRF)进行了比较。结果如表2所示。
从表2结果可以看出,在各项评测指标上,VSM_PRF和REM均明显高于LM_PRF检索结果,说明从文本语义角度出发对初检结果进行重排序的方法是切实可行的。另外,对MMR结果进一步改进,可以达到更好的检索效果,REM方法在MAP指标上比VSM_PRF高出6.4%,表明引入主题空间的统计信息,可以更有效地改善词项空间的统计结果;但二者在P@5和P@10指标上相差无几,主要是由于本文提出的算法对于文本的主题建模精度要求高所造成的。
4结语
主流的关键词查询表达多样性使得传统的查询扩展会发生“查询主题偏移”问题,为此提出一种新的伪相关反馈方法,通过引入排序模型REM对初检结果文档集中各文档进行重排序,从而获取高质量伪相关文档,减小查询主题偏移的风险。实验结果验证了本文提出方法的有效性。与传统的伪反馈方法比较而言,本文提出的REM模型更有助于提高查询效果;而且实验结果还表明,在重排序过程中,与基于词汇级别上的文本建模方式相比,基于主题级别上的文本建模方式能够获取更多的语义信息,有助于提升伪相关文档的质量,改善检索效果。
本文将浅层语义应用于文本相似度计算中,并对将其用于解决实际的检索问题进行了初步尝试。但在实际的检索实现中,需要用户的参与或分析和挖掘用户检索行为来获取与用户查询真相关的RR集合,这是一件很困难的事情。所以进一步的工作重点在于,在对大规模文本数据集进行主题建模基础上,有效利用隐藏在伪反馈文档中的主题信息,进而提取与用户查询相关的语义信息,以达到用浅层语义指导检索过程的目的。
参考文献:
[1]CARPINETO C, ROMANO G. A survey of automatic query expansion in information retrieval [J]. ACM Computing Surveys, 2012, 44(1): Article No. 1.
[2]VARGAS S, SANTOS R L T, MACDONALD C, et al. Selecting effective expansion terms for diversity [C]// OAIR2013: Proceedings of the 10th Conference on Open Research Areas in Information Retrieval. Paris: Le Centre de Hautes Etudes Internationales DInformatique Documentaire, 2013: 69-76.
【只有法文名称LE CENTRE DE HAUTES ETUDES INTERNATIONALES DINFORMATIQUE DOCUMENTAIRE】
http://dblp.uni-trier.de/rec/bibtex/conf/riao/EmbarekF10,该页面上缩写用的是
publisher = {{CID} - Le Centre de Hautes Etudes Internationales D'Informatique Documentaire},
[3]TEEVAN J, DUMAIS S T, HORVITZ E. Characterizing the value of personalizing search [C]// SIGIR2007: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 757-758.
[4]COLLINS-THOMPSOM K. Reducing the risk of query expansion via robust constrained optimization [C]// CIKM2009: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009: 837-846.
[5]RAMAN K, UDUPA R, BHATTACHARYA P, et al. On improving pseudo-relevance feedback using pseudo-irrelevant documents [C]// ECIR 2010: Proceedings of the 32nd European Conference on IR Research, LNCS 5993. Berlin: Springer-Verlag, 2010: 573-576.
[6]ZHAI C, LAFFERTY J. Model-based feedback in the language modeling approach to information retrieval [C]// CIKM2001: Proceedings of the 10th International Conference on Information and Knowledge Management. New York: ACM, 2001: 403-410.
[7]HUANG Q, SONG D, RüGER S. Robust query-specific pseudo feedback document selection for query expansion [C]// ECIR 2008: Proceedings of the 30th European Conference on IR Research, LNCS 4956. Berlin: Springer-Verlag, 2008: 547-554.
[8]HE B, OUNIS I. Studying query expansion effectiveness [C]// ECIR 2009: Proceedings of the 31th European Conference on IR Research, LNCS 5478. Berlin: Springer-Verlag, 2009: 611-619.
[9]MITRA M, SINGHAL A, BUCKLEY C. Improving automatic query expansion [C]// SIGIR1998: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 206-214.
[10]AMO P, FERRERAS F L, CRUZ F, et al. Smoothing functions for automatic relevance feedback in information retrieval [C]// DEXA 2000: Proceedings of the 11th International Workshop on Database and Expert Systems Applications. Washington, DC: IEEE Computer Society, 2000: 115-119.
[11]叶正.基于网络挖掘与机器学习技术的相关反馈研究[D].大连:大连理工大学, 2011: 51-55. (YE Z. The research of machine learning techniques and external Web resources for relevance feedback [D]. Dalian: Dalian University of Technology, 2011: 51-55.
[12]PU Q, HE D. Pseudo relevance feedback using semantic clustering in retrieval language model [C]// CIKM2009: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009: 1931-1934.
[13]CARBONELL J, GOLDSTEIN J. The use of MMR, diversity-based reranking for reordering documents and producing summaries [C]// SIGIR 1998: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 335-336.
[14]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[15]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[16]ZHOU D, DING Y, YOU Q, et al. Learning to rank documents using similarity information between objects [C]// ICONIP 2011: Proceedings of the 18th International Conference on Neural Information Processing, LNCS 7063. Berlin: Springer-Verlag, 2011: 374-381.
[17]HONG L, DAVISON B D. Empirical study of topic modeling in twitter [C]// SOMA 10: Proceedings of the First Workshop on Social Media Analytics. New York: ACM, 2010: 80-88.
[18]JONES K S, WALKER S, ROBERTSON S E. A probabilistic model of information retrieval: development and comparative experiments: Part 1 [J]. Information Processing & Management, 2000, 36(6): 779-808.
[19]LIN J. Divergence measures based on Shannon entropy[J]. IEEE Transactions on Information Theory, 1991, 37(14):145-151.
[20]GRIFFITHS T L, STEYVERS M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Supp 1): 5228-5235.
[21]BLEI D B, LAFFERTY J D. Correlated topic models [C]// NIPS 2005: Advances in Neural Information Processing Systems 18. Cambridge, MA: MIT Press, 2005, 18: 147-155.
[22]OGILVIE P, VOORHEES E, CALLAN J. On the number of terms used in automatic query expansion [J]. Information Retrieval, 2009, 12(6): 666-679.