一种个性化的主题提取和层次发现算法

2005-04-29 00:44:03傅向华马兆丰冯博琴
西安交通大学学报 2005年2期

傅向华 马兆丰 何 明 冯博琴

摘要:从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%一66%的主题漂移率,而且可以发现与查询相关的多个主题.

关键词:链接分析;超链归纳主题搜索;主题提取;主题漂移;查询扩展

中图分类号:TP311文献标识码:A文章编号:0253—987X(2005)02—0119—04