高效的动态脚本网页关联性挖掘算法研究

2012-12-31 00:00:00谭涛
电脑知识与技术 2012年13期


  摘要:由于动态脚本网页更多地采用脚本方式与用户交互,缺乏足够的链接信息,传统的公共搜索引擎仅通过基于链接分析的算法很难实现对此类网页关联性的一个高效挖掘,因为Web上的网页链接无法到达其内部内容。对这些网页的信息挖掘仍处在起步阶段,提出了一个此类文档关联信息的搜索方案,将动态脚本网页每一次加载产生的页面作为一个状态,以状态为信息挖掘的基本单位,就此描述了基于状态关联度匹配的动态脚本网页的分析算法。此外,具体给出了算法并行实现的步骤流程并通过实验证明了算法的效率。
  关键词:动态脚本;状态关联度匹配;状态转换;排序;关联信息
  中图分类号:TP271文献标识码:A文章编号:1009-3044(2012)13-3002-04
  An Algorithm Study of Information Mining on Web Pages with Dynamic Scripts
  TAN Tao
  (School of Compu