基于网页的语料库自动生成

2010-12-31 00:00:00曹英徐卫
电脑知识与技术 2010年23期


  摘要:网页文本信息的抽取是网络信息搜索的重要组成部分,通过网页文本抽取生成完备精简的语料库对网页信息的分析起着至关重要的作用。目前网页解析的技术有很多,常用的技术有基于正则表达式的静态网页文本抽取,基于HTML文件流分析的静态文本解析,基于DoM树的动态网页分析和基于sAx的动态网页分析。
  关键词:网页;抽取:语料库
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2010)23-6438-