基于网页的语料库自动生成

2010-12-31 00:00:00曹英徐卫

电脑知识与技术 2010年23期

　　摘要：网页文本信息的抽取是网络信息搜索的重要组成部分，通过网页文本抽取生成完备精简的语料库对网页信息的分析起着至关重要的作用。目前网页解析的技术有很多，常用的技术有基于正则表达式的静态网页文本抽取，基于HTML文件流分析的静态文本解析，基于DoM树的动态网页分析和基于sAx的动态网页分析。
　　关键词：网页；抽取：语料库
　　中图分类号：TP393　文献标识码：A　文章编号：1009－3044(2010)23－6438－

电脑知识与技术2010年23期

电脑知识与技术的其它文章: 浅析电子标签技术在我国应用现状; 信息化在传统食品制造业的应用; J2EE和AJAX技术在内容管理系统中的应用分析; 浅谈电子商务中的安全机制; 现代房产信息管理系统的发展趋势; 基于UML的一种电子商务系统建模研究