摘要:网页文本信息的抽取是网络信息搜索的重要组成部分,通过网页文本抽取生成完备精简的语料库对网页信息的分析起着至关重要的作用。目前网页解析的技术有很多,常用的技术有基于正则表达式的静态网页文本抽取,基于HTML文件流分析的静态文本解析,基于DoM树的动态网页分析和基于sAx的动态网页分析。 关键词:网页;抽取:语料库 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2010)23-6438-
电脑知识与技术2010年23期
1《师道·教研》2024年10期
2《思维与智慧·上半月》2024年11期
3《现代工业经济和信息化》2024年2期
4《微型小说月报》2024年10期
5《工业微生物》2024年1期
6《雪莲》2024年9期
7《世界博览》2024年21期
8《中小企业管理与科技》2024年6期
9《现代食品》2024年4期
10《卫生职业教育》2024年10期