范春晓 和晓军 李淑云
[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
数字技术与应用2009年11期
1《师道·教研》2024年10期
2《思维与智慧·上半月》2024年11期
3《现代工业经济和信息化》2024年2期
4《微型小说月报》2024年10期
5《工业微生物》2024年1期
6《雪莲》2024年9期
7《世界博览》2024年21期
8《中小企业管理与科技》2024年6期
9《现代食品》2024年4期
10《卫生职业教育》2024年10期