范春晓 和晓军 李淑云
[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
数字技术与应用2009年11期
1《合作经济与科技》2024年13期
2《婚育与健康》2024年10期
3《思维与智慧·上半月》2024年7期
4《陶瓷科学与艺术》2023年11期
5《中国商人》2024年7期
6《教师博览》2024年4期
7《师道·教研》2024年6期
8《中国对外贸易》2024年6期
9《伴侣》2024年6期
10《经济技术协作信息》2024年6期