基于标签的信息抽取预处理算法

2009-01-06 04:55范春晓和晓军李淑云
数字技术与应用 2009年11期
关键词:网页文档预处理

范春晓 和晓军 李淑云

[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。

猜你喜欢
网页文档预处理
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于CSS的网页导航栏的设计
基于预处理MUSIC算法的分布式阵列DOA估计
基于URL和网页类型的网页信息采集研究
基于RI码计算的Word复制文档鉴别
浅谈PLC在预处理生产线自动化改造中的应用
网页制作在英语教学中的应用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
络合萃取法预处理H酸废水