李盈润
摘 要:在对大量Web邮件页面模式分析的基础上,对页面进行分块,并根據信息块的结构与内容属性,实现主题信息块和主题相关信息信息块的析取,对邮件信息的自动获取和邮件下载系统的设计与开发具有重要意义。
关键词:多策略;页面分块;信息提取;邮件下载系统
Web邮件信息析取主要包括页面、信息块和邮件详细信息的提取。本文主要介绍邮件信息块提取的方法。
1 基于多策略的页面分块方法
基于多策略的页面分块方法是Web邮件信息自动析取技术研究的重要组成部分,它的主要工作是根据Web页面排版的不同模式实现Web邮件网站的导航页面,列表页面及内容页面的信息合理划分,为主题信息块的提取做好准备。
基于多策略的页面分块方法的关键思想描述如下:
策略1:不同页面排版类型采用不同的划分方法。
Web邮件页面的排版模式主要分为混合型和框架型。对于框架型页面进行分块的关键在于框架的识别和主题框架的提取,在此基础上根据提取的主题框架URL提交访问请求并获取框架内的文档进行下一轮页面分块。框架通使用