Web邮件信息块提取技术研究

2014-06-20 23:55李盈润
无线互联科技 2014年3期
关键词:信息提取

李盈润

摘 要:在对大量Web邮件页面模式分析的基础上,对页面进行分块,并根據信息块的结构与内容属性,实现主题信息块和主题相关信息信息块的析取,对邮件信息的自动获取和邮件下载系统的设计与开发具有重要意义。

关键词:多策略;页面分块;信息提取;邮件下载系统

Web邮件信息析取主要包括页面、信息块和邮件详细信息的提取。本文主要介绍邮件信息块提取的方法。

1 基于多策略的页面分块方法

基于多策略的页面分块方法是Web邮件信息自动析取技术研究的重要组成部分,它的主要工作是根据Web页面排版的不同模式实现Web邮件网站的导航页面,列表页面及内容页面的信息合理划分,为主题信息块的提取做好准备。

基于多策略的页面分块方法的关键思想描述如下:

策略1:不同页面排版类型采用不同的划分方法。

Web邮件页面的排版模式主要分为混合型和框架型。对于框架型页面进行分块的关键在于框架的识别和主题框架的提取,在此基础上根据提取的主题框架URL提交访问请求并获取框架内的文档进行下一轮页面分块。框架通使用

猜你喜欢
信息提取
建筑电气设计中BIM技术的应用研究
基于Clang的AST提取结构体数据库插件的实现
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
基于ICA面向对象的耕地信息提取
享游景区服务系统的开发和研究
Excel函数在学生日常管理中的应用
基于遥感数据的雾物理属性信息提取