基于XML半结构化的Web网页信息提取研究

2015-01-01 03:05
网络安全技术与应用 2015年10期
关键词:知识库结构化网页

0 引言

Web信息提取(Web Information Extraction,简称为WebIE)是将 Web作为信息源的一类信息进行提取。它的主要目的是从半结构或无结构的信息中提取出特定的事实信息(Factual Information)。比如,从新闻报道中提取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中提取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中提取出症状、诊断记录、检验结果、处方等,或者直接提取文章中某句话或某段话的信息等等。

1 研究背景

随着Internet的飞速发展,Web已经发展成为一个巨大、分布和共享的信息资源,目前Web数据大都以HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好。这使得应用程序无法直接解析并利用到 Web的海量信息,为增强Web数据的可用性,出现了Web信息提取技术,它通过包装现有 Web信息源,将网页上的信息以更为结构化的方式提取出来,为应用程序利用 Web数据提供了良好的方式。

2 研究现状

信息提取的研究起源于20世纪90年代初,国外的研究表现在以下几个方面:斯坦福大学的Sergey Brin提出的DIPRE算法可以对 Web文档数据关系进行发现;IBM 研究中心的N.Sundaresan等对Web文档中的双义问题进行了讨论并提出了改进的算法,并对 Web中的英文单词缩写和全称进行了挖掘。国内的研究:复旦大学周傲英等对半结构化文档的模式提取进行了研究,提出了递增式模式挖掘算法;南京大学张福炎等采用OEM模型构造了半结构化数据的提取器。这些 Web提取研究利用了半结构化文档的特点,对互联网上的数据进行深层次的查找和分析,用知识代替了信息作为信息获取的最终结果。

3 研究内容

3.1 总体描述

图1 整体结构图

本文重点研究如何从半结构化的 Web页面中提取出用户感兴趣的数据,并试图提出一个基于XML的Web信息提取平台。其工作的核心是生成提取规则。这里,提取规则实际上就是对感兴趣的信息点进行定位。首先需要将样本 Web页面转化成为结构良好的XML文档;通过从样本XML文档中找到用户感兴趣的区域;并在这个区域内细粒度地查找到具体要提取的信息点的定位信息;然后对不同样本页面的定位信息进行归纳学习,学习出该类页面感兴趣信息点的定位信息,并构造出以XSLT文档表示的提取规则,最终应用该提取规则进行实际的信息提取,如图1所示。

3.2 平台的目标

本信息提取平台目的是结合现有不同提取技术的优点,以XML技术为基础,将Web页面中的关键信息自动地提取出来,并表达成为结构化的、扩展性很强的XML文档。

本文希望通过一组相似的页面,能够归纳出相应的提取规则,进而利用提取规则进行页面信息的提取。

3.3 设计的基本思想

系统首先根据用户指定的URL获取样例网页数据并且将该网页利用HTML Tidy转换为XHTML。

然后利用 XML Parser将该 XHTML文档解析成为 DOM(Document Object Model)树结构,这样DOM树就成为Web网页在系统内部的表示形式。

最后在获得DOM树的基础上,应用XSLT将DOM树结构转化为结果XML文档。

3.4 总体框架

3.4.1 知识库和数据库

系统中的库包括知识库(Knowledge Base)和数据库(database),知识库包括领域知识库和提取规则库。数据库包括提取结果数据库和Web页面数据库。

在实际操作中,提取系统中的知识库和数据库的构建比较复杂,而本文的侧重是信息提取的研究,所以有关知识库和数据库的部分本文不做深入的阐述,如图2所示。

图2 总体框架

3.4.2 页面优化模块

主要针对待学习页面和待提取页面进行优化处理,使结构不完整或不规范的Web页面转化成为结构良好的XHTML文档,并解析成为DOM树结构。

3.4.3 信息提取模块

信息提取是本文的核心,信息提取以获得提取规则为前提,任何信息提取的研究都致力于获得健壮可靠的提取规则,然后运用提取规则进行信息的提取。因此,该部分就分为两个步骤:首先进行样本学习,以获得提取规则;然后运用规则进行信息提取。

4 平台中的知识库与数据库

4.1 构造领域知识库

领域知识库的功能主要包括如下几点:

(1)为用户提供查询导航服务,使用户开始使用时不至于束手无策。方法是将一些较重要的网站的URL添加到相应的领域下。

(2)为规则的管理提供逻辑和方法上的支持,方法是将提取规则按照子领域分类存储。

本文中的领域指的是发布同类信息的专业网站,领域知识库是要提取的信息所在领域所包含的基本概念、属性、实体、规则等知识。如出版社图书出版网站发布的是有关图书的一类信息,它的领域知识库就要包含图书所要求的各种基本概念和属性等知识。本文中规定,领域知识库中的各领域按从属关系形成一个层次树,而根是虚拟的,也可称为“根领域”。

4.2 提取规则库

提取规则库存储的是已经学习到的提取规则,提取规则是欲提取的识别模式知识。对不同的领域和网站所采用的规则各不相同,随着提取系统的运行,会产生许多规则,系统自然需要一个库来存放这些规则。当系统需要进行信息提取时,首先可以向规则库中查找是否有可以重复利用的规则,如果有则可以直接从规则库中提取出相应的规则,不必再重新生成针对相似网站或网页的新规则。

4.3 提取结果数据库和Web页面数据库

最终提取出来的结果是含有用户感兴趣信息点的 XML文档,提取结果数据库中存放的也就是这些XML页面。Native XML DataBase,也称 XML本源数据库,是专门设计用于存储 XML文档的数据库,它以XML文档自身的形式来存储XML文档,与其它数据库的不同在于其内部模型是基于XML文档格式的。

4.4 页面优化模块

4.4.1 清洗(TIDY)页面文档

清洗(TIDY)页面需要做的是对Web页面进行修复转换成为符合规范的XHTML文档,本文中称为清洗(TIDY)。

HTML Tidy是一个开放源代码的强大工具,可用于修正HTML文档中的常见错误并生成格式编排良好的等价文档。本文使用了Tidy的类库,将其集成到系统当中。Web页面将通由Tidy进行页面预处理,将源HTML文档转换成等价的XHTML文档。

4.4.2 页面解析(PARSER)

HTML DOM树是Web页面的一种描述方式,是根据Web页面中 HTML标签的含义而建立的,有层次关系的树状结构,其上的每个节点都是一个单独的HTML元素。因此,将DOM层次结构中的路径理解成为提取的“坐标”,通过对坐标的获得和理解来得到需要提取的信息。这个过程中,将XML文件加载到内存生成XML DOM树,以供提取规则学习模块来生成基于DOM的规则。

4.5 信息提取模块

在 Web信息应用中,使用包装器进行信息提取。包装器是一个软件过程,应用已经定义好的信息提取规则,将输入 Web页面中的信息数据提取出来,转换成用特定格式描述的信息,提供给其它信息系统做进一步研究,信息提取的工作流程如图3所示。

图3 信息提取工作流程

4.5.1 规则学习的依据

规则(rule),不同的文献中也有称作模式(pattern)的。Wrapper的核心是提取规则,构造准确健壮的提取规则是重中之重,也是任何提取系统致力的目标。

文中主要采用 HTML中所包含的结构特征、位置特征、显示特征、语义特征和引用特征形成提取规则。规则学习的步骤:(1)确定样本页面集;(2)样本学习,生成提取规则。

4.5.2 信息提取过程的描述

当得出了提取规则XSLT文档后,要构造一个进行信息提取的wrapper仅需要执行这个XSLT。

5 结束语

本文方法为 Web页面的信息提取奠定了良好的基础,但其适用范围仍然有所局限。当遇到了页面结构较为复杂并且缺乏语义的时候,提取的准确率就会降低。所以,需要加强学习提取规则的适应性和算法来解决信息复杂性,信息源权威性和有效性,提高信息提取的准确性。

猜你喜欢
知识库结构化网页
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
基于HTML5与CSS3的网页设计技术研究
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
高速公路信息系统维护知识库的建立和应用