任 娟
(郓城县医疗保障局,山东 菏泽)
传统手工信息分类法与新时代网络信息规模化发展产生了冲突,因而Web 信息抽取技术应运而成。但目前信息抽取技术主要以网络数据由无结构化、半结构化向结构化方向转变为主,无法实现网页信息的有效提取。而Web 信息抽取技术可抽取网页正文信息,并能利用网页数据抽取术语通用性表达所抽取信息,可有效扩大自然语言技术的应用范围。
Web 是以超文本、HTTP 为基础构建的具有跨平台功能及动态交互功能的分布式图形信息系统,Web信息可以促进静态类型网页的动态转化,并能推动网页结构交互式、多元化发展[1]。Web 信息智能抽取系统是具有精准、高效、智能、可扩展性特征的通用智能信息抽取技术为支持,分析各类网页的HTML 标签含义、特性,并归纳文本信息分布特征,整理出启发式规则,利用网页解析器解析网页文档,并构建网页文档元素层次结构,再以启发式规则为基础,结合用户实际需求,设计通用性模板,之后利用信息抽取模块按照模板智能化抽取网页信息,最后再采用增量处理、多页处理、去重技术等多种技术进行信息处理。
Web 信息智能抽取系统由训练模块、信息提取模块两部分框架构成(见图1),训练模块的作用是分析各站点内网页结构形式,模板生成器以启发式规则库中的规则为依据,综合考虑页面组织结构完成模板生成。信息抽取模块以生成的模板为基础,利用多种处理技术处理站点中的网页信息。本系统包含管道、过滤器两类结构,二者均可采用数据流方式分析与处理信息。各模块均安装一个过滤器组件,过滤器上设置管道,用于数据有效传送。此种结构设置方式便于过滤器修改,修改时不会对其他结构产生影响,通过增设规定接口过滤器并完成配置文件关联设置,还可实现扩展系统功能。Web 信息智能抽取系统的管道由网络采集器、解析器、多处理器、消除器、信息提取器五部分构成,这些部分担负不同的功能。若需拓展挖掘内容,只需更新为新型信息提取器,便可提升系统的信息处理能力。
图1 Web 信息智能抽取系统框架
3.1.1 规则生成器的设计原理
网页中分割标记数及对等信息往往块数量相同,每个正文信息块均有对应标签用于分割信息块及其他信息,如果网页中同时存在多个帖子,将会有与帖子数量相同的标签对这些帖子进行区分,且分割后所产生的标志具有一致性。规则生成器便是基于这一原理而设计的[2]。规则生成器运行时,需要先解析HTML文档,而后再构建网页文档元素层次结构,在标签的分布规律分析完成后,从中筛选出部分候选集标签,用于文本内容的提取,通过相应运算后将目标信息块标签从候选集标签中提取出来,得到的提取结果可作为模板配置基础,并可支持信息抽取操作。规则生成器处理流程详见图2。
图2 规则生成器处理流程
3.1.2 规则集生成与实现
运用HTML Paser 解析HTML 文档后应构建元素层次结构,之后再对分析结构中的节点稳步情况。分析时,先利用规则集生成算法定位节点,将最小信息富余子树的跟节点提取出来,此过程可滤除与提取信息无关联的广告、导航等无用信息。然后基于标准漂移式规则、重复匹配规则、可确认路径分隔符标记规则、局部路径比较规则、兄弟标记规则,采用联合规则识别标记算法再次定位对等目标实体间的各个分割标记,并根据得到的分割标记完成信息提取[3]。对等目标实体是指文档内部处于并列关系的信息块,而具有包含关系的信息块不在此列。此过程中,最小信息富余子树查找时,应先对网页文档元素层次结构中各节点出度、文本信息大小、标签数分别进行计算,之后再计算最小信息富余子树的根结点权重,然后再利用此权重值计算网页文档元素层次结构根结点的HTML初始节点的初始权重,若计算结果不高于0.1,便可将对应结点所处子树当作候选最小信息富余子树。
3.2.1 模板生成器设计原理
模板生成器的设计,需要利用模板生成算法,在规则集生成的基础上,对网页文档结构树的元素层次结构进行分割与标记,而后再向模板中配置得到的分割标记结果。模板生成时所采用的是半人工筛选算法,此算法先利用自动识别器做好分隔标记,再将之向模板评论分隔项中配置,在构建评论对应的层次结构后,再次对其中的信息进行分隔与标记,并采用人工辅助方式向数据项中标注分隔符,如此能够保障信息提取的准确性,且可自主设置过滤信息选项。此方法可以弥补全自动机器配置算法无法实现所提取的混合信息内容有效分离的缺陷。
3.2.2 模板生成与配置
通常情况下,网站需要配置两种模板,分别是线索列表页面模板及正文页面信息模板。前者可以按照正常流程,采用最小信息富余子树查找的方式,通过滤除无用信息完成页面上链接URL 信息的提取。而正文页面信息配置相对复杂。首先要对正文页面信息进行提取,再完成分割标记符所在位置记录项的配置,将首次识别得到的对等实体间分割标记配置到适合位置。然后结合信息提取需求,采取查找最小信息富余子树、利用规则集生成器生成分割标记,再根据程序生成的配置信息完成这些分割标记在模板中的配置。最后采用人工配置方式将乱码信息、网站标识信息等过滤信息配置到模板之中。
3.3.1 信息抽取器设计原理
信息投取器以生成的模板为基础完成信息提取,而后再对所提取的信息实施增量处理、多页处理、去重处理以及结构化存储等各项操作。信息抽取器的工作同样需要分别线索列页面、正文页面分别两个处理部分。处理线索列表页面时,需要在页面中将话题线索的发表及修改时间、正文页面链接、标题、回复数及人气值等相关数据提取出来。而正文页面处理时,主要是提取用户信息、帖子内容与帖子标题、帖子评论情况等相关信息[4]。
3.3.2 信息抽取器的实现
3.3.2.1 新线索列表页面抽取
新线索列表页面抽取时,要通过解析器将读取且保存后的页面转化成为网页文档元素层次结构,然后再利用模板生成器读取相应模板,从而生成线索列表页面模板。之后再以此模板为依据重复性提取此页面上的相关话题线索信息。文件未处理情况下,回到第一步重新执行操作。新线索列表页面抽取的流程见图3 所示。
图3 线索列表页面信息提取流程
3.3.2.2 正文页面信息抽取
先对未处理正文页面进行读取与存储,然后利用解析器构建元素层次结构,再依据输入的站点名,读取相应正文模板信息,随后按照模板配置信息对此结构上对应的信息进行提取,最后再根据解析后的标题信息将话题线索从数据库中排查提取出来,采用话题有效性判断、增量处理、多页处理、发帖者等级处理、贴子额外属性权值处理、话题线索权重处理五个技术进行信息处理后,再向话题线索中添加[5]。在页面处理未启动的情况下,可自动跳转到第一个步骤,若处理完成,则将得到的话题线索存储于数据库中。正文页面抽取流程详见图4。
图4 正文页面信息提取流程
为验证Web 信息智能抽取系统的实用性,对此系统的功能性进行了测试。测试以奔腾处理器作为CPU,处理频率为42.66 GHZ,CPU 内存为512 MB。测试所用硬盘容量为56 GB,选用的是WindowsXP SP2 系统。主要对Web 信息智能抽取系统的页面样式模板定义、页面结构分析、页面内容分析与提取、网面增量挖掘、网页多页挖掘五个功能展开了测试,测试结果表明此系统的功能均符合应用要求。
4.2.1 与全自动网页目标实体信息提取系统功能的对比
选取新浪、网易、搜狐等8 个论坛,分别利用Omini 全自动网页目标实体信息提取系统及Web 信息智能抽取系统进行功能对比测试,发现本系统信息抽取准确率、召回率、信息提取速度均更为优异(见表1)。
表1 Web 信息智能抽取系统与Omini 系统功能对比
4.2.2 与集中典型信息提取系统在不同结构类型信息提取性能方面的对比
从目前知名度较高的集中典型信息提取系统中选取五个系统与Web 信息智能抽取系统分别对单一结构类、多结构类网页信息提取方面的性能进行了对比(见表2),得出的结论是本系统的各方面性能均更佳,证实了Web 信息智能提取系统的应用优势。
表2 Web 信息智能抽取系统与集中典型信息提取系统在不同结构类型信息提取方面的性能对比
Web 互联网上存在多种类型的网页,这些网页的布局特点、标签应用规则均不一致。而Web 信息智能抽取系统可结合这些因素,利用先进的Web 信息提取算法,通过规则生成器、模板生成器完成待提取信息模板的获取,并可自动化完成模板配置过程,可在无需模板配置算法训练的基础上,按照时间的不同抽取网站信息。通过线索列表页面及正文页面信息的分别抽取,解决了信息重复性抽取问题,此系统还具有多页抽取、结构化存储、网页去重、易于扩展等多重优势,在计算机网络Web 信息抽取方面具有较高应用价值。