基于WEB的智能信息采集及处理系统的关键技术

2010-07-17 08:41谭媛媛

中国新技术新产品 2010年11期

关键词：页面子系统解析

谭媛媛王伟

（秦皇岛广播电视大学，河北秦皇岛 066000）

1 系统架构

系统由三个子系统组成，即Web信息采集子系统、信息智能处理子系统和信息发布子系统。三个子系统可以单独部署和运行，也可以通过接口文件实现整个过程的自动化采集、智能化处理和主动式发布，整体架构如图1所示。

1.1 系统整体架构

该系统架构不仅适合较大用户的分布式部署采集、加工的需要，也可以适应单用户集中部署的需要。当用户只需要某个子系统时，只需对接口文件稍作配置就可以满足不同的用户需求。

图1

图2

1.2 Web信息采集子系统

Web采集器一般都是从称为种子的URL出发，通过协议向Web上其它所需页面作扩展。经研究表明Web上30%的页面是重复的，当面向特定的主题时，80%以上的URL链接是我们不关心的，因此在采集中如何进行URL去重和分析适合主题特征的URL是提高采集子系统效率的重要因素。同时如何获取有效的Web页面信息，过滤广告、导航栏等噪声，将直接影响后续的智能处理的性能。该子系统的流程如图2所示。

有别于通用的Web信息采集器，该子系统最大的特点在于任何用户的主题采集都是在相应的模版的支撑下完成。所谓模版就是关于要采集的Web对象的特征描述，为了提高下载的有效性和效率，将某一个具体的网站所有的Web页面划分为Hub页和Topic页，表示为一个三元组。其中M刻画Web页共性特征，如：网站名称、网站URL地址、语言种类等；Hf刻画该Web资源中的Hub页面特征，即此类Web中哪些URL地址特征是下载时需要解析的；而Tf则是刻画某一类具体的Topic页特征，主要是描述用户最感兴趣的内容的访问路径，如：正文标题、作者、来源等。

为了实现对下载的Web资源的监控，将最新的信息及时地推送给用户，触发器可以为用户指定适合需要的采集策略，通过设定一定的间隔时间来激活下载机器人，“巡视”是否存在最新的信息。

1.3 信息智能处理子系统

该系统预先通过机器学习建立用户感兴趣的内容分类器，当用户某一次下载任务完成后，发送消息激活处理子系统，系统将会自动地处理下载的内容，主要包括自动分类、自动摘要和元数据分析，如创建正文标题、关键字、分析作者等。系统流程如图3所示。

传统上的Web信息采集不具备对下载信息的深层次加工能力，而本系统不仅实现机器的自动分类、摘要和元数据分析，还提供人机交互的机制，将处理的结果以便捷预览的方式呈现，用户可以进行修改、删除以及确认后入库存储等操作，确保发布信息的正确性和有效性。

1.4 信息发布子系统

近年来信息的发布形式越来越备受关注，作为对外信息服务的平台，该子系统主要特点有：多视角、多层次发布采集信息，即从来源、原始栏目、分类体系多个视角交叉进行展示，可以灵活的进行信息集合的交、并运算；个性化信息发布，用户登录后利用个性化信息定制界面，选择自己感兴趣的信息视角，再次登录后，推送给用户的就是完全个性化的信息内容；强大的信息检索能力，不仅提供针对独立字段的检索，还提供快速检索、高级的表达式检索及全文检索。

2 若干关键技术

2.1 URL去重

常规的URL去重有两种解决思路，一是将所有的URL地址存入数据库，做好索引后，利用数据库的查找来判断该URL是否被重复下载；二是利用文件存储，将URL通过一定转换，也是建立基于文件的查找索引。这两种方式的弊端是显而易见的，如中文网页有4亿左右，假设每一个URL的平均长度为25个字符，那么存储这些网页的URL地址需要的空间为8G左右，很显然面对如此大的文件，这种机制无法快速的进行URL查找，因此不能保证快速的下载和去重。

在本系统中采用了文件目录寻址机制来实现URL的快速去重。基本思想是首先将URL地址做CRC32转换，生成一个唯一的4字节32位的编码，如：E8CA0B3F，将4个字节组成两级目录和一级文件，即第一个字节的首字符作为第一级目录名，第二、三个字符组合作为二级目录名，第三、四个字符组合作为文件名存放在二级目录下，每个文件的大小固定为4K，最后还剩下三个字符一共是12bit，共有4096个二进制数，与4K的文件大小刚好一一对应。这种机制能够容纳的总页面数为232，大约43亿个，几乎能包括目前互联网上所有URL链接。

图3

2.2 HTML解析

为了提高下载页面的有效性，需要过滤掉一些无用的噪声信息。传统上有两种解决方案，一是页面学习的方式提取熵值最大的页面分块[1]；二是通过定义访问路径来提取需要访问的感兴趣的内容。无论是哪一种方案都必须有对页面的HTML的解析能力，即构造合适的数据结构来解析HTML的标签。解析的难点在于目前的网络Web页面的HTML非常不规范、不严格，标签之间即使有错误或者不严格的匹配，IE也能完美的呈现。但是为了信息的精确提取，必须要构造严密的访问结构。

2.3 自动摘要与元数据分析

摘要是指通过对文档内容处理，从中提取出满足用户需求的重要信息，经过重组修饰后生成比原文更精炼的文摘过程。目前主要自动文摘技术有三类：基于浅层分析的方法、基于实体分析的方法、基于话语结构的方法。

本系统采用一种新的使用自然语言处理（NLP）技术的自动摘要系统，通过融合基于内容的方法[Based on Content]和基于主题(Based on Topic)的方法，将主题与内容相结合，生成具有良好连贯性和流畅性的摘要。基本思想是首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档；然后采用词汇、语法、语义分析等自然语言处理技术，对文章的文本内容进行深入分析；再根据线性加权融合两种分析得到的结果，生成摘要；最后采用指代消解技术(Anaphora Resolution Technology)进行平滑使生成的摘要更连贯流畅。

在上述摘要生成的算法中，部分元数据如对标题的分析、作者、主题词的提取，作为中间结果也将被输出和保存，形成完整的符合基本文献规范的元数据体系。

3 结束语

基于Web的信息采集和处理技术，在互联网飞速发展的时代，将扮演者越来越重要的角色。本文设计和实施的系统，继承和发展了现有的偏平化的信息采集策略，以“信息采集、组织处理和发布”三项并重为理念，使面向Web的信息采集系统向垂直和智能的方向推进，也同时预示着该系统有广泛的市场和应用前景。

[1]尹存燕.戴新宇.陈家骏.Internet上文本的自动摘要技术.计算机工程.Vol.32.No.3.Feb..2006.