网页电子文件归档管理系统建设研究与实践

2015-07-26 02:29咸容禹李佳临陶伟

微型电脑应用 2015年8期

咸容禹，李佳临，陶伟

网页电子文件归档管理系统建设研究与实践

咸容禹，李佳临，陶伟

网页电子文件是重要的原生网络信息资源，具有很大的保存、管理和利用价值，目前关于网页类电子文件归档管理与应用的研究和报道仍是一个热点。通过对网页文件的特点进行研究与分析，提出了参照纸质档案的管理模式，以 OFD版式文档作为电子文件的存储格式，并通过网页电子文件归档管理系统的建设实践，实现对网页电子文件从采集、归档、存储到利用的全生命周期管理。

网页；电子文件；爬虫；OFD；分类方案；网页归档

0 引言

网页电子文件是重要的原生数字信息，具有独特的艺术和史料价值，是信息回溯和分析的重要资源，随着电子文件法律地位的确立，也同时具备法律凭证的作用[1]。近年来随着互联网应用的发展和深入，网页文件增长量惊人，已经大大超过了传统信息媒介,但与此同时，网页文件由于其易更新、易发布、时效性强，变化迅速等特点，其流失量也非常惊人。电子文件归档管理系统建设的目的，是参照传统纸档案的管理模式，实现对网页电子文件从收集、积累、归档，到保管、处置、利用、存储和销毁的全生命周期管理，对推动网页信息的长期保存，使其能够在经济和社会活动中被检索和二次利用具有重要意义。

1 网页电子文件的特点与保存现状

1.1 网页电子文件的特殊性

一直以来，对于原生数字信息的保存，多数局限在文书类电子文件，专业类以及业务类电子文件的范畴。但是网页与传统电子文件不同，具有活性、关联性、立体性等种种特点，传统的电子文件管理系统无法适用于网页电子文件这类特殊的归档管理对象。

传统电子文件的内容是固化的，而网页内容是不断活动变化的，同名网页随着时间流逝产生无数个轨迹史料，因此在网页信息的采集、保存和管理过程中需要引入时间轴概念对归档对象进行定位。其次，网页电子文件具有内部关联性，在浏览器和服务器端应用系统的支持下，通过众多内部元素（图片、文字、HTML标签等）可以超链接到其它网页，需要考虑在归档后如何保持网页链接原有的关联性的问题。此外，网页存在立体性，一个专题乃至一个网站，凭借众多网页间的层级和跳转关联起来，构成一个整体，共同传递某个完整的主题和含义。如何原滋原味地保留网页间的立体性和层级关系，也是网页归档要重点考虑的需求。

1.2 网页电子文件归档研究和保存现状

我国在档案管理领域有一系列专门的标准和规范，用于对档案的组织、管理和分类。如DA/T 1-2000《档案工作基本术语》[2]、GB/T XXXX-2008《文书档案案卷格式》[3]等档案管理相关标准规范、GB/T 18894—201X《电子文件归档与电子档案管理规范》[4]等标准规范。

国际上对于网页存档工作的研究[5]主要包括美国国会图书馆的网页信息存档（The Library of Congress Web Archives，简称 LCWA）项目[6]、IA（Internet Archive）的Archive-It服务，以及澳大利亚、英国、北欧等一些国家图书馆开展的实验性研究；国内相对成熟的案例包括“中国Web 信息博物馆（Web InfoMall）”项目和中国国家图书馆的 WICP 项目。这些案例均是对原生态网页信息进行抓取和保存，并基于不同的专题提供分类浏览和查询服务。但是对网页信息的保存和分类基本都是平面化的，在网页关联的立体性、时间轴定位、独立于系统的保存格式等细节问题上还有进一步研究和突破的空间。

2 系统总体框架

网页电子文件的特殊性决定了在系统设计思路和技术框架构建上需要具有更多的探索性和创新性[10-15]。目的是遵循传统档案管理标准和规范的基础上，找到网页电子文件保存与档案管理标准结合的新模式，使用户能够像查阅普通档案资料一样查阅网页信息，同时创新性地对网站内容进行以时序为基准的风貌重现、以主题为基准的内容聚合，并立体地呈现网页之间的关联关系。基于上述目标，本文在文献[16-20]的研究基础上，提出一种具有一定通用性和灵活性的网页电子文件归档管理系统原型，对现有的网页立体性保存、档案化分类管理、独立于系统的封装与保存格式等技术问题进行尝试性研究与实践，为实现网页电子文件归档管理与应用提供一种探索性和原创性的范例。

网页电子文件归档管理系统总体框架如图1所示：

图1 网页电子文件归档管理系统总体框架图

网页采集子系统发起采集指令，对指定网站的网页及元数据进行定向采集；OFD转换子系统将HTML网页文件转换为OFD版式文件；电子文件管理子系统为网页存档信息构建全文索引并进行管理，同时对外提供应用服务接口。

网页电子文件归档管理系统实现对电子文件的全生命周期管理，数据业务流程如图2所示：

图2 网页电子文件归档管理系统的业务实现流程图

①启动采集任务，对目标网页数据进行爬取，通过版本识别完成网页的全量与增量抓取。②对爬取到的HTML网页进行筛选和过滤处理；在全文检索库为网页创建全文索引；同时将网页元数据抽取到电子文件管理子系统中。③调用OFD转换子系统完成OFD版式文件转换。④电子文件管理子系统捕获OFD文件，按照预先定义好的文件分类方案和元数据方案对网页进行登记和著录。⑤在电子文件管理子系统中可实现对电子文件的处置、检索、期刊制作、在线查阅、离线下载等管理和利用。

3 系统功能设计

3.1 网页文件采集子系统

网页文件采集子系统在对网页文件进行采集时，不仅实现对目标网站的定点定时定层抓取，同时还要完成对数据的分析和处理，为文件入库和管理做好准备，网页电子文件采集子系统的软件结构设计如图3所示：

图3 网页文件采集子系统的软件结构图

（1）、网页爬取引擎

网页爬取引擎是基于 Firefox 内核的爬取组件，采用XULRunner1.9 浏览器内核作为页面渲染的核心组件，负责对指定URL地址的网页数据进行爬取，利用JavaScript为页面分析脚本，采用正则表达式的数据提取模型实现高复杂页面的分析及内容提取。

（2）、爬虫控制器

爬虫控制器是网页采集器的远程控制和监控的基本入口，支持基于HTTP模式JSON数据格式，以及基于Web Service服务XML格式的远程控制接口实现，是实现爬虫任务、爬虫任务队列、爬取策略等功能的控制接口。

（3）、网页代理服务器

网页代理服务器，是对爬取到的网页数据进行“风貌”还原的基本支撑模块，主要负责将“原始”网页信息进行链接的重置及资源的去重工作。

（4）、控制台

控制台是业务管理人员的直接入口，通过控制台对各个功能模块中的参数进行配置和管理，完成爬虫的维护、监控、管理等多种功能。实现对网页采集流程的运行调控目的。

3.2 OFD转换子系统

OFD转换子系统实现对获取到的原生态网页文件的版式封装与转换。版式电子文件是一种用页面化的形式固定呈现文本、图形、图像等信息的文件。出于交换、发布、存档的目的，越来越多的电子文件被制作或转换为版式文件。OFD的全称为Open Fixed-layout Document Format，是为电子文件管理而制定的国家版式文档格式规范。

同样是版式文件，与PDF文件格式不同，OFD具有独特的存储格式和对文件资源的组织方式。每个OFD文件都是一个基于XML标准的独立数据包，采用ZIP压缩格式，将所有数据封装在一个包内。其中的描述文件采用XML形式，置于包内根目录下，描述了包内文件的格式、名称和具体文件地址；通过XML描述文件，还可将多个网页之间的链接和跳转关系封装在一个OFD文件包内。这也就意味着在对网页文件进行OFD转换时是非常灵活的，一个网页可以封装为一个OFD文件，多个网页也可以封装为一个OFD文件，甚至一个网站也可以封装为一个OFD文件。充分保留网页原有的层级和风貌，特别适合于网页电子文件的存储和归档。

OFD转换子系统的设计与实现比较独立，与电子文件管理子系统是松耦合的集成关系。OFD转换服务采用WEB服务的方式进行部署，通过服务接口实现转换任务的触发和任务执行状况的查询，并下载转换完成后的OFD文件。OFD转换子系统的软件结构设计如图4所示：

图4 OFD转换子系统软件结构图

（1）、格式解析组件

获取网页数据源，并对页面进行拓扑分析和筛选清洗，同时获取元数据。

（2）、文件排版组件

对网页文件中的每一个“图形符号单元”（可以是文字、图形和图像）进行解析和精确定位，完成“版式效果”的页面渲染和排版。

（3）、版式转换组件

将排版结果转化为对应的OFD图元，同时处理内链接并对资源去重。将多个单页OFD文件组合为一个多页文件后，原先页面之间基于URL的链接动作，将被转化为OFD文档内部的页面跳转动作。合并完成后，同一个文档不同页面之间的跳转在通用OFD阅读器内部就可以自主完成。此种OFD文件具有了完全的独立性，因此，合并后的多页OFD适用于作为网页电子文件发布的载体，脱离电子文件系统而转移到其他阅读终端上进行“离线”使用。

（4）、后期处理组件

对生成的OFD文件增补元数据，同时在OFD形成的最后阶段，对全文内容进行数字签名，一方面可确保制作方对电子文件负责（防抵赖），另一方面是确保任何对此文件的修改能被有效检测出来（防篡改）

3.3 网页文件管理子系统

电子文件管理子系统通过如下功能模块完成对电子文件的存储、管理和利用：

（1）、电子文件捕获登记模块

获取并管理网页电子文件，为用户提供风貌类、内容类、专题类三种维度的归档网页在线查阅功能。

（2）、电子文件元数据管理模块

获取并管理时间、来源、标题、作者等网页电子文件相关元数据。

（3）、分类方案管理模块

按照档案领域标准的“宗-类-卷-件”模式，定义和管理网页电子文件分类方案体系。

（4）、鉴定处置管理模块

对网页电子文件进行销毁、移交和续存。

（5）、检索利用管理模块

对网页内容进行全文检索，并可根据个人兴趣和需求，对归档网页进行灵活的自定义组卷封装和打包，制作成期刊，供离线下载和阅读。

4 系统技术要点

4.1 智能化采集与处理

原生网页信息的采集和前期处理是电子文件归档管理的第一环节，也是非常重要的环节。面对海量网页信息，靠人工进行清洗和过滤是不现实的。高效、智能化的前期处理技术，能够大量减少人工干预的工作量，也是对获取到的网页信息进行精确分类、管理和封装的基础。

（1）、通过网站拓扑结构分析技术，辅以部分javascript脚本规则模板，生成精确的分类导航树，实现对网页内容的自动分类。

（2）、通过目标网页内容去噪和解析技术，结合模板定制与匹配，实现对网页内容元数据的采集。

（3）、通过版本控制技术，对目标网页进行探测访问，与已有页面信息进行对比，识别网页的变化，并对网页进行版本唯一性控制和同网页多版本的保存与记录。

（4）、通过对网页内容、内嵌资源和相对链接地址进行归一化处理，将网页转换为本地静态文件，保证链接的有效性和活性，以及网页内容及样式的完整性。

4.2 版式封装与存储

封装为OFD格式的版式网页电子文件具有多项技术优势。

（1）、设备无关性

版式文件的共同优势，即显示格式与设备无关，都能够以固定版式保存和显示源文件样式与风貌，具有显示一致性优势，支持不变形跑版的纸质重现，是电子文件归档的理想文件格式。

（2）、格式开放和标准性

特有的存储和组织格式，采用通用、标准、开放的xml格式进行描述，资源的保存和阅读不依赖于信息系统的支持，既使失去初始开发团队的支持，数据依然可长期被理解和使用。

（3）、链接内封装

通过一系列基于XML标准的描述文件，将网页文件的链接和跳转关系封装在OFD文件内部。

（4）、可扩展性

特殊的组织结构使OFD格式的网页电子文件具有很强的扩展性，利用起来更加灵活方便，无论是一个还是一千个网页，都能封装为一个独立的OFD格式电子文件；并且同一个包内的组件资源能够得到复用，消除资源冗余，提升空间利用率，非常适用于网页电子文件的保存。

（5）、流式阅读

支持对版式文件的流式阅读，大文件的打开速度更快，而且更具安全性。

4.3 多维度分类方案

参照纸质档案的管理模式，将网页电子文件的管理与档案管理标准进行了有机的结合。其技术要点在于对归档网页分类方案的设计，清晰明确的分类方案是电子文件管理系统的核心和基础，体现文件的聚合层次和有机联系。方案设计遵循传统档案管理领域的规范和标准，按照“宗—类（目）—卷—件”序列对归档网页进行分类，系统基于预先定义好的分类方案对电子文件进行系统标识和整理，继而实现对电子文件的管理和利用。但是由于网页的特殊性，在分类方案设计上又与传统电子文件具有的创新性的变化。

基于风貌再现、信息留存的最初目标，同时考虑网页电子文件的特殊性，在分类方案的实际应用中，将最大组织单位“宗”定义为一个网站，即每个独立的网站为一个全宗；将最小单位“件”定义为一个网页，即每个网页文件为一件。结合对归档网页的不同利用需求，在每个宗下，定义3个内置的基础类（目），既风貌类、内容类，以及专题类，对网站内容进行多维度的组织和分类。分类方案示意图如图5所示：

图5 归档网页分类方案示意图

（1）、风貌类

风貌类定义为对网站结构、层级、样式的原型克隆，完整保存网站的风貌和浏览体验。由于网页是不断变化的，以首页index为例，文件名不变的前提下，每天的内容都不相同。基于该特点，风貌类网页的组织确定为以时间为轴，如以每年为一卷，每月为一子卷，之下再细分为每天一个子卷，以当天的首页OFD文件作为卷入口。可以按照超链接的层级依次点击，还原一个真实完整的网站。

（2）、内容类

内容类的电子文件的保存与网站风貌和层级结构无关，重在对信息内容的全息保存和利用，因此内容类网页的组织确定为以内容分类为轴，如新闻类、法规类、政务类等等。不同的内容分类构成卷与子卷，每个网页为一件。

（3）、专题类

除风貌及常设栏目内容，每个网站都会有针对热点推出的临时性专题，每个专题都相当于一个独立的小型子站。对于此类专题，希望能够风貌与内容兼得，此类需求归入专题类，以每个独立的专题为单位对网页电子文件进行保留原层次结构的内容组织和管理。

5 总结

此次工作是对网页归档领域一次探索性的研究和实践，尝试性地对“网页的档案式管理”、“网页内链接的保存”、“网页之间关联性与层级架构的重现”等问题提出了初步的解决方案，待解决的问题还很多。网站建设的技术是非常复杂多样和千差万别的，因此在本次系统设计上基于基础性、先导性、通用化、产品化的原则，首先支持对绝大多数常见和通用网站架构及网页格式的采集和管理。对于网页信息元素的采集与转化，还需在技术上进一步完善，并且配套制定相关标准，持续推进对网页文件这类重要数字资源的保存和利用。

[1] 张欣,李哲.对数字化档案法律地位的认识[J].兰台世界.2010,4:28-30.

[2] DA/T 1-2000《档案工作基本术语》[S].中华人民共和国档案行业标准.国家档案局归口.

[3] GB/T XXXX-2008《文书档案案卷格式》[S].中华人民共和国国家标准.国家档案局归口.

[4] GB/T 18894-201X《电子文件归档与电子档案管理规范》[S].中华人民共和国档案行业标准国家档案局归口.

[5] 刘青,孔凡莲.中国网络信息存档及其与国外的比较—基于国家图书馆 WICP项目的研究[J].图书情报工作,2013,18:80-87.

[6] 安琳.国外网页信息存档项目及相关问题研究[J].图书馆建设,2009,12:107-110.

[7] 杨道玲,于施洋.国外政府网站保存实践与思考[J].中国档案,2007,07:64-65.

[8] 赵俊玲.国外关于网络信息资源保存的研究[J].中国图书馆学报2004,3:80-83.

[9] 吕艳飞.中美网络信息资源长期保存项目比较研究[D].重庆:重庆西南大学,2012.

[10] 邓青.国外图书馆政府网站信息保存的实践与启示[J].图书馆建设,2012,12:32-35.

[11] 刘桂玲,顾炳中.网站网页归档相关问题初步探讨[J].国土资源信息化,2012,3:69-71.

[12] 魏佳.我国网络信息资源永久保存策略研究[D].沈阳:辽宁师范大学,2012.

[13] 张小芳.数字信息资源长期保存体系研究[J].四川图书馆学报,2011,05:44-45.

[14] 李丹.网络信息资源长期保存的采集模式和程序[J].档案,2010,02:43-44.

[15] 付光宇,刘克伟.试论网络信息资源的采集策略[J].网络财富,2008,09:200-201.

V249 文献标志码：A

2015.04.20）

1007-757X(2015)08-0071-03

咸容禹（1973-）女，汉族，长春人，国土资源部信息中心，副研究员，硕士研究生，研究方向：信息技术工程，北京，100812李佳临（1988-）男，汉族，北京人，国土资源部信息中心，助理研究员，本科、研究方向：国土资源信息技术工程，国土资源部信息中心，北京，100812陶伟（1983-）男，汉族，贵阳人，国土资源部信息中心，助理研究员，本科，研究方向：国土资源信息技术工程国土资源部信息中心，北京，100812