电子文件可视化采集技术研究*

2015-06-14 03:06
档案与建设 2015年2期
关键词:电子政务网页可视化

杨 静

(江苏省档案局,江苏南京,210008)

1 研究背景

随着我国电子政务建设的深入发展,电子文件数量日趋庞大,且在持续增长之中。而我国一些政府部门在进行电子政务信息资源建设时,基于业务职能及工作流程的不同,往往各自所选用的硬件、系统软件、应用软件也不尽相同,这必然造成各部门产生的电子政务信息在文件类型和数据格式上存在差异,导致政务系统电子文件归档存在着系统及文件格式不兼容的问题,成为我国电子政务建设中亟待解决的问题。

江苏省电子档案中心建设项目是江苏省人民政府下发的《省政府关于进一步加快国民经济和社会信息化的意见》中提出建设的涉及全局性的基础性、公益性、标志性信息化工程之一。项目旨在建成数字环境下历史档案数字记录遗产永久保管基地、全省电子档案信息资源的管理与共享中心和全省政务信息公开场所。项目重点建设内容之一就是通过多种途径实现对省级机关各单位电子政务系统中的电子文件的采集和归档。

2 常见的电子文件归档解决方法分析

2.1 介质转换法

转换介质法,就是将电子政务系统中的电子信息打印出来,按照传统的立卷归档方式进行归档。这种归档方式的优点是档案工作按部就班,不会出现很大的失误,但其缺陷也是明显的。首先,电子政务系统中已有的数字信息资源被丢弃,此后通过对纸质档案的重新数字化扫描著录来获得档案信息化管理系统中所需的档案数字资源,这造成资源浪费和效率低下;其次,电子政务系统中体现电子文件产生和使用过程的真实可靠性相关的电子文件元数据信息被丢弃,造成了信息的缺失和管理过程的瑕疵;再次,这种方式下一般是要在纸质档案进馆之后才能数字化扫描著录,形成档案数字资源,时间相对滞后,不能满足日益发展的数字档案查询利用的需求。

2.2 脱机存储法

脱机存储法,是将电子文件存储在软盘、硬盘、光盘等一些光介质和磁介质上,将其按物理实体归档保管,与传统的磁带、录像带管理方法一致。所不同的是将电子文件信息及其背景信息(包括能够浏览电子政务信息的应用环境信息,以及应用系统的背景等相关信息)一起刻录到光盘中,进行集中存放和管理,这也是我国起初制定电子文件归档标准中要求的基本方式。这种归档方式的缺点是每张光盘上存储的真正有价值的档案信息比较少,并且利用效率不高,在对归档的电子政务信息进行查询利用时,必须安装各类背景应用环境软件,然后才能够浏览其全部信息内容。

2.3 接口归档法

接口归档法,通过在电子政务系统和档案信息化管理系统之间建立数据归档接口来实现电子政务系统中数字信息资源的归档。接口归档法从归档数据的收取方式上,总的来看可以分为三类:第一类是“取”,即档案信息化管理系统从电子政务系统抽取需要归档的数据;第二类是“送”,即电子政务系统将需要归档的数据写入档案信息化管理系统中;第三类是“取”“送”结合,即电子政务系统和档案信息化管理系统约定一个中间形式,如中间文件格式或中间数据库等,电子政务系统将需要归档的数据写入中间形式,档案信息化管理系统再从中间形式抽取这些数据。

这三类方法都存在一些共同的问题。首先,这些方法都需要对原电子政务系统进行一定技术改造,或者需要深入了解电子政务系统的数据存储技术细节,这带来很多跨部门的业务和技术协调工作;其次,无论是“取”还是“送”,都需要深入对方系统的数据存储区域读取甚至写入数据,这带来较大安全隐患。因此,接口归档法虽然应用效果好,但存在技术难度高,实施工作量大,维护困难等问题。

综上所述,当前电子政务环境下各种电子文件归档的技术方式均存在一定的局限性,电子政务系统中信息资源采集归档技术上存在的困难已经成为制约电子政务发展与档案信息化管理系统建设的瓶颈之一,亟待解决。

3 信息抽取基本概念

网络信息抽取领域是近年来发展较大的研究领域,随着INTERNET 的发展,网络上的信息越来越多,几乎所有的网上信息都是以结构化或半结构化的网页的形式呈现给客户的,因此,网络是一个特殊的挑战,一直在推动着信息抽取技术的向前迈进。

近几年来,出现了多种基于Web 的信息检索工具,如比较出名的Google、Yahoo、百度等搜索引擎工具,这些工具的出现极大地方便了人们对信息的获取,能够解决部分信息过载的问题,但由于它们都是基于字符串匹配和词义相似原理进行信息查询的,因此使用这些工具得到的查询结果动辄成百上千条,而且有很多返回的查询结果中包含了重复的内容,这就使用户得到了网页,并不等于得到了想要的信息资源。

为了更加有效地组织和获取网上数据资料,高效地发现和利用Internet上的资源,研究人员开创了Web信息抽取这个研究领域。Web信息抽取技术的任务就是将网页中用户感兴趣的信息准确地抽取出来,以更具有语义、更结构化的形式保存下来,供用户查询或其他应用程序利用。网络信息抽取技术并不试图全面理解整个网页,只是对网页中包含的相关信息的部分进行分析和处理,信息抽取是指从一块文本中抽取指定的事件、事实等信息,并且形成结构化的数据存入到一个数据库,供用户查询和使用的过程。换而言之,就是从文本中抽取用户感兴趣的事件、实体和关系,然后用结构化的形式描述抽取出来的数据,再存储在相应的数据库中,为情报分析、网上购物、检测抄袭、文本分类等各方面的应用提供服务。通常信息抽取技术的抽取对象并不仅仅局限于文本,其他形式存在的信息也可作为信息抽取的对象,抽取的结果则存储为相应的结构化数据。信息抽取技术的最终目的就是开发出实用的信息抽取系统,可以从自由文本中抽取和分析信息,最终得到有用的、用户感兴趣的信息。

图1 可视化采集工具工作原理

信息抽取的目标是将文本中的信息抽取出来并表示为结构化、自描述的数据结构。从而将难以操纵的文本数据转化为容易处理和分析的结构化数据。

传统的信息抽取是针对纯文本,主要使用自然语言理解的技术。但由于纯文本没有任何文本之外可利用的信息,这项工作极为困难,进展也很缓慢。随着互联网的出现,Web 文档的信息抽取逐渐成为亟待解决的问题。一个Web文档就是一个网页,网页与纯文本的结构差别很大,主要表现为网页中存在大量的标记,这些标记将网页要显示的文本内容分隔开来。

大量的标记为网页信息抽取提供了更多可利用的信息,从而可以开发各种不同于传统信息抽取的方法对网页进行信息抽取。信息抽取技术目前在军事、商业、医学、科学研究等领域有着极大的应用空间。

4 基于信息抽取的可视化采集归档技术研究

通过对电子政务系统中信息资源的可视化采集归档技术的研究,项目组提出了一种基于各类电子政务系统数据显示界面的电子文件数据采集归档的解决思路。其基本思路是,通过对电子政务系统特定数据显示界面的解析,提取该界面下的可供归档的电子文件元数据信息和电子原文,以实现归档数据的采集。

合理化的可视化采集归档的具体流程是:通过特定的可视化采集软件,使用授权的账户,模拟某个客户端登陆目标电子政务系统,逐级打开系统的界面,直到打开具有需要采集归档的数据的系统界面,然后应用计算机技术分析此界面下的各种数据信息,从中提取或下载需要采集归档的电子文件元数据信息和原文信息,并将这些信息归档到档案信息化管理系统。整个过程,只需要使用计算机程序模拟人机交互的界面操作,并分析和提取显示界面数据,而无需深入了解电子政务系统的逻辑结构和底层数据存储形式。

可视化采集归档方法,提出了解决电子政务系统数据归档问题的新特点和新思路。该方法本质上可以认为是前述“接口归档法”的“取”大类的一个特殊子类。由于可以避免“接口归档法”中需要改造电子政务系统或需要深入了解电子政务系统数据存储结构的困难,可视化采集归档方法具备在实施工作量和系统安全性上的优势。

可视化采集工具软件的工作原理是对数据页面进行分析、操作,把网页中特定的数据选取保存为中间文件,再由数据处理工具将中间结果转换为符合标准的元数据,如图1。

可视化采集工具所面对的对象是省直机关立档单位的电子政务系统,这些系统由不同的单位负责建设和管理的,系统之间的差异很大,系统的数据展示页面不一致,这样,在数据采集工作中,分析具体的采集对象情况,对采集前台和后台的模板配置就显得尤为重要。

可视化数据采集工具的主要使用步骤包括:分析应用(网面)类型、配置前台自动化模板、配置后台元数据和电子原文采集模板、采集元数据和电子原文四个方面。

分析应用(网页)类型:在自主研发的浏览器中输入目标系统的URL路径,分析该应用属于哪种类型的应用,以决定应用哪种自动化采集模板。

图2 可视化采集系统使用运行流程

配置前台自动化模板:通过分析当前应用类型,以决定采集的模板类型,并设置模板中相应的参数,在这里针对每个不同的应用(网页),参数是不一样的。

配置后台采集模板:通过分析当前应用(网页)的源文件,配置采集的元数据和电子原文的采集规则,以及采集的层次。

数据提取:对经过结构化、排重、排错处理的页面进行数据提取。根据页面的形式特点,应用相应的采集模板,从页面上提取出相应的元数据和电子原文归入数据库。

5 应用效果

借助江苏省电子档案中心项目建设过程中初步开发成型的可视化数据采集工具,可视化采集归档方法已经得到了有效应用。电子政务系统数据归档采集过程中,可视化采集归档方法在电子政务系统技术开发和协调配合方面的要求较以往传统的接口开发方式有所降低,在安全性方面较以往的传统方式有所提高,在实施工作量上平均而言较传统方式有所减少。可以预期,当相关工具软件在可配置性、交互性、自动化等方面进一步完善之后,可进一步提高可视化数据采集归档工作的效率。同时,由于电子政务系统数据页面展现技术的复杂性和多样性,新技术不断产生、发展和应用,可视化采集归档方法对实施人员的技术要求较高,在一些特定的具体案例中,有可能会产生较大的实施工作量,甚至遇到难以攻克的技术难题。因此,可视化采集归档方法应考虑根据采集对象单位电子政务系统的情况作有选择性的使用。

[1]王兴娅,颜祥林.基于LISA数据库的国外数字档案资源保存与安全研究动向分析.档案与建设,2012,02:08-11.

[2]丁国勇,李侠,王爽.OA 电子文件在线归档技术研究.兰台世界,2012,08:152.

[3]杨海霞,张永奎.网络新闻数据可视化采集系统的设计及应用.山西科技,2006,09:34-35.

[4]吴震.数据挖掘技术在电子文件管理中的应用研究.广西民族大学2011.

[5]屠跃民,李婉月.关于数字档案信息采集的思考.档案与建设,2006,09:17-20.

猜你喜欢
电子政务网页可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
论基于云的电子政务服务平台构建
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
电子政务工程项目绩效评价研究
网页制作在英语教学中的应用