范晓青 黄芹侠
政府网站正成为政务服务、信息公开、知识传播与文化传承的重要阵地,也必然会产生大量反映机构依法行政的真实记录,需要加以收集保存以资查考利用。第49次《中国互联网络发展状况统计报告》显示,截至 2021 年 12 月,我国共有政府网站14566 个,互联网政务服务用户规模达 9.21 亿,较 2020 年 12 月 增长 9.2%,占网民整体的 89.2%。作为电子文件存储的网站网页文件如何妥善保存,留下时代烙印,传承社会文化,已经成为一个不可回避的问题。
数字档案馆(室)建设开展以来,截至2021年底,全国共创建国家级数字档案馆90家,江苏省共有A级数字档案馆(室)1295家。数字档案馆(室)建设如火如荼地开展,各地“馆室一体化”进程持续推进,为网站网页电子文件的收集归档工作提供了必要的载体和平台,也使该背景下的网站网页归档具有一定范围内的可复制参考性。
一、政府网站归档现状
政府网站是由各级政府主办、负责运行维护,在互联网上发布政府信息和提供在线服务的综合平台。党和国家对网站資源归档工作十分重视。2016年11月中办、国办印发的《国家电子文件管理“十三五”规划》要求“推进政府网页及电子邮件、音视频等电子文件归档”。2017年5月国务院办公厅印发的《政府网站发展指引》也明确要求要对政府网站网页进行归档。
基于这些要求,一些机构对网站归档进行了一些研究,比较成功的网站归档案例,大多以图书馆、研究机构为主体,以网页爬虫等技术对一定主题的网页进行采集,多为知识性采集。这种模式与档案部门进行的网页归档的凭证性采集有着很大不同。而且由于采用外部软件进行采集,对网站的音视频、网页附件、3D立体展厅等内容的采集还难以实现。政府网站文件归档工作目前大多处于放任自流或各行其是的状态,有的则停留在一般性文献资源汇聚的阶段。
泰州市各单位在网站归档这块也存在同样的问题,各单位网站归档意识不强,极少采取实际有效措施进行网站归档。拥有网站归档软件的仅有泰州市供电公司一家,采用爬虫软件对部分重要栏目进行采集归档(该归档软件为其上级主管部门统一开发)。少部分单位手动采集,通过网页截图的方式进行归档,归档内容为部分专题,如部分疫情防控网页的收集归档。大多数单位没有网站归档意识,或者认为应该归档,但是不知如何进行归档。
二、泰州市政府网站归档的背景
2019年国家 档 案 局 发 布 《 政 府 网 站 网 页 归 档 指 南 》(DA/T80-2019),并于2020年5月1日正式实施。为政府网站网页归档提供了根本制度遵循和标准要求,对规范政府网站网页归档质量、增强电子政务信息资源建设,持续推动政府网站网页有序归档发挥了极其重要作用。2022年新实施的《档案法》要求“机关、团体、企业事业单位和其他组织应当积极推进电子档案管理信息系统建设,与办公自动化系统、业务系统等相互衔接。”
2021年泰州市政府门户网站全新改版, 33个市直机关部门网站统一归口建设,统一标准,统一架构,为我们进行接口开发,统一推送网页文件提供了便利条件。
2020年、2021年,泰州市档案馆先后建成江苏省5A级数字档案馆、国家级数字档案馆,同步建设泰州市集中式数字档案室,系统功能更趋完善,并在市直机关团体企事业单位中推广,档案室系统的使用比例约为80%。数字档案馆(室)一体化系统的广泛使用,也为网站网页归档提供了必要的平台支撑。
三、泰州市门户网站归档实践
(一)网页归档模式选择
网页采集目前主流的有两种方式:一种为自动抓取,一种为主动推送。这两种方式各有利弊,推送技术主要是将网站网页信息主动推送至相应的信息保存单位或部门。推送技术可采集深层网站网页以及数据库资源,且便捷又安全。抓取技术则由采集单位运用专门软件,将网站网页信息采集、下载、保存至相应的服务器。一般运用第三方软件进行操作,由于授权问题,部分信息难以获取。
新《档案法》实施以来,对电子档案的有效性提出了原则性的界定,电子文件应当“来源可靠、程序规范、要素合规”。国家档案局在管理档案事业的组织原则是“集中统一管理”。网站网页档案也是电子档案的一种,根据以上原则,我们认为网站网页电子文件的归档主体应是各网站主办单位,同时应由主办单位档案室集中统一进行管理。但由各机关部门分别进行网站归档系统的开发,一方面,各部门的档案人员专业能力难以胜任,另一方面,也不适应集约型政府的发展方向。
基于以上观点,我们由档案馆协调所有门户网站群中部门网站的归档,并采用主动推送的方式。将政府门户网站数据按部门推送至中间库,数字档案室系统从中间库进行接收并分配至各机关部门。由档案馆提供统一的网站归档模式、要求及统一的档案管理系统,由各部门授权,政府门户网站提供数据推送技术支持,档案管理系统提供数据接收技术支持。这种模式从一定程度上解决了网站归档中的制约问题,可以更好地推进网站归档工作,具有现实可行性。同时数字档案馆(室)系统的数据封装功能,也能一定程度上确保归档数据的真实完整性。
(二)网页电子文件类型梳理
在对网站网页归档之前,我们对这33家网站的栏目进行了一个初步的分析。统计了这33个部门网站除首页以外的一级栏目,共计198个,其中各类网页类型占比如表1:
可以看出,政府网站正在成为信息公开、办事服务和政策解答的重要平台,是政府履行职能的重要阵地。
根据对这些网站内容的梳理,政府网站网页内容格式主要有几种类型:纯文本、文字图片、文字加附件、图片类、表格类、PDF、音视频类等。外部链接因主体不同,未列入本次归档范围。
参考《政府网站网页归档指南》,我们首先需要留存一份版式文件,以网页截图的方式,保存为PNG格式,用于固化网页的版面及内容信息。其次需要保存一个该归档网页的源代码文件,保存为HTML格式。同时为了便于后期对该网页信息的应用,我们还将网页中涉及的图片、表格、附件等信息专门进行保存。这样我们一份网页归档文件至少包含JPG、HTML两种格式文件,根据实际情况,每个网页归档的内容有所不同。
(三)网页归档组织原则
为了保持网站的整体性和延续性,我们以一个部门作为一个全宗,部门下有多个网站的,分别给予网站代码“01”“02”…以此类推。同一网站,以“年度-保管期限-类别”进行分类,以最终一级栏目作为类别,类别内按时间顺序进行流水编号。类别代码以最终一级栏目名称的拼音首字母进行命名。档号设置为“全宗号-门类代码-网站代码-年度-保管期限-类别代码-件号”的格式。
网站网页文件推送的频次根据网页电子文件的价值及重要性确定,由各单位制定网站门类的推送频率,采用每月、每季或每年推送的方式。重要的网页文件一月一推送,较重要的一季一推送,一般的一年一推送,网站首页一般设置为一年推送一次。
(四)网页元数据信息采集
网页元数据信息采集如表2,采集的内容除了网站主动推送信息以外,利用数字档案室的档案预归档模块,对归档所需元数据信息进行自动生成或智能辅助生成,提高网站网页归档的自动化和可操作性。
网页内容推送数据格式:PNG(网页截图)、JPG(网页内配图)、MP4(网页内视频)、HTML(网页源代码)、网站内附件(excel、word、pdf),链接文件不推送。
(五)网页数据归档管理
网站网页被推送至各机關部门档案室后,由数字档案室系统根据推送信息,自动生成相关元数据信息。由档案员进行鉴定审核后,批量选择归档。
保管期限制定原则一般以栏目为最小单位,同一个栏目确定为同一个保管期限。电子文件采集进数字档案室系统预归档模块后,数字档案室系统带有保管期限辅助鉴定功能,根据制定的保管期限表,实现网页保管期限的自动鉴定,档案员仅需确认无误后,点击归档按钮,系统根据预先设定的档号组成规则自动生成档号,完成网站网页的归档,减少人工参与,提高网站网页归档的效率。
(六)网页电子文件的存储及利用
网页电子文件的存储采用建立层级文件夹的形式。以档号中每一层级建立文件夹,在类别代码文件夹中,存放该网站该类别下的所有电子文件。
“馆室一体化”背景下,网页归档信息的共享利用也更加便利。网站网页在数字档案室中进行归档后,可以在本单位部门中正常进行电子文件的借阅。在泰州市市级机关各部门之间,也可通过数字档案室系统中的“共享利用”模块,根据各单位申请,对归档网页数据跨单位部门共享利用。
作者单位:泰州市档案馆