裴童
【摘要】本文简要梳理国内外的相关研究现状,探索基于云存储的党政重要网页文件云存储模式构建的原则和方法,致力于解决党政重要网页电子文件的现代化采集方式和保存方式,为基于云存储环境下党政重要网页档案的收集、管理、保存及利用提供理论基础和经验借鉴。
【关键词】党政;网页电子文件;云存储
随着新时代现代化水平的快速发展,如今全球网络上拥有大量的在线杂志,公共页面及链接文档超过亿个,每天有许多新的网页出现,网络已经成为众多民众获取信息的首选。然而网页的平均寿命较短,如果重要的党政网页档案信息资源不能及时采集、归档或管理不善,其将“自生自灭”。因而,如何利用现代化信息手段存储“原生性”网络资源具有重要的时代意义。2016年国务院办公厅发布《关于印发“互联网+政务服务”技术体系建设指南的通知》,明确要求进一步加强“互联网+政务服务”技术体系建设。近几年,随着党政机关、事业单位“互联网+政务服务”能力的不断提升,党政及政务网页发布的信息呈指数型增长,及时存储并高效利用党政重要网页电子文件具有重要的凭证价值和归档保存价值。
一、国外相关的研究背景
1996年国际开始研究网络资源保存问题,加拿大、澳大利亚、瑞典国家图书馆和互联网档案馆(Internet Archive)是首批建立网页归档项目的国家。美国Philip C.Bantin对党政重要网页文件管理提出模式生命周期和文件连续体这两种模式。这两种模式是现代管理研究和发展的理论来源之一。美国和澳大利亚等国外党政机关部门开始转向云服务,积极探索在“云”中生成、存储和利用党政重要网页档案,据调查,宏观层面上,美国、英国、澳大利亚等国家先后出台相关“云”政策,微观层面上也发布党政重要网页档案云存储指南。
二、目前我国党政重要网页归档的主要功能及现状
石华的《档案馆保存党政重要网页策略研究》一文着重阐述郑州市档案局党政重要网页文件归档的情况。2018年7月,由国家档案局牵头启动我国网站网页资源归档试点。近年,各省市档案馆也纷纷开展网页电子文件采集、归档、管理存储项目研究,但大多数并不是针对党政重要网页文件开展的,针对性较弱。目前国内大多党政重要网页电子文件存在归档的范围和保管期限不明确、归档的技术和标准不完备、归档的保管和利用体系不完善、未形成完整的管理体系等方面问题。
三、党政重要网页档案采集、管理及利用
网页形成的电子文件本身就是数字化的文件,不必像传统纸质档案逐页扫描、识别采集后存储利用。采集、归档与管理三个主要的功能模块构成网页电子文件归档系统。云计算的运行原理是指:用户使用的应用程序,通过互联网这个媒介,运行在互联网的服务器集群中。用户查询信息时无需打开自己的电脑、手机的应用程序,可以便捷地进行信息访问,除此之外,用户使用的数据也通过互联网集群中心进行存储。
(一)数据采集功能是采集模块的主要功能。自动增量采集是指云环境下的数据采集通过网页爬虫工具对指定网页进行规划,按标准规范将采集到的网页进行元数据整理、原始信息的封装与保存、可视化封装与保存。解决了现有数据采集系统的数据采集效率低、实时性差的技术问题。通过云端服务器强大的数据运算能力,该数据采集能快速分析所采集数据的分析结果,保证了数据采集系统的数据采集实时性,提高了数据采集系统的效率。
(二)对元数据摘录、自动分类归档、数据入库等初步封装是归档过程。云计算空间,根据用户不同的信息需求和等级层次,档案馆自行设置档案信息资源的权限管理。档案馆授予管理权一般是通过PMI(特权管理基础设施)进行,首先,用户输入身份验证登录“云”端,然后按照之前确定的角色进行网页查询、浏览。其次,承担档案馆数据维护人员登录“云”系统后,可以按照其管理员身份和权限,进行网页数据的维护、数据的更新、升级和备份等。
(三)云平台以云计算为代表。电子网页的保存技术在充分运用这一平台的基础上,可以为档案数据的储存空间提供足够的保障。电子网页的保存技术可以分为以下两种:分布式保存技术和保存虚拟化技术。为了备份重要的电子网页,在运用以上两种技术进行储存时,需要采取加密等技术措施来保证数据的安全。因为档案数据的类别是多種多样的,所以运用多种模式的数据库是行之有效的。一方面,可以运用关系型的数据库来储存结构性的档案数据;另一方面,可以运用并行处理系统(MapReduce)来处理半结构或者非结构形式的数据。同时,我们可以把多种模式的数据库融入云平台,这样各种形式的电子网页都可以得到妥善的存储。
(四)网页电子文件管理。对网页电子文件进行管理是指签名验证、授权管理、网页数据的导入和导出、生成电子网页数据包等功能。“云档案馆”是由各个成员馆构建而成,各个成员馆同时享用云档案馆的信息资源,实现了双方的互惠互利。各个成员馆通过互联网相互联系,在各自的分馆上传可用的信息资源,这些资源最后集结在云端,云端成为一个大型的资源存储库,用户在成员馆使用资源时,不用区分资源是否为本馆资源,这就实现了各个成员馆资源的共享。同时云档案馆可以识别用户检索的各种信息,对这些信息进行过滤和筛选,根据用户的不同需求提供信息检索和信息传递服务。用户在查询信息过程中无需使用繁杂的步骤,为用户节省了大量的时间。
(五)网页归档。网页归档也同其它档案信息资源一样,涉及网页的复制权、编辑与保存权和发布权等问题,为了确保云环境下网页电子文件的真实性,提高云环境下网页电子文件的安全性,需要建立一个身份认证功能,对访问用户的身份等信息进行核实和认证。比如,只有当档案用户输入真实姓名和密码时才能进行登录,当下一次需要查询档案时,还需要再次进行手机认证,才能享用被授权的档案信息资源。一人一账户,这样的话,即能避免云系统权限的混淆和混乱,同时,又能避免云中的各个用户在不同系统登录产生很多账号的情况。另外,重要电子网页的归档还存在着资金、法律、人才等问题,因此相关部门应加大对资金的投入,在尊重隐私权和知识产权的同时,制定相关的法律法规,同时要打造一批复合型的档案人才队伍。电子网页归档是一个长期而系统的工程,任重而道远,相关问题还有待于进一步商榷。
四、结语
网页仿佛一座桥梁贯穿历史、今天与未来,把网页像书页一样保存起来,我们希望做到的是让后人能够清晰看到今天乃至过去互联网上报道过什么重大历史事件,感受网站的历史变迁、感受时代的进步与发展,留住今天的记忆,展示昔日的风采。
【本文系辽宁省档案局科技项目高校重要网页电子文件的采集、归档与利用研究(2019-R-14)阶段性研究成果】
【参考文献】
[1]王静.中美网页归档项目的对比研究[J].档案与建设, 2016(7).
[2]王烁.法国国家图书馆网页归档项目发展状况研究[J].山西档案,2012(3).
[3]毕云平,谢海洋.档案学视角下网页归档与保存研究综述[J].档案学研究,2015(4).
[4]付光宇.国外网络信息资源采集研究及其启示[J].图书情报论坛,2008(4).