华芳芳 叶楚健
[摘要]论文对网络信息存档相关研究成果进行分析,发现研究内容主要集中在存档责任主体、存档流程、法规标准、存档经费以及国内外网络信息存档项目研究等主题上,并在此基础上发现,当前网络信息存档研究存在着相关法规标准有待完善、“多栖”档案人才尚待培养、存档责任体系还须明确、网络信息存档意识有待提高、存档资源的利用研究仍需深入等问题,同时也对后续研究做出了展望。
[关键词]责任主体法律法规责任体系资源开发
[分类号]G270.7
Situation Analysis of Web Archive in China
Hua Fangfang, Ye Chujian
(1. School of management, Anhui University, Hefei, 230601; 2. Guangdong radio and television, Guangzhou, 510012)
Abstract: This paper analyzes the relevant research of web archive, and finds that the research contents mainly focuses on the subject of archiving responsibility, the archiving process, the standard of regulations, the financial problems and the research of web archive projects at home and abroad. On this basis, it is found that there are some problems in the current network information archiving research, such as the relevant laws and standards need to be improved, the "multi-resident" archives personnel need to be trained, the archiving responsibility system needs to be clear, the awareness of network information archiving needs to be improved, the utilization of archived resources needs to be further studied, and so on. And then, this paper prospects the future research.
Keywords: Subject of Responsibility; Laws and Regulations; Responsibility System; Resource De? velopment
1引言
自20世纪70年代互联网出现以来,网络信息便成为我们生活中不可或缺的一部分,取之不尽,用之弥生。根据中国互联网信息中心(CNNIC)第42次《中国互联网络发展状况统计报告》[1],截至2018年6月30日,我国网民规模达8.02亿,互联网普及率达到57.7%,网站数量为544万个。很明显,互联网在人们生活中的地位越来越重要。2018年1月18日,国家档案局前局长杨冬权在《新时代档案工作的新思维》中特别提到“要把网络信息存档,让网络信息变成档案永久流传后世”[2]。网络信息已成为社会记忆的重要组成部分,然而网络信息增长速度快,消失速度也很惊人,故将其进行存档管理,显得尤为重要。
“网络信息存档”最早来源于1996年被提出的Web Archive,学界对于这一概念的提法不尽相同,如“网络信息长期保存”“网页归档”“网页信息存档”等,文中统一称之为“网络信息存档”。为了解当前我国网络信息存档的研究情况,本文对已有研究成果进行了梳理与分析,概括出目前研究的主要内容,并分析探讨了当前研究的不足及对未来研究的展望,以期对今后的网络信息存档研究有所裨益。
笔者以中国知网总库为文献检索平台,分别以“主题”和“篇名”为检索项,以“网络信息”并含“归档”、“网络信息”并含“存档”、“网页信息”并含“归档”、“网页信息”并含“存档”等11个关键词为检索词,检索时间截至2018年8月31日,对内容进行筛选和去重后,共得到169篇有效文献。其中期刊论文151篇,硕博士论文16篇,报刊2篇。
2研究内容分析
通过对现有文献的梳理分析,我们发现,网络信息存档的研究内容主要集中在存档责任主体、存档流程、法规标准、存档经费以及国内外网络信息存档项目等研究上。
2.1存档责任主体研究
从目前国内外开展网络信息存档的实践来看,网络信息存档面臨的主要问题之一是没有形成明确的责任体系。当前,各类型图书馆、档案馆、研究机构以及政府组织等都参与其中,但是他们之间的分工协作并不明确,极大影响了网络信息存档的前进脚步。
学者们认为网络信息存档的责任主体主要包括网络信息的形成者及其出版者、图书馆、档案馆、国家网络信息存取中心等。赵俊玲[3]、沈丽[4]和洪明禄等[5]认为可以从短期保存和长期保存两个方面来确定网络信息存档的责任主体。网络信息的短期保存者主要指网络信息的形成者及其出版者。他们主要维护其自身所形成的网络信息原貌,将网络信息依照标准格式进行归档保存,并负有保证信息的完整性、真实性和可存取性的义务。网络信息的长期保存者则主要指图书馆、档案馆等传统保存机构和国家网络信息存取中心。由于图书馆、档案馆自身的非营利性以及具备稳定的财政来源,并且已有信息资源长期保存的实践和较为成熟的保存理论,故图书馆、档案馆等传统保存机构成为长期保存网络信息的重要主体。周毅认为同样都是网络信息存档的责任者,档案馆与图书馆的显著区别之一就是档案馆所提供的档案信息具有法律上的证据价值[6]。因此,档案馆应将自身的定位置于网络信息档案证据保全机构的高度上。李倢[7]、赵展春[8]认为图书馆和档案馆具有不同的社会职能定位以及角色特点,故双方应分工协作,制定不同的选择标准。
2.2存档流程研究
与其他方面相比,学者们对于存档流程的研究相对较多,目前对存档流程的研究主要集中在网络信息的采集、价值判断、归档保存以及检索利用这几个方面。
(1)采集
采集方式。目前比较流行的观点是将信息采集方式分为三种,即完整性采集、选择性采集和混合型采集,结合我国国情,采用“全面而又有所侧重”的混合型采集比较适合[9]。也有学者提出采用定域采集、定题采集、定点采集的方式[10]。刘兰和吴振新根据采集对象、采集目的和实施者将网络信息采集方式归纳为五种:面向长期保存的一次采集、基于web仓储的二次采集、面向采集服务的订阅型采集、需求触发的被动采集和事件驱动的网络交易采集,为网络信息的采集提供了新的参考[11]。
采集工具。目前使用的主流工具是网络爬虫,根据工作模式可将其分为通用爬虫(如HTTrack,Wget,Heritrix)、聚焦爬虫(如Nutch)和增量式爬虫(如Web Fountain)。通过对比研究[12],HTTrack和Wget可以高速完成对变化较少已知站点的整站数据采集;Heritrix采用深度优先策略来抓取完整的、精确的站点内容;Nutch在选择性采集复杂特殊需求信息时,其插件框架将给使用者带来便利的二次开发和使用环境;Web Fountain在做增量性的网页抓取时有很大效率优势。
(2)价值判断
存档网络信息的价值判断作为网络信息存档的重要环节,是网络信息存档的前端控制手段。仇壮丽[13][14]不仅阐述了存档网络信息价值判断对信息生产者、网络信息服务提供商以及网络信息用户的意义,还沿着“理论界定→本体描述→模型构建→模型应用→模型验证”的思路构建了一个基于本体的通用价值判断模型,以期实现网络信息的自动选择归档。杨元香[15]认为存档网络信息的价值判断受判断主体、客体和判断依据的影响,并在此基础上提出了网络信息价值判断机制。马芸馨、夏曼秋[16]认为可从内容和技术两方面进行价值判断,确保其原生性、价值性和真实性、完整性及可读性。向礼花[17]从网络信息的来源、内容、形式、效用等角度构建描述存档网络信息价值的元数据方案,并利用HTML元标签和XML SCHEMA实现存档网络信息价值的自描述。
(3)归档存储
将归档后的网络信息进行保存,是保证存档资源在现在和未来可以被访问和使用的基础。学者们对大量的网络信息以什么格式进行存储、存储到哪里以及存档后如何使之能够长期保存并保证存档信息的安全展开了研究。
存档格式。网络信息的存档格式有很多种,如ARC、WARC、CDX等,其中WARC格式因其软硬件环境完善、记录信息量大、保存当时环境、支持打包和压缩、存储容量大且易于扩展等特点,被认为是目前最适合面向网络信息长期保存的文件格式[18]。但是,WARC标准是在国外环境下制定的,并不完全适用我国环境,因此我国应结合WARC标准制定符合中文资源情况的国家标准,用于指导中文网络信息存档工作[19]。
存储方式。随着网络信息的增长,亟需足够大的存储空间来长期保存这些信息。从目前来看,主要有将网络信息保存在项目实施机构的内部网络中和保存到硬盘或磁带等载体介质上两种方式[20]。新兴的云存储技术具有灵活方便、高度可靠、存储容量大以及成本较低等优点,被认为适合对网络信息存档的大数据进行存储[21]。为保证网络信息存档后的长期可访问性,我国目前主要采用的技术有更新、数字迁移、仿真、管理工具和自动存储技术等[22]。
信息安全。存档资源的安全保护是网络信息存档要解决的一个关键问题。冯朝胜等提出了一种基于用户信任等级与角色分配融合驱动的数据隔离访问机制,利用云计算的虚拟化技术和可信平台模块,实现对云存储平台中数据访问的隔离保护[23]。程勇[24]提出一种基于谓词加密的动态计算数据保护方法,该方法可以保证用戶在“云端”对数据进行动态操作过程中的数据安全。
(4)检索利用
目前,关于网络信息存档的应用研究多集中于检索及其利用上。从现有情况来看,快速有效地利用存档的网络信息,需要给存档后的网络信息建立索引,也就是对WARC文件进行索引。Nutchwax和Apache Solr都有全文索引和检索功能,但是相比之下Solr的表现更佳[25]。由IIPC主导开发的Wayback Machine则支持对WARC文档中的URL进行索引和回放,并提供可视的检索界面[26]。吴振新和向菁分析了基于Broker/Client的分布式检索架构、可多维度扩展的分布式检索架构、负载均衡的检索架构和有效利用缓存的分布式检索架构以及它们如何在海量数据中快速发现信息、呈现信息[27]。在存档资源的利用研究上,主要分为三类:一是利用重现工具为用户提供存档内容的访问和浏览从而实现网站重现;二是从信息资源量及其分布、海量信息之间的关联结构、信息内容三个层次展开的对存档资源自身的研究[28];三是利用数据挖掘技术对存档资源的价值进行评估和深度挖掘,并将提取的知识以概念、规则、规律、模式等形式传递给用户[29]。
2.3法规标准研究
网络信息存档过程中面临着诸多法律法规问题。郝明[30]详细分析了著作权法、呈缴法、个人数据法案和国际法等对网络信息存档产生的不同程度的影响,并就如何为网络信息存档创造一个有利的法律政策环境提出了合理的建议。对于何种主体、对何种网络信息、享有何种具体信息权力的问题,周毅[31]将其归结为网络信息存档权问题。他认为网络信息存档权是保存主体为了履行其所承担的社会职责所必须具备的职业权力,它是一组权利形态,包括网络信息的选择权、缴送请求权、处置权、标准化权和存档保障权等。只有通过新的立法和对已有法律法规的修订等途径,使各种信息权利关系得到平衡,才能有效实现对网络信息存档权的法律确认。作为数字信息长期保护和方便存取的参考模型和基本概念框架,OAIS被网络信息存档领域广泛探讨与研究。王坚、张春花等[32]提出OAIS更多是一个参考模型而非实施指南,在应用时要根据实际需要设计信息包,保存项目应该注意和OAIS的比对和映射,并争取加入到OAIS标准的修订行列中去,而不仅是作为一个标准的被动接受者。
2.4存档经费研究
随着对网络资源存档的研究和实践,长期保存的经费问题逐渐引起了广泛的关注。吴振新等[33]总结了当前网络信息存档的经费来源和使用情况,并详细分析了网络信息存档经费周期模型理论和存储设备费用计算的研究进展。经费的来源主要由三个部分组成:国家图书馆的经费、以文化教育部门为主体的政府部门以及以科研资金项目为主体的其他基金组织。经费主要用于基础设施建设、人员费用、日常工作业务支出等方面。刘青、孔凡莲[34]认为,虽然网络信息存档项目属于公益性质,但是对于部分较深层次的服务项目可以收取一定的费用,此外还需努力开拓经费来源,增加商业捐助、社会捐助及设立基金资助项目等。
2.5国内外网络信息存档项目研究
我国关于网络信息存档的实践始于2001年,先后有国家图书馆的网络信息资源采集与保存试验项目(WICP)和网络数据库导航项目(ODBN)[35]以及由北京大学计算机网络与分布式系统实验室开启的中国Web Infomall项目[36]等。而国外关于网络信息存档的研究最早开始于1996年,如澳大利亚的PANDORA项目[37]、美国的IA项目[38]、日本国立国会图书馆WARP项目[39]等。他山之石可以攻玉,在对这些项目进行详细研究的基础上,学者们分别总结了国外网络信息存档项目给我国带来的重要启示,为我国网络信息存档项目的进展提供了重要的参考材料。
3结论与展望
综合分析来看,国内关于网络信息存档的研究起步较晚,发展较快,在积累丰富经验的同时,也存在着一些不足。系统把握网络信息存档研究现状并进行总结,对今后我国网络信息存档工作起着至关重要的作用。
3.1相关法规标准有待完善
网络信息存档受法规标准的影响和制约。由于法律法规严重滞后、政策标准没有规范和细化等问题,导致网络信息存档工作处于一种孤立、分散的状态。目前关于此类问题的研究虽有涉及,但是关于具体的版权、隐私保护、数据保护、内容责任等諸多问题的研究不够深入,没有形成相对成熟的定论。制定统一的行业标准是网络信息存档规范化的基础,无论是网络信息的短期保存者还是长期保存者都需要统一的行业标准来引导和指导他们来进行网络信息存档工作,以减少盲目保存和重复保存,促进网络信息存档水平的提高。法规标准是开展网络信息存档工作的重要保障,对现有的法规标准如何去完善与修订,以及新的立法该如何制定,是日后研究的重要方面。
3.2“多栖”档案人才尚待培养
人是贯穿整个网络信息存档工作的最关键因素。网络信息存档工作涉及计算机技术、信息技术、法律法规甚至资金管理等多方面知识,如利用数据挖掘、自然语言处理等技术将存档资源的应用从数据统计分析过渡到信息分析、从数据处理过渡到知识发现,仅仅具备档案学知识远远不能满足存档工作的需要,而精通两种以上知识的“多栖”档案人才较少。因此,在推进网络信息存档工作的同时,也要有意识地注重“多栖”人才的培养,并在此基础上加强各类人才之间的合作,为日后的研究及实践提供支持。
3.3存档责任体系还须明确
网络时代,到底由谁来负责网络信息的存档工作,是生产者还是出版者,或是图书馆、档案馆,抑或是所谓的国家网络信息存取中心还是其他机构?目前大家比较认可的是由各机构分工协作来推进网络信息存档的发展,但是具体包含哪些机构目前还没有一个普遍认可的论断,其中主要领导者是图书馆还是档案馆,也还有待明确。一些学者提出建立国家网络信息存取中心统一负责网络信息的长期存取,而由谁去推动它的建成、它与图书馆及档案馆等机构如何展开合作等问题都还有待研究。只有明确存档工作的责任主体,才能够顺利高效地开展后续工作。
3.4网络信息存档意识有待提高
我国现有网民8.02亿,每天都有新的网页不断产生,同时旧的网页也在不断消失,若不及时对这些网络信息加以保存归档,极有可能造成这段社会记忆的缺失,留下不可挽回的遗憾。作为网络信息的生产者和传播者,网民的网络信息存档意识越高则越有利于网络信息存档事业的发展。然而事实不容乐观,我国网民的知识水平分布在各个层级,大部分网民的档案意识本来就很薄弱,加之对网络信息存档知之甚少,网络信息存档意识就更显不足。相关部门应制定详细的宣传策略,由各存档机构负责落实,尽可能提高网民的网络信息存档意识,争取全民参与。
3.5存档资源的利用问题研究仍需深入
将网络信息存档是保存网络信息的手段,最终目的是提供利用,为人们带来有益的服务。目前人们的关注点相对集中在实现自动采集、自动分类以及抓取工具的升级开发等技术问题上,而面对大量图形、音频、视频等多媒体信息如何进行分析处理以及如何为网民提供便捷服务等利用问题则研究较少。此外大多数项目对存档资源仅提供基本的浏览和检索,利用统计、数学、随机过程分析等手段并结合信息分类、数据挖掘等技术对存档资源进行不同层次的开采和提炼,对存档资源的利用进行更深层的研究则不多见。随着今后存档资源利用问题愈发受到重视,建立一个相对深入而完整的利用研究体系是十分有必要的。
参考文献
[1]中国互联网信息中心.第42次中国互联网络发展状况统计报告[EB/OL].[2018-8-20].http://www.cnnic.net.cn/gywm/ xwzx/rdxw/20172017_7047/201808/P020180820603445431468. pdf.
[2]杨冬权.新时代档案工作的新思维(下)[N].中国档案报, 2018-01-18(003).
[3]赵俊玲,卢振波.网络信息保存的责任体系分析[J].大学图书馆学报,2006(2):94-97+88.
[4]沈丽.网络信息保存的责任体系研究[D].湘潭大学, 2010.
[5]洪明禄,刘志,沈丽.网络信息保存责任体系的构建策略[J].新世纪图书馆,2012(1):66-68+92.
[6]周毅.网络信息存档:档案部门的责任及其策略[J].档案学研究,2010(1):70-73.
[7]李倢,胡燕.档案部门网络信息保存的职责界定[J].档案与建设,2013(10):11-14.
[8]赵展春.网络信息归档保存的档案馆责任主体研究[J].档案与建设,2014(10):23-26+30.
[9][16][20]马芸馨,夏曼秋.社会记忆视角下的网络信息存档研究[J].档案与建设,2014(9):12-15.
[10][29]黄新,王萍.国内外近年WebArchive技术研究与应用进展[J].圖书馆学研究,2016(18):30-35+19.
[11]刘兰,吴振新.网络存储信息采集方式研究[J].图书馆杂志,2009(8):28-31.
[12]张乐,王婷婷.面向WebArchive的网络信息采集工具的分析研究[J].图书馆学研究,2017(3):65-69.
[13]仇壮丽,杨元香.归档网络信息价值判断之意义研究[J].图书馆学研究,2012(4):2-5.
[14]仇壮丽,许冬玲,卜淑芬.归档网络信息价值判断模型之研究现状与展望[J].档案学通讯,2010(6):61-64
[15]杨元香.归档网络信息价值判断研究[D].湘潭大学, 2011.
[17]向礼花.归档网络信息价值的元数据描述[D].湘潭大学,2013.
[18][21][26]徐飞,郑秋生,高艳霞.基于云存储的网页归档方案的研究[J].计算机时代,2017(4):21-24+28.
[19]曲云鹏.网络存档文件格式WARC研究[J].图书馆学研究,2014(24):20-25+28.
[22]杨智勇,曹航.网页资源长期保存的标准和技术研究[J].档案,2011(3):41-44.
[23]冯朝胜,秦志光,袁丁.云数据安全存储技术[J].计算机学报,2015(1):150-160.
[24]程勇.云存储中密文访问控制机制性能优化关键技术研究[D].国防科学技术大学,2013.
[25]蔡学锋.基于Solr的搜索引擎核心技术研究与应用[D].武汉理工大学,2013.
[27]吴振新,向菁.Web Archive检索系统架构分析[J].现代图书情报技术,2009(1):22-27.
[28][40][41]吴振新,张智雄,孙志茹.基于数据挖掘的Web Archive资源应用分析[J].现代图书情报技术,2009(1):28-33.
[30]郝明.网络信息资源保存制度探析[D].黑龙江大学, 2007.
[31]周毅.论网络信息存档权及其生成[J].中国图书馆学报,2011(1):102-108.
[32]王坚,张春花,赵俊玲.OAIS模型在网络信息保存中的应用分析[J].图书与情报,2009(6):104-107.
[33]吴振新,王婷,向菁,郭家义.网络信息资源保存费用问题探析[J].情报理论与实践,2009(3):37-41.
[34]刘青,孔凡莲.中国网络信息存档及其与国外的比较——基于国家图书馆WICP项目的研究[J].图书情报工作,2013(18):80-86+93.
[35]陈力,郝守真,王志庚.网络信息资源的采集与保存——国家图书馆的WICP和ODBN项目介绍[J].国家图书馆学刊, 2004(1):2-6.
[36]耿磊.对网页信息资源长期保存的若干思考——Internet Archive和Web InfoMall项目的启示[J].湖北档案,2012(2): 12-14.
[37]赵俊玲.澳大利亚网络信息保存项目PANDORA及其启示[J].情报理论与实践,2004(5):552-554.
[38]王烁.美国网页归档项目——Internet Archive发展研究[J].兰台世界,2012(17):18-19.
[39]陈瑜.日本国立国会图书馆网络信息资源采集保存项目介绍研究[J].图书馆杂志,2014(3):91-94.