王 静
(山东大学历史文化学院,山东济南,250100)
早在1994年,国际上开始了关于网络信息资源保存的讨论,随后美国、瑞典、澳大利亚等一些国家的图书馆、档案馆开展了多个网络信息保存实验项目。网页归档作为网络信息资源保存的重要方法,在近20年内一直是网络信息保存的重点探索建设项目,国际上许多国家和地区相继展开了网页归档项目建设。目前,网页归档项目在北美和欧洲的发展比较成熟,其他地区网页归档项目的开展相对较晚,我国在网页归档方面仍处于起步阶段。档案馆作为致力于发展档案事业的科学文化事业机构,理应积极地为网页归档项目的发展做出贡献。
首先,信息技术迅猛发展,网络的应用越来越广泛。据《中国互联网发展报告》(2014),截止2013年12月底,我国网页总量为1500亿个,同比增长22.2%[1]。网页数量激增的同时,网页的寿命却非常短暂,互联网网页平均每周以8%的速度更新,网页的平均生命周期只有大约44-75 天[2]。因此,若要对网页资源进行再利用需要对网页进行归档保存。
另一方面,虽然目前学界对于网页能够成为档案并没有达成一致认识,但网页上所显示的文字、图片、音像等多种形式的内容真实记录了人们的网络活动,这种原始记录性与档案的本质属性相同,因此网页资源具有档案价值。同时,各学科领域的学者都有利用网络文献作为学术论文引文的情况,发布在网络上的电子文献已经成为学术研究的重要引文来源,并且可能会发展为未来学术研究的主要资源,因此对网页进行归档保存也是学术研究的需要[3]。
根据《档案法》、《档案馆工作通则》等有关文件的规定,档案馆是“党和国家的科学文化事业机构,是永久保管档案的基地,是科学研究和各方面工作利用档案史料的中心”,有责任积极参与网页归档项目建设。早在2004年,全国档案工作会议就已指出各级国家档案馆应该具有的“四位一体功能”包括“档案信息服务中心”功能,明确了档案馆在信息时代进行档案信息资源整合开发的功能和职责。
第一,档案馆作为发展档案事业的专门机构,在长期实践过程中积累了大量关于档案收集、整理、编目、保存和服务的经验和方法,并长期开展关于档案的理论研究工作,因此能够为网页归档项目的发展提供重要的理论和方法指导。
第二,档案馆作为党和国家重要的科学文化事业机构,一直深受党和国家重视。为保障网页归档项目的顺利实施和发展,需要建立起网页归档项目体系,这一体系的建立需要以档案馆为依托,同时以政府的相关政策法规为指导,因此党和国家的重视与支持是开展这一项目的重要保障。此外,依托现有数字档案馆的建设基础,借助其人力、技术、管理等资源发展网页归档项目,能够提高效率、提升质量,实现互利共赢。
第三,档案馆作为集中保管档案的中心,能够配合网页档案提供来源于多个机构的相关主题的档案信息,且提供的档案信息具有可信度高、权威性强甚至独一无二等特点,满足用户对档案信息原始性和真实性的需求。
国际上对于网页归档的探索开始于1996年,美国一直走在网页归档项目研究和实施的前列,开展的多个项目已取得重要成果。我国网页归档项目建设起步较晚,在技术、管理、政策法规等方面需要进一步探讨和完善。下面以表格的形式对美国和中国的重要网页归档项目进行简介。详见表1。
表1 中美网页归档重点项目简介
网页归档项目的实施,最终目的是满足用户的利用需求。但一直以来,由于网页上信息来源的广泛性和开放性,网页归档工作触及数字作品的呈缴制度和知识产权等方面的法律内容,成为影响网页资源保存和开放利用的主要因素。
美国的版权法条款中有关于呈缴的规定内容。美国《1976 版权法》第407 款规定只有机器可读的文件不需要呈缴;1988年该条款被重新修订,规定依托物理载体的电子文件需要呈缴,如磁带、缩微胶片等;1993年再次修改的版权法将非印刷品包含进了呈缴范围;2005年,美国版权法第108 款重新修订,将呈缴范围扩大到了在线资源[7]。至此,美国通过立法来规定图书馆或其他机构有权力保存和开放利用这部分资源,为网页归档项目的实施和发展提供了法律支持。同时,美国的版权法支持“合理使用(fair use)”和“默示许可(implied license)”,并逐渐成为普遍的网络资源保存和利用的适用法律准则,许多网页归档项目的实施主体也在研究“免责条款”以规避法律风险[8]。
中国的网页归档项目实施仍处于起步阶段,采取政府主导的模式,相比之下法律建设显得比较落后,呈缴本制度和著作权法方面也并没有相关的明确规定。因此,在具体实施过程中,只能针对版权所有者发现自己受保护的资源在未经允许的情况下被保存下来进行的申诉进行滞后处理。
美国的网页归档项目主持机构多样化,涵盖国家图书馆、国家文件与档案署、高校以及个人等。例如,美国的IA 和Web Citation 项目都是个人创办的非营利机构,LCWA 由国会图书馆牵头开展,北德克萨斯大学主办了“GyberCemetery”项目,国家文件与档案署开展了“不定期保存联邦机构及政府网站信息内容”项目等。同时,这些项目的实施和发展并不是靠单个机构孤军奋战,而是拥有众多合作机构,例如商业网站、高校、研究机构等,甚至不同项目、不同国家间也开展广泛合作。2003年IA 和十个国家的图书馆共同创建了国际因特网保存联合会(International Internet Preservation Consortium,IIPC),此后多个国家陆续加入。各国图书馆在IIPC 的框架下开展合作,共享技术工具和归档资源,极大地促进了各国网页归档项目的发展[9]。
我国的Web 信息博物馆项目由北京大学主持开发,WICP 项目由国家图书馆主导。国家图书馆担当项目的主持和领导机构,有利于网页归档标准的制定和制度的实施,并能从国家层面上总体规划和协调网页资源。高校的参与能够发现网页资源收集、整理、存储和服务中存在的问题,并提出解决方案,有利于网页归档项目的发展和服务质量提升。此外,目前我国还不是IIPC 的成员,国际合作还未大规模展开,在一定程度上阻碍了我国网页归档项目收集范围的扩大和技术手段的提升。另外,档案馆在具有参与网页归档项目诸多优势的情况下却并未参与其中,值得我们深思和改进。
网页归档项目的参与单位体现了国家重视程度和社会档案意识水平。总体来看,美国的网页归档项目体现出主持机构多样化、社会机构广泛参与的特征。我国网页归档项目不多,主持机构集中,社会参与度不高。
(1)采集对象
由于各项目建立的目的不同,采集对象的选取也会有不同的侧重。美国的IA 项目使用采集软件Heritrix,采用网页快照的方式对互联网网页进行抓取,因此成为当今世界网页采集量最大的项目。Web Citation 项目建立的最初目的是解决“坏链”问题,用户使用该网站对包含引用内容的网页用网页快照的方式进行固化保存。LCWA 项目则主要针对突发事件和重要专题进行网页归档保存。
我国主要的两个网页归档项目由于实施目的不同,采集对象也有所区别。中国Web 信息博物馆项目目前可收集中国所有的静态网页。WICP 项目最初定位是关于网络信息资源保存问题的研究项目,设定的采集对象为具有标本性质的500 个具体网站,主要包括政府、电子期刊、高校、企业各100个代表性网站及其他类型网站100 个[10]。
(2)采集资源类型
美国的网页归档项目采集资源类型在不断扩展,Web Citation和IA 项目起初只收集网站上的网页资源,但随着网站内容形式的不断丰富和采集技术的提高,在线出版物、音频、视频、动画等多种资源类型逐渐被纳入到网页归档项目的采集资源类型范围内。
我国的网页归档项目起步较晚,在发展过程中借鉴了其他国家的经验,因此采集的网页资源类型多样,不仅包括文字信息,而且对于网页的结构、深层网页、超链接以及动画、音像等多媒体信息也有一定的保存。
(3)采集方式
美国的网页归档项目最初采用单一的采集策略,即选择式(在确定采集对象后按照一定的频率进行周期性持续性采集)或广泛式(基于收割软件自动地在采集范围内采集网页资源)采集。在随后的发展中,许多项目在自身单一采集方式的基础上逐渐融合其他的采集方法,即在广泛采集的基础上针对突发事件及重要专题进行有选择的采集的方式。
我国的Web 信息博物馆和WICP 项目均采用复合式的采集策略。以WICP 项目为例,截至2008年底,该项目广泛采集和存储了全部约8 万个政府网站、291种中文电子报纸,同时针对奥运会、新农村建设、非物质文化遗产等39 个重要专题进行专题网页保存,并对其进行数据挖掘和质量监测。
网页归档项目对网页资源进行采集、归档保存、管理等一系列活动的最终目的是向公众提供利用服务。网页归档项目的网站建设是提供利用的主要窗口,能够直观、简便地向用户展示网页归档项目的概况,是网页归档项目的重要组成部分。下面分别列举美国和中国的网页归档项目网站,探讨其提供服务的能力。
表2 中美网页归档项目对比
我国的Web 信息博物馆项目由北京大学主持开发,WICP 项目由国家图书馆主导。美国的主要网页归档项目也大都由国家图书馆主持开展。国家图书馆担当网页归档项目的主持和领导机构,便于从国家总体规划和协调配置网页资源,具有一定的优势[11]。资源庞大,任何机构都无法独自完成网页归档项目的建设与发展重任,因此网页归档项目的实施需要多方机构的积极参与和协调配合。
在网页归档项目中,虽然档案馆相较于图书馆起步低、经验少,但作为构建社会记忆的重要机构,档案馆有责任和优势开展网页归档项目。因此,档案馆应更为积极地参与网页归档项目,吸取各方经验,提高参与度和服务质量。同时,档案馆还可发挥自身优势,积极促成政府、科研机构、高校、企业甚至个人等多方机构参与网页归档项目,在多方合作的基础上,不断促进网页归档项目发展。
另一方面,目前我国还不是IIPC 的成员,国际合作工作还未大规模展开,在一定程度上阻碍了我国网页归档项目收集范围的扩大和技术手段的提升。在今后的工作中,应努力开展国际合作,提升我国网页归档项目的建设水平。
由于网页上信息来源的广泛性和开放性,网页归档工作触及数字作品的知识产权(主要是著作权方面)、采集权、公布权等多方面的法律问题。网页归档项目系统没有权力采集保存和公布利用受到知识产权保护的网页信息,因此网页归档项目的顺利实施需要相关法律法规来保障网页归档机构拥有网页资源采集保存和公布利用的权力,但各国的档案法规大多并不涉及网页资源归档的问题。美国版权法下设呈缴制度相关规定,经过多次修订确立了在线资源的归档制度,为网页归档项目的开展提供了法律支持。目前,与美国相比,我国相关立法严重缺乏,应通过各种渠道积极促进网页归档相关政策法规不断建立健全。
档案馆作为党和国家重要的科学文化事业机构,一直深受党和国家的重视。档案部门应利用自身优势,加强与政府部门的沟通,积极争取政府部门的政策支持,在建立健全相关法律法规方面积极谏言献策。2012年3月正式展开的著作权法第三次修订工作已经涉及到网络环境下数字作品的著作权保障机制问题。档案部门应积极把握正在开展的《著作权法》全面修订的机会,建议增加网页归档相关内容。同时,档案部门也可积极建议建立关于网页归档的专门法规,并提出可行方案。
另一方面,档案馆在开展网页归档工作时,需遵从国家、地区以及行业的相关法规政策,保证尊重及维护归档网页的知识产权和其他合法权益。2012年修订的著作权法,明确规定了网络信息资源的发表权、修改权、复制权等。2006年7月颁布实施的《信息网络传播权保护条例》,具体规定了信息的网络传播过程中著作权人与发布者、传播者、利用者的相关权益。网页归档工作的开展,必须在符合这些相关法规政策的前提下进行,并在实践中积极提出完善修改的意见。
在授权方面,目前网页归档项目主要采取征集的方式采集网页资源,即档案部门主动与网站达成协议,采集该网站的网页并开放利用。网站对于其发布的信息具有一定的法律权限,在尚无明确的法律法规的情况下,档案部门主动与网站进行沟通,取得明确授权,可以在一定程度上规避法律风险。
网页归档项目是一个系统工程,涉及法规政策、合作机构、采集策略及技术等多个方面。面对这个复杂而系统的整体,我们应按网页归档工作确定采集范围,采集、存储、开放利用的实施步骤,制定一套完善的网页归档流程和标准以保证项目的顺利实施。
制定网页归档工作的标准体系是网页归档项目建设的重要基础性工作。档案馆在这方面具有无可比拟的优势,档案馆在长期实践过程中积累了大量关于档案收集、整理、保存和利用服务的经验和方法,并长期开展有关档案的理论研究工作,因此在网页归档的制度和标准建设中能够提供合理有效、切实可行的意见。在具体操作中,理论与实践相结合,在对网页归档的工作流程、采集策略、著录标准等进行标准化的同时展开相关实践论证其可行性,从而保证网页归档标准制定与项目实施相辅相成、并驾齐驱。
首先,从档案学的角度来说,网页资源属于电子文件范畴,因此网页归档项目标准的制定应达到电子文件管理最基本的质量目标,即:真实性、完整性、可读性和可用性。因此标准的制定应考虑以下几点:(1)保证网页的来源和时间联系不被破坏,保持网页资源的原始面貌;(2)完整记录相关元数据(来源网站、发布日期、知识产权信息等),保障网页资源背景信息和著录信息的完整;(3)保障归档网页资源存储环境与介质的安全,同时保证存储格式的可读性;(4)保障归档网页资源不依赖原始的网络环境与软硬件环境,具有可用性[12]。
网页归档工作流程与一般档案管理流程有所不同,但归档网页文件本身属于电子文件的范畴,因此在网页归档管理流程设计中可以借鉴电子文件管理理念。在网页归档管理流程设计中将网页的采集、存储、著录、开放利用流程作为归档网页的完整生命周期,借鉴档案管理的流程对其进行全程控制,保证归档网页管理从采集到利用的连续性和规范性。在数字信息资源保存领域,目前学界公认的标准模式是OAIS 参考模型,网页归档管理流程可参考OAIS 模型作为逻辑架构,以实现归档网页资源长期保存和利用的目标[13]。
美国的网页归档项目研究和实施起步较早,在法律建设、机构合作、采集策略等方面发展较为成熟;我国网页归档项目建设尚处于起步阶段,在技术、管理、政策法规等方面需要进一步探讨。我国已开展的Web 信息博物馆项目和国家网络信息资源保存实验项目的开展已经取得一定的成果,在今后的工作中应积极吸取各国经验不断发展,明确项目主体、开展多方合作,完善法律建设、获得明确授权,完善归档流程、制定相关标准,积极促进网页归档项目的发展完善。此外,互联网企业及个人机构也应积极参与网页归档工作,见证网络发展历程,感受时代进步。
[1]中国互联网协会.中国互联网发展报告[J].互联网天地,2014(6):73-74.
[2]罗勇.互联网档案发展十年评述[J].档案与建设,2009(9):11-14.
[3]嵇建梅,俞洁丽.网页归档概述[J].管理学家,2013(6):664.
[4]LOC.Library of congress collections policy statements supplementary guidelines.[R/OL].http://www.loc.gov/acq/devpol/webarchive.pdf,2015-03-20.
[5]LBRARY OF CONGRASS.About Digital Collections[EB/OL].http://www.loc.gov/library/about—digital.html,2015-03-20.
[6]WebCite Consortium.FAQ[EB/OL].http://www.webcitation.org,2015-03-20.
[7]王烁.美国网页归档项目——Internet Archive 发展研究[J].兰台世界,2012(6):18-19.
[8]王烁,丁宇.美国网页归档项目Web Citation发展状况研究[J].档案,2012(4):43.
[9]王烁,丁宇.网页归档项目重点问题研究[J].云南档案,2012(8):42-43.
[10]陈力,郝守真,王志庚.网络信息资源的采集与保存——国家图书馆的WICP和ODBN项目介绍[J].国家图书馆学刊,2004(1):4-5.
[11]姜萌萌,袁永翠.简析我国网页归档项目对档案馆工作的启示[J].兰台世界,2013(8):29.
[12][13]刘乃蓬,张伟.档案管理模式下网络信息资源长期保存的研究[J].中国档案,2012(9):66-68.