Web Archive的内涵、意义与责任、发展进程及未来趋势

2014-02-12 15:41
图书馆建设 2014年3期
关键词:国家图书馆图书馆资源

刘 兰

(北京师范大学图书馆 北京 100875)

1 引 言

随着信息通讯技术的发展和互联网的普及,万维网(World Wide Web,简称WWW)已经成为现代社会不可或缺的一个重要组成部分,在社会生活中扮演着越来越重要的角色,成为组织机构和个人的主要活动空间,信息生产、发布、传播和交流的主要平台。目前,越来越多的信息以E-only(纯电子本)的形式出现,原生数字化网络信息资源呈指数增长,网络信息资源逐渐成为人类文化遗产的重要组成部分,并且在整个信息资源构成中所占的比例越来越大。此外,网络信息具有海量、动态指数增长、更新频繁、生命周期短等特点,为人类文化遗产的长期保存和永久可获取带来了巨大的挑战。

20世纪90年代,国外的图书馆、档案馆、博物馆等文化记忆机构开始以项目的形式探索网络信息采集和长期保存(也即Web Archive)的相关技术、理论和方法。经过近20年的探索,国外关于Web Archive的实践和理论研究取得了较大的进展,积累了丰富的实践经验和理论成果,但网络技术的不断发展和演变(如以互动交流为主导的社会化网络站点、以手持智能终端为接入工具的移动互联网的快速发展与迅速普及)对Web Archive的实践和理论研究提出了更大挑战,指出了其新的研究方向和发展空间。

我国国家图书馆、北京大学网络实验室、中国科学院国家科学图书馆等相关机构也分别在国家“973”、“985”、国家社会科学基金等项目的资助下,对中国网络信息资源的长期保存进行了理论研究和实践探索。相关学者在对国外Web Archive实验项目分析的基础上分别研究了Web Archive流程及关键问题,如对国外相关项目的介绍和分析[1-4];对Web Archive具体实施过程中某一环节的研究,如对网络采集过程及相关问题的研究[5-8];对采集来的网络信息进行索引和检索的研究[9-10];对采集来的网络信息进行存档和长期保存的研究[11-12];对存档资源开发利用的研究[13];对Web Archive实施流程及关键问题的系统梳理[14];对Web Archive相关开源软件的评价分析[15];对Web Archive发展历程、意义和发展趋势的梳理[16-18],等等。但随着时间的推进,网络技术在不断发展演变,相应的Web Archive的实践和理论也在不断发展和更新,其内涵和意义也在不断深化和发展。

Web Archive虽然引起了我国图书馆界及计算机界相关从业者和学者的关注和研究,但实际上还处于初级探索阶段,其内涵和重要意义还没能引起人们足够的重视和广泛的关注,尤其是作为文化遗产保存管理资助机构的政府,作为文化记忆机构重要组成部分的高校图书馆、档案馆等相关机构还没给予其足够的重视和应有的投入。因此,学术界非常有必要对Web Archive不断丰富的内涵、不断深化的意义进行深入的剖析,对Web Archive的实践与研究历程进行系统的梳理,对在网络技术快速更新环境下的Web Archive未来发展趋势进行探索,以引起我国相关机构、组织的深入认识和充分关注,加快我国Web Archive实践发展的进程,实现对我国网络信息资源的长期保存,保障当代及未来人们的网络获取、研究和生活之用,保护正在产生且急剧消失的当代最重要的人类文化遗产,尽可能避免造成不可挽回的损失。

2 Web Archive的内涵

Web Archive也被写作“Web Archiving”,是指采集网络信息进行存档进而实现长期保存,以便未来的研究者、历史学家和公众利用的一系列活动过程的总和,在国内通常被翻译成网络信息资源长期保存[19]、网页信息存档[20]、网页档案馆[4]、网络信息档案馆[21]。其中,Web是指万维网,即网站页面所包含的资源,通常不包括以数据库方式提供服务的正式电子出版文献,如电子期刊和电子书。

根据Internet Archive团队研制的Web Archive生命周期模型(Web Archiving Life Cycle Model,简称WALCM)[22]可知, Web Archive通常包括宏观政策层、中观管理层和微观操作层3个层面的内容。具体来说,宏观政策层是指,几乎Web Archive的所有方面都涉及一些政策决定,这些政策决定可能是关于开发一项新的具体政策以进行网络存档,或者是采纳现有的政策以进行一个新的采集活动。中观管理层通常包括愿景与目标、资源与工作流、访问/利用/重用、保存和风险管理5个方面的内容,其中,愿景与目标是指机构要明确其网络存档活动的目标;资源与工作流是指机构要审视其开展网络存档活动能获取的资源(包括资金、专家、员工、潜在的合作者等),以便决定如何推进其网络存档项目的开展;访问/利用/重用是指机构必须决定是否及如何提供对其存档的访问,并监管其用户的使用内容;保存是指机构必须决定他们想要保存的数据,包括数据文件和元数据;风险管理是指机构必须考虑他们在网络存档活动中的风险应对方法,考虑访问的知识产权和许可。Web Archive实施的具体操作层包括:(1)评估与筛选,即机构决定具体要采集哪些网站的数据;(2)范围,即机构可以选择存档网站的一部分、整个网站或对整个网络域进行采集和保存;(3)数据抓取,即机构可以通过对抓取频率、文件类型、存档与否等的微调来确定拟抓取的数据范围;(4)存储与组织,通常包括对存档数据的短期或长期的存储计划,对于有些机构,存储和组织阶段也可以构成他们的保存活动;(5)质量保证和分析,即机构评估其存档了什么,是否满足了在存档活动之初设定的目标。

简而言之,Web Archive是为了应对网络信息易逝性的问题、确保网络信息能被未来的学者和普通大众正常、长期访问而由某一个或多个机构合作实施的,对网络信息进行采集、存储与组织、长期保存并提供访问利用的一系列活动的总和。

3 Web Archive:不断深化的意义与责任

Web Archive的提出源于网络技术的飞速发展与普及,一方面,网络在人们的日常工作、生活、学习中占据越来越重要的作用和地位,成为当今社会信息生产、交流和传播的重要空间,网络信息资源成为当今社会重要的信息资源之一,承载着当今人类的活动和精神文明。另一方面,网络信息更新频繁,以及各种自然灾害、人为因素造成网络信息的脆弱性,致使网络信息生命周期短暂,大量的网络信息丢失,给人类文明造成了不可挽回的损失。Web Archive是网站恢复、网络备份的重要方法之一。同时,由于网络信息涵盖当今社会生活、工作、学习、娱乐的方方面面,是当今社会的一个虚拟化呈现和缩影。因此,网络信息的长期保存得到全球记忆机构(如图书馆、档案馆)的重视,并在全球范围内掀起了网络信息长期保存的热潮。网络信息的长期保存是重要的社会问题和政治问题,是图书馆、档案馆等国家记忆机构的责任。随着电子商务的快速发展与日益普及,由于网络成为人类活动尤其是经济交易的重要场所,网络交易行为信息具有重要的法律证据作用,因此,网络信息资源的长期保存还是重要的法律问题,是法律界从业者的重要职责和使命。全面认识Web Archive的意义与责任,有助于梳理Web Archive的各类责任主体,并对其应尽责任提出要求。

3.1 Web Archive的技术意义与责任

Web数据类型多样,对硬件、软件、环境安全等的要求和依赖性较强,致使Web信息具有脆弱性和易逝性,如由地震、洪水等自然灾害造成的硬盘数据丢失、损坏;部分Web数据需借助特定设备才能被读取,需要不同类型软件(如plug-ins)来确保系统能识别那些过时的数字信息;信息技术的变化易使利用Web信息的技术和软硬件迅速过时,造成以前的Web信息在新的技术环境下不可用;Web信息的动态变化造成无法准确确定和验证原来的信息单元,使信息单元的起源及其归属变化难以追踪,以致信息单元难以辨识和利用。以上这些都会造成Web信息的不可用,针对以上问题,Web Archive可以提供网站恢复工作。Internet Archive就以其采集并存储的网页信息帮助了很多网站进行站点恢复。美国Old Dominion大学采用Warrick通过Lazy Preservation的方法,递归式地在Internet Archive的历史存档库、Google、LiveSearch和Yahoo这几个搜索引擎的缓存库4个Web仓储库中抓取网页来帮助重建和恢复网站。英国国家档案馆名为“网络连续性”(Web Continuity)的创新项目,对所有重要的政府网站提供归档和重定向服务。这些政府网站的用户在遇到浏览器的404错误信息(找不到档案)时,将被自动重定向到对应的存档网页。该项服务通过提供无缝导航和帮助网站进行自动归档功能的整合,极大地改善了用户的体验[13]。因此,从技术角度来说,Web Archive在一定程度上能帮助网站恢复,解决404等网页无法正常访问的技术问题,确保网络信息的连续性与可访问,其是确保网络信息可访问、可获取的技术保障,具有重要的技术意义,是技术人员的责任和使命。

3.2 Web Archive的社会意义与责任

网络信息具有海量、动态指数增长、更新频繁、生命周期短等特点,根据权威机构统计,网络信息资源的平均寿命仅为44~75天,其丢失原因主要有: 网页内容更新、网站内容重组、网站主办者的消失等[23]。作为一种“原生性”数字信息,网络信息资源除了数字形式之外,无其他形式,这进一步加剧了Web资源的易逝性。Web信息资源在呈指数增长的同时,消失的速度也很惊人,如果不进行保存,大量的网络信息资源将在不知不觉中消逝,给人类文明带来重大损失。对网络信息资源实施长期保存即网络存档,以满足当代及未来人们访问和使用信息资源的需求,成为目前人们非常重要的事情,特别是对于一些时政性强的网络信息,如2000年悉尼奥运会相关的很多网络信息资源已经无法找到。因此,Web Archive承担着保护人类文明、保存人类文化遗产的社会使命,具有重要的社会意义和价值,是政府、记忆机构和全体社会成员的责任。

3.3 Web Archive的学术意义与责任

网络技术的发展与普及,使网络成为人类活动的第二场所,这就带来了以下两方面的现实:一方面,人类的网络行为及网络语言、网络现象等成为社会学家、历史学家、语言学家等学者研究的重要对象,Web Archive可以帮助社会学家、政治学家和媒体分析师等反映过去几十年的时代精神,如对竞选活动网站的Web Archive进行综合分析,可以揭示社会面临的各种问题;另一方面,随着现代信息技术的加速发展与应用普及,以及在线出版的进一步发展,互联网已成为科学交流的主要媒体与中介,越来越多的学者通过网络来交流和获取信息、进行科学发现、保持与同行的联系[24]。

互联网促成了网络引文的出现和发展,网络引文成为学术论文参考文献的重要组成部分,以互联网网址出现的网络引文比重呈现逐年增长的态势。网络信息的易逝性使得网络引文数据具有动态性和不可靠性,造成了网络引文的不可追溯性,给学术科研领域带来了巨大困扰和新的研究议题。网络引文不可追溯的原因主要分为两类,一种是网络链接的失效,如由于硬件问题(如服务器关闭、网络故障等)引起的链接失效;原有链接更新,如被删除、修改;访问网络环境的变化造成的网络链接问题。另一种是由于网页内容变动造成的。针对这两种原因导致的网络引文不可追溯,国外学者提出了统一资源名称法,如典型的数字对象标示符(Digital Object Identifier,简称DOI)的方法,虽然该方法对解决网络资源位置的改变有一定帮助,但对于网络资源内容的变动(修改或删除)却无能为力。Web Archive的典型代表项目Internet Archive(以下简称IA,也叫“互联网档案馆”)、北京大学的Web Infomall及专门解决网络引文保存问题的Webcite系统[25],在网络信息资源长期保存的同时,在一定程度上解决了网络引文不可追溯的问题,为学术研究的可继承、可验证性提供了保障。因此,基于以上两方面的原因,Web Archive还具有重要的学术价值和意义,是每个学术科研工作者和学术科研机构的责任。

3.4 Web Archive的法律意义与责任

近年来,一方面,网络视频、网络游戏、软件、网络新闻、电子书等主要依托数字终端、互联网等数字化媒介而进行信息资源制作、发行、传播、销售的网络信息资源产业获得了长足发展,相应地,也带来了更多信息资源权利人、网络运营商、网络用户等相关主体之间的权益冲突。互联网具有实时性、高速性、全球性、交互性、无限复制性等特征,数字环境下信息资源产权的保护面临着更加严峻的挑战,尤其是随着网络技术的普及,信息资源网络化的开发利用带来了更加严峻的产权人、邻接权人与网络运营商、网络用户之间的利益冲突。网络背景下数字记录和传播技术使得“作品不再靠固定在特定的媒介物上传播,而是脱离载体(物质介质)而流动”,侵权形式更加多样、侵权行为更加隐蔽,单纯靠财产权的法定保护难免造成维权困难、保护不足的困境[26]。正是由于对信息流控制的复杂性,如果信息资源权利人一旦面临侵权,无限复制、无限传播的网络特性将使得权益人的损害面临加倍放大、难以消除的危险。数字权益管理(Digital Rights Management,简称DRM)技术虽然在一定程度上能发挥相应作用,但面临众多形式的网络侵权现象仍是力不从心,而网络存档能为网络信息资源的知识产权保护提供新的思路和方案。另一方面,随着电子商务的不断发展,网络消费以其便利、高效、低成本等优势逐渐为商家和消费者普遍接受。然而,网络消费在展现其优越性的同时,也存在一些亟待解决的问题。此外,网络扩大了人类的活动边界、延伸了人类的活动范围,各种网络行为引起的违法犯罪也迅速增加。针对以上三方面的法律问题,网上出版的资料和纸质出版的资料具有同样的法律效力,有些机构和单位的事务处理流程都可能成为未来的法律凭证。其对这些资料必须进行有效的管理,精确地记录它发布的信息和当时的环境,因此,需要对网络服务器发出的所有请求和响应进行保存,而Web Archive可以作为包括知识产权专家在内的法律界人士不可或缺的证据。以消费者服务为例,当一家公司被指认侵犯知识产权(发明或商标)时,他可能希望提供其网站过去某一阶段的网页作为证据,在这种情况下Web Archive就能发挥重要的作用。

此外,国家记忆机构尤其是国家图书馆通常承担着法定存缴该国出版物以保护该国历史文化遗产的使命。随着信息技术的发展,法定存缴的范围逐渐扩大到各种电子出版物和网页信息等,如2003年新西兰国家图书馆法将法定存缴的范围扩大到各类电子出版物,2006年8月1日,新西兰“国家图书馆要求(电子文档)公告” 〔The National Library Requirement (Electronic Documents)Notice〕生效,允许国家图书馆在法定存缴框架下对新西兰的网站进行采集、保存和提供访问[27]。此外,法国、挪威等国家图书馆也分别于2006年开始在法定存缴框架下对网络信息实施存档保护。

因此,Web Archive还具有重要的法律意义,即为互联网环境下保护知识产权、维护网络秩序、保护人民生命财产安全提供重要的法律凭证,是承担国家文化遗产长期保存的国家图书馆在网络环境下法定存缴内容的延伸和拓展,是法律界人士和国家图书馆等文化记忆机构的职责。

4 Web Archive的历史进程

4.1 各国文化记忆机构的实践探索(1996—2002年)

这一阶段始于20世纪90年代,以1996年IA的成立为标志,开启了各国记忆机构Web Archive的实践探索。Web Archive由 Alexa 创始人布鲁斯特·卡利(Brewster Kahle)创办,作为一个非营利性组织的公益性计划,其旨在实现全世界Web资源的收集、保存和永久获取,为国际性存档开发技术工具制定标准,鼓励和支持图书馆、档案馆、文化遗产机构实现网络资源的收集和保存,为人类创造一个互联网图书馆[28]。IA是完整性采集最典型的案例,其目标是对全球公开可获取的网络资源进行定期的采集。同年,澳大利亚国家图书馆发起了对澳大利亚在线出版物、具有重要文化价值网站开展的长期保存计划,即PANDORA(Preserving and Accessing Networked Documentary Resources of Australia,潘多拉项目)[29]。它是世界上最早的Web Archive项目之一,PANDORA项目对网络资源进行选择性地搜集,是Web Archive采集策略中选择性采集的典型代表,制定了详细、具体的网络资源采集存档选择标准,基于这样的采集标准,PANDORA项目保存的网络资源主要包括:政府的公开出版物、教育机构出版物、会议论文、电子期刊和记载当前重要社会、政治等内容的网站。

瑞典国家图书馆斯德哥尔摩皇家图书馆也于1996年启动名为Kulturarw3的Web信息资源采集项目。Kulturarw3项目是国际Web Archive项目中完整性采集的典型案例,制定了以瑞典Web信息资源为采集对象的一揽子收集方案,通过网络机器人对该国网域内的网络资源进行了系统的采集。该项目为北欧图书馆的联合项目NWA(Nordic Web Archive)的开启提供了借鉴经验[30]。

1997年美国国会图书馆启动网络信息保存试验项目Minerva Prototype,基于相关事件进行选择性的网页采集和存档,如对2000年总统选举、911事件等相关主题网页的采集和保存[31]。作为实验性的计划,该项目还深入研究了有关Web信息的数字化、元数据、选择和采集、长期保存与获取方面的实际问题,从而为美国国会图书馆运行一个大规模的Web信息保存项目提供了指导和经验。

1999年新西兰国家图书馆启动网络存档项目,对政府、艺术、历史、医学、音乐、环境、政策等主题相关网站进行选择性的采集和保存[32]。

2000年捷克共和国国家图书馆在摩拉维亚(Moravian)图书馆和马萨里克大学计算机科学研究所的合作下,开启该国的Web Archive项目——WebArchiv,其在对该国网域进行完整采集和保存的基础上,还基于事件进行相关主题网站的选择性采集与保存[33]。同年,美国密歇根大学档案馆“Bentley Historical Library”启动了UARP(University Archives and Records Program,简称UARP)项目,对该校独特、重要、有持久价值的网络资源(主要包括学术与管理政策、重要出版物、代表性的研究、教材、创造性成果)及密歇根大学网域的总体外观与感受进行了采集和长期保存[34]。

2001年挪威国家图书馆启动了Paradigma(Preservation,Arrangement &Retrieval of Assorted Digital Materials)项目,使国家图书馆在法定存缴框架下对该国网络资源进行长期保存和提供获取服务[35]。同年,英国国家图书馆启动Web Archive实验项目——Domain.UK,选择性地采集和保存英国的相关网站,并为该国的Web Archive实践积累经验。

2002年法国国家图书馆启动该国的Bnf Web Archive项目,在完整性采集和保存全国网页的基础上,还基于相关事件(如法国大选)进行重点主题的采集和保存,并对深层网采集相关技术进行探索[36]。

这一阶段,各国记忆机构尤其是肩负着全国文化遗产法定存缴和长期保存的国家图书馆纷纷意识到网络资源的重要性,逐渐将收集、存档范围拓展到各种电子出版物和网页,通过开展实验性的研究探索Web Archive的理论、技术、方法和流程,如澳大利亚国家图书馆的PANDORA项目开发出的用于选择性采集网络出版物的数字化存档系统PANDAS,并制定了采集对象选择标准和工作流程;新西兰国家图书馆和英国国家图书馆共同开发了选择性网络采集的过程管理工具WCT等[15]。除了国家图书馆,非营利性组织(如IA)、高校档案馆(如美国密歇根大学档案馆)也开启了对Web资源进行采集和长期保存的实验。这些实验性的项目为本国后续全面、深入地开展Web Archive实践积累了经验,为本国其他记忆机构和其他国家的Web Archive实践提供了借鉴。

4.2 国际性的合作实践与研究不断深化(1997—2005年)

Web Archive作为一项系统工程,不仅涉及相关法律、政策,其技术、方法与流程也是一个不断探索、不断完善的过程。随着各国Web Archive实践与研究的不断发展,不同层次、不同级别、跨组织、跨区域、跨国界的合作不断涌现,而且对Web Archive的理论研究与探讨也引起了国际学界的关注,国际性的合作组织开始诞生,并进一步促进了各种层次的实践合作、理论研究与技术研发。

这一时期,随着信息技术的迅速发展和互联网的日益普及,越来越多的国家记忆机构认识到网络存档的重要意义,纷纷加入2002年法国国家图书馆启动的该国的Bnf Web Archive项目的Web Archive实践中,如2004年日本国会图书馆的WARP(Web Archiving Project)项目[37],2005年加拿大政府网络存档项目GCWA(Government of Canada Web Archive)[38]等。

与此同时,部分国家在实验项目的基础上大力发展合作,如1998年澳大利亚的PANDORA项目开始吸纳各州图书馆加入,截至2004年该国所有的10个州立图书馆全部加入到PANDORA项目中来,分别负责某些专题的采集和长期保存;在2001年实验性项目Domain UK实践经验总结的基础上,2003年英国网络存档联盟(UK Web Archiving Consortium,简称UKWAC)成立[39];美国国会图书馆积极与IA、WebArchivist.org、CCCE(The Center for Communication and Civic Engagement,通讯与公共事业中心)等机构深入合作,如国会图书馆与IA合作创建“2000年总统选举”网页保存项目,国会图书馆作为此项目的牵头人,制定了采集内容标准、快照文件分析、开展数字资源长期保存的研究等,IA为此项目提供了“时光机”(Wayback machine)技术,为收集到的网页建立按照时间进行浏览的索引,同时提供临时的数据存储;WebArchivist.org负责开发识别、采集、编目、分析大型网页对象的系统,由Pew Internet & American Life Project(皮尤因特网与美国生活项目)负责提供资金、分析报告的撰写;CCEE协助开发可检索的元数据数据库及用户友好的检索界面[31]。

除了以上在一国之内各种记忆机构的相互合作,跨区域、跨国性的合作也在不断深入和发展。

1997年北欧五国(丹麦、挪威、芬兰、冰岛和瑞典)国家图书馆基于瑞典的Kulturarw3项目联合启动NWA(Nordic Web Archive)项目[40],其主要目标是联合北欧各国图书馆建立欧洲网络资源长期保存的合作机制,根据保存、访问的要求制定相关的技术规格,协助国家项目协调发展。该项目研发了多个开源的功能组件,在联合采集的基础上实现了一个大规模、跨资源的Web Archive访问系统,并以此为基础积极参与相关系统的开发,在Web Archive系统架构和技术方法的发展上发挥了重要作用。

2003年6月网络存档国际联盟(International Internet Preservation Consortium,简称IIPC)成立,该联盟与成员达成共同出资参与项目和工作组的合作协议,其目标是:保存来自全球的互联网内容,使其能够持续地提供访问;为IIPC制定出联合规范;设计和开发网络资源保存工具;促进公共工具、技术和标准的开发和应用,形成国际性存档;鼓励和支持各国进行Internet存档和保存。该联盟将成员按网络存档不同阶段的任务分工分成5个工作组,分别负责制定联盟战略、开发网络收割工具、研究长期保存政策和方法、研究对存档网络提供访问的工具和技术等。随着Web Archive实践的不断推进,联盟成员队伍不断壮大,由成立之初的12名发展到目前的42个成员机构(截至2013年8月初)[41]。在IIPC的资助下,各成员机构分工合作,相互促进,分别开发了网络爬虫工具Heritrix、Smart Crawler、WCT、存档访问工具WERA (Web Archive Access)等[15],促进了网络存档工具的开发和普遍应用。

为了推动Web Archive的实践发展,促进经验分享和理论探讨,以Web Archive为主题的各种级别的学术会议也不断召开,如IIPC自成立以来每年都会举办一次全体成员的学术研讨会;ECDL(European Conference on Research and Advanced Technology for Digital Libraries,数字图书馆研究与先进技术欧洲会议)自2001年以来每年都会组织专题组的IWAW(International Web Archiving Workshops,网络存档国际研讨会),分别从开源工具、技术、政策、法律、已有项目经验总结与展望、未来发展重点等几个方面对Web Archive相关问题进行讨论与分享交流;国际图书馆协会和机构联合会的年会也会在资源保存保护专题中针对Web Archive相关问题进行研讨。

4.3 基于第三方推出的Web Archive服务实践(2005年至今)

这种方式主要是指小型组织或个人订阅由企业或组织提供的采集服务而实施的网络采集和存档。由于Web Archive是一项系统工程,需要大量的人力、物力和财力,且对技术要求比较高,一些小型的组织、机构或个人出于研究的目的,需要对特定的网络资源实施长期保存,但限于技术能力和投入,于是就出现了针对这些机构和个人的网络信息采集和存档服务[7],比较著名的有IA推出的Archive- it、Hanzo Archives公司推出的网络存档订阅服务、加利福尼亚数字图书馆推出的WAS(Web Archiving Service,网络存档服务)、塞萨洛尼基亚里士多德大学计算机科学系推出的博客存档服务BlogForever等。

4.3.1 Hanzo Archives的存档服务

Hanzo Archives有限公司是2005年成立的一个提供网络存档软件和服务的公司,由来自全球知名记忆机构的软件爱好者和存档专家共同建立的,提供商业化的产品和服务,帮助企业或组织抓取和保存网络资源,并使那些基于网络的电子存档信息以自然的格式被索引和发现。用户可以按需定制相关服务,其存档的网络电子信息范围在不断拓展,目前主要覆盖以下几种网络资源类型:(1)网站,包括需要注册登录的、交互式的网页及富媒体;(2)社交网站,如Facebook、Twitter、LinkedIn;(3)协作性系统,如Wiki、SharePoint等;(4)私密性的社会化网络聊天工具,如Chatter、Jive和Yammer。目前,全球已有1 000多家公司使用Hanzo的服务完成存档项目,该服务还能基于Web Archive为用户提供竞争对手网站专利分析、企业公众通信监管、跨国连锁企业存档全球网络遗产等深层次的增值服务,如为可口可乐公司提供跨国公司品牌网站与设计媒体的遗产收集、保存等[42]。

4.3.2 Internet Archive推出的Archive-it服务

Archive-it是2006年2月Internet Archive推出的一种定制型网络存档服务,以帮助机构或组织收割、构建和长期保存数字化内容。通过其提供的用户友好的网络应用,Archive-it服务的合作伙伴可以对存档的内容进行收集、编目和管理,并为该机构及其用户提供7×24小时的访问和全文搜索。收割到的内容可以托管并保存在Internet Archive的数据中心。由于Archive-it提供的服务省去了用户很多技术方面的考虑,甚至不需要用户自己的存储设备,而且比通用的Internet Archive所建立的收藏更加专深,能满足用户个性化的需要,非常适合规模小、技术能力有限的组织和机构使用,目前已有来自美国46个州和世界上16个国家的275个组织使用Archive-it创建自己的网络存档,这些组织包括大学图书馆,地方档案馆、图书馆和历史学协会,政府机构或非政府性组织,博物馆和艺术图书馆,公共图书馆等[43],如哥伦比亚大学图书馆使用该服务按照本馆现有的特色馆藏选择性地收集相应的网络资源、哥伦比亚大学各机构的网站以及那些个人或组织的论文或成果被收藏在哥伦比亚大学物理馆藏中[44]。

4.3.3 加利福尼亚数字图书馆的WAS

加利福尼亚数字图书馆(California Digital Library)提供的WAS是由加利福尼亚图书馆负责、作为Web-at-Risk的一部分,受NDIIPP(National Digital Information Infrastructure and Preservation Program,国家数字信息基础设施和保存计划)资助开发的,为教师、学生、研究者和图书馆员提供相关网站的定制型存档,以供私人研究或公共获取。WAS简单易用,用户不需要具备关于Web Archive的任何专业知识,也不需要存储设施或技术人员的协助,只需关注内容,创建一个帐号,提交一个包含拟存档网站相关信息的委托协议即可,其可以按需调整抓取设置和频率。WAS还提供工具分析网站随着时间的变化情况,提供对已存档的网站进行关键词搜索和抓取结果的统计分析。WAS目前已为22个合作伙伴创建了59个公共存档,采集相关网站5 634个[45]。例如,密歇根大学网络存档项目2000年使用开源软件自行存储,2010年7月1日开始使用加利福尼亚数字图书馆的WAS进行网络存档[46]。

4.3.4 塞萨洛尼基亚里士多德大学计算机科学系的BlogForever

BlogForever是欧盟资助的一个合作项目,由塞萨洛尼基亚里士多德大学(Aristotle University of Thessaloniki,简称AUTH)计算机科学系创建和维护,其主要目的是创建一个软件平台以促进博客的聚集、保存、管理和传播,并能捕捉到动态和不断变化的博客以及其网络和社会结构。任何用户和组织都可以使用BlogForever的软件和指南创建一个数字化的存档以保存他们选择的博客[47]。

5 未来趋势

5.1 社交网站等动态交互式网站的采集和长期保存将引起关注

随着博客、微博等社交网站的不断涌现、迅速发展和快速普及,社会化网络站点成为重要的一类网站,在人们生活、信息交流与传播中发挥越来越重要的作用,并且这类资源的动态性更强、更新频率更高。对这类网站资源的采集与长期保存引起了学界和业界的高度重视,如Hanzo Archives推出的存档定制服务将存档范围从基本的网站逐渐扩大到对社交网站Facebook、Twitter、LinkedIn的采集与存档,AUTH的BlogForever服务专门提供对博客的存档和长期保存。2012年12月,Springer举办了关于社会化媒体的长期保存和应用专题研讨会,专门探讨社交网站的采集与存档问题[48]。这些社交网站通常需要注册登录,属于深层网的范畴,对这些社交网站内容的采集和长期保存将是未来一段时间内业界研究和探索的重要方向之一。

5.2 移动互联网的存档将引起学界和业界的研究与探索

移动互联网(Mobile Internet,简称MI)是一种通过智能移动终端,采用移动无线通信方式获取业务和服务的新兴业态,包含终端、软件和应用3个层面。终端层主要包括智能手机、平板电脑、电纸书等。随着宽带无线接入技术和移动终端技术的飞速发展,人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网获取信息和服务,移动互联网应运而生并迅猛发展,甚至有人提出互联网正在向移动化全面迁移。随着越来越多的用户通过这些移动终端访问网络,越来越多的网站为这些移动设备专门设计适合其特点、需求的可替代性网站。这些移动网络同样具有重要的存档价值和意义,需要开发新的工具以解决移动互联网存档的相关技术问题。例如,美国阿肯色州哈丁大学的研究者们开发了移动互联网自动发现工具Findmobile以协助对移动互联网网站的采集与存档[49]。对移动互联网存档的研究和探索将成为未来学界和业界关注和探索的重要领域之一。

5.3 存档资源的价值评估和挖掘将越来越被重视

Web Archive作为一项系统工程,耗费大量的人力、物力、财力,其目的是为了当代及未来研究者和普通大众可获取和研究之用。经过近20年的实践努力,其已经存档了大量的网络资源,对这些存档的网络资源进行开发利用,以及如何开发利用、开发利用的价值评估、方法和工具的研究将引起越来越多学者的关注和探讨,成为Web Archive研究与实践领域的又一重要课题。例如,法国国家图书馆的Peter Stirling等人以该馆的Web Archive项目为例,研究随着越来越多国家Web Archive实践的发展,如何开发这些存档的网络资源以满足研究者的需要,尤其对那些以网络为研究对象的社会学者,他们通过对法国国家图书馆网络存档潜在用户的访谈进行定性研究,探索研究者需要的内容和服务,分析存档以怎样的方式呈现才能促进利用,以及需要考虑的道德和方法问题[50]。WebART项目旨在批判性地评估Web Archive对现实研究的价值,并开发信息访问工具和方法以最大限度地促进网络存档为学术研究所用。该项目以实际研究问题出发,对网络存档资源的学术价值进行评判,以荷兰为例,与荷兰国家图书馆合作,进行跨学科的社会科学相关主题(如综合计算机科学、信息科学和新媒体等)研究[51]。IIPC每年都会举行会议对相关议题进行讨论,2013年的议题是“网络存档的学术访问:过程、需求和挑战”,其主要关注目前网络存档被学者和研究者利用的方式、学者希望利用Web Archive但遇到的IP限制及其他技术障碍以及网络存档作为学术资源如何提供访问等问题[52]。

[1]向 菁,吴振新,司铁英,等. 国际主要Web Archive项目介绍与评析[J]. 国家图书馆学刊,2010(1):64-68.

[2]朱莲花,刘春燕. 韩国的国家知识门户网站与Web Archive现状研究[J]. 情报理论与实践,2010(7):120-123,78.

[3]张松岩. 以IIPC为中心的全球Web Archive项目研究[J]. 数字与缩微影像,2011(3):36-38.

[4]闫晓创. 国外Web Archive项目对我国的借鉴和启示:以澳大利亚的PANDORA项目为例[J]. 档案学研究,2012(5):79-83.

[5]刘 兰,吴振新,张智雄,等. Web Archive的采集策略研究[J]. 现代图书情报技术,2009(1):10-15.

[6]刘 兰,吴振新. Web Archive信息采集流程及关键问题研究[J].情报理论与实践,2009(8):113-117.

[7]刘 兰,吴振新. 网络存储信息采集方式研究[J]. 图书馆杂志,2009(8):28-31.

[8]沈劲枝,寇文波,田晨耕. 基于特征定位边界预测的Web档案正文采集[J]. 现代图书情报技术,2009(12):52-56.

[9]吴振新,向 菁. Web Archive检索系统架构分析[J]. 现代图书情报技术,2009(1):22-27.

[10]孙志茹,吴振新,曲云鹏. 基于Wayback的索引策略研究[J]. 现代图书情报技术,2009(4):14-18.

[11]林 颖,吴振新,张智雄. Web Archive存档策略分析[J]. 现代图书情报技术,2009(1):16-21.

[12]李 睿,郭世月. 网络报纸资源存档格式对比及ARC/WARC格式选择[J]. 图书馆论坛,2010(4):78-80.

[13]吴振新,张智雄,孙志茹. 基于数据挖掘的Web Archive资源应用分析[J]. 现代图书情报技术,2009(1):28-33.

[14]王 芳,史海燕. 国外Web Archive研究与实践进展[J]. 中国图书馆学报,2013(2):36-45.

[15]刘 兰,吴振新,向 菁,等. 网络信息资源保存开源软件综述[J].现代图书情报技术,2009(5):11-17.

[16]李 华,吴振新,郭家义,等. Web Archive发展历程与发展趋势研究[J]. 现代图书情报技术,2009(1):2-9.

[17]周林兴. Web Archive保存研究:现状、意义与发展策略[J]. 档案管理,2009(5):26-28.

[18]周 毅. 网络信息存档:档案部门的责任及其策略[J]. 档案学研究,2010(1):70-73.

[19]刘 兰. 网络信息资源长期保存的问题与挑战[J]. 图书馆杂志,2009(3): 10-13.

[20]耿 磊. 起步阶段的网页信息资源长期保存[J]. 上海档案, 2012(2): 13-15.

[21]杨道玲. 中文网络信息资源保存问题探讨[J]. 档案学研究, 2006(3): 39-42.

[22]Donovan L, Hukill G, Peterson A. The Web Archiving Life Cycle Model[EB/OL]. [2013-12-12]. http://archive-it.org/static/files/archiveit_life_cycle_model.pdf.

[23]National Digital Information Infrastructure and Preservation Program[EB/OL]. [2013-12-12].http://www.loc.gov/loc/lcib/0601/ndiipp2.html.

[24]Borgman C L. Scholarly Communication and Bibliometrics[J] .Annual Review of Information Science and Technology,2002(36):3-72.

[25]陆 伟,韩曙光,沈祥兴. 网络引文不可追溯性及其解决方案研究[J]. 中国图书馆学报, 2009(4):99-105,118.

[26]PageVault [EB/OL]. [2013-12-12].http://www.projectcomputing.com/products/pageVault/.

[27]Web Archiving at the National Library of New Zealand[EB/OL].[2013-12-12]. http://www.lianza.org.nz/sites/lianza.org.nz/files/webarchives_vlala.pdf.

[28]Internet Archive[EB/OL]. [2013-12-12]. http://archive.org/index.php.

[29]Pandora[EB/OL].[2013-12-12].http://pandora.nla.gov.au/.

[30]Kulturarw3- The Swedish Archive[EB/OL]. [2013-12-12]. http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/Kulturarw3.html.

[31]Grotke A M. Minerva Project Selecting and Collecting[EB/OL].[2013-12-12]. http://search.proquest.com/docview/216508044?accountid=8554.

[32]New Zealand Web Archive [EB/OL]. [2013-12-12]. http://natlib.govt.nz/collections/a-z/new-zealand-web-archive.

[33]What is WebArchiv? [EB/OL]. [2013-12-12]. http://en.webarchiv.cz/.

[34]University Archives & Records Program[EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/.

[35]Paradigma[EB/OL]. [2013-12-12].http://www.paradigma.de/1339--%7Ede%7EIndexEndkunden.html.

[36]Digital Legal Deposit: Four Questions about Web Archiving at the BnF[EB/OL]. [2013-12-12]. http://www.bnf.fr/en/professionals/digital_legal_deposit/a.digital_legal_deposit_web_archiving.html.

[37]Sakaguchi K.Progress Report on the Web Archiving Project on Japanese Constitutional Revision[EB/OL].[2013-12-12]. http://rijs.fas.harvard.edu/crrp/documents/sakaguchi.pdf.

[38]Government of Canada Web Archive[EB/OL]. [2013-12-12].http://www.collectionscanada.gc.ca/webarchives/index-e.html.

[39]Tuck J. Web Archiving in the UK: Cooperation, Legislation and Regulation[J]. Liber Quarterly, 2008,18 (3/4):357-365.

[40]Nordic Web Archive (NWA)[EB/OL]. [2013-12-12].http://nwa.nb.no/.

[41]IIPC[EB/OL]. [2013-09-25]. http://www.netpreserve.org/.

[42]Hanzo Archives[EB/OL]. [2013-12-12]. http://www.hanzoarchives.com/.

[43]About Archive-It[EB/OL]. [2013-12-12]. http://www.archive-it.org/learn-more.

[44]Columbia University Libraries[EB/OL]. [2013-12-12].http://www.archive-it.org/explore?fc=organizationType%3Acolleges AndUniversities#explore?fc=organizationType%3Acolleges AndUniversities&show=Organizations&_suid=728.

[45]The Web Archiving Service[EB/OL]. [2013-12-12]. http://webarchives.cdlib.org

[46]UM WebArchives Policy [EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/webarchives/UM_WebArchives_Policy_20110324.pdf.

[47]BlogForever[EB/OL].[2013-12-12]. http://blogforever.eu/.

[48]Special Issue on Social Media Preservation and Applications(Springer) [EB/OL]. [2013-12-12]. http://blogforever.eu/specialissue-on-social-media-preservation-and-applications/.

[49]Schneider R,McCown F. First Steps in Archiving the Mobile Web:Automated Discovery of Mobile Websites[EB/OL].[2013-12-12].http://dl.acm.org/citation.cfm?id=2467735.

[50]Stirling P, Chevallier P, Illien G. Web Archives for Researchers:Representations, Expectations and Potential Uses[EB/OL] [2013-12-12].http://dlib.org/dlib/march12/stirling/03stirling.html.

[51]WebART: Web Archive Retrieval Tools[EB/OL]. [2013-12-12].http://staff.science.uva.nl/~kamps/webart/.

[52]Call for Proposals: The Scholarly Use of Web Archives[EB/OL].[2013-12-12].http://blogs.loc.gov/digitalpreservation/2013/02/call-for-proposals-the-scholarly-use-of-web- archives/.

猜你喜欢
国家图书馆图书馆资源
国家图书馆出版社重点图书
基础教育资源展示
国家图书馆藏四种古籍编目志疑
一样的资源,不一样的收获
资源回收
中国国家图书馆藏西夏文《不空羂索神变真言经》考论
图书馆
资源再生 欢迎订阅
图书馆中文图书借阅排行榜
去图书馆