美国互联网档案馆建设

2018-09-10 03:43杨弃
档案与建设 2018年4期
关键词:网页档案馆图书

杨弃

[摘要]互联网档案馆(archive.org)是世界上成立最早并运行至今的大型在线档案馆,为全世界的互联网用户查阅历史信息提供了巨大的便利与帮助,作为世界上最大的在线数字档案馆,其设计理念、组织架构,技术特点,运行方式,用户互动,业务扩展等方面对于国内的在线数字档案馆建设无疑是有巨大参考与借鉴意义。论文对互联网档案馆的成立宗旨、组织架构以及所藏资料进行了详细介绍,希望对国内数字档案馆的建设有所帮助。

[关键词]互联网档案馆在线档案馆档案数字化

[分类号]G279

Construction of Internet Archives in the United States

Yang Qi

(Chinese Academy of Culture Heritage, Beijing, 100029)

Abstract: The Internet Archives (archive.org) is a large online archive established in the world, which has been run so far. It provides great convenience and help for Internet users all over the world to look up historical informations. As the largest online digital archives in the world, its design concept, fabric structure, technical features, operation mode, and users interaction, business expansion and other aspects are of great reference value to the construction of online digital archives in China. This paper gives a detailed introduction to the tenet, structure and information of the Internet archives, hoping to help the construction of the domestic digital archives.

Keywords: Internet Archive; Online Archive Collection; Digital Archive

互联网档案馆自1996年成立至今,已经有20多年。在这段时间中,互联网档案馆从一个个人网页数据库,成长为一个在全世界范围内拥有庞大用户群的在线档案馆。作为世界上最大的在线档案馆,其设计理念、组织架构、技术特点、运行方式等对于国内的数字档案馆建设具有较大的参考价值与借鉴意义。

1美国互联网档案馆的基本情况概述

随着信息时代的到来,各个国家、组织中以数字化形式为载体的知识越来越多,其中很多知识都具有较高的历史文化价值。为了更好地保存这些数字化知识,实现其应有的价值,1996年5月,美国人布鲁斯·特凯里创建了互联网档案馆,互联网档案馆是一所非营利性质的在线数字档案馆,其创立之初的宗旨就是保存数字化知识中的历史文化瑰宝,并对所有用户提供对这些知识的免费无差别的访问,帮助各国学者、研究者进行相关研究。

互联网档案馆的总部位于美国旧金山。目前,互联网档案馆拥有3个主要数据中心,分别坐落在美国旧金山、美国红木城和美国里士满市。除了这3个主要数据中心,互联网档案馆在埃及的亚历山大图书馆和荷兰阿姆斯特丹也设立了数据存储设施。

互联网档案馆建立多个数据中心主要有两个方面的原因:一是增加数据冗余,防止因为自然、人为灾害等原因造成数据损害与丢失。例如,2013年互联网档案馆的旧金山总部发生了一场火灾,给当地档案馆的硬件设施造成了不小的损失,但是由于互联网档案馆采用了多数据中心和数据冗余性设计,大火并未對互联网档案馆的数据完整性造成任何损害,技术人员根据其他数据节点所存储的数据很快重建了被火灾破坏的数据节点,消除了灾害带来的负面影响。二是将数据存放在地理位置不同的数据中心内,可以为用户提供更高的访问速度。互联网档案馆的每个数据中心都具有档案数据的完整备份,用户可以自动选择在地理位置上离自己比较近的数据中心进行访问,极大地加快了访问速度,提高工作效率。

2美国互联网档案馆的特色及优势

2.1强大的硬件架构与软件技术

互联网档案馆内所存储的数据资料数量非常庞大,根据统计,每日平均280万人次通过互联网对互联网档案馆上的资料进行访问。为了保证数据资料的安全性、可用性,同时为用户提供良好的访问速度,互联网档案馆采用了分布式存储和云计算的方式来存储和提供数据。用户在访问互联网档案馆存储的数据文件时,互联网档案馆的分布式服务器系统会自动根据用户的IP地址识别用户的地理位置,并将用户导向离其地理位置最近的数据服务器节点,缩短数据传输距离,大大加快访问数据的速度,提高了用户的访问体验。

互联网档案馆给用户提供了多种数据下载方式,其中最重要的就是BitTorrent协议下载方式。传统的互联网数据方式为HTTP协议(超文本传输协议)下载方式,和FTP协议(文件传输协议)下载方式。这两种传输方式都是单点对单点传输方式,而且要求服务器端存储有完整的数据文件。在访问人数较多时,http和ftp下载方式对服务器的处理能力和带宽要求较高,容易出现访问速度迟缓的现象。而BitTorrent下载方式允许用户以文件数据块的形式,从互联网上所有在线数据节点上非线性的下载文件数据块,最后再拼接成完整文件,这些数据节点即可以是互联网档案馆提供的数据节点,也可以是普通用户自主提供的数据节点。这样不光大大加快了下载文件的速度,同时也减轻了每一个互联网档案馆数据节点所承受的负载,让更多的人能够同时使用互联网档案馆所提供的服务。

2.2丰富的馆藏资源及其检索方式

互联网档案馆从1996年成立伊始就开始对互联网上的信息进行搜集建档,从2001年开始,互联网档案馆开始提供资料在线查询功能。互联网档案馆内收集的资料内容类型包括互联网网页、书籍文字、图片资料、视频资料、音频资料和电脑软件资料。每一个类型的数字化资料容量都十分庞大,而且各有特色。

(1)网页资料

互联网档案馆成立伊始进行的数字化建档工作就是对互联网上的网页进行数字建档,互联网档案馆每天都会运行数以千计的网络爬虫程序,每个网络爬虫从一个网页通过网络链接爬到另一个网页,每爬过一个网页,网络爬虫就会将网页数据传回到处理服务器,处理服务器经过对网页数据的清理、分类、压缩,最后将数据存储到数据节点内。用户对互联网档案馆所藏网页资料的查询主要通过时光机器(Wayback Machine)程序来进行。用户可以通过时光机器程序界面来访问被互联网档案馆归档的网页在过去某一个时间点的内容快照。与存档网页在特定时点相关的所有数据,包括图像、网页源代码、其它相关文档等等,都被按时间序列存入数据库中,可以让访问者看到历史上某一个特定时点的网页数据及其相关信息,即使这个网页已经在互联网中消失。除了提供归档的网页信息之外,时光机器还提供网页被归档频次、归档日期列表等有关归档网页的元数据,更好地满足用户查阅与研究的需求。用户还可以主动提交想要归档的网页地址给时光机器程序,来建立特定的互联网网页档案集。

过去20年是互联网大发展的时代,互联网档案馆内所存档的网页资料呈爆炸式增长,从2005年存档的40亿个网页页面,发展到2014年存档的400亿个页面,再发展到目前2860亿个页面,在12年的时间里,页面数量翻了70倍。而时光机器项目内所存的网页数据量目前也达到了9PB,并且以每月80TB的速度增长着,可以说互联网档案馆的时光机器项目是计算机互联网大发展的见证人。

(2)图书文本资料

互联网档案馆收集建档了大量的数字化图书资料,这些图书数据大部分是由互联网档案馆自行扫描整理数字化的。目前互联网档案馆在5个国家共拥有33个图书数字化扫描中心,每天能够扫描数字化1000余种图书。除了自身进行图书扫描之外,互联网档案馆还与其它文化遗产机构、大学、大型企业组织等进行合作进行图书数据化,其中比较著名的是,从2007年10月开始与著名的谷歌图书(Google Books)项目的合作,将谷歌图书项目中的公共领域的图书上传到互联网档案馆的数据库内进行归档,到目前为止,已经有超过90万本谷歌图书项目中的数字化图书被互联网档案馆收集建档。

截至2016年6月2日,互联网档案馆已经完成档案数字化10012169本。在所藏全部数字书籍中,英文图书数量最多,有6553945种,法文图书358721种,德文图书344810种,西班牙语图书134170种,中文图书84147种,阿拉伯语图书66786种,荷兰语图书30237种,葡萄牙语图书25938种,俄语图书22731种,乌尔都语图书14978种,日语图书14795种,可以说世界上主要国家的文学瑰宝都已被互联网档案馆数字化收集并建档。

用户在互联网档案馆寻找数字图书档案资料时,可以按照模糊查询的方式进行检索,也可以按照图书收藏集或者图书分类的方式进行浏览查询,分类浏览的方式包括主题分类、著者分类、语言分类、出版日期分类等等。互联网档案馆所藏数字图书的版权都属于公共领域,可以自由浏览下载而不触犯法律。互联网档案馆给用户提供了数字图书在线阅读和下载功能,其中下载格式包括Epub格式、纯文本格式、Kindle格式、PDF格式、ZIP格式、GZIP格式等流行文件格式。根据统计,到2013年底,用户每月从互联网档案馆上下载图书次数已达到一千五百万次,截止到本文撰写时预计每月下载次数已经超过两千万次。这说明互联网档案馆所藏的图书资料的利用率是较高的。此外,互联网档案馆还贴心地为每本图书提供了XML文件格式的MARC文件下载,方便将图书信息导入图书管理信息系统,进一步提高了图书信息的使用率。

(3)多媒体档案资料

除了互聯网网页资料和图书文本资料以外,互联网档案馆的一大特色就是为用户提供了海量的多媒体档案资料。目前互联网档案馆所提供的多媒体资料分为音频档案、视频档案、图片档案和计算机软件档案,其中音频档案和视频档案都为三百五十多万份,图片档案为一百五十多万份,软件档案近二百万份。

用户在查询这些多媒体档案时也可以使用模糊查询、类型分类浏览或收藏集浏览的方式进行查找和检索。在每个多媒体档案的展示页面,用户可以查询到此件档案资料的档案描述、著者情况、文件列表、播放时长、出版日期、出版者等重要的基本信息。对于音频和视频档案,互联网档案馆提供了档案的在线播放、下载功能。对于部分计算机软件档案,除了提供下载功能以外,互联网档案馆还提供了软件在线运行功能,用户不必借助特别的软硬件,立刻就可以还原、使用这些多媒体数字档案资料,大大增强了用户的访问体验和资料利用效率。此外,互联网档案馆还同时提供了多媒体档案被访问的次数、被收藏次数等有关档案使用情况的元信息,进一步方便用户对档案资料进行侧面研究。

3互联网档案馆与用户的互动

目前互联网的整体发展已经走过2.0时代,向web 3.0时代迈进。人们在网上查阅信息已经不再满足于单向的信息接收,而是更倾向于互动。在信息时代里,数字档案馆和查阅用户的交流也向数字化、信息化的方向发展。传统档案馆依靠纸质留言簿与查询者进行互动的方式在当今信息化社会中已显得格格不入。互联网档案馆在用户互动工作方面值得我们借鉴,它在每一份数字档案页面内都提供了在线留言互动功能,用户在互联网档案馆上在线注册成功后就可以在具体的档案界面上进行留言互动,互动内容包括对档案内容进行打分,对于档案各方面进行评价、发表意见等等。所有留言信息经过审核后都会被发布在档案页面上,这些评论信息不仅与档案内容关系密切,而且其本身也常常是对档案信息的扩展与补充,对后续用户进行档案利用与研究有非常大的帮助。

除了提供留言评论信息之外,互联网档案馆还允许用户捐赠上传数字化的档案资料,这样不仅免去了捐贈者上门拜访所受的舟车劳顿之苦,避免了档案材料在邮寄过程中出现丢失、损坏等问题,也减轻了档案馆自身的工作量,提高了捐赠工作的效率。

4互联网档案馆对外提供的增值服务项目

互联网档案馆在国外属于非营利机构,享受美国政府的免税待遇,但其本身也需要承担办公用房、服务设备、网络带宽、雇佣人员等多种开销,因此互联网档案馆也利用自身的技术优势,对外提供收费增值服务,以维持档案馆的正常运转。这些增值服务中最著名的项目就是Archive it档案定制服务项目。此项目建立于2006年,其网站所在域名是archive-it.org,它的主要服务内容是为个人和组织提供定制的个性化数字化档案。在登录Archive it项目的网址后,使用其所提供的有偿服务,用户可以在本身不具有任何电脑专业技术知识和互联网存储设备的前提下,创建、管理、使用、展示属于自己独特的在线数字档案集。

在使用Archive it项目所提供的工具进行数据建档后,用户只需等待一个星期便可以开始对数据进行使用。项目所制作的档案数据文件被以名叫WARC的文件格式进行存储。数据文件内不仅包含了档案数据,还包含档案制作人、制作时间、主题描述、格式、档案数据类型、注意事项和相关权利等元数据。每一个WARC格式文件在互联网档案馆内都有一个备份文件被存储在物理地点不同的数据中心内,这样既实现了数据的冗余性,保证数据的安全,又能使用户对数据进行访问时,访问地理位置较近的数据备份,加快获取数据的速度。到目前为止,Archive it项目已经为世界上17个国家,400多个机构组织建立了4180个独立的在线档案项目。

参考文献

[1]晓雪.美国2009年以来全部电视新闻将被送上网[N].中国新媒周报,2012-09-21(15).

[2]陈佳.互联网档案馆——让您重温网页的历史[J].电脑爱好者,2009(2):40.

[3]杨帆.“互联网+档案”运用:档案馆在线商店建设研究[J].浙江档案,2016(5):12-15.

[4]刘英俊.基于互联网思维的档案馆外包服务[J].兰台世界,2016(17):53-55.

[5]杨珍珍.中国图书馆与档案馆网站Web2.0应用比较研究[D].浙江:浙江大学,2011:20-22.

[6]朱兰兰,马倩倩.英国国家档案馆网站信息服务的特点[J].档案学通讯,2010(5):61-64.

[7]秦金霞.Web2.0背景下的档案网站信息服务建设研究--以NARA为例[D].山东:山东大学,2012:11-12.

猜你喜欢
网页档案馆图书
关于智慧档案馆与数字档案馆的关系探讨
基于HTML5静态网页设计
班里有个图书角
值得孩子阅读的100种图书
搜索引擎怎样对网页排序
when与while档案馆
北京市第三届“档案馆日”活动预告
科隆档案馆突然坍塌
网页智能搜索数据挖掘的主要任务