互联网上的档案馆保存着历史上那些已经被关闭了的网站信息。这些“数字石器时代”的信息提醒我们在新媒体时代要不断尝试才能免遭淘汰。
由Denise创建的网站曾经拥有很多粉丝。自1996年2月开始,到访过这个网站的人数超过10 000人次。整个网站被保存在雅虎GeoCites上(一个由雅虎提供的免费虚拟主机)。Denise的粉丝可以从这个网页了解他的所有信息,他现年约32岁,从7岁起开始跳舞,之前曾经当过酒保。然而,雅虎GeoCites的服务于2009年关闭,这导致Denise的网站也无法再次访问服务。同时有3 800多万个与Denise网站类似的数字空间不得不转移到新的虚拟场所中去。
互联网档案馆(Internet Archive)等归档服务能将一些曾经失去的网站内容保存下来。它能恢复旧版雅虎GeoCites上的页面,并让人们能够使用新的URL访问它们。而提供类似功能的网站OoCities在他们首页上写道:“我们的目标是让用户获得重要的、科学的、且唯一的历史网页。”这些老旧网站中同样拥有“公众有着巨大兴趣”的内容,当然收集这些老网站的档案或许只是为了展示“20世纪90年代的文化和风格”。
在雅虎GeoCites宣布关闭服务后,OoCities项目的工作人员不断分拣、过滤其中带有病毒、恶意软件和非法内容的网站,并将其中的正常页面予以存档。到GeoCites关闭前,他们共收集、存档了200万个网站。如今,这些网站的内容都已经被放在OoCities的服务器上,可供用户随意访问。而且OoCities上面内容分类的方式和GeoCites相同,被存档的网站都按规矩放在与以前存放位置相同的位置中。比如我们前边所说的Denise的网页,这个网页可以被看作是Facebook的前身——该个人主页上有主人的照片、私人和工作信息,后来,这类站点逐渐演变成校友聚会、政治家活动的场所和俱乐部。
但是,并非只能在一个地方看到GeoCities的存档网页。在互联网档案馆的Wayback(时光机)上,能找到很多网页旧版的样子。从1996年开始,归档和存储网站的机器人就开始通过互联网查找和归档要保存的网站。借助这些服务,我们可以回到过去,去看看很多著名网站十几年前的样子。在这些存档网站上,我们能找到20世纪90年代初eBay或亚马逊的首页,那时的网页设计是如此简单,现在会点编程的大学生可能都比他们做得更好。
为后代留下些什么?
在这些存档工作的背后,大家最常问的一个问题就是,我们要给下一代留下哪些互联网文化?尽管这些存档行为经常遭到隐私保护者的反对,他们认为这种存档的行为可能会侵犯别人的隐私。然而事实上,这种备份和存档的行为是非常频繁的,计算机科学家Scott Ainsworth发现,在全球所有网站中,约35%到90%的网站有数字备份。数字备份的数量并无法精确估计,这是因为很多个人网站做的数字备份可能会很快丢失。调查显示,拥有至少6份以上数字备份归档才能保证被存档文件的真正安全,但能这样做的网站的数量不超过8%。Archive team(第三方的网上存档团队)认为,“重要的是我们要为后世留下更多东西,以抵消损失的信息。”他们希望每位互联网用户都能帮存档项目做事,无论是下载存档机器人,还是提供一些冗余的存储空间,这些都能有助于进行网站内容的归档。收集1 000万条twitter消息需要427MB的存储空间,而要保存整个雅虎GeoCities的内容需要640GB的存储空间,而这仅仅是互联网历史内容的一小部分。Archive team会经常建议使用虚拟主机服务的网站站长要自己主动做好数字存档的工作,但是往往很少有站长会理会这件事情。但是事实上,虚拟主机服务提供商会经常突然停止服务,比如在服务器接受非法盗版电影调查时,所有的服务器都将关闭,对在服务器上保存有数据的公司和个人来说,碰到此类事件肯定是个悲剧。
供随时引用的档案
另外一个问题是,法律是否允许归档和重新发布包含有私人数据的网页内容?IT专业律师Hagen Hild说:“德国联邦档案馆一般会保存特别有价值的资料。”重视用户隐私确实很有必要,20世纪80年代就有一些关于档案背后公众隐私权的讨论。但Hild认为:“如果过分重视私隐权,那么就没有网站能被归档,这恐怕会导致互联网文化的消失。”保存网站档案,让我们的后代能看到这些存档,他们才有机会知道互联网最初的样子,人们都使用了哪些技术,又是如何组织互联网内容的,才会知道当时的互联网时代多么有趣。
Hild建议:“原则上,我们可以假设获得了网站经营者同意。如果有异议,可以删掉存档。”在搜索引擎的服务协议中,有个与之类似的条款。针对自动索引网页机器人,网站站长可以通过编写几行简单的代码来禁止搜索引擎抓取网页内容。
当网站站长希望从逝去的网站中寻找一些自己的私人信息时,从归档服务网站查找其内容是个不错的选择。例如曾经的雅虎GeoCites上就有很多私人网页,这类网站通常是供个人娱乐的站点,例如前文提到的Denise。回看十几年前的网站,可以看到当时的页面设计还非常简单,没有更多的网络技术可供使用,也没有漂亮的背景或者动画。即使是当年的技术媒体chip.de也是如此,其首页的设计更像一个静态文本。此外,针对网站的编程技术非常复杂,编辑软件使用起来也很麻烦,网站提交或打包到主机上耗时也颇多。虽然Denise页面上的内容更像是个文本编辑器,看上去像一块黑板,但这种颜色搭配真实反应了20世纪90年代用户的喜好。没有炫目的色彩,有的只是黑色背景上的简单文字,但这并不妨碍粉丝们从一个侧面了解Denise。