臧国全 井 方
Web长期保存的困扰
臧国全 井 方
摘 要web长期保存既存在管理方面的困扰,也存在技术方面的困扰。管理困扰包括保存的合法性、保存内容的选择、恶意软件的去留、网页的去重,技术困扰包括网页收割工具的局限性、web保存的真实性、时间一致性、保存格式的有效性。另外,集体贡献型网站的保存还存在一些特殊的困扰,包括网站抓取的困扰、产权许可的困难、保存动机的缺失等。参考文献11。
关键词web保存 数字保存 数字保存质量
web长期保存的对象是因特网信息资源,其中主要为网站网页。网站网页具有高度动态性和易失性,对其进行长期保存的理论探讨与实践项目伴随着因特网的诞生而产生。到目前为止,已出现不少该类保存项目,其中最著名的是The Internet Archives。但是,与其他类型数字资源(如数字化图书、数字化期刊论文)相比,这类数字资源具有一些特殊的属性,对其进行长期保存也面临一些特殊的困扰。
1. 1 保存的合法性
在没有网站所有人明确许可的情况下,保存机构是否有权复制网站内容进行长期保存并向用户提供访问?这种活动是否构成了对网站拥有者版权的侵犯?一些网站明确列出了产权许可和版权信息,例如知识共享协议(CC),这在一定程度上解决了这个问题。然而,大多数情况下,该问题的解决方案很大程度上取决于保存机构所在国家的相关法律以及保存机构的职权范围。
比如,英国2013年颁布的涉及网络文献保存的《非印刷作品法定保存条例》[1],授权一些保存机构可收割保存全英网段内所有网站,并提供用户访问服务。但是,没有获得授权的保存机构为了特定的目的需要收割保存网络文献时,要么在网站上明确标注知识共享协议,要么获取网站产权拥有者的产权许可。
再比如,在美国,web保存的理论与实践比较混乱。理论上,主要有两种:(1)一些法律专家认为,已有的一些案例可以作为web保存的先例,如谷歌抓取网页的行为,即在没有事先获得网页所有者产权许可的情况下进行长期保存,并供网络用户检索浏览,但社会对谷歌的这种实际上的侵权行为给予了默认,web长期保存项目的实施可以参考谷歌等先例。(2)法学界一些学者认为,图书馆提供的web保存服务具有学术和教育功能,对公众具有显著的益处,可以归属为“合理利用”。上述两个观点仍没有得到广泛认可,需要进一步讨论。实践上,也主要有两种类型:(1)因特网存档(The Internet Archive)是一个著名的web保存项目,该项目对web网站的收割保存没有获得明确的授权许可,基于的理念是“沉默即是默许”,当有网站拥有者提出质疑时,删除保存的相应网站[2];(2)美国国会图书馆完全基于产权许可(采用非独占性许可的方式)进行web保存[3]。
除此之外,其他国家的web保存也因国家而异。有些国家通过了法定保存法规,但是仅限于阅览室内浏览访问。有些国家没有通过相关保存法规,要么基于产权许可进行有选择性的保存,要么采用不向公众提供访问的“秘密保存”。大英图书馆2012年6月针对全球的国家图书馆进行的一项调查显示,58%的国家图书馆希望政府制定相关法规支持本国网段内网页收割保存的合法化[4]。
1. 2 保存内容的选择
基于目前的实践,web保存内容的选择主要有两种:
(1)基于域集的选择性保存。比如,选择一个国家域集内的所有网站进行保存,这些网站包括以国家域名后缀标识结束的网站,也包括网站服务器建在该国但域名后缀标识不同的网站,还包括网站服务器虽在国外但内容与该国密切相关的网站。
(2)基于条件设置的选择性保存。设置的条件可以是一个主题(比如数字图书馆)、一个学科专业(比如图书馆学)、一个事件(比如某届大选、某届奥运会)、一个机构(比如可口可乐公司)等。保存内容是web上与设置条件相关的所有网络文献。
上述两种方法都存在一些困扰。针对第一种保存内容的选择方法,主要困扰有两个:一是产生于对域集的界定。因为因特网是无国界的,更无域集界限,在界定的域集内收割的网站中,常常会包含一些超链,而这些超链所链接的网站不在该域集范围之内,因而没有被收录,当用户点击这些超链时会产生死链。二是重复网页问题。在一个域集(尤其是大型域集,比如国家域集)中,重复网页(甚至重复多次的网页)的存在是一个普遍现象。采用这种收集方法,保存系统中收割的网页可能包含数量不小的重复副本,去重是一个挑战,因为去重不仅仅是删除重复的网页,还涉及指向被删除网页的链接的维护。
针对第二种保存内容的选择方法,主要困扰也有两个:一是网页收集的不全面,基于目前的技术,几乎不可能将与设置条件相匹配的网络文献完全收割,因为任何匹配算法都会导致遗漏,也会产生误收割;二是保存内容的选择偏差,采用这种方法,需要保存的网站通常需要经过人工筛选过程,但这个过程体现了选择者的个人意愿,不可避免地存在选择偏差。
1. 3 恶意软件的去留
“恶意软件”是一类存在潜在威胁的软件的总称,广泛渗透到计算机、操作系统或者应用程序中,包括病毒、特洛伊木马、蠕虫、欺骗性的广告软件、间谍软件、键盘记录器、cookie跟踪软件等。每种类型的恶意软件的影响不同。
虽然各类网站都采用众多方法预防和治理恶意软件,但这类软件仍普遍存在。许多web保存系统会对保存的网站网页进行扫描以识别恶意软件,但大多都不愿意将感染文件删除,原因在于删除感染文件可能会威胁到一个网站的完整性,也影响未来感兴趣用户的可访问性。此外,不少防病毒软件都存在误报现象,基于防病毒软件对收割的网站网页的扫描结果进行感染文件的删除,可能会导致误删情况。然而,恶意软件的保留毕竟是一个安全隐患,尤其对规模较大的保存系统。所以,无论采取上述哪种方法,保存机构都会面临选择困扰。
1. 4 网页的去重
“去重”是指对相同内容的不同版本的网页进行删除,包括技术层面上相同内容的删除和呈现知识的细微差别的去重。前者指网页存储的比特字节相同,后者指网页中内容的差别较小,不足以被保存为不同版本(一些学者研究认为,不同版本的界定标准应该以网页内容重复率以不超过25%为宜[5])。对于web保存来说,去重是一个很重要的问题,因为在不同的时间,对同一网站的多次抓取很可能会形成相同内容网页的多个版本。
但是,去重并非意味着绝对排除重复。比如,为了处理未来可能出现的网页文件破损等问题,应该在保存系统中保留一定数量的网页文件副本,但副本总量应该控制。再比如,一些法律判案网站,呈现在不同网页之中的一些判案的相似度可能很高,或许已经达到了去重标准的要求,但它们呈现的毕竟是不同的独立判案,应该避免去重。
总的来说,“去重”是原则,“保留”是例外。但在具体实践中,如何清晰地界定“去重”与“保留”之间的“度”,是保存机构面临的一个管理困扰。
2. 1 网页收割工具的局限性
大多数web保存采用的网页收割工具都是网络爬虫。多年来,网络爬虫技术经过了漫长的开发与应用历程,目前已比较成熟,但是仍有一些类型的网页很难被其有效抓取:(1)基于数据库动态驱动的内容网页,即数据库通过响应用户的请求而自动生成的网页;(2)密码保护的内容网站,如果网站提供密码,爬虫可以顺利进行内容抓取,反之则无法进行抓取;(3)由动态机制产生URL的网页内容。上述这些网页常被称为“深网”,其内容很难被有效抓取。
另外,也有一些管理方面的因素阻止网络爬虫的抓取操作。比如,网页暂存数量的最大值设定,网络爬虫将抓取的网页暂存到自己的内存之中,当达到最大值设定时,网络爬虫将停止抓取。这个因素并不是网络爬虫本身的问题,而是由于不切合实际的设置导致的抓取容量限制。
网络爬虫的开发研究进展很快,可以期待未来的网络爬虫能有效解决上述问题,但目前对web保存仍是一个困扰。
2. 2 web保存的真实性
web保存的真实版本应该是原始网站的相同副本。早期的网站比较简单,几乎都标注最合适的浏览器版本和设置参数,所以抓取和重现一个网站的相同副本很容易。但随着因特网技术的发展,个性化浏览技术逐渐成熟,不同用户对同一个网站的个性化体验结果可能很不一样,识别原始网站的构成以及它的外观已变得越来越困难。不同的浏览器不仅会影响一个网站的整体呈现外观,而且展现给浏览者的内容也会发生变化,这样,原始网站的相同副本也就无从判断。
那么,一个网站保存版本的真实性如何体现?一般认为,它应该具有原始网站的所有重要属性,包括内容、语境、外观、结构和行为动作等方面。因此,识别网站的重要属性就成为了保存版本是否真实的判断依据。Ball进行了一项相关研究,提供了一个有关网站的重要语义、互动性、动态性和外观等方面属性的列表[6],可为网站重要属性的制定提供参考。
如何验证保存网站的真实性?可以通过对比保存网站与原始网站的重要属性的异同来实现。一般采用人工测试的方法,将原始网站和保存网站同时呈现在相同的标准浏览器中,由训练有素的专家基于人工视觉的方法进行评估。很显然,这种评估方法虽比较准确,但效率低且时间成本高。采用自动化评估工具效率可提高,但目前开发的该类工具很难满足准确度的要求,仅能处理一些容易判断的问题,比如明显的抓取错误(记录在爬网日志中)、死链、抓取网页的大小等[7]。因此,如何确保网站保存版本的真实性是保存机构面临的一个挑战。
2. 3 时间一致性问题
时间一致性是web保存的一个特性,指在一个时间节点上所有保存网页同时存在于web上。与其他类型数字资源的长期保存相比,web保存的一个重要特殊性就是时间维度。保存的web信息资源时间跨度越大,保存系统的时代价值也就越高,但同时可能导致其时间的一致性越低。
因为爬取一个网站需要花费一定时间,导致网站内部不同网页被抓取的时间节点不同。如果在抓取网站主页过程中,网站内的某些网页正在更新,那么网站主页与这些被更新网页之间存在着时间不一致现象,在整个网站抓取保存后,网站主页的链接标题与被链接的更新网页内容之间存在不相符的问题。抓取保存的范围越大,时间不一致问题越突出。比如,针对一个域集范围内网络文献的抓取保存,时间不一致现象是一个很大的挑战,因为基于域集包括的网段规模较大,爬取该域集内全部网站的网页可能需要一段较长的时间。
因此,web保存系统中保存的网络文献并不是在一个时间节点上的网站网页备份,而是在一个时间跨度范围内的备份,所以时间不一致问题在所难免。此外,还会出现下述一个问题:如果研究人员想知道在过去一个特定的时间节点上网络用户能够访问的网络信息,现行的web保存系统将无法给出准确答案。目前研制出的确保时间一致性的实现工具仅仅局限在单个网站上,对于多网站及其他类型网络文献的收割,时间一致性仅停留在概念上,在实践中仍是一个巨大的挑战[8]。
2. 4 保存格式的有效性
即使原始的软硬件环境发生变化,长期保存技术也应该能够应对这种变化所带来的挑战,确保保存的web网页网站能够被用户有效的访问利用,这是web保存的一项基本原则。有些类型web网页的使用条件比较低,比如,纯粹的HTML格式网页,可以在普通软硬件环境中被绝大多数浏览器有效打开并使用。但也有一些类型web网页的使用对一些特殊环境的依赖度较高。一般来说,时间越久的网页,准确呈现与有效使用的问题越多。
与其他类型数字资源相比,web长期保存面临的格式困扰主要有两个[9]:
一是基于web发布的网页文件的格式类型较多,且比较复杂。web保存不仅要对所有格式的网页文件进行抓取保存,而且还要采用相应的技术和策略保证这些格式的网页文件能够被未来用户有效访问。
二是网站与所包含网页以及网页与所包含文件的关系复杂。前者主要是一种结构关系,通过超级链接实现。后者主要是网页与组成该网页的实体文件之间的关系,也是通过超级链接实现。在web保存中,不仅要抓取网站、网页和超链的实体文件,更要维护超级链接,确保所有超级链接在保存系统环境中的长期有效性。其他类型数字资源长期保存广泛使用的数字迁移技术应用到web保存中将面临挑战,原因在于数字迁移过程中文件名(包括文件的后缀名)的改变不可避免,导致上述各种超级链接可能失效。因此,改造数字迁移技术以保持超链的有效性将是web保存的一项特殊工作。一种解决思路是,设计一个浏览器,用户使用该浏览器访问保存系统中的网站网页,该浏览器具有识别过时格式并能够对过时格式的网页进行自动迁移的功能,同时更新超级链接两端文件的相应设置,从而达到保持超链有效的目的。
集体贡献型网站指web2.0网站,是JavaScript广泛应用的结果。这类网站主要有三类:社交网站(如Facebook)、维基百科(如Wikipedia、Flickr)和博客(包括微博)等。这类网站具有内容的高度动态性、产权拥有的分散性、内容的集体贡献性等特殊属性,使得其在长期保存过程中,除了存在上述传统结构化网站的困扰外,还有一些特殊的困扰。
3. 1 网站抓取的困扰
抓取频率的设置。该类网站的抓取涉及的一个问题是:web2. 0网站与传统网站的区别是否足够大,以至于需要采取不同的抓取频率。例如WIKI,如果使用不仅能够抓取当前页面也能爬取网站网页历史版本的爬取工具,那么,WIKI具有的“历史”页面特征是否会导致爬取频率的不同?Pinsent的研究表明[10],与传统的结构化网站相比,web2. 0抓取的时间依赖性可能上升,抓取频率可能加快。
抓取时间点的选择。比如博客,每一个新博文的发布都是对网站内容的一次增加,在博客保存中,历史博文通常也有价值,不应该被覆盖。ULCC(University of London Computer Centre,英国伦敦大学计算机中心)和UKOLN(UK Office for Library Networking,英国图书馆与信息网络办公室)指出[11],内容“流动性”是web2. 0内容的重要特征,这一特征使得网站保存者很难确定一个时间点,在该时间点上博客内容是完整的,可以收割保存。
抓取内容的选择。社交网站抓取内容的选择尤其困难。例如Twitter,不仅仅包含博文发布,也包含网友之间的交流。保存一个Twitter账户意味着仅保存了一方的交流内容。对于一个Twitter账户,可能的抓取范围有:(1)仅抓取Twitter账户本身的内容;(2)抓取针对一个Twitter账户的所有回复内容;(3)同时抓取所有回复Twitter账户的用户的资料,以提供情境信息;(4)鉴于Twitter上链接的重要性,同时抓取来自目标账户的所有链接。但保存系统无法确保这种链接的时间一致性,特别是半衰期非常短的链接,即无法保证被链接的网站内容就是Twitter用户交流时的网站内容,因为网站内容的刷新会导致不同时间同一地址的网站内容的不同。
3. 2 产权许可的困难
一般来讲,网站内容产权归内容创建者所有。但是,针对web2. 0网站,其内容本来就是众多网络用户集体创作的结果,所以理论上,这类网站的产权归所有的内容贡献者。如果这类网站的保存是基于产权许可的方式,那么,保存机构要么从网站拥有者处获得产权澄清,要么从每一个内容贡献者处获取产权许可。由于web2. 0网站属于内容托管网站,网站拥有者并非拥有网站的内容,所以从网站拥有者处获得产权澄清不太可行。但从每一个内容贡献者处获取产权许可,是一项需花费大量时间的巨大挑战任务,有时甚至是一项不太可能完成的工作。
产权许可获取困难的原因之二是产权归属的人员组成复杂。这些人员并非集中在一个机构,是广泛分散的,且可能分布在众多的行业领域、广袤的地域空间。所以,针对web2. 0网站,采用诸如电子期刊等数字资源长期保存的产权“集体授权许可”方式是不可行的。
产权许可获取困难的原因之三是产权归属的模糊性。web2. 0网站中作者贡献的内容有些是自创的,也有不少是转载于其他地方。这种转载有的是规范化的引用,但引用缺失是常见的,有的甚至根本就没有加入引用标识的意图。此外,这种转载也可能是多次的。因此,产权归属难以清晰界定。
3. 3 保存动机的缺失
保存动机是指保存机构实施数字保存的意愿。影响保存动机的因素有二:数字资源的保存价值和保存条件的可获得性。
保存价值主要体现在下述三个方面。(1)用户的需求。实际上,保存价值来自于用户访问的受益,所以用户的需求是保存价值的决定要素。用户需求包括当前需求和未来需求。用户的当前需求具有发散性,因为不同的用户群体对这类web数字资源的需求差别很大,比如,年轻者比年长者需求要大。这导致不同用户群体对这类数字资源的保存价值的认同存在较大差异。用户的未来需求具有预测性,因为数字保存是一项跨越时代的工作,用户对其访问需求不仅分布在现在,更主要分布在未来。但是,一般来讲,集体创作型web数字资源的时效性很强,其未来需求充满不确定性。(2)数字资源的本身价值,包括内容的创新性、准确性和完整性等。但这类数字资源一般不是科研成果,所以其创新性无从谈起。另外,这类数字资源是集体创作的结果,其准确性和完整性也难以得到保证。(3)保存内容。由上可知,这类数字资源最主要的一个特征是内容的“流动性”,导致在任何时间点上内容都不是完整的,这不仅给收割保存带来困扰,同时也说明了保存内容永远不可能是完整的。另外,上文也阐述了保存内容有4种选择,但不管怎样选择,保存内容的完整性都难以得到保证。还有,其他类型数字资源(如数字化期刊论文等)的保存对象几乎都是单个文件的实体,但这种模式对于其价值取决于链入和链出的对象与数量的集体创作型web数字资源来说不完全适合。
保存条件主要有保存资源的可获得性以及数字资源产权许可的可获得性。在保存资源方面,与其他类型数字资源保存相同,包括所需人力、物力、资金等。在产权许可方面,由上文分析可知,集体创作型web数字资源的产权归属非常分散,且存在模糊现象,导致保存机构寻求产权许可非常困难。
综上所述,集体创作型web数字资源的保存价值存在不确定性,并且获得产权许可也极为困难,所以保存机构(至少是商业性保存机构)对这类数字资源进行长期保存的动机缺失(至少不足)。提升保存动机的基本方法有二:一是采用非排他性许可,减少保存障碍;二是制定法定保存法规,赋予公共保存机构保存动机。基于第一种方法,这类网站可以在内容创建者的注册过程中与其签订协议(如知识共享协议),规定内容创建者同意以非独占性许可方式将贡献的内容产权许可给期望保存者;也可以在网站的明显位置上发表声明,说明所有内容贡献者默认同意将其贡献的内容以非独占性方式许可给保存者。对于第二种方法,由于这类数字资源的保存价值存在很大的不确定性,商业性保存机构缺乏必要的保存动机,公共保存机构(如公共图书馆)履行公共职责对其进行保存,但仍需国家法定保存法规的授权,以彻底清除产权障碍。
web数字资源是一种重要的数字资源,对其进行长期保存的项目已有不少,比如,基于英国国家域集的The UK Web Archive、基于机构条件设置的The Coca-Cola Web Archive等。但是,至今web数字资源的长期保存仍然存在各种缺憾,困扰着这类数字资源的有效保存使用。本文对这些困扰进行了分析和总结,以期业界探讨解决方案,完善web数字资源的保存实践。
参考文献
1UK Parliament. The Legal Deposit Libraries (Non - Print Works)Regulations[EB/OL]. [2015 - 03 - 01]. http://www. copyright. gov/circs/circ07d.pdf.
2Band,J. A new day for Website Archiving 2.0 [EB/OL].[2015-01-09].http://www.arl.org/bm~doc/band_webarchive2012.pdf.
3Grotke,A. Web Archiving at the Library of Congress[EB/OL].[2015-01-29].http://www.infotoday.com/cilmag/dec11/Grotke.shtml.
4Brindley,L. British Library International Durvey on E-Legal Deposit 2013:Summary of Findings [EB/OL].[2015-01-29]. http://www.cdnl. info/2013/pdf/e_2Dlegaldeposit _20survey _20 CDNL_20Slides_20Aug%20.pdf.
5Gomes,D. Managing Duplicates in a Web Archive[EB/OL].[2015-02-21]. http://xldb. fc. ul. pt/daniel/docs/presentations/gomes06du plicatesPPT.pdf.
6Ball,A. Web Archiving[EB/OL].[2015-02-28].http://www.dcc.ac.uk/sites/default/files/documents/reports/sarwa-v1.1.pdf.
7Hockx - Yu H.,et al. Improvement in WCT [EB/OL].[2015-03-09].http://netpreserve. org/events/dc_ ga/03 _ Wednesday/WCTQAImprovement.pdf.
8Mazeika,D,et al.The SOLAR System for Sharp Web Archiving[EB/OL].[2014 - 12 - 09]. http://liwaproject.eu/images/publications/The-SOLARSystem.pdf.
9Thompson,D. Archiving websites[EB/OL]. [2015-04-09].http://www.dcc.ac.uk/sites/default/files/documents/resource/curationman ual/chapters/archiving - web - resources/archiving -web-resources.pdf.
10 Pinsent,E. Working with the Web Curator Tool (part 2):wikis,blog post on ULCC's Da Blog [EB/OL].[2015-02-09].http://dablog.ulcc. ac.uk/2009/03/10/working-with-web-curator -tool-part-2-wikis/.
11 ULCC,UKOLN. Preservation of Web Resources Handbook[EB/OL].[2015-02-17]. http://www. jisc. ac. uk/publications/programmerelated/2008/powrhandbook.aspx.
(臧国全 教授 郑州大学信息管理学院副院长,井方 郑州大学信息管理学院图书情报专业2014级硕士研究生)
业界动态
Some Confusions in the Long-Term Preservation of Web
Zang Guoquan Jing Fang
Abstract:The long-term preservation of web has some confusions in both management and technology. The confusions in management include legality of preservation, selection of web sites in preservation, removing or keeping off viruses and malware, and web page de-duplication. The confusions in technology include limitation in web harvesting tools, authenticity of web preservation, temporal coherence, and validity of preservation format. In addition, the preservation for web sites in collective contribution has some special confusions, including site scraping, difficulty in property right permission, and deficiency of preservation motivation. 11 refs.
Keywords:Web Preservation;Digital Preservation;Quality of Digital Preservation
收稿日期:2015-07-13