蔡 舜(天津科技大学图书馆)
美国网页存档调查及启示
蔡舜
(天津科技大学图书馆)
摘要:详细介绍分析了美国国家数字化管理联盟先后于2011年和2013年开展的针对全美网页存档调查的具体现状,并通过对比两年的调查结果,提出了把握网页存档的趋势、挑战和机会及有待进一步研究的问题。同时,提出了对于国内存档机构需要借鉴的地方。
关键词:数字化管理联盟;网页存档;调查;美国
美国国会图书馆于2010年8月3日宣布国家数字化管理联盟(National Digital Stewardship Alliance,NDSA)正式成立,各成员机构和组织负责提供可用数据库、网页、视频、音频及其他具有长期保存价值的数字化藏品的保存和访问服务。[1]NDSA分别于2011年和2013年组织进行了针对全美的网络存档情况的调查,目的是通过调查实施网络存档程序的机构,了解网络存档的历史和范围、被保存内容的类型、存档工具和提供服务的类型、提供的搜索和访问服务以及关于网络存档的所有政策。[2]通过对比调查结果,分析网络存档的趋势,了解美国网络存档的挑战和机遇。
1.1机构
2011年选择了77家机构,2013年选择了92家机构作为调查对象,其共同的特征是,两次调查对象中学院和大学占了总调查机构的一半左右,其次,是政府机构和档案馆。调查发现,当前已经开展网络存档的机构约占63%,16%的机构网络存档程序正在测试中,17%的机构计划在将来开展网络存档,也就是说96%的机构正在或即将开展网络内容存档活动。而开展网络存档活动的机构中,又以高校为主,档案馆、公共图书馆次之,州政府、联合政府、商业机构等也加入到网络存档行列中。
1.2时间及内容
早在1989~1995年间,美国就有4家机构开展了网络存档,其中包括3家档案机构和1所高校。“网络存档(web archive)”一词是随着1996年“互联网档案馆”(Internet Archive)的成立正式提出的。在互联网档案馆成立之后的近十年,每年大约有两三家机构启动网络存档程序;2007年起,网络存档活动进入加速时期,开展网络存档的机构明显增加,约32%的机构在2009年前后启动网络存档程序。
关于存档内容的选择,49%的机构既保存自己内部的也保存外部的网络内容,20%的机构只保存自己内部网络内容,由此可见,有69%的机构保存自己内部网络的内容,说明内部网络的保存是网络存档的主要内容。关于外部网站的保存,很多机构已经开展关于某一主题或领域进行联合存档,存档较多的是突发事件和国际范围事务,如,乌克兰战争、9·11恐怖袭击、2010冬奥会、伊拉克战争等这些国际影响较大的事件的相关网络资料就被完整保存下来。
1.3类型
网络存档内容有多种类型。社会媒体受各大存档机构的青睐,约79%的机构表示存档相关的网页;数据库和视频也是各机构通常存档的对象,分别有74% 和73%的机构表示会存档;其次还有互动媒体、音频、博客等,艺术是存档机构涉及最少的内容类型,仅有17%的机构表示存档艺术相关的网络资料。这说明被采访的机构致力于搜集网络艺术品的比例相对较少,且越来越意识到归档艺术资料相对于其他形式的材料更容易。
1.4搜索方法
机构为用户提供的搜索方式主要有以下几种:全文搜索(60%),网址搜索(54%),主题列表(50%),地址列表(43%),选集级别描述的目录记录(22%),条款级别描述的目录记录(18%),查询帮助(20%),其他(20%),极少数的机构提供应用程序编程接口(APIS)(5%)。[3]通过两次网络调查的情况来看,发现提供条款级别目录描述和选集级别目录描述的机构正在减少。另一个不争的事实是所有提供网络存档搜索途径的数目在下降,对于这种情况的出现,有些存档机构解释为查询帮助的出现,以及应用程序编程接口的应用,使得很多用户可以不再依赖系统所提供的检索途径。
1.5政策
为了更好地规范保存机构的存档行为,避免各类知识产权纠纷,各机构制定了不同的存档政策。这些政策包括关于存档权限的许可,爬虫协议(robots.txt)指令的方式,对于社会媒体存取的版权、存取政策的建立指南,为保护资源而设定的禁止访问时间段等。
关于存档的权限,有超过一半的机构获取网络内容时既没有告知内容所有者,也没有申请获取存档许可。余下不足一半的机构中,有约23%的机构向内容所有者告知其存档意向,另外有约19%的机构向内容所有者申请存档许可。出于简化程序的目的,若网络爬虫(Crawler)协议不会对捕获内容造成不利影响,一些向网站所有者发送通知的机构一般不会申请许可。根据2011年和2013年两次调查的结果对比表明,向网络内容所有者申请存档许可的机构比例在上升,相对于2011年的13%,2013年增加了6%。从这一点可以看出存档机构的知识产权意识在不断增强,存档行为在不断规范化、合法化。另外,对于负责存档政府网站的机构免除申请进行存档,大学的存档机构只有在保存自身管辖范围内的网页内容时不用申请许可和告知。
爬虫协议是一种机器可读的协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,[4]这样某些限定内容就不会出现在搜索结果中。2013年的调查发现55%的存档视情况遵守爬虫协议,相比较2011年增加了21%。一直严格遵守爬虫协议的机构同时从2011年的38%下降到2013年的22%。不遵守爬虫协议的机构保持一致。不遵守爬虫协议的存档机构一般是一些拥有版权或者其他专门的存取权利(如机构自己的档案或者义务保存政府记录)的机构,或存档机构从网站所有者处获得了存档许可或者发送存档通知。近一半的存档机构表示他们忽略爬虫协议是为了获得必须的关键内容,因为爬虫协议的限制,档案里将存在一些没有意义的内容,这些内容不仅包括网站内容,还包括网站的设计和风格,如,图片和样式。有些存档程序重视爬虫协议,但是不申请许可或告知站长他们在保存网络。
关于禁止访问周期。为了尽量减少与活跃期网站内容的混淆和竞争,存档内容通常需要设定一个禁止访问周期,很多政策里都有相关的规定。而事实上多数机构(69%)表示会设定禁止访问周期,通常是6个月(约45%),少量的机构表示禁止访问的时长为12个月(9%),另外约45%的机构表示设定其他时长。也有机构表示具体的禁止访问时长需要参考网站所有者的喜好。当然也有部分没有设定禁止访问周期,这部分机构大都采用了第三方如Archive-It(互联网档案馆推出的定制服务)和加利福尼亚数字图书馆(CDL’s)的网络存档服务,其对于禁止访问的设定默认缺失。
关于版权和存取政策建立的依据。2013年专门调查了机构版权和存取政策建立的依据,其中,约55%的机构表示是参考同行的网络存档政策而制定的,约40%的机构表示其参考了“美国研究图书馆协会的大学和研究型图书馆公平使用最佳实践指南”(Associationof Research Libraries Codeof Best Practicesin Fair Usefor Academic and Research Libraries)的条款。“第108条研究小组报告”(The Section108 Study Group Report)是另一个非常受欢迎的参考对象,被1/4的机构引用,另外“奥克兰的存档政策”(Oakland Archive Policy)也被约5%的机构引用。
1.6工具和访问软件
存档机构采用多种访问软件和工具,通常一个机构会采用一种或两种存档软件。在存档机构中使用较为广范的存档软件有Heritrix、Adobe Web Capture、Grab-a-Site、Httrack Teleport Pro、wget,其中采用率最高的软件是Heritrix,在2011年和2013分别占24% 和29%;其次是Httrack,2011年和2013年分别占据24%和18%。调查结果显示,使用Heritrix作为存档软件的机构比例有较大幅度的上升,同时使用“其他”类型存档软件的机构也在增加,说明了存档机构在不断开发出新的更适合的存档软件,用于保存网络内容。这些“其他”类别的软件包括用户基于内容管理系统而定制的软件、经过修订的Heritrix网络搜索器、个人网页文件的手动下载软件、屏幕抓取软件、KEN网络存档平台、Social Feed Manager系统、UXTR以及WAIL网页存档集合层等。另外,在支持WARC或ARC①ARC是互联网档案馆制定的用以存档网络爬行器(web craw lers)批量获取结果的格式标准。WARC是在ARC的基础上制定的一种管理和存储海量网络获取结果的存档格式。格式存档软件的使用上增长14%,建议机构注意网络存档的数据格式。
网页存档阅读器的使用。时光机(Wayback Machine)是互联网档案馆用于存档网页信息检索中的特色技术,用户在检索框中只需键入网页所对应的URL,系统就会自动将该网页从1996年至今的存档记录按时间顺序列表,并且表中的每一个日期都能链接到该时间点上所抓取的网页。[5]时光机是最流行的阅读平台,2011年约76%的存档机构使用,2013年大约89%,包括外部服务供应商,如,Archive-It和加利福尼亚数字图书馆的网络存档服务,他们自己可以通过时光机提供阅读。在2013年的调查中,不使用时光机的11%的存档机构中,8%的机构宣布使用其他的阅读器,包括档案社会存取门户(the Archive Social accessportal)、里德档案控制台(theReed ArchivesConsole)和另一款内部开发的阅读器。剩下的3%的机构表示他们的网络存档数据不提供阅读服务。
1.7工时与技能
在2013年的调查中,绝大部分的存档机构,仅投入职工的部分工作时间用于网络存档活动;81%的存档机构投入半个或少于一个的相当于全职职工时间;只有约19%的机构投入至少一个全职职工时间。所有存档机构投入的网页存档活动的时间中间值是四分之一个的全职职工时间。存档机构投入的时间是否足够满足网页存档的需求,是没有经过严格评估的。同样出自NDSA的另外一份报告“有效数字保存的人员配备”(Staffing for Effective Digital Preservation: An NDSA Report),则反映数字保存领域是一直处于人员严重不足、投入工作时间不够的状态。[6]
网络存档是数字资源存档的一个领域,这一活动综合了传统资源保存与现代数字化的最新技术,通常会涉及多种类型的技术能力,如网页技术、存档工具、专业知识、评价能力、元数据、合作与交流能力、软件开发能力、质量保证等。2013年的调查发现,存档机构表示技术能力对于网络存档的建立和成功至关重要,其中,有近40%的机构表示工作人员的网络技术对于网络存档工作非常重要;37%的机构表示存档工具的使用对于存档程序非常重要;近四分之一的机构表示,专业知识、评估能力和元数据提取非常重要;还有少量的机构表示合作交流能力、软件开发能力和质量保证能力也很重要。其他一些被存档机构提到的能力还有注意细节、分析能力、项目和程序的管理能力、对政策的合理运用、耐心、坚持以及快速学习能力等。NDSA的“有效数字保存的人员配备”报告中显示,对于数字保存的热情和动力是数字保存人员最为重要的素质,[6]其次才是各类技能。
2.1缺乏明确的政策
对很多机构而言,内部政策文件是一个亟需提高的方面。很多程序已经整合了现存网页资料的政策和进程,其他没有或者不清楚他们机构的网页存档政策的现状。这个调查也揭示网页存档机构缺乏一个关于从内容创造者处申请许可的明确政策,同时,还缺乏存档内容和访问存档内容两方面政策。这无疑是网页内容创造工作者的困难和对法律及知识产权的挑战。这个调查之后,研究型图书馆协会(Association of Research Libraries,ARL)公布了关于学术性和研究型图书馆合理使用的最佳实践代码(Code of Best Practices in Fair Use for Academic and Research Libraries),伴随着这些代码公布的还有研究型图书馆协会之前关于网页存档法律问题的分析,这些分析可能会为存档机构提供一些政策建立的指南。
2.2新兴社会媒体的存档管理
对于新兴的社会媒体如Facebook, Twitter and YouTube的存档政策,在这个调查里没有过多的深入,只是询问是否有兴趣存档。这类新兴的社会媒体与当前的社会生活息息相关,这类媒体形式所记录的事件及时性、互动性以及广泛性是其他类别的社会媒体难以企及的。但几乎没有机构对于这类社会媒体进行网络存档,其具体的存档政策更是无从谈起。什么是社会媒体重点应该存档的内容,哪些机构开展了社会媒体的网络存档,都没有提起。社会媒体的存档政策很有必要正式建立起来,调查发现约76%的被采访保存机构当前还没有建立这样的政策,社会媒体的存档指南及一些具体的衡量标准都有待进一步的研究。
3.1开展网络存档的机构之多
NDSA的调查发现,绝大部分的被调查机构都有网络存档的意识(96%),都已经或准备开展网络存档。相对于国内的机构,这种观念无疑要超前许多。我国的网络存档整体还处于起步阶段,中国业已开展的网络存档项目只有四项,即国家图书馆开展的“网络信息采集与保存”试验项目(WICP),[7]北京大学主持开发的中国Web信息博物馆(Web InfoMall),台湾大学的NTUWAS3(National TaiwanUniversity Web Archiving System)项目和台湾当地政府组织的Web Archive Taiwan项目。[8]美国早在上个世纪80年代末,就有机构启动了网络存档,而我国最早的网络存项目2003年才开始。第一个网络存档项目的开展距今已经12年,但是,全国上下存档机构并没有迎来网络存档的繁荣景象,相反只有最初的机构还在以项目的形式坚持着。这一方面说明我国文化机构已经意识到网络存档的重要性,但另一方面却没有相关的政策保证项目的持续进行,使得其他机构因为短期内看不到实际效益而止步。
3.2多主体参与
从NDSA的调查结果来看,美国从事网络存档机构的主体是高校。其他机构还有档案馆、州政府、联合政府、博物馆、公共图书馆、商业机构、K-12学校等。相比较而言,我国相当网络存档主角的是国家图书馆,其次是北京大学。地方政府、商业机构等负责的项目几乎没有。这说明国家政府和部分研究机构已经意识到网络保存的重要性,但基层的保存机构网络保存的意识不强。另一方面,网络保存需要大量的财力投入,我国目前的网络存档资金均来源于国家下拨的馆内预算,基层的小型保存机构无疑难以获得资助,自然也就不会开展网络保存了。
3.3知识产权保护意识
通过NDSA的调查发现,美国的网络存档机构在进行网页获取时,有近一半的机构会通知网页内容所有者或向内容所有者申请获取许可,且申请许可的比例不断在上升。美国的存档机构较高的知识产权保护意识与其本国较完善的法律体系不无关系。相比之下,我国保存机构的版权保护意识则不尽人意,大陆本土的两个网络保存项目WICP和WEB INFORMALL纷纷开出免责声明“对存档内容质量概不负责”“具体信息的版权归作者和发布者所有”,一副一切后果自负的姿态。事实上,我国相关法律欠缺是导致存档机构“明哲保身”的直接原因,2011年3月,我国出版了最新修订的《出版管理条例》[9]中关于“网络出版物”和条款也只在送审稿全文中昙花一现,最终的正式条件中并没有出现,使得网络存档相关活动的立法进程又向后推了若干年。
[参考文献]
[1]本刊讯.美国国会图书馆成立国家数字化管理联盟[J].现代图书情报技术,2010(12):33.
[2]ndsa_web_archiving_survey_report_2012[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working _groups/documents/ndsa_web_archiving_survey_report _2012.pdf.
[3]NDSA_USWebArchivingSurvey_2013[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working_groups/documents/NDSA_USWebArchivingSurvey_ 2013.pdf.
[4]爬虫协议[EB/OL].[2014-12-11].http://baike.baidu.com/view/9274458.htm?fromtitle=robots.txt&fromid=9518761&type=search.
[5]时光机[EB/OL].[2014-12-11].http://en.wikipedia.org/wiki/Wayback_Machine.
[6]Staffing for Effective Digital Preservation: An NDSA Report[EB/OL].[2014-12-11].http://lcweb2.loc.gov/master/gdc/lcpubs/2013655113.pdf.
[7]WICP[EB/OL].[2014-12-11].http://hao.cnnet360.com/wicp.php?classid=9
[8]吕艳飞.中美网络信息资源长期保存项目比较研究[D].重庆:西南大学,2012.
[9]授权发布:国务院关于修改《出版管理条例》的决定(全文)[EB/OL].[2014-12-11].http: //news.xinhuanet.com/politics/2011-03/20/c_1212073 47_2.htm.
Survey on America Web Archive and the Enlightenment
Cai Shun
Abstract:National Digital Stewardship Alliance(NDSA)conducted a survey in 2011 and 2013 respectively about the situation of Web archive all around the whole country.The comparison of the survey results reveal the trend of Web archive development, the challenge as well as the opportunity it encounters.The survey also discovers further improvement of Web archive in America which provides reference for information organizations in China.
Keywords:NDSA;Web Archive;Survey;the U.S
[收稿日期]2015-03-25[责任编辑]刘丹
[作者简介]蔡舜(1979-),女,天津科技大学图书馆副研究馆员,已发表文章10篇。
中图分类号:G253.1
文献标志码:B
文章编号:1005-8214(2016)02-0012-04