网页档案馆“选择—退出”机制适用研究

2023-05-30 03:11韩朔
档案管理 2023年1期

摘  要:网页作为互联网时代知识的主要载体,对其进行保存有着较高的历史价值、科研价值、司法价值等。而网页档案馆项目难以得到海量网页著作权人的授权,给网页的完整性采集带来了困扰。在默示许可原则基础上诞生的“选择—退出”机制,可以在实现网页档案馆完整性采集策略的同时,也保护著作权人的利益,是网页档案馆适用的采集机制。

关键词:网页档案馆;默示许可;选择退出;采集策略

Abstract: As the main carrier of knowledge in the internet era, web pages have high historical value, scientific research value, and judicial value, etc. However, it is difficult for the website archives project to obtain the authorization of a large number of website copyright owners, which brings difficulties to the integrity collection. The ‘Opt -outmechanism, born on the basis of the principle of implied permission, can realize the integrity harvest strategy of web archives, and can also protect the interests of copyright owners. It is a collection mechanism that should be applied to web archives.

Keywords: Web archives; Implied consent; Opt-out; Harvest strategy

哈佛大学法学和计算机学教授Jonathan Zittrain在《The Internet Is Rotting》[1]一文中指出,互联网的知识正在逐渐消逝,该文章发现纽约时报文章中大约200万个面向外部的链接中,有25%的链接已经消失,文章越旧,链接正常工作的可能性就越小,1998年发布的文章中,则有72%的链接是失效的。互联网信息的爆炸性和瞬时性,对网络信息的保存提出了严峻挑战,网页档案馆(或称互联网档案馆、web档案馆、web存档等)的保存价值逐渐凸显。相对于国外若干国家,我国网页档案馆的发展还处于起步状态,除了国家图书馆在21世纪初进行了实验性质的项目外,还未有向公众开放的网页档案馆项目。目前,网页档案馆的建设面临着技术、经济、法律等方面的阻碍,而法律的阻碍一直是其主要问题。

1 研究现状

周文佳由美国互联网档案馆(InternetArchive)和中国Web信息博物馆网页引入,提出数字档案馆建设不能局限于馆藏资源的数字化,应从宏观的角度来丰富馆藏资源。[2]黄新荣等指出我国网页归档存在缺乏法律政策支持、网页归档主体单一、缺乏标准与支撑技术等问题,提出了相应解决方案。[3]王烁对美国InternetArchive归档项目进行了分析。[4]王静提出了档案馆参与网页归档项目的发展策略。[5]谢玉雪等从宏观和微观两个层面对我国政府网页归档的问题,提出了完善法规制度、标准以及健全归档范围和保管期限等策略[6]。

上述相关研究中最大共识是网页档案馆这一项目涉及法律环境、实施主体、技术与标准等因素,但国内还未见网页档案馆法律问题的专题研究。

2 网页档案馆项目

2.1 InternetArchive。InternetArchive是一个非营利组织,致力于建立以互联网网站和其他文物等为藏品的数字形式图书馆[7],从1996年开始存档互联网,用户可以通过其WaybackMachine引擎查找超过25年的网页历史。InternetArchive还通过Archive-It计划与950多个图书馆等机构合作,以其海量的网络历史资源为基础,按照历史事件、话题、机构资源等对网页进行集合与组织[8],WaybackMachine还允许用户自行上传网站链接进行保存。截至2022年7月,InternetArchive已经采集了超过6250亿个网页,资源总量超99PB,每天为数百万人提供服务,是世界300强网站之一。

2.2 中国Web信息博物馆。中国Web信息博物馆(WebInfomall)是国家“973”和“985”项目的支持下,北大网络实验室开发的一个公益项目,持续性搜集所有中国互联网上的网页进行存储和展示,为用户提供中国网页历史版本的浏览服务。主要功能有通过url访问网页历史备份、典型历史网页展示、历史事件专题回放、联系信息博物馆获取数据等。

WebInfomall在5年的时间里存储了超过25亿个网页,涉及上百万个网站,并以每天新增上百万的新网页[9]。2016年,“中国网页信息博物馆(Web InfoMall)及其数据开放”项目获得CCF(中国计算机学会)科学技术奖二等奖[10],此时已经存储超过70亿个网页,容量超过200T。但网站在2018年前就已经无法正常运行[11]。

2.3 国家图书馆WICP和ODBN项目。项目包括针对静态网页的网络信息资源采集与保存实验项目WICP(Web Information Collection and Preservation)和网络数据库导航项目ODBN(Online Database Navigation)[12]。

WICP针对表层网页,收集对象有政府网站100家,电子期刊网站100家,大学网站100家,企业网站100家,其他(门户网站,媒体网站——报纸、电台、电视台网站等)100家。ODBN针对深层网页,利用链接技术对网站的深层页面进行遍历,形成网页导航。2009年,国家圖书馆互联网成立信息保存保护中心,WICP在实验项目的基础上,推出了“中国事典”网络信息专题存档网站、网络资源采集知识库等。

3 网页档案馆法律问题

3.1 相关法律分析。法律问题一直是网页档案馆发展的重要甚至是首要问题,如国家图书馆在对WICP和ODBN的研究面临的问题部分[13],将法律问题列到首位,并唯一进行了深度分析;荷兰国家图书馆的“互联网档案馆”项目也指明[14],由于法律、财务等原因,无法对全国网站全部进行存档,其中最重要的是法律问题。

随着技术的发展,网页档案馆的实际成本已经较低,如InternetArchive仅需要150员工,每年约2000万美元的维护经费便可以对全球1000多亿网页进行存档并实时更新。

我国《著作权法》规定,“复制权,即以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利”。广播权和信息网络传播权是指以有线或无线方式向公众提供作品的权利。网页档案馆的运作流程是将网页当时的内容进行复制,保存到自身服务器中,然后将复制的网页对公众免费开放,使公众可以通过互联网获取到网页的存档,显然构成了对网页的复制行为与信息网络传播行为。

我国《著作权法》第二十四条第八款和《信息网络传播权保护条例》第七条虽都对图书馆、档案馆等复制与信息网络传播进行了一定程度的豁免,但都有着严格的限制,复制对象要求是本馆内馆藏,信息网络传播范围要求是本馆内服务对象,难以适用于网页资源的复制与提供服务。因此,国家图书馆在进行网络资源保存实验项目(WICP)时,除公共领域网页外,仍采取了逐个获得权利人许可的方式。而此时的复制行为作为信息网络传播行为的必要途径,可以将两者的行为一起进行分析。[15]换句话说,如果网页档案馆采集时获得了许可,不论是明示许可、法定许可抑或是默示许可,那么对网页内容进行复制和提供给公众进行信息网络传播便都不会造成著作权侵权问题。因此,网页档案馆的法律问题最主要就是采集网页时获得权利人许可的问题。

3.2 网页档案馆采集策略。当前网页档案馆采集主要法定呈缴、授权采集、“选择—退出”机制等三种策略。

3.2.1 法定呈缴策略。长期以来,图书馆和档案馆有接受出版单位和立档单位法定呈缴的传统,这一方法仍部分适用于网络信息存档。对于电子出版物,可以较好地将传统呈缴方式进行移植,但网络有着海量数据,信息多种多样,与传统出版物存在很大的差别,如要将法定呈缴策略移植到网络信息资源,则需要对具体的呈缴范围、呈缴时间、呈缴数量、呈缴方式进行重新规定。如要求所有网页发布者进行主动呈缴显然会破坏互联网低成本发布的特性,并且难以保证呈缴的全面性。

多数国家针对信息资源的呈缴策略并非需要网页发布者进行主动缴送,而是允许特定机构对网页进行存档,如新西兰自2006年8月起将法定缴存扩展到电子出版物[16],并规定新西兰国家图书馆可以保存国内任何可以公开访问的网站并向公众提供所保存信息的利用;澳大利亚版权法规定互联网中的网站与博客需要法定缴存[17],由澳大利亚互联网档案馆进行收集,网站发布者无需进行任何操作,在发布后可以因隐私、诽谤、文化、版权等原因,申请网页存档的限制公开[18]。

3.2.2 得到授权后进行采集。指事先与网络信息版权所有者进行协商,得到版权所有者的授权后,将网络信息并根据授权进行适当编排,提供相应的服务。荷兰国家图书馆的“KB-Webarchief”项目以及我国国家图书馆的WICP和ODBN项目等都采用该形式,但由于网页的数量以及著作权人的低回复率,只有选择性采集才适用于此类采集方式,无法涵盖海量的网页资源。这会导致存档的网站极为有限,比如荷兰国家图书馆项目截至2022年6月,只存档了22160个网站[19],而整个荷兰有超过1000万个网站,存档率仅有0.2%;WICP项目的500个网站对于我国几百万网站和几千亿的网页来说,更是沧海一粟,难以满足网页档案馆的需求。并且数字环境下的网站价值变幻不定,采集时的策略并非完全准确,容易造成信息资源的疏漏。

3.2.3 “选择—退出”机制。“选择—退出”机制是“默示许可”原则下的采集机制。该机制下,网页档案馆对于公开访问的网页直接进行复制存档和公开提供利用,如果权利人出于保护版权等原因不允许网页档案馆对其网站进行存档,则可以给网页档案馆提出删除的要求并提供版权证明,网页档案馆在审核身份后则进行删除。

当前美国的InternetArchive项目即采用此类措施,并被判例所认可[20]。对于没有法定呈缴策略法律环境的网页档案馆,是最有利于网页档案馆存档工作的机制,对于完整性采集策略[21]的网页档案馆而言,也是唯一在实践中可以达到其目的的策略。

4 网页档案馆采集“选择—退出”机制适用

4.1 默示许可原则。“选择—退出”机制的理论基础为默示许可原则,默示许可理论起源于传统民法上的默示行为理论和合同法上的默示条款理论,一般用于探究合同方的潜在的意思表示,作为对合同条款的解释和补充,后逐渐在知识产权领域被采用,作为专利权穷竭以及发行权一次用尽的理论基础。

作品的数字化使得作品的使用者数量和使用方式变得无法预期,面对数字时代“海量作者、海量作品、海量授权”的特点,传统的“一对一”授权模式很难满足实践的需求。在网络环境下,默示许可制度摒弃了传统的“主动授权”模式,能够促进信息的传播和共享,最大程度地实现作品的价值。因此,著作权法中的默示许可制度逐渐脱离了合同法的制度范畴,变为开放性标准,即没有事实合同关系的人之间也可以存在默示许可。在实践中已有着较为广泛的实践,如个人发的微博无特殊说明即可以转载,搜索引擎爬取网页、网络爬虫等。

4.2 国内外相关司法实践

4.2.1 Blake A.Fieldv.Google案。Blake A.Fieldv.Google案[22]是网络环境下确立著作权默示许可制度的第一案。2004年,作家Field向法院提起诉讼,认为其将自己享有版权的作品上载于自己网站中,而Google公司未经许可对作品进行复制并在公司的网页上进行显示,侵犯了其著作权。但是Field的诉求没有得到支持,法院最终以Google获得了默示许可而认定其不构成侵权。法院认为,搜索引擎是利用一种自动搜索程序Robot对其他网站进行扫描分析,网站若不想被搜索,一般会在robots协议中表明,或在其网页中添加“非存档”的元标记,这种模式是一种高度公开的行业惯例,在互联网行业内广为人知,Field 也表示其知晓该惯例,但Field仍然未在robots协议或加入meta-tags拒绝爬虫,这表明其允许对其网页进行扫描、复制,此外,Google 公司知曉Field对于其页面索引不满情形下,迅速对缓存链接采取了删除举措。这种明知作品被使用而仍然保持沉默的行为构成了著作权默示许可。

4.2.2 北京搜狗信息服务有限公司与丛文辉侵犯信息网络传播权纠纷案。2013年北京搜狗信息服务有限公司与丛文辉侵犯信息网络传播权纠纷案[23]是国内关于搜索引擎网页快照较为经典的案例,搜狗搜索引擎将丛文辉的博客以网页快照的方式进行存储并提供给用户访问,丛文辉认为搜狗侵犯了其著作权,向法院提起诉讼。终审法院首先认定了搜狗搜索引擎的行为属于复制和信息网络传播行为。但法院认为网页快照行为符合合理使用行为的实质条件,如果认定网页快照不构成合理使用,会对公众利益造成较大影响。并且搜狗公司在收到丛文辉的通知后立即删除了其网站的网页快照,因此,法院认为搜狗的网页快照行为构成合理使用行为。

4.3 网页档案馆“选择—退出”机制适用分析。国内外一系列相关案例确立了“选择—退出”机制作为数字环境下著作权默示许可制度的新型运行机制。“选择—退出”机制的重要特征表现为:第一,良好协调性,不仅对数字环境下著作权法所具有的价值判断与政策考量有所考虑,对于数字环境中著作权人、传播者及适用者的利益平衡关系进行了良好协调;第二,具有对著作权法现有理论的突破性,该机制将该义务负担向权利人进行转移,亦即若权利人对其作品未声明不得使用,便认为是对该作品的默示许可。网页档案馆完全符合“选择—退出”机制的适用条件。

4.3.1 传统授权模式难以适应实践发展。“一对一许可”模式下的巨大交易成本和低效的运行都难以适应网络进步而带来的需求。每个许可成本过高,无法保证权利人利益的最大化。

找到、联系、并确定网站所有者会消耗大量的人力资源和可能的财政资源,并且可能会关系到第三方的权利。即使联系到网站所有者并发出联系,根据IIPC的统计[24],在发出授权请求的网站中,网站所有者只有30%-50%的回复率,极有可能存在其本身同意存档但并未收到存档请求的情况。如果遵循严格的告知同意原则,则至少会有半数以上的网站因没有收到网站所有者的回复,而并非是拒绝导致無法将其纳入其中。因此,在实践中,要求网页档案馆逐一取得成千上万的网页的许可显然不现实。

4.3.2 “选择—退出”机制已经成为行业惯例。在搜索引擎行业,通过源标签代码对网页索引已成为行业惯例,可以说,该“选择—退出”机制已成为互联网运营的基础。[25]与搜索引擎爬取链接相同,网页快照的方式也属于典型的“选择—退出”机制。

如今,百度、谷歌、必应等各大搜索引擎仍提供网页快照供用户使用,采取策略同样使用默认进行爬取,并提供给网页所有者进行申诉的方式,可见,法院突破了传统著作权领域默示许可的适用范围,并不再要求存在特定的、已经存在的合同法律关系,“而是可以使用到网络环境下的不特定主体之间形成的法律关系,大大扩展了默示许可的制度空间”。通过元标记排除搜索引擎的搜索已经成为了互联网行业的惯例,这也被国内外司法实践所认可。

国内外相似的网页档案馆,如美国InternetArchive、荷兰KB国家图书馆、澳大利亚项目,均采用“选择—退出”的机制。

4.3.3 网页档案馆可以带来公共利益。一是历史价值。[26]与传统信息载体不同,网络信息消失后几乎不会留下任何痕迹,给信息追溯带来严峻的困难。[27]我国的中国互联网博物馆[28]项目中保存的内容仍十分有限。Jonathan Zittrain在《The Internet Is Rotting》中同样指出,为了解决互联网的短暂性,保留人类知识,开发“互联网档案馆”,譬如InternetArchive和perma.cc这种网站是目前最有效的方式。

二是科学价值。根据哈佛大学法学院的统计,在1999年至2011年间发表的引文中,《哈佛法律评论》和其他期刊中超过70%的URL,以及美国最高法院意见中的50%的URL都无法再找到[29]。为此哈佛大学法学院图书馆开发了perma.cc网站专门提供存证服务。著名法律引用指南《蓝皮书:统一注释体系》(The Bluebook:A Uniform System of Citation)在18.2节针对网页资源的引用指南中,明确鼓励对互联网资源进行存档,并将存档URL附加到括号中的完整引用中,示例分别引用了web.archive.org网站以及perma.cc网站的存档[30]。MLA也提供了带有存档链接的引文格式,如果网站更新,可以使用与引用日期最近的WaybackMachine链接[31]。相应地还有wiki百科中的引用大量都变为web.archive.org中的快照页面、百度快照等。

三是司法价值。网页档案馆另一个社会价值是作为司法证据。美国最高法院第六巡回法庭直接向InternetArchive网站发出了司法协助请求,并在判决书中表示这一网站已经成为值得信任的来源[32],国内的web信息博物馆也作为庭审证据,在北大法宝中以“中国web信息博物馆”为关键词进行检索,检索结果有24条,均是将经公证后的中国网页信息博物馆打印本,并得到了法院承认。淘宝、拼多多等电商平台也都设立“交易快照”,作为发生交易纠纷时的证据。但京东、抖音电商等平台则不提供交易快照,需要消费者自行提供界面。

4.3.4 “选择—退出”机制也可保护著作权人的利益。默示许可原则作为一种著作权权利的限制,同样需要符合《伯尔尼公约》的“三步检验法”[33],即属于特殊情形,不影响权利人的正常使用,也不会对权利人利益带来不合理的损害。如果权利人认为会对其利益带来损害,还可以采用发送通知的方式要求网页档案馆进行删除。

5 结语

网页档案馆采用“选择—退出”机制来获得网页著作权人的默示许可有助于在实现公共利益的同时维护了著作权人的私人利益,符合著作权法的利益平衡原则,是数字环境下实现网页档案馆健康发展的最佳策略。为了实现网页档案馆的健康发展,还需要立法机关、司法机关、政府机关、档案馆学界与实务界等各方面的共同努力。

参考文献:

[1]ZITTRAIN J.The Internet Is Rotting[EB/OL]//The Atlantic.(2021-06-30)[2022-09-09].https://www.theatlantic.com/technology/archive/2021/06/the-internet-is-a-collective-hallucination/619320/.

[2]周文佳.丰富数字档案馆馆藏的新视角——由Internet archive和中国web信息博物馆所想到的[J].浙江档案,2008(09):17-18.

[3]黄新荣,曾萨.网页归档推进策略研究——基于网页归档生态系统视角[J/OL].图书馆学研究,2018(16):63-70+16.DOI:10.15941/j.cnki.issn1001-0424.2018.16.009.

[4]王烁.美国网页归档项目——Internet Archive发展研究[J/OL].兰台世界,2012(17):18-19.DOI:10.16565/j.cnki.1006-7744.2012.17.019.

[5]王静.中美网页归档项目的对比研究[J].档案与建设,2015(07):19-23+14.

[6][13]谢玉雪,郑晓丹.我国政府网页归档的问题与策略[J].山西档案,2021(02):79-88.

[7]Internet Archive:About IA[EB/OL].[2022-07-08].https://archive.org/about/.

[8]Archive-It - Web Archiving Services for Libraries and Archives[EB/OL].[2022-07-08].https://archive-it.org/.

[9]北大“中國Web信息博物馆”打造中国网络信息航母[EB/OL].[2022-07-07].https://news.pku.edu.cn/xwzh/129-111717.htm.

[10]中国网页信息博物馆(Web InfoMall)及其数据开放-科学技术奖-中国计算机学会[EB/OL].[2022-10-09].https://www.ccf.org.cn/c/2017-02-13/574230.shtml.

[11]黄新荣,曾萨.网页归档推进策略研究——基于网页归档生态系统视角[J/OL].图书馆学研究,2018(16):63-70+16.DOI:10.15941/j.cnki.issn1001-0424.2018.16.009.

[12][19]陈力,郝守真,王志庚.网络信息资源的采集与保存——国家图书馆的WICP和ODBN项目介绍[J].国家图书馆学刊,2004(01):2-6.

[14]KB-Webarchief:veelgestelde vragen | KB,de nationale bibliotheek[EB/OL].[2022-09-11].https://www.kb.nl/over-ons/expertises/webarchivering/veelgestelde-vragen.

[15]蒋志培.知识产权法律适用与司法解释[M].北京:中国法制出版社,2002:209-210.

[16]National Library of New Zealand(Te Puna Mātauranga o Aotearoa) Act 2003 No 19(as at 28 October 2021),Public Act Contents - New Zealand Legislation[EB/OL].[2022-09-11].https://legislation.govt.nz/act/public/2003/0019/latest/DLM191962.html.

[17]Legal Deposit frequently asked questions[EB/OL]//National Library of Australia.[2022-09-11].https://www.nla.gov.au/using-library/services-publishers/legal-deposit/legal-deposit-frequently-asked-questions.

[18]Australian Web Archive[EB/OL]//National Library of Australia.[2022-09-11].https://www.nla.gov.au/collections/building-our-collections/australian-web-archive.

[20]Healthcare Advocates,Inc.v.Harding,Earley,Follmer & Frailey,497 F.Supp.2d 627,2007 U.S.Dist.LEXIS 52544.

[21]刘兰,吴振新,张智雄,等.Web Archive的采集策略研究[J].现代图书情报技术,2009(01):10-15.

[22]Field v.Google.,Inc.,412 F.Supp.2d 1106(D.Nev.2006)

[23](2013)一中民终字第12533号.

[24]OLGA.Legal issues[EB/OL]//IIPC.[2022-07-04].https://netpreserve.org/web-archiving/legal-issues/.

[25]Author Guild v.Google Inc.,98 U.S.P.Q.2D(BNA)1229.

[26]历史学的价值与使命[EB/OL].[2022-09-12].https://m.gmw.cn/baijia/2022-03/21/35601192.html.

[27]HUSS N.How Many Websites Are There in the World?(2022)[EB/OL]//Siteefy.(2022-04-06)[2022-09-12].https://siteefy.com/how-many-websites-are-there/.

[28]中國互联网博物馆[EB/OL].[2022-09-12].http://www.internet.cn/.

[29]ZITTRAIN J L,ALBERT K,LESSIG L.Perma:Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations[M/OL].Rochester,NY(2013-10-01)[2022-07-07].https://papers.ssrn.com/abstract=2329161.DOI:10.2139/ssrn.2329161.

[30]18.2 The Internet | The Bluebook Online[EB/OL]//The Bluebook.[2022-07-07].https://www.legalbluebook.com/bluebook.

[31]Using The Wayback Machine - Internet Archive Help Center[EB/OL].[2022-07-10].https://help.archive.org/help/using-the-wayback-machine/.

[32]Pond Guy,Inc.v.Aquascape Designs,Inc.,2014 U.S.Dist.LEXIS 85504.

[33]谢晶.数字环境下著作权默示许可制度研究[D].中南财经政法大学,2020.DOI:10.27660/d.cnki.gzczu.2020.002990.

(作者单位:武汉大学信息管理学院 韩朔,信息资源管理专业硕士研究生  来稿日期:2022-10-11)