闫宇晨
随着计算机技术的快速发展,大数据分析与深度学习等新技术将会在智慧图书馆建设中得以广泛应用,人工智能借助机器分析可以从庞大的数据中挖掘出各类有价值的信息,其中,从自然语言文本中挖掘用户所感兴趣的模式与知识的技术,一般称为文本数据挖掘(Text Data Mining,TDM)[1](1-2)。TDM 在国民经济各个领域都具有广泛的应用前景,尤其在公共文化服务领域,传统图书馆在新技术的推动下朝着智慧图书馆发展,TDM所带来的精准服务与智能化服务将进一步促进公共文化服务领域的繁荣。但随着我国知识产权保护力度的不断加大,TDM著作权侵权风险给智慧图书馆建设与发展带来了不小的挑战[2]。一方面,以公共图书馆为代表的公共文化服务行业主张应当将TDM纳入著作权例外的范畴,力图借助自身行业特点及优势提高信息资源利用率,实现公共利益最大化;另一方面,传统著作权产业则坚持任何传播技术的应用,必须给著作权以充分的尊重,作者通过授权许可的方式实现创作的对价是使用作品的必备前提[3]。
近年来伴随着英美、日本、欧盟等国家和地区各自TDM著作权例外制度的构建,我国学界就是否应当对相关制度进行法律移植,以及如何改造本土合理使用制度以适应数字经济的发展展开了激烈的争论。归纳看来,主要包括以下两种意见:一种意见认为,应借我国著作权法第三次修订之机在合理使用制度中增设TDM著作权例外条款,即“出于科学研究或其他合理目的,可以在必要限度内使用已经合法接触的作品开展信息分析”[4]。如此,以增进社会福祉为主要目的的公共图书馆,其TDM行为可以在此条款支撑下合法开展“挖掘”活动。另一种意见认为,我国合理使用制度封闭式列举的立法模式过于僵化,弊端凸显,难以满足数字技术快速发展的需求。应在合理使用制度中引入“一般条款”,参考借鉴美国“四要素”判断法,为转换性使用的运用提供充足的空间。实践中,可将能够产生独立数据价值的机器分析行为认定为转换性使用,以此作为合法性基础激励创新发展[5]。但就法律修订的实际情况来看,2020年11月修订通过的《著作权法》中与图书馆合理使用密切相关的第二十四条未作大幅修改,并未就此问题作出学界期待的回应。那么,如何在现有著作权法框架下有效应对图书馆TDM侵权风险,维护著作权人利益的同时推动智慧图书馆建设是我们当下无法回避的问题。
面对大数据时代TDM的著作权困境,各主要发达国家都做出了一定的制度性回应,大致可分为两种做法。第一种以美国为典型代表,其依托本国深厚的判例法基础,借助合理使用的“一般条款”来判断TDM是否属于著作权例外,也即合理使用的“四要素”判断法:第一项要素,使用行为的目的与特性;第二项要素,作品的性质;第三项要素,使用作品的比重;第四项要素,对作品潜在市场所造成的影响①17 U.S.C.§107。。实践中,法官通过对“四要素”进行判断,决定TDM行为是否增加了原作品新表达、新意义或新功能,进而认定是否构成以转换性使用(Transformative use)为目的的合理使用②Campbell v.Acuff-Rose Music,Inc.,510 U.S.569(1994)。。总的来看,美国版权法是以一种开放的态度对待新技术背景下作品使用方式的变化,依靠法官逐案判断的方式认定某种TDM行为是否符合著作权法激励创新的立法宗旨,转换性使用的判断在实践中也充分展现了其灵活性。
第二种以日欧等发达国家、地区为代表,他们通过专门立法的方式规定TDM著作权例外。2009年日本著作权法进行修订,首次将计算机信息分析纳入TDM著作权例外,该法第47条规定合法获取作品的行为主体可以信息分析为目的实施复制、改编行为,并强调TDM著作权例外应控制在仅用于计算机信息分析的必要限度内,但并未排除商业目的的TDM[6]。2014年英国对《版权、设计与专利法1988》进行修订以回应数字时代新形势下信息技术发展的需要,新增TDM著作权例外规定,任何人都可以在无须征得版权人同意的情况下出于非商业目的开展TDM活动。该法案第29条a款明确了构成TDM著作权例外的要件:第一,行为人必须出于非商业目的;第二,TDM涉及信息不能转让他人或用作信息分析以外的目的;第三,任何意图阻止或限制TDM的合同条款都不具有可执行力[7]。2018年颁布生效的德国《著作权与邻接权法》第44条b款和第60条d款规定,在权利人未声明保留前提下,科研机构出于非商业性研究目的复制作品属于TDM著作权例外,此外,为合作进行科学研究或为审查科学研究的质量而将TDM成果传播至特定第三方也可纳入例外范畴[8]。2019年4月欧盟正式批准实施《数字化单一市场版权指令》(以下称《指令》),《指令》第3条规定了“科研目的下的TDM例外”,即科研机构在科学研究目的下开展TDM而实施的复制与撷取行为不侵犯著作权或数据库权,原则上权利人不得通过合同条款规避TDM,需指出的是,科研机构可以与私人主体合作进行TDM并适当兼顾商业目的。《指令》第4条进一步将非科研目的主体也纳入TDM著作权例外行为主体范围,但该主体只能进行临时复制行为,且允许权利人通过合适的方式排除TDM[9]。
总的来说,世界各主要发达国家已充分认识到TDM所带来的经济机遇,并积极探索以立法的方式降低数据挖掘成本、提高数据挖掘效率。但可看出,国外TDM著作权例外改革展现出多元化的特征,行为主体、行为目的、行为内容等关键要素各国规定差异化明显,并未形成统一做法(表1)。归纳看来,分为两种立法模式:一是增设TDM著作权例外条款;二是将TDM纳入合理使用判断,以“一般条款”认定其是否构成转换性使用。我们需要进一步思考的是,这两种立法模式是否具备法律移植的必要性和可能性,能否用于解决我国TDM著作权侵权问题。
表1 国外主要国家TDM著作权例外制度梳理
2.2.1 贸然增设TDM著作权例外易引发实践混乱冲突
各国TDM著作权例外制度仍处于探索建立过程中,不同国家展现出较大的立法差异,现有立法成果存在概念范畴不清、适用规则不明的问题,尚缺乏可借鉴的成熟规则体系。其一,概念范畴不清。以欧盟《指令》中“科研机构”这一主体概念为例,《指令》第2条将“科研机构”解释为具有公共主体地位的科研单位和文化遗产单位,前者主要指大学(及其图书馆)与科研院所,后者是指图书馆、档案馆、博物馆、影音文化遗产机构。然而,考虑到实践中TDM较多采用公私合作的方式,公共资金通常与具有商业目的的私人资本混合共同开展科研项目,为避免科研机构侵权风险的发生,《指令》又明确认同了私人机构可与科研主体共同参与TDM[10]。这一方面导致“科研机构”这一主体范围变得模糊,另一方面还会对TDM行为方式产生实质性影响,似乎法律认可公私合作方式下非科研机构可以从事专属于科研机构的数据“复制和撷取”行为。其二,适用规则不明。例如,TDM以科研为目的开展研发进而增进社会福祉是值得肯认的,但是否应当将商业利益为主要目的的私人机构纳入TDM著作权例外,各国存在不同做法。德国仅允许纯科学研究目的的TDM著作权例外,即只有推动科技文化发展的科研主体才能成为适格主体。然而,日本为了推动本国人工智能产业的快速发展,摆脱自身在TDM领域发展整体落后的局面,不仅未对TDM著作权例外的行为主体作特别限制,还将行为目的解释为“信息分析”这一宽泛的概念,商业性目的与非商业性目的都被纳入TDM著作权例外范围。
此外,贸然设置TDM著作权例外有失“利益平衡”考量。从知识产权法“利益平衡”理论的角度去看,不论是立法上的权利义务合理配置还是法律解释和适用过程,都体现着知识产权人的专有权利和社会公众权利、个人利益与社会公共利益等社会多元利益之间的平衡关系[11]。著作权法以赋予创作者财产权与人身权作为激励手段鼓励文化创新,秉持着“先授权再使用”的原则,例外应当建立在周延的价值判断基础上。我国若未充分考量自身国情及相应的立法价值,忽视各主体之间的复杂利益关系,贸然以著作权例外的方式将TDM行为合法化,必然会破坏创新成果保护机制,打破著作权制度中已有的平衡关系。
2.2.2 引入转换性使用缺乏法律移植土壤
首先,从立法起源上看,美国作为转换性使用的发源国,其合理使用判断一直备受争议,事实上从未形成统一判断标准。1976年美国著作权法在总结近百年判例的基础上将“四要素”判断法写入其中,然而,这种原则性的规定并未使合理使用的判断变得轻松,相反“四要素”在界定上的模糊给学界和实务界带来了诸多困惑。在著名的Sony案中,美国联邦最高法院的大法官们认为,对于私人录制行为是否构成合理使用重点在于“使用行为的目的与特性”(第一项要素)与“对作品潜在市场所造成的影响”(第四项要素)的判断①Sony Corp.of America.v.University City Studios,Inc.,464 U.S.417(1984)。。波斯纳大法官则认为,“使用行为的目的与特性”(第一项要素)与“作品的性质”(第二项要素)是空洞的,只有“使用作品的比重”(第三项要素)是符合经济学规律的判断[12]。在著作权领域影响颇深的“谷歌数字图书馆案”中,谷歌图书馆计划的大量复制行为明显不符合“适当引用”(第三项要素)的要求,且会对著作权人的潜在市场造成影响(第四项要素),但法院坚持认为对“使用行为的目的与特性”(第一项要素)的考量更为重要,商业性目的不能妨碍构成合理使用,谷歌提供作品片段的行为是对原告作品的转换性使用②Authors Guild,Inc.v.Google,Inc.804 F.3d 202(2nd Cir.2015)。。美国学者Nimmer在总结众多相关判例后认为:“合理使用的判断标准一直未形成统一,四要素在任何一种观点中都可以得到合理主张”[13]。可见,虽然转换性使用能够对合理使用的价值判断进行调适,使其为作品使用的新型方式提供合法性基础,但转换性使用自身的外延模糊会造成合理使用的滥用。即使是经历二十余年相关司法实践的美国,也未能形成统一的适用标准,法官们依然面临着如何解释的难题[14]。
其次,我国奉行严格的知识产权法定主义,主张知识产权的种类、权利客体、权利保护的范围、权利的具体内容等必须通过制定法做出严格而明确的规定[15]。如果引入合理使用“一般条款”作为TDM著作权侵权判断方式,将极大地拓展法官自由裁量空间,这就意味着法官可以解释、创设新的权利限制,TDM领域可能会成为数字时代著作权人合法利益被侵害的重灾区,行为人可以借由TDM形式侵犯他人著作权。因为法律制度移植不能脱离其适用环境,在判例法国家,先例确定下的规则可以约束其后司法裁判活动,而在我国这样的成文法国家,法院不同的解释路径会造成TDM著作权例外规则适用的不统一,引发司法裁判的冲突。
再次,从我国著作权法修订的实际看,“一般条款”并未被纳入合理使用。在司法实践中,出现过法院超越当时《著作权法》第二十二条所列举的事项,径行运用美国合理使用“四要素”判断法,从而认定作品使用行为构成转换性使用的案件①北京市第一中级人民法院民事判决书(2011)一中民初字第1321号。。就此有学者主张引入合理使用“四要素”判断法,在《著作权法》第三次修订的第二稿、第三稿及其后的送审稿中也都曾出现有关合理使用的“一般条款”[16]。然而,2020年通过的最新版《著作权法》最终未采纳开放式合理使用的立法模式,以谨慎的立法态度防止合理使用泛化为“一般条款”。综上,在现阶段继续探讨增设TDM著作权例外、探讨是否引入“一般条款”似乎已不具有现实意义,本文也无意涉足广义上的TDM合法性问题,通过上述分析意在说明,如何在我国现有的著作权法框架下寻求判定图书馆TDM行为合法性的进路,对图书馆行业来说才是当务之急。
TDM一般包含以下四个步骤:步骤1文本与数据收集、步骤2数据预处理、步骤3建立数据模型、步骤4产生信息分析结果。具体来说,首先,文本与数据收集是通过计算机技术或其它数据收集手段提取有价值的信息,为信息分析提供基础资料。其次,数据预处理是通过数据标注、清洗降低文本中的噪声和非规范性表达,将非结构化的语言转化为计算机可以理解的结构化语言,从而改进收集数据的质量、提高数据挖掘过程的精度和性能[17]。再次,建立数据模型是根据不同文本数据的特征建立与之相符合的主题模型,用统一、规范的数据仓库来管理数据。最后,通过数据模型分析产生情感与观点的挖掘、话题检测与追踪等信息分析结果[1](8-9)。
在步骤1文本与数据收集中,TDM首先需要收集和整理信息,将知识和信息转化为计算机能够读取的数据格式。在这些海量数据中很有可能会涉及到著作权法所保护的作品,如将纸质书目转化为电子文档,只要这些书目仍处在作品的保护期内,这种“转化”就构成了著作权法意义上的“复制”[18]。依照著作权法中作品使用必须先授权的原则,TDM主体未经许可复制他人作品则会产生著作权侵权的风险,除非图书馆仅用于自身陈列或保存文献的需要。
在步骤2数据预处理、步骤3建立数据模型中,结构化行为的实质是剔除机器分析所不需要的成分,以一种模块化的方式呈现,以下通过沈从文《边城》段落简要予以说明。
月光如银子,无处不可照及,山上篁竹在月光下皆成为黑色(主题1:时间)。身边草丛中虫声繁密如落雨。间或不知道从什么地方(主题2:地点),忽然会有一只草莺“落落落落嘘!”(主题3:动物)啭着它的喉咙,不久之间,这小鸟儿又好像明白这是半夜,不应当那么吵闹,便仍然闭着那小小眼儿安睡了(主题4:事件)。
通过数据预处理后,呈现给机器的《边城》已不再是一部作品,而是时间、地点、动物、事件这样的自然语言主题模型。这两个阶段对于作品的结构化分析,如同人对于作品的阅读与欣赏,其本身不再是著作权法意义上的作品利用形式,可被直接归于合理使用的范畴,因而无须考虑该环节的侵权风险问题[19]。
在步骤4产生信息分析结果中,TDM所产生的信息分析结果,是一种统计学意义上的大概率事件,很多情况下计算机专家也不清楚TDM的结果是什么。在进入人工智能时代后,信息分析结果变得更加难以预测,除了极少数被严格控制的监督学习以外,我们根本不能考察静态的源代码或原始数据,无法推断机器学习算法的运算结果[20]。因此本文主张,对于这一阶段TDM著作权侵权风险的分析与判断,应当坚持实用主义为导向、就信息分析结果的合法性进行类型化分析,旨在为TDM主体提供更为确定的侵权判断方法和更为清晰明确的侵权风险判断标准,使其避免侵权行为的发生。
如前述,TDM的侵权风险主要发生于步骤1文本与数据收集与步骤4产生信息分析结果阶段。图书馆在步骤1文本与数据收集阶段的“复制”主要是对传统文献资源的数字化和对已数字化资源的复制。实践中,图书馆将本馆收藏的作品数字化后免费提供给社会公众的行为是否构成著作权侵权,引发了广泛的争议[21]。各国对于“提供”行为合法性的认识也有所不同,但仅就“复制”这一行为本身的合法性而言,是有较为一致的看法的。例如,德国曾在《著作权法》第52条b款规定,图书馆可以将本馆收藏的作品数字化,只是不能超出馆藏纸质版数量;美国《数字千年版权法》第404条规定,图书馆可以将馆藏作品数字化只是不得向馆舍以外公众传播[22]。我国《著作权法》第二十四条也有类似规定:在不影响该作品的正常使用,也不构成损害著作权人的合法权益情况下,图书馆为陈列或保存版本的需要,复制本馆收藏的作品属于合理使用。换言之,在不向公众提供数字化作品的前提下,单纯的数据获取行为是法律赋予图书馆的权利,不构成著作权侵权。
在另一个可能产生侵权风险的步骤4产生信息分析结果阶段,本文以著作权法的“思想/表达”二分法为依据,将图书馆TDM信息分析结果大致分为两类:一类是以思想、观点与看法为本质的,意在为读者提供阅读推荐、搜索建议、咨询类消息等有助于决策的信息;另一类则是借助信息分析手段,由计算机“表达”产生的作品,此类作品可能涉及到对原作品大量的复制、翻译、改编等,会带来复杂的著作权侵权判断[4],下节详述。
借用“二分”判断法,可以就上文两类TDM信息分析结果可能产生的著作权侵权问题与判断方式展开分析。具体判断流程见图1。
图1 智慧图书馆TDM行为著作权侵权判断流程
4.2.1 信息分析结果构成决策的侵权判断
在著作权法中,“思想/表达”二分法是一项重要原则。著作权法只保护对于思想观念的独创性表达,而不保护思想观念本身。这一方面保护权利人对作品表达性因素的使用行为,另一方面也赋予了竞争者必要的自由空间,公众有权利对原作品中的事实和思想进行再利用和再解释。若使用作品的行为构成促进竞争与技术进步的非表达性使用,则符合《著作权法》促进作品市场自由竞争的公共政策,也应当得到肯定[23]。例如,在美国作家协会诉 Hathitrust案中,Hathitrust作为一家多所高校图书馆联合成立的非营利性数字图书馆,与谷歌合作并允许谷歌图书项目对该馆馆藏图书进行全文复印,但Hathitrust数字图书馆仅在信息分析结果中显示所搜索内容的位置和出现频次。法院判决认为,该图书馆的TDM行为给读者提供了更加便捷的信息获取渠道,还为相关学术研究提供了新的技术方法,该信息分析结果具有高度转换性①Authors Guild,Inc.v.Google,Inc.804 F.3d 202(2nd Cir.2015)。。而在Perfect10诉亚马逊、谷歌公司案中,法院对于使用决策类信息合法性问题的态度则表达得更为明确。法院认为,谷歌公司将图片作品进行技术处理后转变为了存储意义上的信息,尔后又在搜索引擎上创建相关链接的行为使得公众获得了获取信息的新渠道,这使得公众可以根据该信息做出更好的决策,该行为完全不同于以复制为目的的合理使用②Perfect 10,Inc.v.Amazon.com,Inc.,508 F.3d 1146(9th Cir.2007)。。由此可见,当图书馆TDM信息分析结果仅构成决策时,一方面这类决策“非表达性”的特点因其未使用原作品的表达性因素而不构成对作品的复制,符合“著作权保护不延及思想”这一基本原则;另一方面,从新技术运用的实际效果来看,该决策类信息不会侵害原作者潜在市场利益,还使社会公众受益于技术进步,符合鼓励作品的创作和传播、促进文化和科学事业发展的著作权法目标,因而不宜认定为侵权行为。
4.2.2 信息分析结果构成作品的侵权判断
当图书馆TDM信息分析结果构成具有“表达性”的作品时,则需要进行两个步骤的合法性判断。其一,“接触+实质性相似”判断。该规则是侵犯著作权行为认定的重要规则。当被控侵权作品的行为人接触了享有著作权的在先作品,而两件作品经技术比对后构成实质性相似,即创作在后的作品与创作在先的作品在思想表达形式或思想内容方面构成同一,则初步判定创作在后的作品构成侵权[24]。此时,图书馆TDM行为若被判定为侵权,须进一步判断使用在先作品的行为是否出于某种正当目的而受著作权法例外的保护。其二,评论、介绍作品或说明问题的合理使用判断。如前述,由于我国合理使用制度封闭式列举的方式存在类型化不足的问题,由此又带来了作品新型利用方式合法性的判断困难,但我国作为成文法国家不具备引入合理使用“一般条款”进行扩张解释的现实条件。本文主张,可以采用将转换性使用纳入“评论作品和说明问题”解释中的做法[14],在现有合理使用制度内为图书馆TDM行为寻求合法化出路。我国《著作权法》第二十四条第(二)款规定,“为介绍、评论某一作品或者说明某一问题”可以适当引用他人已经发表的作品。“评论、介绍作品”是对原作品新价值的挖掘,而“说明问题”则在于强调利用原作品进行新创作。如果图书馆TDM行为未影响原作品的正常使用,也未损害著作权人的合法权益,在适当引用的前提下赋予了原作品新的内涵或促进了新的创作产生,信息分析结果使用他人作品的行为应当认定为“评论、介绍作品或说明问题”的合理使用,不构成著作权侵权。
综上分析,国外TDM著作权法例外相关改革措施对我国来说并不具备可借鉴的现实条件,草率移植容易引发立法体系与司法实践的混乱。通过TDM行为本质对相关侵权风险进行类型化分析,可以发现,我国图书馆TDM合法性问题在现有合理使用制度范畴中能够得到有效解决。当图书馆信息分析结果仅构成决策类信息时,属于促进竞争与技术进步的非表达性使用,不构成著作权侵权;而当该信息分析结果构成作品时,在“接触+实质性相似”的前提下进行“评论、介绍作品或说明问题”的合理使用判断,决定该TDM行为是否属于著作权例外。如此,我国图书馆可在这样一种侵权判断模式下开展数据挖掘活动,最大程度上避免侵权行为发生。