摘" " 要:人工智能模型依赖于对大量作品的复制分析,从而导致传统版权业者与人工智能训练需求之间的紧张关系。目前模型训练合理使用争议的原因,在于著作权人对人工智能模型训练方式认识不足以及对技术驱动下新兴市场收益预期未能达成。在美国的司法实践中,合理使用已被广泛适用于从广播时代到互联网时代的诸多使用行为,在历史上具有典型意义的索尼案、谷歌数字图书案和坎贝尔案中给利用新技术的新兴产业拓展了发展空间。尽管美国法院在人工智能模型训练的合理使用问题上仍在继续要求各方补充证据,但其合理使用条款解释的丰富历史经验已经提供了诸多可供参考的答案,对我国调整版权产业与人工智能产业的关系具有参考意义。
关键词:人工智能;模型训练;合理使用;非表达替代
中图分类号:D 923" " " 文献标志码:A" " " " " 文章编号:2096-9783(2024)06⁃0011⁃13
一、问题的提出
生成式人工智能的产生,使得计算机能够创造出与人类可受版权保护的表达方式大致相同的数字作品,成为新内容创造的引擎。从文生文、文生图,再到文生视频,人工智能在创新和艺术表达方面展现了巨大的潜力。然而,人工智能的潜力只有在海量人类创作的作品的支持下才能实现。以大型语言模型为例,要训练其生成类似人类表达的文本输出,唯一的方法就是复制和分析大量不同的人类撰写的文本1。在大型语言模型的训练过程中,输入的数据至少经过了数字化的复制。这些数据往往包含了丰富的词汇、语法结构、语境使用等语言特性,而许多这样的高质量数据则直接来源于受版权保护的文学作品、新闻报道、学术文章等。因此,没有大量受版权保护的素材输入,就不会有大型语言模型的存在。
美国法院已受理多起指控人工智能开发商著作权侵权的案件,且诉求主要分为两个方面:一是开发者复制了著作权人的作品以训练能够根据用户提示生成文本、图像或软件代码等输出的模型;二是生成的输出结果以训练模型所依据的作品为基础,是侵权衍生作品。尽管案件具体事实存在差异,但模型训练阶段的争点是一致的。在2023年4月开始的许可谈判失败后,《纽约时报》起诉OpenAI和该公司最大的投资者Microsoft侵犯版权2。尽管这只是OpenAI所面临的众多诉讼中的一个,但该案件具有特殊意义。不仅涉及高达数十亿美元的经济利益,更象征着出版界巨头与人工智能领域的领军企业之间的较量。《纽约时报》指控OpenAI通过建立包含数百份《纽约时报》作品的训练数据集,包括直接从《纽约时报》网站上抓取受版权保护的作品,以及从第三方数据集中复制此类作品,直接侵犯了《纽约时报》对其版权作品的专有权利3。而以OpenAI为首的人工智能开发商却一致抗辩称,他们的行为依赖于长期以来形成的合理使用判例。这些判例表明如果使用受版权保护的内容是为了开发具有创新性和独特性的新技术,那么就属于合理使用4。如果《纽约时报》胜诉,它很可能会获得有史以来最大的知识产权侵权赔偿判决,并迫使大型语言模型的制造商重新思考他们的运作模式5。如果OpenAI胜诉,则广大人工智能开发者将能够继续无偿使用所抓取的内容。与此同时,另一场可能重塑音乐产业未来的人工智能版权之战也正式打响。三大唱片公司对音乐生成服务Suno和Udio提起的诉讼中,被告同样提出了合理使用的抗辩,称长期的先例表明为创造最终不侵权的产品,在公众不可见的技术流程中复制作品属于合理使用6。这体现了传统版权业者与强大、尖端的生成式人工智能需求之间的紧张关系。正如历史上的索尼案、谷歌数字图书案等一样,合理使用的认定再次深刻影响着新兴产业的未来。
在人工智能模型训练的合法性问题上,我国与世界上的其他国家,尤其是人工智能产业相对发达的国家,都面临着同样的挑战,缺乏成熟的应对经验。因此,一方面有必要紧跟人工智能产业领先的发达国家在模型训练合法性争议方面的最新进展,明确著作权人与技术开发者之间的利益分歧所在。另一方面,在美国版权历史上,为开发新技术而复制受版权保护的素材往往属于合理使用。复制电子游戏以创造竞争产品7、复制互联网上的图像以创建图像搜索工具8、复制学生论文以创建剽窃检测工具9、复制数百万受版权保护的书籍以创建检索数据库10,以及使用受版权保护的计算机软件创建竞争性智能手机平台11等均被认定为合理使用。几乎所有的讨论者都认为人工智能模型训练的合理使用问题主要取决于这些先例。在人工智能技术带来的全新挑战之下,重新梳理历史上应对新技术的合理使用认定路径显得尤为重要。这些判例资源能够帮助我们厘清如何平衡技术创新与版权保护的关系,调和新旧产业间的关系。尽管我国著作权限制与例外的立法体例与美国存在较大差异,但二者在制度价值表达与合法性判断上仍具有共通之处。因此,本文首先将剖析生成式人工智能模型训练带来的关键性争议。其次,梳理美国法院在类似争议中的判决,特别是涉及技术进步对作品使用方式产生根本性变化的案例。探究美国如何透过合理使用制度处理平衡技术创新与版权保护之间的关系,以及所体现的特定价值取向。最后,结合我国合理使用制度体系,总结美国经验如何为我国应对生成式人工智能提供借鉴。
二、美国人工智能模型训练的合理使用认定争议
近两年围绕人工智能训练合法性问题,出现了大量的诉讼。艺术家们担心人工智能无偿复制他们的作品,可能会威胁到他们的生计和文学艺术的未来。其一,人工智能仅是依赖人类智慧的工具。为人工智能创造捷径只会削弱人类的创作动力,因为人工智能本身正是依赖于这些作品12。其二,人工智能反过来剥夺了创作者的市场。人工智能公司能够从艺术家和创作者的辛勤劳动中获得数十亿美元的资金和利润,同时占领这些艺术家和创作者赖以生存的市场,难谓公平13。然而,每一项新技术的诞生往往伴随着类似的担忧。历史经验告诉我们,这些忧虑并不总是成为现实。正如照相机以及后来引入的许多其他创造性工具一样,生成式人工智能有望成为推动而非取代人类创造力的引擎14。合理使用原则可能成为平衡人工智能领域利益冲突的最佳方式。因此,有必要回归事实本源,厘清现有人工智能训练的合理使用认定争议。在美国版权法中,合理使用的判定特别依赖于第一因素(使用目的及性质)和第四因素(对市场的影响)。因此,本部分将以此展开分析。
(一)是否符合目的转换性使用
人工智能模型训练并非新事物。随着计算机技术的拓展与普及,我们早已进入数字版权作品自动化处理的时代。从训练数据获取的角度来看,模型训练所依赖的文本数据挖掘技术早已应用于逆向工程、互联网搜索引擎等领域。与个性化、私人化的人类阅读相比,此类对版权作品的批量复制早期被学者称为机器阅读[1]。机器阅读涉及大量的逐字复制,且未对原始作品中的表达方式进行任何有价值的评论或修改,这似乎难以符合传统意义上的转换性使用。然而,随着“转换性使用”的概念逐渐扩展,这一概念也被用来解决由技术发展带来的版权作品新使用方式的争议[2]。即使新技术对作品进行完整且未经修改的使用,但亦可因其目的具有高度转换性,而被认定为合理使用。基于如此的合理使用惯例,人工智能开发者认为模型训练必然属于转换性使用的范畴15。然而,生成式人工智能模型训练与过往的批量复制技术仍存在差异,其生成性特征为合理使用再次带来了挑战[3]。首先,以往的批量复制技术往往并不会直接促进人类对作品表达的参与。其次,这些技术的最终用途不会影响作品的潜在市场。而生成式人工智能模型正是围绕人类的表达开展训练,其所具有的生成性特征,使其产生了合理使用的认定争议。以最为典型的大型语言模型和图像模型为例,在音乐出版商诉Anthropic公司一案中,原被告双方就使用歌词训练人工智能模型是否具有转换性展开了讨论。出版商主张,模型主要是从作者表达方式中提取有价值的信息。其对版权作品的使用不以信息分析为终结,而是可以响应用户请求,输出原作品或衍生作品的逐字复制。无论其输出结果最终是否侵权,复制受版权保护作品作为训练数据的目的与作者将作品授权给他人创作的目的是一致的。开发者创造了原作的替代品,从而排除了其使用具有转换性的结论16。而Anthropic公司则认为将歌词作为数据集一部分,用于训练理解关于世界和语言如何运作的生成式人工智能模型,符合转换性的定义。Anthropic公司使用这些歌词的目的与作者创作这些歌词的目的并不相同,它不是为了占用歌曲中的表达元素,而是为了一个全新的目的:训练人工智能模型识别语言模式17。与此类似,视觉艺术家诉Stable Diffusion图像生成器侵权的案件中,被告DeviantArt也提出了合理使用抗辩,认为对图像的使用是为创建一个“全新的平台”,该平台不会以任何方式向用户展示任何底层训练图像的表达18。
人工智能模型训练是否符合目的性转换使用的争议实际上来源于转换性使用概念的模糊性,以及利益双方对人工智能模型训练方式的认知差异。目的转换性使用具有高度的抽象性与主观性,使得著作权人、开发者对模型训练的目的各执一词而难以定分止争。然而,合理使用的核心并不是创作者或者原作者的目的,而是受众的认知[4]。任何一种论述在缺乏读者视角的考察下都难以获得有效支撑。目前,权利人对生成式人工智能模型的误解大致有如下几种:其一,模型是简单的拼贴工具。开发者仅仅是下载并复制了图像,并选择其中的一两个图像进行复制或拼贴。然后创造出一个“新”作品,其中往往包含了所使用的可受著作权保护的部分19。其二,无论是图像还是文字模型,本质上都是复印机。当一个图像生成系统在数十亿张图片上训练,并且该系统能创造出与训练集中的图像类似的新图像时,这表明训练数据中的某些图像已经被系统复制或模仿[5]。而大型语言模型不仅可以提供原作品重要部分的逐字副本及摘要,还可以根据要求生成模仿特定作者写作风格的段落。因此,其保留了训练数据集中特定作品的知识,并能够输出类似的文本内容20。这两种观点都是对模型训练过程的误解,错误地将训练视为一种单一且孤立的活动21。实际上,模型训练是一个复杂的过程,它涉及多种因素和步骤,包括数据的收集处理、模型的构建、算法的应用以及模型性能的评估优化。在这个过程中,模型通过学习大量数据的特征来提高其生成新内容的能力,而不是简单地复制或重复训练数据中的单一实例。有必要澄清模型训练过程,以判断其是否符合转换性使用的认定标准。
(二)是否构成对原作市场的实际替代
生成式人工智能模型能够根据用户的提示生成相应的内容,展现出极高的表现力。这种能力使得模型的市场在某种程度上与原作的市场存在相似性,可能会对原作的市场产生替代效应。因此,除转换性与否的争议外,生成式人工智能模型所具有的生成特性要求对其市场因素的影响进行更为细致的分析。著作权人普遍认为人工智能模型破坏了现有和潜在的作品销售、许可和发行的商业市场22。因此,有两方面对合理使用的认定存在不利。首先,人工智能模型直接输出原作或衍生作品,可能造成对原作的替代。其次,训练数据市场正在形成。这要求划定潜在市场的边界,即富有表现力的模型是侵占了作者有可能参与的市场,还是创造了一个作者权利不应垄断的新市场。
针对问题一,模型训练是否会剥夺作者目前所占据的市场。著作权人对于其高质量作品内容在未经许可的情况下被用于训练人工智能系统,并被用来制造具有替代性和表现力的“产出”表示担忧23。在音乐产业领域,出版商称他们授权数字音乐网站、搜索引擎等服务商向用户显示歌词,而人工智能模型与这些授权网站的功能完全相同,允许用户查找和访问出版物上的歌词,形成了直接替代关系24。然而,这实际上是著作权人对模型训练周期存在的误解。模型可以被应用于多种用途,包括在搜索引擎中辅助搜索,根据用户提示显示检索结果。这可能导致模型直接剥夺音乐出版商授权数字音乐网站、搜索引擎等服务商向用户显示歌词的许可费用。但这种影响并非模型训练本身直接造成,而是模型部署于具体应用程序中所导致的结果。不应无限制地延伸因果链,将任何模型应用不当都简单归咎于模型训练。因此,对模型训练更有力的挑战是,著作权人声称生成结果是原作的直接替代品,导致了作品市场价值的损失。在《纽约时报》一案中,原告极力强调了其在制作高质量、原创性和独立性新闻内容上的显著投入,并解释了通过实施付费订阅墙和商业使用许可来回收这些成本的必要性。这些许可对使用内容和方式有严格要求,并为报社带来显著收益。而人工智能开发者却无需承担任何成本,就可以利用这些有价值的成果并从中获利,这对新闻媒体造成了巨大的市场损害25。这无疑是对模型训练最有力的抨击。尽管模型训练和模型输出的合理使用分析需分别进行26,但模型的直接输出会影响训练阶段合理性的判断。即使模型训练是为了有价值的转换目的,这种使用也可能损害受版权保护的原创作品的价值。因为使用的方式可能导致原创作品中核心部分的广泛传播,从而使人们可以获得一个具有重大竞争性的替代品。模型生成的侵权内容,究竟是训练所导致的普遍结果,还是用户在使用技术时的不当指示所导致的罕见错误,决定着模型训练的合理性。
针对问题二,模型训练是否构成潜在市场的威胁。在人工智能模型训练当中,训练数据的质量直接影响着训练效果。基于此,著作权人主张应当采取自由市场谈判的方式。人工智能开发者不仅要获得事先许可,还要对创作者进行补偿27。目前许多人工智能开发者未就其模型训练中使用的表现性内容开展授权谈判或获得相应的使用许可,扼杀了作品作为人工智能训练输入的新兴市场28。这实际上将模型训练视作了人类创作的延伸。然而模型训练与人类创作之间存在根本性的差异。人类创作的创作者通常会在获得授权的基础上,以现有作品为参照,创作衍生作品,这遵循一种明确的一对一、多对一或多对多的创作流程。相比之下,人工智能模型依赖于大量且多样化的数据,这些数据不局限于特定的创作领域,表明训练本质上是一个复杂的多对多的输入输出过程。若苛求模型训练以许可为前提,那么势必导致模型训练市场的高成本、高壁垒,乃至阻碍整个市场的发展进程。目前仅存在许可市场的推测性证据,无法影响合理使用的认定。著作权法并没有赋予著作权人利润最大化的权利。权利人不能简单主张对模型训练收费的权利是一种可认知的伤害,因此为了避免此种伤害,他们必须被赋予对模型训练收费的权利。同样地,开发者也不能仅仅通过证明如果胜诉,他将无须向权利人支付费用,来证明潜在市场的影响不存在29。这种循环论证对任何一方都没有任何好处,并将导致争议的极端化。“潜在市场”不能被理解为版权作品的所有可能用途。如果每一种使用都被视作潜在市场的一部分,那么合理使用原则将会变得难以界定和应用。只有在市场是“传统的、合理的或可能开发的”,而不是受保护的转换性使用时,才会对被告的许可收入损失产生不利影响。这一点在Connectix案例中得到了体现,法院认为Connectix的虚拟游戏站提供了一种转换性使用,它创造了一个新的市场,而不是简单地取代了索尼PlayStation游戏机。尽管这可能会对索尼的销售和利润造成影响,法院仍然认为Connectix的产品是合法的市场竞争者。这表明著作权法并没有给予索尼对播放其生产或授权游戏的设备市场的垄断权30。同理,在人工智能模型的开发训练中,权利人不能仅因为已经占据了书籍、绘画、音乐等表达市场,就拒绝人工智能等新型表达工具的参与。开发者是否需要获得许可取决于模型训练是否能够形成一个合理的、可能开发的市场。如果开发者使用作品的方式是著作权人本身不愿或无法采用的,那么这种使用不会对其造成损害[6]。因此,面对生成式人工智能对创作市场带来的冲击,我们仍需回应的是著作权法的核心宗旨是否仅限于保护传统创作者的利益,还是应包容人工智能在创作过程中的角色。
三、美国人工智能模型训练合理使用的解释路径梳理
美国多次运用合理使用原则以应对新技术所带来的挑战。合理使用的先例经验使得美国技术开发市场更具有活力,促使技术公司和资本家对新技术进行投资,而无需担心陷入著作权纠纷的风险。当然,部分案例则相反。对Napster这样的点对点音乐共享技术,法院认为不属于合理使用,而是剥削性的使用31。因此,有必要探讨美国在认定创新技术整体复制作品构成转换性使用时的标准与价值基础。在此基础上,进一步探究生成式人工智能模型训练与其他作品使用行为的异同,找到生成式人工智能模型训练合理使用的解释路径。
(一)模型训练非以表达使用为目的
即使生成式人工智能的兴起引发了对著作权法的挑战,但该问题本质上并不是全新的。计算机技术的发展早已彻底改变了作品使用的方式。作品并不像以前那样只能被人类复制、传播,而可以被作为计算机技术开发的素材。在数字化的背景下,作品一旦被计算机复制,就会被用于一系列不同的目的。Kelly诉Arriba Soft Corp一案,Kelly所拍摄的照片被纳入Arriba搜索引擎数据库中,使用户可以通过搜索查询到这些图片的“缩略图”。法院认定Arriba对图片的使用与Kelly对图片的使用具有不同的功能,构成转换性使用。摄影图片是艺术作品,旨在为观众提供信息,让观众获得审美体验。而在缩略图中使用该摄影图则与任何审美目的无关32。作家协会诉HathiTrust一案中,HathiTrust将数字化图书用于三种不同用途:全文检索功能、向阅读障碍者提供原文、数字化保存。针对全文检索功能,法院认为通过创建整本图书的数字副本以允许用户查找特定图书中出现的单词或短语属于转换性使用。一个单词搜索的结果在目的、特征、表达、意义和信息上都与它所在的页面和书籍不同。作者写作的目的并不是使他们的书能够进行文本检索。因此,搜索功能不会取代原文表达33。马修萨格(Matthew Sag)教授将此类使用称之为“非表达性使用”。所谓的非表达性使用,指的是对作品进行的复制,其目的在于实现与作品的表达元素无关的特定功能,即这种复制不是为了创作、消费或传播作品的表达内容34。与一般的转换性使用不同,非表达性使用并不向公众传播原始表达,因此可以被视为目的转换性使用的下位概念[7]。在合理使用第一要素的判断下更强调使用目的的独立性与正当性,即其目的完全脱离于原作表达价值,而不涉及对使用内容的判读。在Thomson Reuters诉Ross Intelligence一案中,法院驳回了当事方要求对合理使用辩护进行简易判决的交叉动议,并认为相关事实问题必须由陪审团决定。关于Ross使用Westlaw材料的目的和性质,法院认为这更类似于谷歌一案的技术背景。合理使用将取决于一个有争议的事实:如果Ross通过研究Westlaw标题的语言模式以学习如何出具司法意见书,那么就是转换性的复制。而如果Ross只是单纯通过复制来达到表达再现的目的,则难以符合世嘉案、索尼案等确立的判例法。其次,即便Ross进行了全文逐字复制,合理使用的认定仍需进行具体分析。若整体复制与转换性目的相关联,且复制件不向公众传播,那么也利于合理使用认定35。这意味着,法院构建的合理使用评估框架基本与非表达性使用的判例相符。理解生成式人工智能模型的训练方式对于合理使用的评估至关重要。
非表达性使用之所以构成合理使用,核心在于其并不妨碍版权旨在保护的原创表达利益。区别于作品的传统用途,非表达性使用并未使人类从表达中直接获得艺术体验或知识增值,而是将作品转换为素材,以非交流、非表达的方式使用作品。此种使用对技术开发尤为重要,最早出现于软件逆向工程的合法性判断中。正如世嘉一案法院所强调的,逆向工程是获取软件功能元素所必需的,并且复制世嘉公司代码以符合游戏兼容要求,能够促使Genesis游戏机上独立设计的视频游戏程序数量的增加。这就使得创造性开发与单纯利用他人创造性努力的行为区分开来36。类似地,剽窃检测工具iParadigms虽依赖于对学生论文的全部复制,但其对原作的使用与作品的比较价值有关,并没有削弱对学生的创作激励。在搜索引擎引发的系列案件中,法院强调作品被转换为引导用户访问信息来源的指针,而不是复制作品作为供人欣赏的审美对象37。这些使用方式旨在实现作品本身所不具备的新用途,而这通常依赖于技术的颠覆性突破。人工智能模型训练与以往的非表达性使用案例具有相似性。即使生成式人工智能本身具有强大的表现力,但模型训练的提取目的有利于生成式人工智能的合理使用辩护。人工智能对作品进行复制是为了训练模型,使其能够进行预测、分类、标记、排序或生成内容。人工智能模型的搭建往往需经过较长的周期。开发者首先在大型数据集上进行预训练,以创建基础模型。而后,在更小、更优质的数据集上训练,以适应特定的任务38。在预训练期间,模型从输入数据中学习基本模式,其目的是让系统能够执行一些基本的通用任务。例如,大型语言模型的预训练任务包括“填空”,即向模型展示一份训练文档,并在文档中遮蔽一个或多个单词,模型需要学会准确预测这些被遮蔽的单词。另外,还可以是“预测”任务,即给定一个句子,模型必须从多个选项中选择出实际跟随的下一句话。图像生成模型则在训练图像中添加噪音,然后让模型尝试去除噪音以还原真实图像。除此以外,模型还会学习如何将图像标签中的单词与图像中的相应物体联系起来。正如谷歌数字图书案一样,模型并不是简单地对所接触的数据进行机械记忆。相反,它们从数据中学习潜在的模式、关系和结构,进而生成全新的句子、图像等多样的内容39。因此,模型并不是为了再现受版权保护的表达而设计的,而是利用训练数据中所得出的抽象信息来创建新的、非侵权的内容。对人工智能而言,书籍在训练过程中转化为学习人类如何使用语言的“数据”,而非供人欣赏的“作品”[8]。这就无碍于原作品作为人类消费品的初始价值,并且能为人工智能创造力赋能。
(二)模型训练非以表达传播为结果
著作权法不是对表达的唯一的、专制的支配,而是为了防止原创表达在未授权或补偿的情况下传播给新的公众[9]1906。美国联邦最高法院在戈德史密斯案中对合理使用界限的重新审视体现出对表达替代的重视,要求评估被告的使用是否可能替代作者的原始表达,并以此作为衡量使用是否具有足够转化性的标准40。联邦最高法院引用了谷歌图书案的判决,称重要的是使用目的是否有别于原作。仅仅在他人作品上添加一层新的表达或审美,并在商业背景下向公众传播,而没有进一步的理由,不足以构成合理使用41。合理使用的抗辩与表达替代的风险相关,表达替代的可能性越大,越不可能构成转换性使用。若将表达替代的风险视作一个可滑动的标尺,表达转换性使用因其内容直接面向公众,而具有较高的表达替代威胁,要求对其使用的数量和市场效果进行更详细的分析。而非表达性使用既不以使用原作的表达价值为目的,又未向公众传播任何初始表达内容,表达替代威胁则相对低。作家协会诉谷歌一案中,第二巡回法院认为谷歌与HathiTrust的使用目的与行为效果相同,均在不传播原作表达的情况下实现了作品新的功能。搜索与片段视图功能仅能显示有限的信息,无法成为原作的实质替代品42。因此,在审视非表达性使用的案例时,法院倾向于认为这类使用具有显著的转换性。主要是因为它们不向公众传达原作品的表达内容,从而不满足公众对这些内容的需求。与此相反,那些仅改变了作品传播途径的使用则具有高度表达替代风险。以Meltwater案为例,该公司在网络上搜索新闻报道,并向其用户提供报道节选的行为难以构成合理使用43。尽管Meltwater辩称其将网络上获取的新闻用于信息定位工具,与其他非表达性使用案例具有相似性。但法院认为其实际上提供的是新闻剪报服务,而非旨在改善互联网内容访问的工具。其直接面向用户转载美联社的文章,具有高度的表达替代性。另外,TVEyes录制多个电视和广播频道的视听内容,将这些内容导入数据库,使其客户能够观看、存档、下载十分钟的片段,并通过电子邮件发送给他人。第二巡回法院仅认可TVEyes为搜索而复制符合合理使用,而其观看功能则超出了合理使用的范围44。由此可见,法院在处理那些看起来与先前案例相似的案件时,对行为效果进行了区别评价。一些技术工具的具体使用对原作品的二次传播性过于显著,足以影响原作的市场或价值,而无法认定构成合理使用。
著作权法并不天然意味着对创新技术的否定。在诸多情况下,技术可以在内部利用现有作品,即不传播作品以达到新的使用目的,从而在不削弱作品市场潜力的情况下推进著作权法的基本目的[9]。人工智能与以往的非表达性技术不同之处在于其直接向公众提供输出表达。这便要求对模型输出究竟是全新的非侵权表达,还是对原始表达的替代进行判断。然而,正如文本数据挖掘和其他非表达性使用的情况,模型训练通常不影响著作权人向公众传播作品的权利45。这种使用方式更侧重于从数据中学习模式和结构,而不是直接复制或传播原始表达。在训练过程中,训练数据与模型最终生成的结果之间的联系逐渐被淡化,使得模型能够将所学知识转化为创新的文本输出。因此,输出与任何给定输入相似的情况将是罕见的[10]。人工智能模型不应被视为下一个Napster,一个简单将作品输入输出的中间服务器。相反,它对输入进行分析和理解,并生成独特的内容。尽管人工智能模型能够更高效、低成本地生成作品,并且进一步地与人类作者相竞争,但是新的表达输出并非问题所在。人工智能模型更应被视为技术中立的工具。当用户通过提示语反复诱导生成式人工智能生成特定作品的副本或衍生品时,应当是用户而非开发者直接为该行为负责。相反,如果人工智能模型训练后能够复现训练数据中的原始表达,且此种复现是普遍的和可预见的使用结果,那么模型训练构成合理使用的辩护将不再成立[11]。基于模型通常不向公众传播原始表达,复制的全面性并不对合理使用的认定产生实质影响。大规模复制是训练优质生成式人工智能模型的必要方式。在2017年Transformer模型发布之前,模型训练都是在较小的数据集上进行的。例如,常用的判别式深度学习基准MNIST和CIFAR-10,包含6万张标记图像。相比之下,生成式人工智能的训练数据集,如LAION-5B,则拥有数十亿个训练样本。训练数据越广泛,越有助于降低生成式人工智能的错误率。当模型在大量相同作品的复制品上进行训练时,由于重复性数据的强化,模型更容易学习到这些作品的特征,导致训练结果的反刍[11]。因此,为解决该问题,人工智能开发者反而需要确保训练数据集的足够多元化,而非局限于公有领域。这为人工智能模型大规模复制提供了合法依据。
四、美国新兴技术环境下合理使用认定的经验总结
在人工智能生成作品的背景下,成功训练一个人工智能模型需要使用数十亿条内容。这比美国版权史上任何类似技术所涵盖的作品数量都要多出许多数量级。与传统的合理使用案件相比,模型训练合理使用的认定对经济的影响更大。合理使用制度无疑将决定人工智能的未来。然而,目前难以预测生成式人工智能究竟是成为人类创作的新工具,还是会导致创作的平庸化和单一化。尽管美国的合理使用体系与我国的制度存在显著差异,但其在应对创新技术时开放与审慎并包的做法,对我们具有参考意义。
(一)开放立场:灵活解释以适应技术创新
事实上,这不是合理使用制度第一次站在技术变革的交叉路口。1984年,录像机的命运掌握在了美国最高法院手中。索尼案是一个标志性的法律案件,它不仅涉及消费者使用当时新兴的录像机技术在家中录制电视节目以供日后观看,即“时移”的合法性,而且还触及了录像机作为一种新技术在市场上流通的合法性问题。若法院支持电影制片厂的立场,索尼将不得不停止录像机的生产,或者必须为每台售出的录像机支付版税给电影制片厂。然而,美国最高法院并没有这样做。相反,其认定录像机技术进行的是“大量非侵权使用”,家庭录制是允许的合理使用46。虽然家庭录像机已经过时,但索尼案为合理使用制度应对重大的技术变革奠定了基础,促进了录像市场几十年的繁荣。
合理使用原则是协调著作权法和新技术有效的、灵活的工具。合理使用的重要功能之一是在著作权法中提供一种平衡机制,使其能够解决新技术带来的问题,而这些问题是立法机构无法或没有考虑到的。在坎贝尔案之后,许多涉及新技术的版权案件中,法院通常对转换性进行更宽泛的解释,以涵括为新的目的而使用整个作品的行为。这是因为被告使用作品的目的并不是为了替代原作表达,而是为了实现一些原作所不能提供的新功能,这样的使用不会损害原作的市场或价值。例如,Accolade公司复制世嘉公司的整个软件程序;Arriba公司复制数百万张图片和网页的全部内容;iParadigms复制大量书面作品的全部内容。这些行为均未产生表达替代效果,无碍于合理使用。而其他直接向公众传播原创表达的技术,法院往往认定整体复制难以构成合理使用。以“Napster案”为例,Napster服务器并没有改变版权作品的使用,而是直接让用户通过交换获得所需购买的MP3文件。因此,用户大量且完整地复制版权作品更不利于合理使用的认定47。这表明如果将技术对作品的使用分为输入和输出两个阶段,输入阶段往往被允许使用的范围更广。具体在人工智能领域,则表现为:相比于模型生成阶段,不以原作表达输出为结果的模型训练,可能被赋予更广泛的作品使用自由。这是由于技术开发具有显著的公共利益。为了给颠覆性技术开发留足充分的空间,在法律适用存在模糊性时,美国倾向于根据版权法的根本宗旨来解释合理使用条款。合理使用原则的解释适用呈现出对新技术的宽容态度,能够避免在新技术造成的不可预见的情况之下对创造力的扼杀。
技术开发被给予喘息空间的同时,进一步为公众带来了巨大的利益。正如戈德史密斯一案法院所强调的,具有独特目的的使用是合理的,因为它促进了版权的目标,即促进科学和艺术进步,同时又不削弱创作的积极性48。新技术通常对大量使用该技术的用户的言论自由产生影响。相比于传统的表达性使用,如批判、引用等,非表达性使用对创作激励的影响更为间接和滞后,但同时也更加深远。公众不仅能直接受益于创新技术本身,还能在技术应用过程中获得新的知识增值[12]。以图像搜索引擎为例,其主要作用在于对互联网及其相关网站上的图片进行索引,并简化用户访问和查找特定图片的过程。通过高效的搜索机制,用户可以快速定位到所需的视觉内容,从而极大提高了图片资源的可用性和便捷性。随着搜索引擎用户基数指数级增长,这种技术应用又进一步推动了新知识的创造和积累。与搜索引擎类似,人类可以通过与人工智能互动获取常识性知识。但人工智能的潜力远不止于此。它还能够极大激发和增强人类的创新能力。一是人工智能可以突破人类的惯性认知,提升艺术创作的想象力和创新性。二是作为先进的辅助创作工具,帮助提升艺术创作的效率,并使得更多的人参与到创作中来。更进一步地,人工智能,特别是生成式人工智能已经被视为了继计算机之后的又一项革命性通用技术49。它所具有的快速迭代能力、广泛的适用性、补充性创新的潜力将深刻地改变众多产业格局,并成为推动整个经济增长的新引擎。
新技术在对现有市场造成冲击的同时,也带来了新的机遇。新技术催生的作品市场常常成为版权所有者和技术开发者争夺的对象。从历史经验看来,每当新技术出现、改变作品的使用方式从而使创新者获益的同时,著作权人也意图从创新性技术中获得分配利益。然而,新技术开发往往不是从传统版权产业开始的。著作权人在无法证明创新技术所带来的直接市场替代效应的情况下,通常会主张自己因开发者未能支付许可费而遭受损失。即便如此,法院往往也会否认著作权人对新技术的垄断权。以谷歌案为例,谷歌大规模数字化工作与传统版权业者利益以及商业模式相冲突。作家协会认为谷歌侵占了他们进入许可市场的机会。然而,第二巡回法院驳回了该指控,并称原作许可市场涉及的功能与谷歌提供的功能大不相同,原作市场不及于转换性使用50。合理使用的灵活解释能够给予模型训练市场充分的发展空间。目前,人工智能模型训练建立在两个前提之上。其一,算力的显著提升,为人工智能模型的训练提供了必要的计算资源。其二,关键技术的突破,使得人工智能能够高效地处理和学习大型数据集,从而不断优化模型的性能。因此,模型的整体能力并不是训练数据中任何一个单词或图像的结果。人工智能模型依赖于训练数据,但其生成的内容早已超越了训练数据的范围。互联网上信息的多样性和庞大规模既是训练一个优质模型所必需的,同时也意味着对其中包含的每一个受版权保护的作品进行许可几乎是不可能的。许可的交易成本过高,且难以确定单个作品作为训练数据的价值。因此,人工智能模型训练通常不被视为对现有市场的直接竞争,而属于转换性使用所创造的新市场的一部分。著作权人必须面对由人工智能所带来的市场变革。尽管如此,合理使用原则也为著作权人提供了一定的灵活性。目前,多数国家在承认模型训练属于合理使用范畴的同时,也在探讨如何弥补版权持有者可能遭受的损失。基于各自的司法传统,这一实施路径上呈现出差异化,但本质上具有相同的价值指向。对模型训练持保守态度的欧盟为营利性的数据挖掘情形设定了选择保留的机制。而以判例法为传统、合理使用更为灵活的美国,在过往的判例中也将数据获取的合法性纳入合理使用评估之中51。面对人工智能所带来的新挑战,美国正致力于探究降低模型训练侵权风险的技术风险缓解策略。这些措施旨在确保模型训练顺利通过判例法所形成的合理使用标准[13]。而对于那些高质量、难以公开获取的数据,开发者也在谋求与版权持有者的合作之道。目前,谷歌已经与Reddit达成协议52,允许谷歌使用在线讨论网站上的帖子来训练其人工智能模型。通过谷歌产品汇集信息,使用户能够更便捷地访问Reddit内容。同时,OpenAI与新闻集团达成合作53,获得新闻集团主要新闻和信息出版物的访问权限。除了提供内容外,新闻集团还将分享新闻专业知识,以帮助确保OpenAI的产品中呈现最高的新闻标准。二者的合作范畴不仅限于模型训练,还包括了优质内容的生成传播。不同于原有的二次创作市场,该市场的核心驱动力在于优化模型和增强用户体验。
(二)审慎考量:著作权人利益的必要保护
目前,关于人工智能模型训练是否属于合理使用的分歧较大,其本质上源于传统版权业者对创新技术可能替代人类创作的担忧。此种担忧在传统版权业者的利益驱动下被夸大化。《纽约时报》诉塔西尼一案中,《纽约时报》未经作者同意授权第三方将文章放入电子数据库中,使用户既能检索文章,又能查看、打印或下载检索到的文章。面对作者的指控,《纽约时报》警告称,数据库提供了长期累积的完整报纸内容。如果法院支持作者的主张,将导致电子历史档案中出现重大缺失,造成“灾难性”的影响54。而如今《纽约时报》站在了技术发展的另一端。其在诉状中极力强调新闻报道的创新难度与高昂成本,而将生成式人工智能视为威胁高质量新闻的侵权产品,特别还要求开发者承担数十亿美元的损害赔偿责任,并销毁所有包含《纽约时报》作品的训练数据集和模型。《纽约时报》的态度转变说明它并不总是重视技术的发展或者强调对著作权人的保护,而是将此作为一种推动商业利益的诉讼策略55。因此,任何制造紧张气氛的担忧都不应产生对合理使用判断的实质性影响,对技术替代人类创造力的担忧不应完全由著作权法来处理。在版权局最近发布的《版权和人工智能:数字复制品》报告56中,该机构承认人工智能的风格模仿能力对创作者可能造成的影响,但报告同时指出,目前没有必要通过新的版权立法予以保护。同时,判例法中也体现审慎的态度。安迪沃霍尔基金会曾称,如果法院要求其必须向戈德史密斯支付许可费用,则将阻碍新思想的表达和新知识的获得,造成创造力的匮乏57。此种论断被视为对原创作品价值的忽视。即使二次使用能够带来新的价值,但这并不意味着赋予使用人无视或损害著作权人利益的权利。转换性使用一度被视为促进表达自由、丰富公众认知的工具。美国联邦最高法院在戈德史密斯案中的判决,传递了一个重要的信号,即对那些利用转换性使用进行肆意艺术价值评判的判例进行纠偏。尽管沃霍尔的作品对当代艺术有着显著贡献,但这并不是决定性的。正如坎贝尔案所强调的58,重要的并不是二次使用所新增的表达,而是使用服务于一个完全不同的目的,否则任何二次使用都具有转换性。同时,转换性使用也并非判定合理使用的唯一标准,而是需要与其他因素综合考量。合理使用仍应基于对作品表达替代的全面审查上。
技术本身的价值可能对合理使用产生影响,但并不是决定性因素。毫无疑问,生成式人工智能模型训练构成合理使用有很好的政策理由。然而,合理使用并不是简单作为实现更大利益的公共政策工具。合理使用的判断应基于连贯的法律原则,而不是抽象的政策判断[9]。目前,争议双方均能找到政策支撑,进行纯粹的政策评估将使得合理使用的适用陷入过宽或过窄的境地。对创作产业而言,生成式人工智能是一把双刃剑。生成式人工智能能够提高创作的效率,为缺乏特定艺术能力的人提供创作的可能性。但同时,其又可能造成作品的同质化。然而,新技术本身就难以预测,甚至无法预测。寻求新的解决方案时应该保持谨慎,因为技术的迅猛发展可能使得这些方案很快变得过时或不切实际59。从技术发展视角出发,当出现新的技术时,美国往往遵循“先发展后治理”的路径。面对模型训练的合理使用争议,美国不仅多次开展研讨,给予利益相关者充分的表达空间,而且在诉讼中也多次要求当事人补充或修改诉状以尽量还原事实细节。过往涉及创新技术的司法判例中,美国普遍强调法律的客观性和一贯性,避免仅基于纯粹的价值判断来作出裁决。索尼案最深远的影响在于拒绝以作品的使用是否能够创造新的价值作为判断“合理使用”的决定性标准,而承认纯粹为个人欣赏而复制作品可以构成合理使用。HathiTrust案中第二巡回法院再次强调使用并不是因对“科学进步和艺术培养做出‘无价的贡献’”而具有转化性。转换性是指提供与原作品不同的新功能,而不是替代原作品的作品60。这一点已经被应用于人工智能模型训练的争议案件中。Ross案法院承认在保护创作者和复制者之间做出选择,以确定哪种做法更符合公众利益,是一个复杂且具有挑战性的问题。尽管人工智能技术带来了显著的利益和风险,但单独评估这些利益可能并不充分。法院最终将该问题交由陪审团决定61。
尽管创新技术具有为社会带来重大利益的潜力,法院仍需审慎地进行权衡,确保这些技术的应用不会侵犯著作权人的合法权益。第二巡回法院认为谷歌制作数字化副本提供搜索功能是一种转化性使用62。一方面,该搜索服务通过向公众提供有关原告书籍的信息,丰富了公众的知识基础。另一方面,尽管谷歌复制了原告作品的内容,但其目的并非取代原作的阅读体验或内容,而是为了实现不同的功能和效果。复制的方式并没有造成原创作品中核心部分的广泛传播,从而使人们获得实质性替代品。相反,一些表面上构成非表达替代的技术,实际上只是转换了作品的传播途径。以非表达替代为核心的合理使用要求对使用行为进行更加细致、审慎的分析。由于生成式人工智能能够像人类一样输出表达,表达替代的风险更大。并非所有生成人工智能模型训练均能直接推定为合理使用。相较于传统技术,生成式人工智能模型的训练过程更为复杂且耗时更长,涵盖了多个阶段和众多不同的参与者。区分训练数据的不同用途及其在人工智能供应链各阶段的作用变得尤为重要。相比于预训练所形成的基础模型,微调阶段所使用的数据集往往更小,且通常是专门为特定应用任务特别定制的数据集。如果微调模型被明确设计为生成与训练数据非常相似的内容,其结果可能会产生利用受保护表达方式的内容,从而侵犯该特定表达方式的市场。同时,基础模型与微调模型的开发者可能为不同主体,其行为的目的存在不同。模型微调者可能消除基础模型中设置的反侵权保护措施,造成模型高度预见性的侵权输出,这就超出了合理使用的范畴。因此,透过合理使用原则,司法机构需对每个涉及人工智能模型训练的案例进行细致的个案分析,并在必要情况下为创作者提供适当的补偿。这比无条件地将所有人工智能模型训练视为侵权行为更为合理和灵活。通过这种方式,法院可以更有效平衡版权保护与技术创新的需求。
五、结语
数字技术极大改变了作品的复制和传播方式,也改变了作品的使用方式。在算力与技术的深度融合下,作品不再只能被人类复制并阅读,从而导致传统版权业者与技术开发者的利益分配之争。人工智能模型以其对用户定制化、交互性的需求响应,以及能够创造出广泛多样、表现力丰富的内容,进一步加剧了这一矛盾。模型训练的合理使用争议本质上反映出传统版权产业主体对模型训练方式的认知偏差以及对市场收益的预期落空。为了使人工智能模型训练的法律地位更加明确,可以将其纳入美国判例法中已经形成的分析框架,特别是那些涉及非表达性使用的案例之下。人工智能模型训练既不以表达使用为目的,也未向公众传播原作表达,难以构成对原作表达市场的替代。这一分析框架既摒弃了对商业性整体复制的一刀切否定,又保证了著作权人在原有表达市场的经济效益,兼具灵活性与审慎性。同时,非表达性使用也与三步检验法具有一致性。以非表达为目的的使用,难以对原作品所形成的表达市场产生影响,也因交易成本过高而难以形成著作权人应当控制的新市场,因此不影响作品的正常使用。另外,其限于非向公众传播表达的技术使用,兼具公共利益,损害不至于达到不合理的程度。目前,人工智能模型训练难以被直接解释纳入我国现有的合理使用法定类型中。与人工智能模型训练相近的条款仅有“个人学习、研究”型与“科学研究”型合理使用。“个人学习、研究”型中的“个人”难以扩张至企业,商业性使用也无法归属于学习、研究的目的。虽然“科学研究”型合理使用限定了复制行为应在“少量”的范围内,但并未提供具体的量化标准。可以考虑将“少量”扩张解释为符合使用目的的有限使用,同时将“科学研究”的范畴扩展至以营利性为目的的使用,并通过三步检验法的后两步对其加以限制。但此种解释路径可能会导致法律条文内部的矛盾和法律体系的不稳定,仅能作为临时应对之策。我国可以在《著作权法实施条例》中增设计算机分析的合理使用类型,并通过三步检验法予以限制,以实现著作权人利益与技术开发者利益的平衡。
参考文献:
[1] GRMMELMANN J. Copyright for literate robots[J]. Iowa Law Review, 2016, 101(2): 657⁃81.
[2] SAMUELSON P. Unbundling fair uses[J]. Fordham Law Review, 2009, 77(5): 2602.
[3] SOBEL B L W. Artificial intelligence's fair use crisis[J]. Columbia Journal of Law and the Arts, 2017, 41(1): 57.
[4] HEYMANN L A. Everything is transformative: fair use and reader response[J]. Columbia Journal of Law and the Arts, 2012, 31(4): 448.
[5] MURRAY M D. Generative AI Art: copyright infringement and fair use[J]. SMU Science amp; Technology Law Review, 2023, 26(2): 264.
[6] SAG M. God in the machine: a new structural analysis of copyrights fair use doctrine[J]. Michigan Telecommunications and Technology Law Review, 2005, 11(2): 93⁃392.
[7] SAG M. The new legal landscape for textm mining and machine learning[J]. Journal of the Copyright Society of the USA, 2019, 66: 320.
[8] LEVENDOWSKI A. How copyright law can fix artificial intelligence's implicit bias problem[J]. Washington Law Review, 2018, 93(2): 625.
[9] SAG M. Fairness and fair use in generative AI[J]. Fordham Law Review, 2024, 92(5): 1899⁃1906.
[10] LEMLEY M. How generative AI turns copyright law upside down[J]. Science and Technology Law Review, 2024, 25(2): 192.
[11] SAG M. Copyright safety for generative AI[J]. Houston Law Review, 2023, 61(2): 312⁃327.
[12] LEE E. Technological fair use[J]. Southern California Law Review, 2010, 83: 820.
[13] HENDERSON P, LI X C, JURAFSKY D, et al. Foundation models and fair use[J]. Journal of Machine Learning Research, 2023, 24(400): 1⁃76.
The American Experience of Measuring Fair Use in AI Model Training
Xiong" Qia,b, Chen" Ziyia,b
( a. Law School; b. Research Center for Judicial Protection of Intellectual Property, Huazhong University of Science and Technology," Wuhan 430073, China)
Abstract: AI models rely on the replication and analysis of many works, which has led to conflicts between copyright holders and the demands of AI training. The reason for the current controversy lies in the lack of understanding of artificial intelligence model training and the failure of copyright owners to achieve profits in emerging markets driven by technology. In U.S. judicial practice, the fair use doctrine has been applied in areas such as software reverse engineering and full-text digitization. This experience of interpreting new technologies in a way that allows room for development reflects a judicial tolerance for innovation. Although the United States has not yet come to a definitive conclusion on the controversy over AI model training, its historical experience suggests a trend towards adjudicating it as fair use. Such experience can help us balance the relationship between technological innovation and copyright protection, and reconcile the relationship between old and new industries.
Keywords: artificial intelligence; model training; fair use; non-expressive substitution