生成式人工智能数据训练中的版权问题研究

2024-12-13 00:00阮开欣黄歆瑜
中国版权 2024年5期

关键词:生成式人工智能;数据训练;合理使用;版权侵权

一、问题的提出

近年来,方兴未艾的人工智能技术发挥出“头雁”效应,引领着新一轮的科技革命和产业变革。生成式人工智能并非对现有数据进行简单的分析或分类,而是能够独立生成并创建全新内容。从运作机制来看,生成式人工智能通过数据的投喂和训练建立算法模型,并在迭代训练的过程中不断完善输出结果,最终形成满足用户需求的架构设计。以ChatGPT为例,其使用的“大型语言模型”在Common Crawl等大型数据集的基础上,对语言规则、语义知识和上下文语境等因素进行学习。经过预训练、优化训练等数据处理后,ChatGPT能够掌握数据蕴含的结构和规律,并完成各种文字和推理任务,如问答、写作、翻译等。因此,海量数据的输入是释放人工智能的潜力的先决条件,其不仅有助于搭建基础模型本身,还能用于模型的优化微调,以贴合广泛的下游任务。自2022年底以来,包含OpenAI公司、谷歌公司在内的生成式人工智能运营商(AI运营商)投身于AI研发,利用大规模和高质量的数据训练大型模型,并在此基础上构建ChatGPT和Bard等产品。现阶段的生成式人工智能不仅能生成文本、音频、图像和视频四种基本内容形式,还能在此基础上进行跨模态生成,带来创新应用蓝海。

随着生成式人工智能处理信息方式的多元化,模型训练过程涉及到的数据数量和种类也日益增多。然而,训练数据中的大部分材料来自于受版权保护的作品,AI运营商在利用作品时存在版权侵权风险。具言之,在输入阶段,AI运营商需要将他人文字、声音或图像等多种版权作品输入到数据库,以供人工智能复制并输送给模型学习。该过程受到版权人复制权的控制。在输出阶段,通过算法设计和程序运行,生成式人工智能模型对版权作品进行综合性的使用,实现“洗稿”“重混”“融梗”“拼凑”等创作物生成活动。此时如果生成物包含了他人作品或者作品片段的独创性表达,AI运营商则涉嫌侵犯版权人的复制权和传播权。

至今,已有相当一部分AI运营商被卷入版权争端的漩涡。2023年1月,漫画家莎拉·安德森(Sarah Andersen)联合另外两位艺术家向美国加利福尼亚北区联邦地区法院提起诉讼,追究Stability AI等公司的版权侵权责任(以下简称安德森案)。原告在起诉状中指称,StableDiffusion等AI绘图软件先对作品进行了复制,再均匀扩散到最终的生成图像的画素之上,从而生成了与原作具有竞争关系的演绎作品。因此,被告涉嫌侵犯原告作品的复制权、演绎权、发行权、表演权和展示权。该案发生后,其它知名AI运营商也相继深陷集体诉讼和作家的个人起诉,包括崔布雷等诉OpenAI案(以下简称崔布雷案)、盖帝图像公司诉Stability AI案(以下简称盖帝图像案)、J.L.等诉谷歌案、环球音乐集团诉Anthropic案(以下简称环球音乐案)、纽约时报诉OpenAI案、哈姆扎等诉Dudesy公司等案。与“安德森案”类似,这些诉讼的指控内容和举证过程也主要集中在AI运营商对版权作品的非法使用。

可以预见的是,随着生成式人工智能行业的不断发展,大量此类版权侵权诉讼将涌入我国司法领域。2024年2月,我国广州互联网法院已针对一起AI运营商侵犯他人版权的纠纷(以下简称奥特曼案)作出判决,认定被告侵犯了作品的复制权、改编权和信息网络传播权。基于生成式人工智能的技术特性,训练数据的质量直接关系着其最终的性能。数据的自由获得和使用是通过深度学习来发展人工智能的前提和关键。为避免法律对市场竞争与技术发展造成过度制约,有必要从科技向善的角度出发,分析数据训练过程中的版权侵权风险。鉴于此,本文试图从生成式人工智能数据训练的版权法正当性出发,分别探讨数据输入阶段使用作品的合理使用认定,以及数据输出阶段AI运营商的侵权责任问题,进而对我国司法实践提出相应建议,以期实现版权保护与公共利益之间的平衡,并为生成式人工智能治理提供有益思路。

一、生成式人工智能的数据训练在版权法中的合法性

版权法除保护作者版权和版权有关的权益之外,还旨在鼓励作品的创作和传播,并促进社会主义文化和科学事业的发展与繁荣。从功利主义的角度出发,版权法的首要目标是实现社会整体福祉的最大化。版权法的经济合理性不在于一味地对创造者的劳动进行奖励,而在于通过适当的激励来确保人们从事创新活动。正是出于社会利益最大化的考量,版权法通过合理使用、法定许可等制度对版权人的权利进行限制。适当的限制不仅能够激励作品的创作和传播,还能够保障公众获取作品的能力,进而维系版权人与公众之间的利益平衡。

生成式人工智能的发展演进和应用现状亦体现了数据训练对公共利益的促进。庞大的数据赋予了生成式人工智能强大的语言理解和生成能力。通过即时的数据分析和信息传递,数据训练能够有效促进智力成果的转化和技术的进步,从而推动社会繁荣。例如,ChatGPT在对维基百科、Common Crawl等数据集学习后,能够作为聊天机器人生成个性化回答,减少人类获取优质信息所需的时间和精力。又如,Stable Diffusion等人工智能从训练数据中提取作品的信息特征,从而根据用户的提示词生成文字、图画、歌曲等创意内容,极大地激发了人类的创新。目前,生成式人工智能已逐步渗透到人类生产和生活的各个环节,其大规模应用已成为一种必然趋势。医学、化学、物理学等领域都逐步建立高质量的专业数据集,并利用预训练模型开展探索,在提高科研效率和准确性的同时催生更多创新。可见,数据训练促进了知识的获取、利用和传播,并驱使科学、商业以及社会的变革,最终促进社会总体福利增长。

数据训练是人工智能研究的核心阶段,决定了算法模型的搭建和输出内容的质量。无论是运用作品进行模型训练,还是利用所得模型进行内容生成,都会产生相应的侵权风险。但是从维护版权人个人利益与社会公共利益间平衡的角度,授予版权人的专有权不应妨碍社会对作品传播和利用的需求。缺乏优质的训练作品会降低人工智能生成内容的质量和预测的准确率,严重制约技术创新与文化繁荣,进而减损社会福利。此时,适当限制版权人的专有权亦有利于弥合版权法保护版权人利益和促进公共利益的立法目标抵牾。

生成式人工智能的研究和创新在很大程度上依赖于文本与数据挖掘技术(Text and Data Mining,以下简称TDM)的应用。TDM是旨在从数字形式的文本和数据中提取信息的计算机处理技术。只有通过TDM对大量数据进行分析,人工智能才能挖掘数据中隐含的价值,从而实现深度学习。近年来,不少国家和地区都积极修订法律.将满足一定条件的TDM纳入合理使用。例如,欧盟在2019年发布的《数字化单一市场版权指令》中新增两项TDM例外,包括科研及文化遗产机构以科学研究为目的的TDM行为(第3条)和以TDM为目的复制和摘录合法获取的作品或其他客体的行为(第4条)。该两项规定增强了科学研究中获取版权作品的便利性,以此释放文本与数据的潜力,并达到激励创新的效果。又如,日本在2018年对《日本著作权法》进行修订,旨在扫除法律对人工智能技术发展形成的阻碍,以确保AI和大数据行业的发展。该法确立了TDM例外的多项合理使用条款,包括“不以享受为目的的作品使用”(第30条第4款)、“计算机利用作品时的附随性使用”(第47条第1款和第2款)和“利用计算机进行信息处理并向公众提供处理结果时对作品进行的轻微使用”(第47条第5款)。考虑到TDM技术对人工智能应用与发展的重要性,英国在2022年公布的改革提案中也有意扩大TDM例外的范围,将非商业性目的的TDM涵盖在内,体现出了对新技术的包容和支持。

我国《著作权法》并没有为TDM专门设立版权例外条款,因此,如何应对生成式人工智能数据训练引发的一系列版权问题,并调和技术发展与权利人的利益冲突,是当前司法实践亟待回应的问题。数据训练的版权法正当性并非一概而论,而需要根据生成式人工智能的具体性质进行个案分析。AI运营商开发的人工智能产品可以包含版权合规型AI和版权违规型AI。版权合规型AI,通常指生成非侵权内容的生成式人工智能,其生成的内容往往与在先的版权作品不存在实质性相似。该类AI能够实现社会福利的最大化,亦与版权法的立法目的相契合。版权违规型AI,通常指生成侵权性内容,且生成内容本身不构成特定合理使用情形的生成式人工智能。公共利益的实现并不意味着过多的让步,而是对版权人的权利进行适当限制,最终实现版权人利益和公共利益的平衡。版权违规型AI的应用会对版权人造成实质性损失,这与版权法激励创新的宗旨背道而驰,因而不具有版权法意义上的正当性。

三、数据输入阶段的合理使用认定

在司法实践中,法院通常根据四要素标准对合理使用抗辩的有效性进行评估。四要素标准来源于美国版权法,其规定了四个在判断合理使用时可供司法者考虑的要素,具有高度的灵活性。四要素标准包括作品使用行为的目的和性质、被使用作品的性质、被使用部分的数量和质量、使用行为对作品潜在市场或价值的影响。

(一)作品使用行为的目的和性质

1.对转换性使用的分析

自坎贝尔诉艾克夫柔丝音乐公司案后,转换性使用成为美国法院判断合理使用的核心。转换性使用的内涵被界定为:新作品的目的并非为了取代原作品,而是向原作品中加入了新表达、新含义、新信息,使其目的或性质得以转变,以达到版权法扩充公众知识的总体目的。换言之,如果被诉侵权行为对原作品添加了新的价值,那么这正是合理使用原则为了社会利益而要保护的行为。

就版权合规型AI而言,数据的输入并非为了再现原作本身的文学或艺术价值,而是为了提取作品元素进行深层理解,通过学习、模仿人类作品以输出不同于原作的新内容。该类人工智能的应用能够繁荣文化市场,从而满足社会公众对知识和信息的需要。美国司法实践已经明确,如果向机器输入作品的目的是为实现不同于原作的公共利益功能,那么该数据输入行为具有转换性。在美国联邦第二巡回上诉法院2015年判决的作家协会诉谷歌公司案(以下简称谷歌案)中,谷歌公司以提供检索和片段浏览服务为目的将大量的图书进行扫描和数字化,该数据输入行为被认定为具有转换性。通过扫描图书得到的数据集可以实现检索功能,使得用户能够对电子书中的特定词汇或短语进行定位。片段浏览功能可以向用户展示与搜索词相关的上下文片段,进而评估这本书是否在用户的兴趣范围之内。因此,法院认定谷歌公司向机器输入版权作品的目的、性质、表达、意义和传递的信息都与原作有所不同,应构成转换性使用。与谷歌数字图书类似,版权合规型AI会将输入的数据转换为AI系统可读取的格式,进而学习作品的语言模式、数据分布或曲式结构等特征,最终创造出新的信息。这种作品使用方式也被称为“非表达性使用”,其复制目的并不是为了让人类进行享受、欣赏或者理解,因而在目的和功能上发生了转换。同时,在采取算法优化、关键词过滤、结果过滤等版权过滤措施后,版权合规型AI的生成内容通常不会与原作构成相似,难以构成有竞争性的原作替代品。在此情况下的数据输入行为是为了开发出一种接近人类的智能,让更多的人能够接触和利用技术,进而实现公共利益的最大化,具有较高程度的转换性。

目前来看,AI运营商开发的产品大多属于版权合规型AI,其应用对创作方式的变革和信息传播的促进都具有积极作用。例如,在盖帝图像案中,被告利用大量图片对图像生成式人工智能进行训练,通过扩散和解码等方式使模型学习与图片描述相关的潜在特征。如果被告在作品知名度、主题多样性和模型大小等方面采取了技术措施,那么输出结果极小概率会与原作构成实质性相似。此时,作品的复制件与原作服务于不同的功能,且不会构成实质性的替代。数据的输入是为了推出一个高性能的创作工具,并广泛应用于图像的生成、修复、去噪与超分辨率成像等领域,应构成转换性使用。又如,在崔布雷案中面临侵权指控的ChatGPT产品亦有可能属于上述的版权合规型AI。该案中,OpenAI公司将原告作品作为ChatGPT训练数据集的一部分,让模型对其中蕴含的模式和特征进行记忆。这使得ChatGPT模型能够有效理解人类语言和知识,进一步分析用户需求并生成适当的回复。同时,在算法设计下,ChatGPT输出文本时并不会照搬语料库的内容,而是会进行重新表述。随着ChatGPT逐步渗透到人类生产和生活的各个环节,它不仅为用户带来了个性化的内容服务,还提高了人类工作效率,节省了时间和人力成本。因而OpenAI公司的数据输入行为应构成转换性使用。

与版权合规型AI不同,版权违规型AI的生成内容大概率与原作构成实质性相似。这种作品利用行为可能对版权作品造成实质性的替代,因而不具有转换性。例如,在环球音乐案中,Anthropic公司开发的人工智能Claude有可能属于版权违规型AI。当Claude被问及歌曲的具体歌词时,其通常输出与原作歌词完全一致的复制品。当用户要求Claude创作歌曲时,Claude也并没有生成原创的歌词,而是生成了他人歌词构成实质性相似的文本内容。这些事实表明,Claude生成的内容大概率会再现原作的表达。若生成物的侵权具有频发性,则Anthropic公司的数据输入行为不具转换性。

2.对商业性要素的分析

第一要素还需考虑使用行为是否具有商业性。使用行为越具有转换性,商业性因素在合理使用判断中的重要性就会越小。同时,如果商业性使用行为有助于实现版权法所承认的公共利益价值,那么公共利益价值的保护位阶优先于版权人的利益价值,足以减少商业性因素带来的不利影响。在谷歌案中,谷歌公司能通过扫描图书所实现的功能增强自身市场支配地位,从而获取间接利益。但法院认为,当转换性使用展现出社会效益时,谷歌公司的商业动机并不能撼动其合理使用的认定。AI运营商同样具有商业性,能够通过向用户提供收费服务和销售人工智能软件等方式获得丰厚利润。但由于数据输入行为的转换性程度较高,并能为公众带来充分的社会利益,此时商业性不应当影响合理使用的认定。

综上,在输入阶段,AI运营商在训练版权合规型AI时的数据输入行为通常具有高度转换性。同时,生成式人工智能服务于公共利益的属性也应足以压倒商业目的带来的不利影响,因此第一要素有利于合理使用的构成。

(二)被使用作品的性质

第二要素关注被使用作品的性质,包括作品属于“事实性作品”抑或是“虚构性作品DbOlKPVDnSO+UY6mxzayZ1cJswaVPtFTmgzq05xV/Jg=”,以及属于“已出版作品”抑或是“未出版作品”。但第二要素并非合理使用的决定性要素。该要素的判断依附于使用行为的转换性程度,当使用行为服务于高度的转换性目的时,第二要素起到的作用微乎其微。在谷歌案中,法院认为由于谷歌公司的扫描行为具备转换性,因而无论被扫描的图书是小说作品还是事实作品,都不会影响合理使用的认定。与谷歌案相似,生成式人工智能获取作品的途径包括开放性数据库、网络爬虫以及用户上传等,因而涵盖了各种类型的作品。但是当数据输入行为展现出较高程度的转换性时,被输入作品的性质不应当影响合理使用的认定。

(三)被使用部分的数量和质量

第三因素考虑的是作品被使用部分的数量和质量。对版权作品的使用应当以“没有超过必要的限度”为标准。首先,合理使用不以少量使用为前提。如果使用行为是为实现转换性目的所必需的,那么大量使用也能构成合理使用。其次,该要素关注使用行为令公众接触到的数量和实质内容,是否使其可能成为一个竞争性的替代品。在谷歌案中,法院认为就搜索功能而言,对书籍进行整体复制是必要的,否则搜索结果无法将关键词出现的次数准确地告诉用户。就片段浏览功能而言,谷歌公司通过黑名单的设置,确保了用户所获取的文本并不属于作品“实质的内容”,即无法达到具有竞争性的程度。因此,谷歌公司的作品使用行为能够通过第三要素的检验。同理,生成式人工智能对版权作品的整体复制也服务于其高度的转换性。只有对版权作品进行尽可能完整的复制,才能够确保输出结果的准确性、适当性、安全性和实用性。不仅如此,人工智能并不能像人类一样直观地对信息进行判断,只能将信息分解后再分析。为避免因样本缺失而导致输出结果出现算法偏见或过拟合现象,也有必要通过更加平衡和多样化的训练数据以提高生成物的质量和公平性。同时,版权合规型AI的生成内容和训练数据之间通常不构成实质性相似。公众通常无法接触版权作品的表达性内容,输出内容也难以成为针对原作的竞争性替代品。综上,第三要素有利于数据输入行为构成合理使用。

(四)使用行为对作品潜在市场或价值的影响

合理使用的第四要素不仅考虑被控侵权人特定行为对传统营利市场造成的损害程度,还应考虑其行为是否会对原作潜在市场造成实质的不利影响。关键在于,若复制件为原作带来了竞争性替代的风险,从而剥夺版权人的实质性收入,则使用行为不宜构成合理使用。同时,第四要素的分析与第一要素也密切相关,使用行为的转换性程度越高,复制件构成实质性替代的可能性越小。

版权合规型AI生成物与原作之间的相似性很小,因而难以构成有竞争性的原作替代品,亦不足以减损版权收入。例如,ChatGPT的摘要功能只会对书本剧情进行简单概括,而并不涉及完整的段落或章节。片段化的内容呈现无法向使用者传递作者的思想感情,在客观上亦不足以对原作市场价值或产品销路造成实质性影响。需要指出的是,“竞争性替代”是针对表达的替代,并非针对思想的替代。近年来,不少生成式人工智能具备模仿艺术家独特风格进行创作的能力,但对于风格模仿是否会削弱原作市场的问题,始终存在一定争议。在谷歌案中法院提出,原作的市场只会延及到版权保护的表达。当用户试图通过片段浏览功能了解历史性事件时,作者的版权并不会延及到其书中所包含的事实,这不会让谷歌公司的扫描行为构成侵权。同理,尽管人工智能会在学习过程中提取作品的风格与特定表达,但生成内容并不会涉及原作的独创性表达。根据思想与表达二分法,风格等高度抽象的思想属于非表达性要素,本应被划定在公有领域并允许其他人自由使用。如果认为作品的原初价值涵盖风格等作品内容,那么这会极大阻碍人工智能产业实践的创新。因此,即便人工智能能够输出与特定作家风格相似的新内容,其亦不属于原作市场的范畴,不能成为否认合理使用的理由。

判断使用行为是否对原作潜在市场造成影响,还需要分析其是否会形成许可市场。作品的许可市场属于潜在市场的一部分,若作品使用行为不会形成许可市场,则有利于合理使用的构成。在“谷歌案”中,假设谷歌公司需要向所有图书的版权人寻求许可,所耗费的成本将导致该商业模式无法生存,进而阻碍公众对信息的获取,原告对于许可市场的主张也因此被法院否认。同理,机器学习所需的数据浩如烟海。若AI运营商需要针对数据库中的每一件作品获取许可并支付报酬,其中的费用成本过于巨大,且从现实角度出发也难以执行。因此,人工智能的数据训练并不存在许可市场,引入合理使用规则亦不会影响到版权人通过许可获得的经济利益。

基于上述对合理使用四要素的分析,笔者认为,AI运营商为训练版权合规型AI的数据输入行为构成合理使用。同时,构成合理使用的关键在于使用行为对公共利益的实现。因此,版权法为权利人所提供的保护不应影响社会公众及技术创新对作品的合理需求,训练版权合规型AI时的数据输入行为宜被认定为合理使用。

四、数据输出阶段的侵权责任认定

人工智能生成物的侵权判断采用“接触+实质性相似”规则,但生成内容与原作品构成实质性相似,并不意味着AI运营商必然构成侵权。首先,与生成内容存在实质性相似的作品可能是超过保护期限而进入公有领域的作品。其次,作品版权人可通过知识共享许可协议等方式许可他人在授权范围内对作品进行使用。当版权人没有明确做出许可的意思表示时,使用作品行为仍可能满足适用默示许可的条件而无需版权人授权。最后,生成内容可本身构成特定的合理使用情形,诸如批评、评论、滑稽模仿、挪用艺术等。对于上述三种情形,即便生成内容和在先作品构成实质性相似,但都不构成侵权内容,AI运营商亦无需承担责任。

在生成物构成侵权内容的情形下,AI运营商需承担损害赔偿责任,该责任的确定应适用过错责任原则。如果AI运营商不存在过错,那么法院可以免除其赔偿责任。从促进人工智能行业发展和公共利益最大化的角度出发,使无过错的AI运营商免于承担赔偿责任,也能够避免给技术的应用和发展带来不合理的经济负担。过错的判断需要考虑AI运营商是否尽到了合理的注意义务,包括是否采取了事前预防措施和事后纠正措施。

在事前阶段,AI运营商应采取版权过滤措施,即在现有技术条件下对生成内容的质量进行把控以避免侵权结果发生。在利用过滤技术的情况下,人工智能生成侵权内容通常具有偶发性。即便输入行为引发了侵权,但AI运营商已经做到在技术层面人为强化训练数据和生成内容的差异,并不存在过错。若AI运营商未尽到现有技术水平相应的结果避免义务,即未采取有效的版权过滤措施,则说明其应当能够预知到潜在的版权侵权风险却未加以防范。若生成内容大概率与版权作品构成实质性相似,法院甚至可能认定AI运营商存在侵权的恶意,从而适用惩罚性赔偿。

要强调的是,版权过滤措施的采取应当以现有技术为标准。尽管企业能够通过算法设计或训练数据选择等版权过滤措施尽可能避免侵权,但在算法黑箱下,企业只能通过观测输入和输出结果判断人工智能的合理运行。AI运营商无法对模型训练涉及的数据进行精准审核,亦无法保障输出内容百分之百的合乎版权法要求。考虑到输入数据的庞大性和算力的复杂性,法院应当按照损害结果发生时的技术水平来判断AI运营商是否尽到了必要的义务,以及是否排斥侵权结果的发生,而不宜过度加重AI运营商的义务。

在事后阶段,AI运营商应尽的注意义务主要在于版权纠正措施的实施。第一,AI运营商在提供服务时应建立举报投诉机制,从而更有效地预防侵权。人工智能可以在短时间内生成大量内容,直接进行人工审查的成本过高。考虑到技术的可行性,通过用户或版权人发出侵权通知的方式来发现侵权情形,再由AI运营商采取相应措施,是必要的制止侵权方式。例如在“奥特曼案”中,被告经营的网站生成了与涉案奥特曼形象构成实质性相似的图片,缺乏投诉举报机制则是法院判定被告存在过错的主要因素之一。法院认为,被告在经营网站时未能建立任何的投诉举报机制,导致版权人难以通过投诉举报的方式维护权利,这证明了被告作为服务提供者未尽到合理的注意义务。因此,在人工智能生成内容可能侵犯他人版权的情形下,AI运营商应建立举报投诉的渠道,以保障版权人的利益,并尽可能地减少侵权行为带来的不利影响。第二,在接到侵权通知后,AI运营商应在合理期限内进行相应的算法纠正。人工智能生成内容具有高度的随机性,其很有可能会再次生成侵犯同一版权作品的新内容。仅仅移除特定侵权内容无法有效消除版权人的损害,只有采取相应的补救措施对算法进行及时修正,才能够获得相对稳定的输出结果。基于此,为有效打击反复侵权的问题,AI运营商的义务不能仅限于对侵权内容进行移除,还应当采取更为积极的管控措施。具言之,AI运营商应在接到侵权通知后运用删除侵权数据、重新训练、干扰学习等技术方法,以防止侵权内容的再次生成和扩散。

五、对我国司法实践的建议

从上文的分析可得,输入阶段主要涉及AI运营商在训练模型时的数据输入行为,而合理使用制度是证成数据输入合法性的重要支撑。基于生成式人工智能公共利益属性,数据训练可以通过四要素的检验方式构成合理使用。尽管我国《著作权法》第二十二条对合理使用采取半封闭式的立法,但司法实践已展现了突破法律对合理使用情形进行适当扩展的可能。同时,最高人民法院也通过司法政策的颁布,允许法院在必要时借助四要素标准认定合理使用。为提高训练数据质量、增强生成式人工智能实用性并促进相关产业的发展,我国法院应在司法实践中进一步吸收和借鉴四要素判断规则,辨明合理使用制度是否能成为输入阶段AI运营商侵害版权的抗辩事由。

目前,为适应时代要求并克服条文适用僵化的困境,已有部分法院引入四要素标准对合理使用行为进行灵活认定。例如,在北京市高级人民法院审理的王莘与北京谷翔信息技术有限公司等案中,法院运用四要素标准进行说理,包括使用作品的目的和性质、受著作权保护作品的性质、所使用部分的性质及其在整个作品中的比例等。据此,法院认为涉案网站对图书采取的片段式使用方式不会再现原作的表意功能,还为公众提供了更为便捷的信息检索服务,因而在功能和目的上具有转换性。尽管被告对图书的使用未事先获得原告许可,但其并不会损害原告的合法利益,也不会对原作市场造成不利影响,在充分考量公共利益后,应认定构成合理使用。从该案可见,我国法院在面对保护版权人利益和促进作品传播的冲突时,将社会公共利益作为重点考量因素,从而满足公众对作品的合理需求。人工智能所发挥的社会功能也能够极大地促进公共利益,人工智能的监管不能以牺牲或放弃技术发展为代价。为适应科技进步和经济社会发展形势需要,我国司法裁判应允许AI运营商在未经版权人同意的情况下,以训练版权合规型AI模型为目的使用版权作品。

在基于四要素标准认定合理使用时,我国法院不应将使用目的严格限于“非商业性”。实践中,商业性的公司AI运营商是开发和使用人工智能技术的主力军。如果以商业性因素对主体范围进行约束,则会极大地压缩技术发展和创新的空间,影响人工智能产业的健康发展。同时,法院应利用转换性使用的概念解释数据输入行为。目前我国法院借助转换性使用概念进行审理的案件并不在少数。例如,在上海美术电影制片厂与浙江新影年代文化传播有限公司等案中,法院认为被诉行为使原作的艺术价值功能发生了较高程度的转换,因而属于合理使用。在上海美术电影制品厂与广州读努门教育科技有限公司案中,法院还利用利益平衡原则对合理使用的结论进行补强解释。法院指出,被告对作品的使用能够促进知识传播,因而从平衡公共利益和作者个人利益的角度考虑,该使用行为具有转换性且构成合理使用。版权合规型AI的模型和功能设计各不相同,但数据输入的目的都并非单纯展示版权作品的美感或艺术价值,故在目的和功能上已发生转换。同时,AI运营商将作品输入模型还具备促进技术发展的价值,将其纳入合理使用范畴有助于维持版权人个体私权与社会公共利益之间的生态平衡。可见,转换性使用规则能够对合理使用进行更富有弹性的解读,从而为生成式人工智能技术的应用和发展提供良好环境。

在输出阶段,当法院判定输出内容构成侵权后,还需认定AI运营商所承担的责任。根据《民法典》和《著作权法》的相关规定,若生成内容侵犯版权,法院应按照具体情况要求AI运营商承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。此外,我国《生成式人工智能服务管理暂行办法》也规定,生成式人工智能的服务提供者应对违法内容及时采取“停止生成”“停止运输”“消除”“模型优化训练”等措施。其中,在法院确定具体赔偿数额时,根据《民法典》第一千一百六十五条,AI运营商存在过错是承担赔偿责任的前提。

如今人工智能技术发展迅速,全球各国都在积极布局,希望在人工智能研究这一全球竞争赛道上占据有利地位。我国法院也应当充分考量版权保护和社会公共利益的关系,以包容的态度面对新技术。如果生成侵权内容就要求AI运营商承担赔偿责任,未免过于苛刻,其中的高昂成本也会阻碍该产业的发展。鉴于此,在判定损害赔偿数额时,法院应充分考量AI运营商的过错,减免采取合理措施的AI运营商的赔偿责任。具言之,若AI运营商在事前阶段已采取版权过滤措施,并在事后阶段及时采取版权纠正措施,则法院可以认定AI运营商不存在过错,同时无需对侵权行为承担损害赔偿责任。反之,若AI运营商没有采取合理的事前预防和事后纠正措施,则法院应认定其存在过错,并根据相应的过错承担损害赔偿责任。例如在我国法院判决的“奥特曼案”中,由于AI运营商未履行合理的、可负担的注意义务,不符合无过错的标准,因此法院判决被告向原告赔偿经济损失。这既能实现对权利人的有力保护,也能对侵权者进行适当的惩戒。

六、结语

充分挖掘数据要素价值、学习数据并生成新数据,是生成式人工智能为人类经济社会发展“赋能”的关键。人工智能有效运行所带来的社会福利远大于其中的弊端,为此不能因噎废食,而应当充分运用合理使用和侵权责任减免制度打破版权壁垒,为生成式人工智能技术的进步和创新提供更为广阔的发展空间。这也与版权法实现社会整体福祉最大化的目标相契合。

在输入阶段,基于生成式人工智能的强大公共利益属性,偶发性的侵权不足以成为扼杀新商业模式的理由,以训练版权合规性AI为目的的数据输入行为通常构成合理使用。在输出阶段,若AI运营商尽到了合理的注意义务,即采取了应尽的事前和事后措施,应当免于承担赔偿责任。我国法院应以公共利益作为裁判重点,对输入阶段的各种作品使用行为,以及输出阶段的侵权责任进行认定,进而激励创新并推动人工智能应用场景的拓展。