摘要:生成式人工智能大模型语料训练是否构成侵权,有几种不同的解释论。通过对产业界、创作者、其他利益相关者等各方诉求分析,对比不同解决路径的优缺点,合理使用规则是解决该问题的最优路径。合理使用规则的适应性,不仅取决于其制度价值本身,还在于传统“四要素”和“三步检验法”分析框架已经发生的变化,即“转换性使用”在合理使用制度中具有了独立的地位。新技术时代,“变革性使用”又进一步超越了传统合理使用理论中对行为人主观意图的考量,转而关注使用行为在客观上是否推动了技术发展与社会进步。司法层面,合理使用路径适用于大模型语料训练具有比较优势,在当前法律框架下也具有可行性。诚然,也存在典型的不适用合理使用、应当被认定为侵权行为的情形。
关键词:生成式人工智能;合理使用;转换性使用;公共领域保留;变革性使用
一、问题的提出
生成式人工智能技术的迅猛发展及其日益扩大的应用场景,已然成为社会各界瞩目的焦点。在版权领域,这一技术革新不仅对法政策带来了前所未有的挑战,实践中还不断检验着传统法理的普适性和相关规则的合理性。例如,在人工智能大模型训练中,其使用语料进行训练的行为是否具有合法性、是否涉嫌侵犯版权,引发了业界广泛的关注与讨论。
按照基础模型来区分,人工智能主要包括决策式人工智能和生成式人工智能。决策式人工智能主要学习数据中的条件概率分布,即一套样本归属于特定类别的概率,机器可对新的场景进行判断、分析和预测。生成式人工智能主要学习数据中的联合概率分布,即数据中由多个变量组成的向量呈现一定的概率分布,机器可以对已有数据进行归纳总结,并在此基础上使用深度学习技术等来创作模仿式、缝合式的内容。{1}目前,生成式人工智能被广泛应用于文字、图片、音频、视频等内容的生成领域,而海量的数据则是生成式人工智能训练所需要的基础养料。以生成图片的大模型StableDiffusion为例,StabilityAI公司在发布之初就声称其使用了1200万个图像来训练其模型;其后的开发中使用了更多图像,并使用了三个不同的LAION数据集。但其绝大部分的图像,都是从互联网上公开发表的图像中抓取的。{2}
在利用图像对人工智能大模型进行训练的过程中,不可避免地会触及到使用他人享有版权的作品作为训练素材的问题。{3}在很多情形下,从事生成式人工智能研发的企业并未获取版权人的正式授权,潜藏着侵犯他人版权的法律风险。在此背景下,产业界迫切需要法律与公共政策能够明确提供关于使用语料的合法性指引。同时,创作者与公众也高度关注自身利益能否得到有效保障,以及公共利益如何在技术发展的浪潮中得到合理体现。因此,人工智能大模型训练,特别是生成式人工智能大模型训练过程中使用语料的合法性及合理性问题,成为人工智能时代亟待研究的重大课题。
司法实践中所面临的问题,更是迫在眉睫。2024年10月12日,北京互联网法院就其受理的数起涉及人工智能文生图和图生图的案件,组织了部分法学专家和经济学专家进行了较为充分的讨论。相关案件中,绘画创作者主张被告即人工智能开发企业在未经许可的情况下,在语料训练过程中使用了他们的图片,侵犯了其版权。该案所牵涉的人工智能模型,是以StableDiffusion模型为基础,加入被告从网络上自行搜集的部分图像进行训练的一个专门用于输出中国风图像的垂类模型。笔者有幸参加了北京互联网法院组织的讨论,但研讨会并未得出一个具有共识性的结论。这里,笔者根据讨论会上的几种观点,结合国内外产业实践和版权法上的相关规定,探讨人工智能大模型语料训练的合理使用问题,特别是透过法政策视角探讨版权合理使用制度适用的空间,试图建立起新技术背景下基于技术变革的转换性使用之分析框架。本文研究旨在构建一个既有利于技术创新,又能够保障创作者与公众权益的法律环境,为生成式人工智能技术的健康发展提供坚实的法律支撑。
二、几种主要的观点
根据前述北京互联网法院组织的研讨会上学者们发表的观点,结合相关学者的论述,笔者归纳出与会学者的以下五种不同的观点。
(一)非表达性使用论
非表达性使用论观点认为,“思想—表达”二分法是作品获得版权保护的基础,人工智能训练属于“非表达性使用”,不属于版权法意义上的使用行为,故不构成版权法上的侵权行为。所谓“非表达性使用”,是指不以阅读、欣赏作品为目的,在结果上也没有再现作品表达的作品利用行为。{4}持这种观点的学者认为,生成式人工智能数据训练中,对于作品的使用属于通过计算机进行信息处理的范畴,与典型的人类使用存在明显的差异。{5}人工智能并非理解作品的思想和表达,而是分析其背后的逻辑规律,属于机械的分析,不产生对于作品表达的理解与欣赏,所以并非传统版权法意义上的使用行为,因此不属于版权法的调整范围。{6}
这一观点,近期在学术界受到了广泛的关注。然而,学界尚未能就此形成普遍的共识。相反,一些持反对意见的学者主张,版权法的核心在于保护表达,而非思想。作品的表达实质上是由诸如像素、文字、音调等不同的表达要素通过特定的排列组合所构成的。机器学习在解析人类作品时,所捕捉的正是这些要素间的逻辑规律,因此其本质上仍属于对作品表达的学习,并未逾越传统版权法的规制范畴。故此,不能就此断言机器学习不构成版权法意义上的使用行为。而且,从对于思想与表达的欣赏和学习角度,将机器学习行为归类于非表达性使用,并不能很好覆盖全部的机器学习行为。例如,对于计算机代码的学习这类行为,就是典型的对表达的学习,并不涉及思想。
事实上,非表达性使用论的解释路径,对版权体系会造成不小的冲击。稍有不慎,可能会破坏版权法的内部逻辑。因为版权法上“思想—表达”二分法的基础分界,必然将非表达性使用归于对“思想”之使用,可能由此导致对作品之利用成为“脱缰野马”,游离于版权法之外。实践中,是否需要以及如何限缩版权法调整范围,应当在分析和总结更多场景的基础之上,再得出相应的结论。{7}
(二)机器学习合理使用论
机器学习合理使用论观点认为,技术中立暗含了技术发展优先的价值倾向,机器学习可以归于合理使用,因此不侵犯版权。持这种观点的人认为,人工智能模型在技术系统中属于底层技术资源,技术效果具有普惠性,所以模型训练过程中对海量作品的使用具有版权法上的目的正当性。此种使用,既不会影响原作品的正常使用,并且在其他版权保护机制的配合下也不会不合理地损害版权人合法权益。{8}而反对观点则认为,我国《著作权法》第二十四条对于合理使用的适用范围规定得相当严格,由12项具体行为模式和1条兜底款项组成,且兜底款项也仅限于法律和行政法规的特殊规定。从法治理论的基本观念出发,法律文本上对于权利的限制条款,本身属于立法价值上的衡量与选择,不宜随意地扩张解释。此外,也有观点认为,机器学习论过于忽视了版权人的利益,在商业收益较高的人工智能训练企业和投入大量精力创作作品的人类作者之间,没有达到利益平衡。{9}
(三)临时复制论
临时复制论观点认为,机器学习只是临时复制,或者认为机器学习的复制并非以传播为目的的复制,因此不侵犯版权。持这种观点的人认为,版权法中的复制是一种为了传播进行的准备行为,只有将复制的产物用于传播,才构成复制权侵权。{10}在机器学习的语境下,数据的处理与分析是一个高度动态的过程。数据被临时性地存储在计算机的缓存之中,仅供模型在训练阶段即时调用与分析。一旦学习过程结束,这些数据便会被系统自动清除;既无长期留存之必要,亦非旨在通过复制达到广泛传播之目的。{11}这种临时性、过渡性的数据处理方式,与版权法保护的复制权,在行为模式上存在本质上的区别。
进一步而言,机器学习并未使公众有机会接触到用于训练的作品中所蕴含的独创性表达。这一过程被严格限制于特定的技术框架内,其目的纯粹是为了提升算法的精准度与效率,而非将作品内容公之于众或进行商业利用。因此,从实际影响来看,机器学习并未对权利人的合法权益造成实质性的损害,其复制行为不应被纳入版权法所规制的侵权行为范畴之内。
(四)版权侵权论
版权侵权论观点认为,人工智能大模型训练属于商业性使用,现行版权法并未将其归为合理使用的情形,因此属于版权侵权行为。持此种观点的人认为,认定不侵权可能导致法律上的悖论与严重的利益失衡。若仅凭海量图片授权难度大、交易成本高为理论依据,便轻率地判定不构成侵权,这无疑会引发一系列逻辑上的困境。试想,单独使用他人一张图片,无疑是对版权的侵犯;当数量增至一万张时,或许尚可争议是否构成侵权;但若使用一亿张图片,却反而可能逃脱侵权的指控,这样的逻辑显然站不住脚。
相对于传统的版权侵权行为而言,人工智能大模型训练企业未经授权便使用了海量的图片,其侵权行为情节严重、危害广泛,更应成为法律制裁的首要对象。不能仅仅因为企业规模庞大、利益纠葛复杂,就可以肆意践踏他人的版权,进行“强取豪夺”。而且,对于那些严格遵守版权授权规则,不惜花费大量成本去获取授权,重视数据合规的企业而言,这样的判定无疑是不公平的。它们本应是市场中的楷模,却因他人的侵权行为而产生竞争劣势。最终,可能会导致“劣币驱逐良币”现象,这无疑是对市场公平秩序的严重破坏。
此外,人工智能产业领域展现出高度的专业细分特征,其中专注于数据集收集的企业也构成了一个颇为庞大的市场板块。这些企业需要历经繁琐的程序和大量的人财物投入以获得权利人授权,倘若大数据模型训练企业能够合法地、未经授权便轻易地获取数据,那么数据集收集市场将面临瓦解的风险。事实上,数据集收集企业的贡献远非简单的收集工作所能概括,它们还承担着筛选、过滤、处理数据的重任,致力于构建高质量的数据库。这一环节,对于人工智能训练来说至关重要。例如,LAION数据库便是StableDiffusion类生成式人工智能得以发展的基石。因此持版权侵权论的观点认为,在处理相关案件时,即便判决的赔偿金额较少,哪怕只是象征性的,也必须要明确界定该行为属于侵权行为。
(五)总体国家安全观论
总体国家安全观论认为,人工智能大模型训练客观上不属于版权法意义上的合理使用,也不宜用其它解释论或者方法论来规避其侵权性质,但可以从总体国家安全观的战略高度出发,主张不判定其为侵权行为。此种观点是基于我国在生成式人工智能技术领域可能面临的落后风险及其对国家安全构成的潜在影响,认为应该从公共政策视角出发,认定在特定时期内允许人工智能大模型企业不经授权地利用公开数据进行训练。在此期间,为加速技术进步与产业发展,可以暂时牺牲对版权人利益的保护。待人工智能大模型企业完成初步训练,人工智能技术达到相对成熟阶段之后,再重新审视并调整利益分配机制。
对此,反对观点则认为,技术发展的初衷应是更好地促进权利保护,而非以牺牲正当权利为代价来追求所谓的更高层次的“总体国家安全”,我们必须要坚持以人为本的人本主义价值判断。“在版权保护中融入人本主义理念,就需要识别出版权制度所作用的诸个体,分析其独特的诉求、具体的生存样态、利益陷入冲突的可能性,致力于克服技术对人的价值侵蚀,以最大化地满足不同个体的‘实现倾向’。”{12}况且,从输出美术作品、文学作品的人工智能技术训练,到国家安全之间,相差多层维度,需要细致的论证。否则,笼统地适用总体国家安全观,不仅在司法裁判上造成困惑,而且更会引发法律的不确定性和国际社会的不安。
三、侵权,还是不侵权?——法政策上的不同选择
前述五种不同的观点,分歧明显,甚至针锋相对,难以达成共识。实际上,这一问题不仅困扰着中国的司法界,美国的司法界也同样面临挑战。目前,积压在美国法院的类似案件有20余件,至今尚未做出任何实质意义的判决。其实,问题的核心在于,人工智能大模型语料训练行为,是构成侵权,还是不构成侵权?诸多针锋相对、难以统一的观点所表现出的是人们在法律上的认知、公共政策上的选择以及法治观念上的不同;甚或是,参与讨论的各学者均已预设立场,缺乏对人工智能产业链上各方利益诉求者的倾听和理解。若要破解这一难题,首要的是清晰界定并理解各方的利益诉求与实际需要,进而确立一个公正而平衡的裁判标准,最终选定一个最为适宜的方案。在制度和规则设计上,我们需要精心平衡人类作者的版权保护与生成式人工智能产业发展的需求。为此,必须全面衡量各方的利益诉求与实际需要,确保从法政策上设计出的制度或者规则既能有效保护创作者的权益,又能为人工智能产业的健康发展提供有力支撑。
(一)产业界的诉求
产业界的诉求,无非是降低交易成本,避免侵权风险。从产业角度来说,对于人工智能大模型训练企业而言,最重要的问题是如何以一个相对合理的价格,合法获取海量的用于训练的优质人类作品资源,法律和公共政策必须给产业一个明确和可行的指引。降低交易成本,可以通过以下几种路径。
第一,从法律与公共政策的角度,直接认定人工智能语料训练不是版权法意义上的使用,直接拿掉人类作者的请求权基础,这可以直接让人工智能训练企业彻底解套。这是“非表达性使用论”或者纯粹的“机器学习论”{13}所主张的。此一主张,虽广受产业界欢迎,但对于创作者来说,则彻底失去对于作品的控制;即使权利人明示作品不允许被用于人工智能大模型训练,也不能排除产业的使用,也失去了主张获取收益分配的可能性,因为没有了请求权的基础。{14}
第二,将此类使用视为合理使用,允许企业未经授权即可使用作品,且无需支付费用。然而,合理使用规则通常对使用目的和性质有所限制,要求人工智能服务非营利性,如无偿或低于成本价提供。这对人工智能企业而言,无疑限制了其商业应用范围。若采用此路径,需探索新的合理使用机制,以扩大至商用范畴。
第三,建立人工智能大模型训练的法定许可制度。从原理上来说,法定许可相比于合理使用而言适用范围更广泛,其使用目的可以是营利性的;相较于合理使用往往针对的使用篇幅而言,法定许可使用作品的篇幅、规模也可以更大。{15}不过,法定许可需要向权利人付费,这是明显不同于合理使用的地方。
第四,建立默示许可+许可撤回/退出制度。公开发表的作品默认可以被使用,除非权利人有明示声明不得用于人工智能训练。原则上,这种默示许可的情形,是应该付费的;但付费渠道怎么安排则需要研究。
第五,获取权利人明确授权。在这个大前提下,鼓励版权集体管理组织、创作平台、专业的数据采集企业等,负责给人工智能训练企业提供训练所需的资源。{16}这些数据采集企业去获得授权和支付费用,再将数据做成数据集,并进行初步的整理、筛选、评级等,再卖给人工智能训练企业。这一路径理论上具有可行性,但实际推行中会遭遇不小的挑战。例如“番茄小说”遭抵制的事件,番茄小说平台在服务协议中加入授权人工智能训练的内容的时候,就受到了作者们的广泛抵制。{17}这一事件背后的原因,也是没有考虑到创作者们的实际诉求与担忧所导致的。
(二)创作者的诉求
创作者的基本诉求是需要合理的分配机制,避免产生被人工智能所取代的风险。创作者主要关心的是两个问题:一是自己的作品被用于人工智能训练能否获得收益;另一个也许是更为关键的,即人工智能对于人类创作者交易机会的剥夺问题。
对于前者,创作者期望建立平衡的利益分享机制。按照传统的利益对称理论,创作者认为一个基本原则是:如果允许人工智能训练企业无偿使用其作品,那么生成式人工智能服务就应该是无偿的、非营利性的;如果生成式人工智能服务是营利性的,就必须向创作者分享收益。然而,难点在于,对于使用海量作品训练的人工智能产品而言,单个作品的边际贡献是非常低的,恐怕难以准确定价,或者说定价的基准与创作者预期相差甚远,这无疑增加了交易失败的风险。{18}
而对于后者,一个可行的解决方案是尝试建立人工智能生成内容(ArtificialIntelligenceGeneratedContent,以下简称AIGC)强制标识制度,要求AIGC必须添加明显的标识来区分于人类作品,将AIGC和人类作品分为不同赛道,减少其对人类创作者交易机会的影响。近期,网络游戏《雀魂麻将》的运营团队在其官方B站账号发布了一位名为“南枫花”的雀士角色立绘,因该立绘的绘画质量欠佳、人体结构存在瑕疵等问题,引发了玩家对其是否为人工智能生成内容的广泛质疑,并招致了玩家群体的强烈抵制。随后,《雀魂麻将》运营方不得不在官方B站账号发布声明澄清,并展示了创作过程中的线稿,证实该立绘确为人类艺术家所作,同时承诺会对原画中的不足之处进行修改,这才逐渐平息了风波。{19}可见,现阶段消费者还是更加愿意为人类作品付费。区分人类作品与人工智能生成内容,在一定程度上可以降低人工智能对于创作者交易机会的影响。目前,关于人工智能生成内容强制标识制度的草案已经进入征求意见阶段。{20}预计很快就会落地施行。但究竟是否能达到预期效果,消费者是否更加愿意给人类作品付费,这还有待市场的检验。
(三)其他利益相关者
除了创作者和产业界之外,还存在众多其他潜在的利益相关者,包括公众、终端用户、人工智能生成内容的消费者,以及社会组织、政府部门和国家战略层面的相关方等。这些利益相关者,也都密切关注人工智能技术的发展以及相关公共政策所带来的影响。
使用生成式人工智能的终端用户,包括个人用户和企业。对于后者而言,尤其要注意使用AIGC侵权的问题。因此,企业用户更加迫切地需要出台相关的法律和公共政策,厘清原作品权利人和人工智能训练企业之间的权利义务关系,以避免在使用AIGC过程中“一不小心”就侵犯了原作者的权利。从这个角度来说,建立平衡的利益分享机制,完善授权机制,结合权利用尽原则,可以充分避免这一风险。同时,建立AIGC强制标识制度,可避免企业用户被AIGC鱼目混珠,也便于其核算成本,提高效率。
四、版权合理使用制度的价值取向
(一)权利限制:公共领域保留
在版权法领域,赋权的正当性理论往往以浪漫主义的作者身份为中心,即作者通过带有“人格意义的表达”{21}或“智力性的劳动”{22},将全新的内容带入了世界。但是,这种作者范式的理论假设,有时无法解释所有作者所使用的原材料,{23}也无法解释全部的创作行为过程。可以说,公共领域的存在及其所构成的对权利之限制,是版权制度的另一面。{24}事实上,在作者的独创性贡献之外,公共领域的存在为创作行为的社会外部性及其背后所代表的公共利益之价值取向,提供了理论依据,并形成了权利限制规则的正当性基础。
具体而言,公共领域保留是指将维持创造者身份的基础性原材料予以保留,不进行私人赋权,而是留给未来潜在的创作者所共同使用。一方面,公共领域的保留为版权保护边界的模糊性提供了对价,限制了版权的不合理扩张。当版权法因无法确定独创性的边界而将垄断权利延及作品的全部内容时,作者应当容忍基于公共利益的考虑明显可以识别出的不应由个人垄断的部分被保留在公共领域内。{25}另一方面,公共领域的保留是保证知识创造活动可持续性的必然要求。人类文化具有传承性、累积性,任何作品的创作事实上都不能被认为是纯粹的个人创作,因为任何新知识都是站在巨人的肩膀上产生的。{26}将基础性的创作元素留在公共领域,有利于保留文化发展潜在空间与可能性。“通过公共领域保留对作者享有的版权进行一定的限制,可以防止著作权人对其作品的完全垄断,这是利用公共领域保留实现维护公共利益的方式。”{27}狭义的公共领域保留理论往往是基于公共利益属性被排斥在版权法保护范围之外的客体(如《著作权法》第五条规定的内容);宽泛的公共领域理论还包括了基于公共利益而对权利限制的所有方式,包括强制许可、法定许可、合理使用制度等。事实上,合理使用规则是版权规则体系中为保留公共领域所做出的重要权利限制,避免了以潜在创造者的工作环境变得贫瘠为代价而进行的对个别权利人的激励,为创作者的共同身份以及创作过程的可持续性提供了保护。{28}
(二)适用版权合理使用的正当性
从价值取向的视角,比较容易分析人工智能技术及其产业发展的当代意义,也能够合理地讨论适用版权合理使用的正当性。
1.人工智能技术及其产业发展存在着巨大的社会利益。新技术时代,此技术具有基础性、普惠性,不能仅因其具有商业性质,就简单地否定其公共利益属性。{29}一般而言,在探讨人工智能大模型语料训练适用版权合理使用的正当性时,仅仅强调其为产业带来的显著经济利益是不足以支撑论点的。这是因为产业的庞大经济利益与公共利益并非同一概念,而更多地体现为商业利益。鉴于商业巨头已具备显著的市场竞争优势,若再赋予其对创作者作品的合理使用权限,可能会引发利益严重失衡、产业垄断、技术偏见以及创作者交易机会丧失等一系列问题。{30}因此,这一观点很可能面临广泛的质疑与挑战。
为此,我们必须明确阐述产业利益背后隐藏的公共利益实现的可能性,并努力寻求两者的和谐统一。毕竟,公共利益的实现很大程度上依赖于产业发展所带来的技术创新与进步。至于上文提到的利益失衡、垄断、技术偏见等问题,尽管这些风险确实存在,但并非仅依靠版权法来解决,而应结合《反垄断法》《反不正当竞争法》等一系列法律法规进行综合治理,版权法仅发挥在其自身的作用即可。{31}
有人认为,人工智能开发者能够获得的商业价值,远超用于训练语料的版权本身的价值。因此,生成式人工智能企业能够从训练中获取远超被训练语料本身价值的商业利益,那么向权利人支付相应费用便是理所当然的。事实上,在商业价值足够的情况下,生成式人工智能企业非常乐意向权利人支付费用以获取授权,从而避免纠纷与争议,并免于让自身陷入舆论风波。在笔者参与对某医学人工智能研究基地的调研中发现,其商业模式是采用患者与医院签订授权协议,允许医院将基因信息数据用于科学研究等领域;医院将所收集的基因信息进行处理、加工并做成数据集。然后,由医院将这些经过处理的信息数据集出售给研发单位。研发单位用这些数据对人工智能进行训练,开发用于对试管胚胎进行基因筛选的人工智能,淘汰被认为是“存在风险”的胚胎,降低新生儿出生缺陷的概率。此外,人工智能研究基地还在积极探索利益共享机制,与腾讯公司合作,通过微信平台获取用户授权,并向数据提供者支付小额费用,以此规避数据使用不合规的风险。
的确,如果企业可以从海量语料中挖掘出巨大的商业价值,市场自然会形成愿意为其收集语料的产业链条,从而避免市场失灵。但现实却并非如此,甚至是恰好完全相反。正是因为生成式人工智能的直接商业价值往往不足以超过所使用的海量作品的价值,由此才会出现市场失灵。此时,公共政策和合理使用制度的介入显得尤为重要。那么,我们为什么还要支持这种“亏本生意”呢?
首先,因为除了有限的直接商业价值以外,我们还从中看到了有利于公共利益无限的可能性。生成式人工智能具有如下特点:规模性,需达到百亿参数级别;涌现性,能够产生预料之外的新能力;通用性,不限于专门问题或者领域。{32}当一个大模型经过精心训练并达到成熟阶段后,其潜力与价值便如同沃土一般,能够孕育出众多具体且多样化的应用。这种模型不仅具备基础性特征,能够为各类创新应用提供坚实的支撑,还展现出普惠性特征,使得更为广泛的领域都能从中受益,产生一系列难以直接用商业价值来衡量的间接社会效益。正如高铁这类基础设施,在考量其经济效益时,我们不能仅仅局限于其自身的运营收入和票务收益。高铁作为现代化交通网络的基石,对国民经济的整体推动作用才是更为深远和重要的。同样,人工智能大模型就是新时代的数字基础设施,其对社会经济、科技创新乃至日常生活的全面赋能,才是衡量其价值的重要维度。因此,在评估大模型的价值时,我们需要具备更加全面和长远的视角。
其次,生成式人工智能大模型极大地降低了创作门槛,使得更多的主体能够参与到艺术创作之中,激发蕴藏在广大受众中的创作潜力。实践中,一些创作者已经开始使用生成式人工智能来辅助创作。“对于从业者来说,人工智能绘画可以启发灵感,提供创意思路,辅助艺术创作,提升工作效率;对于普通人来说,人工智能绘画可以展现想象力和个性,让人享受艺术创作的乐趣。”{33}此外,从科研创新的角度来看,生成式人工智能在处理和分析海量数据时所展现出的强大能力,为科学研究开辟了新的道路。它们对于推动基础科学、医学、生物学等领域的发展具有不可估量的价值。从社会福祉的角度考虑,生成式人工智能在医疗、教育、环境保护等领域得到广泛的应用,显示出其提升社会整体福祉的巨大潜力。比如,在医疗领域,人工智能辅助诊断系统可以提高诊断的准确性和效率,减轻医生的工作负担,让更多患者受益于高质量的医疗服务。在教育领域,个性化学习平台可以根据学生的学习习惯和能力提供定制化的教学内容,从而提高教育效果。这些应用,虽然短期内无法直接转化为显著的商业价值,但它们对于提升社会整体福祉具有重要意义。
最后,从促进数据共享和开放的角度来看,支持生成式人工智能的合理使用,有助于推动数据的共享和开放,进而促进创新和经济发展。在数字经济时代,数据已成为新的生产要素,对于推动产业升级和经济发展具有重要作用。通过合理使用机制可以激励更多的数据提供者愿意分享自己的数据,从而形成一个更加开放、协同的数据生态系统,为创新和经济发展提供源源不断的动力。
综上所述,尽管在某些情况下,生成式人工智能的开发可能无法直接带来显著的商业价值,但它蕴含着促进科研创新、提升社会福祉以及推动数据共享和开放等多重公共利益的可能性。这些可能性不仅关乎当前的利益平衡,更关乎未来的可持续发展和社会进步。因此,公共政策有必要介入,利用合理使用制度为其扫清障碍。也许正是基于这种意义,有学者提出通过“总体国家安全观”来为人工智能产业发展纾困解难。
2.存在市场失灵、产业发展面临困境。如前文所述,生成式人工智能的训练是一个复杂且耗时的过程,它高度依赖于庞大的数据量来确保其准确性和效率。在实际应用中,这种人工智能所使用的作品规模往往达到惊人的数亿级别,涵盖了文本、图像、音频等多种数据类型。面对如此庞大的数据需求,如果要求人工智能训练企业逐一获取作品授权,那么所产生的交易成本将会是一个天文数字,这对于任何一家企业来说都是难以承受的。此外,创作者们往往对自己的作品有着极高的价值预期,他们希望自己的创作能够得到应有的回报和认可。然而,在人工智能模型训练的过程中,单个作品所起到的实际贡献价值却相对较低,很难与创作者的期望相匹配。这种价值认知上的差异,使得双方在价格谈判上往往难以达成一致,由此导致交易失败的情况时有发生。
面对这样的问题,产业的进步无疑将遭遇重大阻碍。因此,需要采取积极有效的措施来应对这一困境。通常,针对市场失灵的情况,财政补贴和政策扶持等调整手段被广泛采用。在此背景下,采用合理使用制度似乎变得尤为必要。这意味着,企业在无需获得版权人许可和支付报酬的情况下,即可对版权作品进行必要的使用。此举能够显著减轻企业在获取数据过程中所需承担的高额交易成本,进而为产业的蓬勃发展注入强劲动力。
3.对作者利益影响有限:非特定性与非竞争性使用。在生成式人工智能语料训练的过程中,对人类作品的使用展现出了两个显著的特点:非特定性和非竞争性。这两个特点共同构成了该使用方式在版权法框架下具有合理性的重要基础。非特定性是指人工智能模型在训练过程中并不针对特定的单个作品进行使用。相反,它会从海量的作品中广泛提取特征和规律,以构建其内部的知识结构和算法模型。这种使用方式避免了对单个作品的过度依赖或者对特定作品的过度挖掘,从而降低了对版权人利益的潜在损害。在训练过程中,人工智能模型更像是一个“学习者”,它不断地从各种作品中汲取营养,以提升自己的智能水平。非竞争性则体现在人工智能生成内容并不会直接替代或削弱原作品的市场价值。尽管生成式人工智能可以创造出与人类作品相似甚至在某些方面超越人类作品的内容,但其生成内容往往具有独特性和创新性,与原作品形成差异化竞争。此外,人工智能生成内容更多地是作为一种辅助工具或补充资源存在,而非直接替代原作品。因此,这种使用方式并不会对原作品的市场价值造成过分的损害。
基于上述两个特点,我们可以认为,在生成式人工智能的训练过程中对人类作品的使用方式符合合理使用的精神。它既没有过分损害版权人的利益,也没有破坏市场的公平竞争秩序。相反,这种使用方式有助于推动人工智能技术的创新和发展,为人类社会的进步和繁荣做出贡献。更何况,版权人“合理容忍的利益减损”本身就是法官衡量的一个方面。{34}因此,在版权法的框架下,应该对这种使用方式给予充分的肯定和保护。
4.转换性使用对于科技创新与技术进步促进的可能性。生成式人工智能对人类作品的使用可能构成转换性使用。转换性使用自从于1994年由美国联邦法院的坎贝尔案所确立下来,一直被认为是检验是否是合理使用的关键因素。{35}转换性使用是指以新的目的或方式使用作品,并在原作品基础上增加了新表达、新意义或新功能。人工智能在训练过程中可能会将作品的内容转换为特定的数据格式或特征表示,这些转换后的数据并不直接体现原作品的表达内容,而是用于生成新的、与原作品不同的内容。这种转换性使用有助于推动技术的创新和发展,同时也不会过分地损害版权人的利益。大模型训练中对作品的使用显然不同于作品原本的使用方式,其目的在于创造一个训练大模型的环境,使得大模型可以从中“学习”到重要的规律,甚至涌现出推理等“智能”,以更好地完成多种任务。{36}
从推动技术进步与引发社会变革的宏观视角来审视,转换性使用这一概念可以被赋予更为深远和丰富的解释。在这种理解下,转换性使用不仅仅是一种单纯的技术手段或操作行为,它更是一种以促进技术创新和进步为核心目标的策略。
具体而言,转换性使用强调的是对原作品进行再加工、再创造的过程;这种过程并非以侵犯原作者的版权为初衷或目的,而是旨在通过技术手段提取、整合、优化原作品中的信息或元素,进而生成具有全新价值、功能和意义的新作品或新产品。在这个过程中,转换性使用不仅促进了技术的不断迭代和升级,还推动了相关产业的快速发展和变革。它使得人们能够更加高效地获取、处理和利用信息,也激发了人们的创造力和创新精神,为社会的持续进步和发展注入了源源不断的动力。诚然,对转换性使用的深入探讨,需要对合理使用规则之价值目标进一步探讨。
(三)合理使用规则变迁的价值追寻
从要素分析法为基础的合理使用,到独立的转换性使用理论,再到笔者曾提出的“变革性使用”{37},这一变迁过程,展现的是规则背后的价值追求:不仅是对版权法理论的深化与拓展,更是对技术进步与社会变革的积极响应。转换性使用作为合理使用制度的一种重要形态,其内涵与外延的演变,深刻反映了版权法在面对新技术挑战时的灵活性与适应性。事实上,从使用目的的转换性使用到技术变革的转换性使用(即变革性使用),这两个维度的转换都具有独立的价值追求,对技术进步或社会变革有着深远的影响。
首先,转换性使用规则的建立,在合理使用制度中具有独立的地位。在一定程度上,这一规则让人们摆脱了基于“四要素”和具体规则的分析,而是转入了具有宪法意义的价值追问和理论追寻。坎贝尔案中,法官引入“转换性使用”的判断标准,无疑为版权法中的合理使用制度带来了新的活力与深度变革。{38}这一标准强调,当一项作品被以新的方式、目的或形式使用时,如果这种使用方式能够赋予原作以新的表达、意义或信息,从而创造出一种全新的审美、批判或教育价值,那么这种使用即被视为转换性使用,很可能构成合理使用。这一标准的提出,不仅丰富了合理使用的内涵,也在一定程度上挑战了传统“四要素”——使用目的与性质、版权作品的性质、使用作品的数量与实质性、对版权作品潜在市场或价值的影响之权威地位。
在随后的司法实践中,转换性使用的地位逐渐凸显,成为判断合理使用的重要乃至核心标准。从美国学者的相关研究的统计数据来看,自1994年坎贝尔案后,涉及转换性使用的判决数量急剧增长;至2017年初,在合理使用相关判决中的占比已高达90%,且其中94%的案件最终被认定为合理使用。{39}这一趋势反映出转换性使用标准在司法实践中得到了广泛的认可与应用,它以其独特的灵活性,为众多创新性的使用行为提供了法律上的正当性依据。
转换性使用的独立性体现在其能够单独推翻传统四要素中的某些判断。例如,一旦作品的使用被认定为转换性使用,即使该使用具有商业目的(传统四要素中的第一要素通常对此持负面看法),也可能被视为合理使用。同时,原作是否未发表或是否具有高度的创造性(第二要素),以及复制的数量与实质性(第三要素),在转换性使用的框架下都变得相对次要。甚至,即使使用行为可能对原作的市场造成一定影响(第四要素),只要这种影响是基于转换性使用产生的全新价值,而非直接替代原作的市场地位,也可能不被视为侵权。{40}
诚然,或许是转换性使用过于开放,2023年5月美国联邦最高法院在安迪·沃霍尔案中,似乎有意限缩转换性使用的范围。{41}在该案中,法院将转换性使用重新定位为“四要素”中第一要素的一个考量因素,而非决定性的唯一标准。合理使用的第一个要素以及对应的转换性使用分析,都是一个程度问题。{42}这意味着,即使新作品通过添加新的表达、意义或信息实现了转换性,但如果其使用目的与原作高度相似,且出于商业目的,那么这种使用仍可能不被视为合理使用。这一判决,无疑对转换性使用的广泛应用进行了一定程度的限缩。该判决不仅立刻引发了艺术界、摄影界的高度关注,也在生成式人工智能领域引发广泛担忧。{43}
的确,对于生成式人工智能而言,这一判决的影响深远。生成式人工智能技术依赖于对大量现有作品的学习与模仿,以创造出新的、具有独特性的内容。如果转换性使用的范围被限缩,那么这些人工智能技术在训练过程中可能更容易触及版权侵权的红线,从而限制了技术的创新与发展。因此,该判决不仅是对版权法的一次重要调整,也是对技术进步与创作自由之间平衡的一次考验。
其次,在实践中,基于使用目的的转换性使用,也为众多创新性的使用行为提供了法律上的正当性依据。它鼓励对原作的二次创作和批评性评论,从而促进文化多样性和社会开放性。然而,随着技术的发展,特别是互联网和数字技术的普及,转换性使用的内涵开始发生变化,技术变革成为推动转换性使用发展的新动力。
基于此,笔者尝试建立起一套适用知识社会发展的新的理论,即笔者曾提出的基于技术变革的转换性使用——“变革性使用”(Transformative-innovativeUse)。{44}在技术进步与社会变革的宏观视角下,转换性使用这一概念可以被赋予更为深远和丰富的解释,“变革性使用”成为这一价值追寻中的全新的判断标准——其强调的是使用行为不仅改变了作品的使用目的,更通过技术的创新应用,实现了作品价值的全新转化和增值,推动了技术的飞跃和社会的进步。
第一,变革性使用符合合理使用制度的底层逻辑:从文本抽象到理论。从合理使用制度的底层逻辑和版权法的立法目的来看,版权法要保护版权人的私权的同时,“版权法也具有确保宪法所确定的增加知识传播、发展和繁荣科学文化的目的。后者实现的是版权法更高层次的境界和目的。为此,在版权法这种‘私法’中产生了针对专有权的公共利益,确立这种公共利益甚至被认为对于知识的增长具有实质性意义。”{45}变革性使用正是基于这一理念,通过对技术变革的积极回应,实现了公共领域的有效保留。此外,在面对技术变革时适用传统的版权法授权,往往存在市场失灵的风险和技术不能的障碍。市场失灵可能源于信息不对称、交易成本过高或创新激励不足等问题,导致优质的技术成果无法得到有效传播和利用。而技术不能则可能源于法律制度的滞后性,使得现有的法律框架无法适应新技术的发展需求。因此,法律不能盲目地扩大甚至主动制造这些障碍,而应当积极寻求制度创新,以适应技术变革带来的挑战。
“变革性使用”这一概念,强调的是对技术变革和科技进步具有重大突破性意义的使用行为。这种使用并非简单地对原有作品进行复制或改编,而是通过对技术的创新应用,实现了作品价值的全新转化和增值。它超越了传统合理使用中对于行为人主观意图的考量,转而关注使用行为在客观上是否推动了技术的飞跃和社会的进步。在这种情况下,将这种特殊方式的使用权转移给使用者,有利于新技术的开发、推广与普遍化应用,将为作品创作与传播开辟新的平台与渠道,形成整体的社会福利增值。因此,为了追求新技术效果而进行的作品使用方式,在完成市场转换的情形下,应当构成合理使用行为。
第二,技术变革所形成的新技术环境与市场秩序。随着技术的不断发展,特别是互联网、大数据和人工智能等技术的普及,新技术环境正在形成,市场秩序也在发生着深刻的变化。这些技术变革不仅改变了作品的创作、传播和使用方式,也对版权制度提出了新的挑战。技术变迁与版权制度变化之间存在着密切的联系。历史上,版权制度往往是在应对技术变革所带来的侵权问题中逐渐发展起来的。例如,在摄影技术出现之前,美术作品是主要的记录手段,而摄影技术的出现则颠覆了这一格局,推动了版权制度的变革。同样,在人工智能时代,生成式人工智能大模型等新技术也在深刻改变着我们的创作方式和文化生态,对版权制度提出了新的挑战和机遇。
在技术变革时代,创新原则成为引领版权制度发展的重要动力,本身也是市场秩序所追求的目标,因为它符合知识产权促进技术进步及人类共同福祉的要旨。{46}这一原则强调,在保护版权人合法权益的同时,必须鼓励创新性的使用行为,为技术进步和社会发展提供有力的法律保障。变革性使用正是基于这一原则而提出的,它强调了对技术变革和科技进步的尊重与保护,鼓励了创新性的使用行为,并为其提供了法律上的正当性依据。
第三,人工智能时代的创新及其生态。人工智能时代的创新不仅体现在技术层面,更体现在整个创新生态的构建上。在这个时代,创新不再是一个孤立的行为,而是一个涉及多个主体、环节和领域的复杂过程。生成式人工智能大模型等新技术正在深刻改变着我们的创作方式和文化生态,为创新提供了更加广阔的空间和更加丰富的手段。在这一背景下,提出变革性使用显得尤为重要。它不仅能够为创新性的使用行为提供法律上的正当性依据,还能够促进新技术的传播和应用,推动创新生态的构建和发展。同时,变革性使用也要求我们在面对新技术挑战时,要保持开放的心态和创新的思维,积极寻求制度创新和技术创新之间的良性互动与平衡发展。
第四,“技术不能”导致责任形态的变化:技术与法律的重构。“技术不能”是版权法在面对技术变革时常常遇到的问题。由于技术的快速发展和法律的滞后性,往往会出现技术手段难以实现法律所预设的行为模式的情况。例如,如果权利人向法院提出停止侵害的诉讼请求,要求生成式人工智能训练企业将其作品从大模型语料中剔除,这在技术上是难以实现的,或者需要花费巨量成本重新训练。这种“技术不能”为我们提供了重构技术与法律关系的契机。在人工智能时代,我们需要重新审视和构建版权法的制度体系,以适应新技术的发展需求。变革性使用正是基于这一需求而提出的,它强调了对技术变革和科技进步的尊重与保护,鼓励了创新性的使用行为,并为其提供了法律上的正当性依据。
第五,变革性使用的判断标准,主要基于技术变革及其形成的市场转换,并导致普惠性从而有利于社会整体福利的增值。技术革新与进步是变革性使用追求的核心价值。这种革新不仅体现在对现有技术的改进和优化上,更体现在对新技术、新领域的探索和突破上。例如,在人工智能领域,通过深度学习等技术对大量数据进行训练和优化,可以实现对作品内容的智能化生成和个性化推荐,这种使用方式就体现了技术的革新与进步。普惠性是变革性使用的另一个重要特征。它要求技术变革带来的成果必须能够惠及广大社会公众,而不是仅仅局限于少数人或特定利益集团。这种普惠性不仅体现为技术成果的可及性和便捷性,更体现在其对社会经济、文化、教育等多个领域的深远影响。只有当技术变革真正实现了全民共享,才能符合变革性使用的核心要求。变革性使用还强调使用行为在完成市场转换的情形下,应当构成合理使用行为。这种市场转换不仅是指使用行为对原有市场的替代或颠覆,更是指其通过技术创新和进步,开辟了新的市场空间和商业模式,从而实现了社会福利的增值。例如,在生物科技领域,通过对基因序列等生物信息的分析和利用,可以推动新药研发、疾病诊断和治疗等方面的重大突破,这种使用方式就体现了市场转换和社会福利增值。
综上所述,变革性使用在合理使用制度中具有独立的价值和意义。它不仅丰富了合理使用的内涵与外延,还推动了技术和社会的进步。在人工智能时代,我们需要更加深入地研究和探索变革性使用的理论和实践问题,为构建更加公平、公正、高效的创新生态系统提供有力的法律保障。
五、版权合理使用规则的司法适用
(一)合理使用路径的比较优势
合理使用的路径相比于其他解决方案的优势在哪?结合前述几种观点,分析如下。
第一,相对于采用非版权意义上的使用即所谓“非表达性使用论”或者纯粹的“机器学习论”这类较为新颖且可能引发争议的解决方案,采用合理使用路径的比较优势在于其对版权法体系的冲击相对较小。这一选择之所以更为稳妥和可行,主要归因于其能够巧妙地依托现有的、为人所熟知的理论框架。它无需引入全新的概念或理论,从而避免了因新概念而可能引发的困惑。相反,它能够在现有的法律框架内,通过灵活运用和解释既有规则,有效地解决一系列实际问题。这使得司法实践中更具可行性和可操作性。相比之下,非版权意义上的使用理论则可能面临更多的挑战和争议。这一理论,试图对标商标法上的“非商标性使用”,在版权法的框架之外寻求一种全新的使用作品的合法性依据。然而,这种做法不仅会引发法律体系上的混乱和不确定性,还对现有的版权法体系造成冲击和破坏。{47}因此,在权衡各种因素后,采用合理使用路径显然是一种更为明智和可行的选择。
诚然,也有学者认为,如果真要采用这种“非表达性使用论”或“机器学习论”的理论,其实也可以将其融入到合理使用的分析框架之中,将“非表达性使用”作为合理使用的一种形式。{48}实际上,按照这种观点,“非表达性使用”就成为了“转换性使用”的一种形式,符合现有的合理使用规则,不违反版权法的基本原理。
第二,相对于法定许可路径而言,合理使用路径更具实操性。法定许可与合理使用,可以作为两项权利限制制度,均赋予使用人在未获得版权人授权的情况下使用作品的权利,但两者在性质上存在着显著的差异。尽管从表面上看,法定许可似乎更能适应商业化、大范围引用的现代产业趋势。{49}然而,在实际操作中却存在诸多局限性。从法律规则上看,法定许可的适用范围受到了严格的限制。版权法中关于法定许可的规定仅限于《著作权法》第二十五条。如果试图通过法定许可来解决新型使用方式的问题,就必然需要对法律本身进行大幅度的修改,而合理使用目前已经有可以适用的司法解释和判例。
事实上,法定许可具有很强的行政强制性特征。如果对此进行相关的立法,其法律条文必须以明确、封闭的形式列举出具体的适用范围。然而,生成式人工智能技术发展日新月异,我们很难在当前阶段准确预测未来的技术格局和应用范围。此时,如果我们贸然就在法律中明确法定许可的范围,很可能会因为立法的滞后性而导致适用范围过于狭窄,无法满足未来社会的实际需求。
此外,法定许可虽然允许使用人在未获得授权的情况下使用作品,但仍然要求使用人向权利人支付费用。在人工智能时代背景下,作品的传播和使用规模空前扩大,这将导致支付产生的资金成本急剧增加。对于许多使用者来说,这笔费用可能是一个沉重的负担,从而限制了作品的广泛传播和使用。{50}
第三,相对于权利人默示许可(推定许可)+许可撤回体系而言,适用合理使用规则的理论基础更加妥当。从民法的基本原理出发,默示许可的前提是权利人高概率的具备某种许可的意思,法律由此推定其具有这种意思。例如,依据《著作权法》第三十五条第二款规定,当文章在报刊上发表且作者未明确表示反对时,法律便默认允许其他报刊进行转载。这一规定是基于一般人的认知以及行业惯例,认为作者在报刊上发表文章即意味着愿意让更多人看到和了解,因此顺应自然规律或生活经验法则,设定了无需额外明示授权的默认许可原则。
然而,在人工智能大模型语料训练的情境中,这一推定却难以成立。与报刊发表文章不同,将作品用于生成式人工智能的训练是一个全新的、技术性的使用方式,其涉及的权益和影响也更为复杂。而从目前部分领域创作者的反对声音来看,难以推定作者普遍倾向于同意其作品被用于此类训练。而且,当前社会对于这一新型使用方式缺乏广泛共识。不同的作者、不同的行业、不同的社会群体可能对此持有不同的看法或态度。在这种缺乏共识的情况下,决然地法定为默示许可,显然并不妥当。同时,对于许可撤回这方面来说,合理使用路径并不排斥权利人通过事先声明的方式来限制他人对作品的使用。实际上,《著作权法》第二十四条第一款第(四)(五)项正是采用了这种方案,为权利人提供了保护其作品不被随意使用的途径。因此,采用合理使用也可以达到类似许可撤回的效果。此外,默示许可虽然在一定程度上简化了授权流程,但原则上依然要求使用人向权利人支付费用,同样会增加使用人难以承受的负担。
第四,相对于需要权利人明示授权而言,合理使用规则减少了科技进步的交易成本,避免交易失败和市场失灵现象。尽管由版权集体管理组织、创作平台、专业的数据集收集企业等单位来进行数据收集工作,并随后将这些数据提供给人工智能训练企业的方法,在理论上看是可行的,但实际操作中却面临诸多问题。如前文所述,生成式人工智能虽然潜力巨大,但对于训练企业而言,其直接商业价值往往难以覆盖使用海量数据所需的高额成本。这种成本与收益的不匹配,使得交易双方很容易陷入僵局,导致交易失败。我们完全可以建立以合理使用路径为原则,同时鼓励数据收集企业积极寻求差异化的竞争策略。例如,数据收集企业可以对自己的数据集合产品进行深度加工和挖掘,提炼出更具独特性和价值性的信息。他们可以通过数据清洗、标注、分类等方式,提高数据的质量和可用性,从而为自己的数据产品增加更多的附加值,提升其市场交易价值。此外,数据收集企业还可以考虑与其他行业进行合作,共同开发定制化的数据集产品。比如,他们可以与医疗、教育、金融等领域的专业机构联合,针对特定领域的需求,收集并整理相关的数据资源。这样的定制化产品不仅能够更好地满足人工智能训练企业的实际需求,还能够提升数据产品的市场竞争力,从而吸引更多的购买者。
总之,通过寻求差异化的赛道和增加数据产品的附加值,数据收集企业可以在激烈的市场竞争中脱颖而出,为人工智能训练企业提供更加优质的数据资源。这样,即使合理使用规则确立,也不至于摧毁数据产品的交易市场。
(二)适用合理使用的路径分析
第一,我国现行法律或司法解释并非没有相应的安排,人民法院可以灵活地使用自由裁量权做出合理使用的认定。客观上,《著作权法》第二十四条第一款明确列出了12项具体行为模式,并附带了一项严格法定主义倾向的兜底款项,导致合理使用仅仅适用于有法律或者行政法规规定的情形。不过,2011年《最高人民法院关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条指出,“在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。”{51}该指导意见目前仍然有效。这意味着我国法院在特定条件下,可以借鉴“四要素”标准和三步检验法,对合理使用的范围做出适当突破,以符合版权法的基本要义之一——“促进社会主义文化和科学事业的发展与繁荣”(《著作权法》第一条)。而生成式人工智能大模型语料训练,恰好符合“促进技术创新与商业发展”的前提,具备适用合理使用规则的司法空间。
第二,《著作权法》第二十四条第一款第(十三)项“法律、行政法规规定的其他情形”,无疑为版权法的司法实践及制度安排预留了规则配套与创新空间。这一兜底款项的存在,意味着在应对新兴技术、新型使用方式等复杂多变的现实情境时,法律能够保持一定的灵活性和适应性。在构建合理使用制度的过程中,特别是在涉及生成式人工智能这一前沿科技领域时,我们可以充分利用这一兜底条款。通过工信部、网信办等多个部门联合出台相关政策,可以逐步明确和扩展合理使用的具体情形和适用范围。这些政策不仅可以细化合理使用在生成式人工智能方面的具体应用规则,还可以为司法实践提供明确的指导和依据。同时,这一兜底条款也鼓励了司法工作者在面对新型案件时,能够积极运用法律解释和推理技巧,将合理使用制度的精神和原则与具体案件相结合,从而做出公正、合理的判决。这种司法实践的创新和探索,不仅有助于完善版权法的制度体系,还能够为技术的进步和产业的发展提供有力的法律保障。
第三,司法实践中的探索与突破。在司法实践中,虽然大多数情况下法院会严格依据《著作权法》第二十四条所列举的12种情形来认定合理使用,但也有一些案件尝试突破了这一限制。例如,上海知识产权法院在上海美术电影制片厂与浙江新影年代文化传播有限公司等版权侵权纠纷案中,就引入了“转换性使用”的概念,并结合四要素的判断方法,认定涉案作品在电影海报中的引用构成合理使用。该判决指出,虽然被上诉人在其电影《80后的独立宣言》宣传海报中使用了“葫芦娃”“黑猫警长”的美术形象,但是这种使用并非单纯展现原作品的艺术美感和功能,而是反映了“80后”一代的时代特征,属于转换性使用,且比例较小,占海报面积不突出,不影响涉案作品的正常使用,也未不合理地损害版权人的合法利益,因此认定是合理使用。{52}此案还入选了2016年上海知识产权保护十大案件,足以说明我国法院在合理使用制度上有足够的探索空间和自由裁量权限。
(三)不适用合理使用规则的情形
尽管我们原则上可以通过合理使用路径支持生成式人工智能大模型进行语料训练,但仍需注意的是,创作者的利益也不容忽视。杰出的人类创作者及其创作的优质作品,无疑是推动生成式人工智能蓬勃发展的不竭源泉。我们绝不能采取竭泽而渔的方式,忽视了对人类创作者应得收益的公正分配。否则,这些才华横溢的创作者可能会因缺乏激励而逐渐退出这一领域,最终将导致人工智能的发展陷入无源之水、无本之木的困境。因此,为了保障人类创作的繁荣与人工智能的可持续发展,我们必须对各方利益进行巧妙的平衡,绝不能放任人工智能训练企业无节制、无约束地使用创作者的作品。
在此背景下,明确界定哪些行为被排除在合理使用的范畴之外——即制定出“负面清单”,显得尤为重要。以下是几种典型的、应受到严格限制的使用行为,它们不仅侵犯了创作者的权益,也阻碍了创作的健康发展,应被排除在合理使用范围之外。
第一,恶意地绕过技术手段采集数据的行为。对于他人享有版权的作品“合法获取”,可以用来辅助合理使用的判断。{53}某些企业可能采用不正当手段,如破解、规避创作者为保护其作品而设置的技术保护措施,擅自采集和使用数据。例如,一个艺术家为了保护自己的画作不被非法复制,特意在作品中嵌入了数字水印。然而,某些人工智能训练企业却通过技术手段绕过这些保护,大量采集画作数据进行训练,这无疑是对创作者权益的严重侵犯。
第二,使用创作者声明不得用于人工智能训练的作品进行训练的行为。有些创作者在发布作品时,会明确标注“不得用于人工智能训练”等限制条件。然而,一些企业却无视这些声明,擅自使用这些作品进行人工智能训练。比如,一位作家在发布自己的小说时,特别声明其作品不得被用于任何形式的人工智能创作或训练。但某人工智能训练企业却无视这一声明,将小说内容作为训练数据,这不仅侵犯了作家的版权,也违背了其意愿。
第三,故意进行过拟合训练,使得生成式人工智能取代创作者的交易市场。一些企业可能通过过度训练人工智能模型,使其能够高度模仿甚至替代特定创作者的风格和作品。这种行为不仅剥夺了创作者在市场上的独特地位,还可能导致整个创作市场的失衡。前文中提到,构成合理使用的一个重要考量因素就是非特定性、非竞争性的使用,不会影响被使用作品权利人本身的市场利益。因此,采用此种方式训练生成式人工智能的目的就是替代,当然属于典型的非合理使用的情形。例如,此前曾引起广泛争议的针对歌手孙燕姿的音色模仿的AI孙燕姿案,这种行为属于典型的对于人工智能技术的滥用,不仅涉及侵犯版权邻接权的问题,还涉及侵犯人格权和不正当竞争等多种违法行为。{54}在比较极端的例子中,一位插画师向其客户交付了两组插画后,客户直接针对这两组插画进行深度学习训练,最终开发出一款能够高度模仿其画风的人工智能模型,此后就不再委托该插画师完成相关任务。这些做法不仅损害了插画师的利益,也破坏了市场的公平竞争环境。因此,不能认定过拟合训练为合理使用。
为了保障人类创作者的权益和创作活动的健康发展,我们必须对上述使用行为严格限制和遏制。同时,也应积极探索和建立合理的收益分配机制,以激励更多的创作者投身于创作事业,为人工智能的发展提供源源不断的创新动力。
六、结语
事实上,我们应该保持对人工智能的积极态度,并乐观地看待其发展趋势。在摄影技术尚未诞生之前,人类有着强烈的记录影像的需求,因此,绝大多数美术作品都倾向于写实风格。人像画师和写实派风景画师构成了画家群体的主流,雕塑作品也多以人像为主。评价体系更是高度强调作品与现实的贴合度,越接近现实中的形象,越被视为上乘之作。然而,摄影技术的出现彻底颠覆了这一格局,使得任何人都能轻松实现留影的愿望,无需再历经数年甚至数十年的刻苦训练。这一变革催生了摄影师这一新职业。但与此同时,画家和雕塑家的行业并未因此走向衰落,而是转向了非现实性的创作,从对客观世界的写实描述逐渐过渡到灵感性的艺术创作,这似乎更能凸显创作的真谛。
同理,人工智能技术的发展也在催生着新的岗位,如Prompts调整师等。创作的重心从以往的手动绘画转变为如何巧妙地设计Prompts和参数;更为关键的是,如何利用个人的审美眼光挑选出更优的成品并进行进一步的加工和完善,这一过程更加贴近“创作”的本质。需要明确的是,人工智能缺乏意识,无法理解人类的审美情感,只能进行机械性的学习,无法对生成的内容进行美学上的判断。因此,必须由人类来进行挑选和把关。从这个角度来看,人工智能永远无法完全取代人类创作者的地位,所以我们无需为此感到焦虑,更不必对人工智能参与创造活动抱有敌意。以人工智能AlphaGo为例,在其相继击败围棋界的顶尖高手李世石与柯洁之后,一度有人悲观地预言围棋行业将步入没落。然而,实际情况却大相径庭。围棋领域在被人工智能攻克后,不仅没有萎缩,反而迎来了前所未有的发展机遇,其影响力显著扩大。越来越多的人对围棋产生了浓厚兴趣,并积极投身于围棋活动中。对于棋手而言,人工智能更成为一个提升自我水平的强大工具,众多棋手通过学习和借鉴人工智能的招法,实现了技艺的飞速进步,推动人类围棋的整体水平迈上了一个崭新的台阶。
(作者系北京大学法学院教授、博士生导师,国际知识产权研究中心研究员)
(本文得到北京一言之文化发展有限公司甘梦恒研究员协助和支持,特别致谢)