摘要:人工智能在开发阶段面临训练数据来源的著作权合法性问题。在制度层面上,体现为作品使用新方式的出现对传统合理使用规则的冲击问题;在法理层面上,体现为著作权人与公众的利益分配问题。鉴于人工智能的数据使用行为是非传统复制行为,考虑到人工智能产业发展对于大规模训练数据的实际需求与确保公众对作品的适当接近、促进文化艺术繁荣的公共利益需求,有充分理由将人工智能使用作品进行训练的行为视为一种转换性使用行为,从而纳入合理使用范畴。同时,为作者提供配套的名誉补偿机制及人工智能生成内容实质性侵权的救济路径;倡导企业建立共享数据资源库以达成企业经济效益与社会责任的平衡。
关键词:合理使用;人工智能;训练数据;功能主义;转换性使用
一、问题的提出
人工智能模型的训练过程高度依赖于数据驱动。数据是实现迭代和优化的基础,人工智能模型通过分析大量的训练数据来提取特征、建立规律。数据量越大,越能发掘潜在的复杂规律,进而提高人工智能模型的性能和质量。同时,丰富的数据也有助于人工智能模型在面对未曾见过的情况时表现出较好的泛化能力,即能够有效应用于未知场景,实现从特定领域人工智能向通用人工智能的转化。因此,如果无法使用大量数据进行训练,人工智能模型的性能、泛化能力和实用性将受到严重制约,进而对人工智能技术在各个行业领域中的应用造成负面影响。
当前,关于人工智能所涉著作权问题的讨论焦点集中在由人工智能产出内容的作品性质认定及其权利归属之上。这一焦点主要处理的是输出阶段的著作权问题,但也要注意到,在人工智能输入阶段与训练数据相关的著作权问题同样亟待解答,在某种意义上甚至是更为根本的问题。未经适当授权或不符合知识产权法律法规的训练数据的使用,可能会导致后续输出内容合法性基础的缺失,从而动摇整个人工智能产品的法律根基,对作品著作权人和训练人工智能的相关企业或科研院所的权益造成损害。
根据既有的著作权理论,著作权侵权通常涉及未经许可复制受保护的作品,或者以某种方式利用作品而未获得原作者授权的行为。我国《著作权法》第三条规定的九种作品类型中,大多数类型皆可以作为人工智能训练的对象。人工智能不像人类那样能够从作品中自主学习,而是必须通过使用作品来进行训练。这意味着,在构建训练数据集时,无论是完整收录还是部分提取特征,都不得不对受著作权保护的文字、美术及视听作品等进行复制,从而直接触及著作权人的权利。我国《计算机软件保护条例》和《信息网络传播权保护条例》仅对特定临时复制行为进行豁免,无法涵盖人工智能训练过程中对作品的复制情形。由此引发使用受著作权保护的作品来训练人工智能是否侵犯其相关权益的问题。
如果要规避著作权侵权风险,那么在利用相关作品进行训练之前,需要事先取得各权利人的许可。然而,实践中,人工智能训练所需求的巨大数据量引致了所涉作品权利主体众多、权利状态不清晰、许可程序繁琐等问题,使得这一规避侵权风险的安全途径难以实现。数据作为人工智能的驱动力,直接影响着人工智能产业发展的广度与深度。目前的法律制度尚未适应这一新兴需求,法律上的不确定性将在一定程度上抑制人工智能技术的研发与应用。若严格禁止未经授权使用受著作权保护的作品,则可能阻碍人工智能技术的开发与应用,这与《著作权法》鼓励创新的初衷相悖。
本文从人工智能使用作品进行训练之行为定性与利益衡量两条主线展开,首先分析在目前的法律框架下,人工智能使用作品进行训练在行为定性上存在的著作权侵权风险以及作者、企业各自潜在的经济损失;随后结合人工智能使用作品行为的技术特点,阐明其与传统复制行为的区别与转换性使用的实质,并对多方利益进行再考量;最后运用功能主义方法论,从解释论视角证成基于《著作权法》立法目的,将人工智能使用作品进行训练这一行为纳入合理使用范围是可行之道。
二、人工智能训练之著作权侵权风险检视
在我国《著作权法》的框架下,人工智能训练过程中对作品的使用行为引发的法律问题呈现出多维度特征。本章围绕两条主要线索展开,分别从行为的法律属性分析与经济利益考量两方面探讨人工智能训练活动对原作品著作权相关权益的影响;随后讨论著作权权利限制机制在人工智能训练场景下的适用可能性。
(一)人工智能训练行为对著作权相关权益的影响
1. 行为属性分析
(1)复制权
有学者认为,在以作品的有形形式作为传播手段的时代,复制权是著作权制度中具有原初性、基础性地位的重要权利。复制权使得著作权人有权授权他人复制其作品,或者禁止他人未经许可复制其作品。这一权利可以追溯至18 世纪末、19 世纪初欧洲国家开始实施版权法律时,主要是为了保护书籍和艺术作品不受非法印刷和复制品的影响。1886 年签订的《伯尔尼保护文学和艺术作品公约》(以下简称《伯尔尼公约》)在第九条第一款中明确承认作者对其作品享有复制权,成员国必须确保作者有权授权或禁止任何种类的复制行为。这一诞生于传统纸质出版时代的权利在进入数字时代后进行了扩张。复制的概念不仅限于物理形式的翻印、复印,还包括将作品转换成数字形式存入电子设备的过程。1996 年签订的《世界知识产权组织版权条约》(WCT)第一条指明《伯尔尼公约》第九条所规定的复制权及其所允许的例外,完全适用于数字环境,尤其是以数字形式使用作品的情况。换言之,在电子媒体中以数字形式存储受保护的作品,构成《伯尔尼公约》第九条意义下的复制。《与贸易有关的知识产权协定》(TRIPs)第十一条进一步巩固了这一权利,要求成员方应当给予文学和艺术作品的作者防止未经授权而复制其作品的有效保护。我国《著作权法》第十条第五项以半开放的形式列举了八种复制方式,其中“数字化”方式为2020年修改之时新增,体现出立法者对作品在网络空间内传播和使用情形的关注,反映了其对数字时代著作权保护的敏锐回应。
2023 年 9 月, 美 国 作 家 协 会( AuthorsGuild)向法院递交起诉状,对OpenAI 发起集体诉讼,指控OpenAI 在未经授权的情况下,将作者的版权作品大量复制并用于训练其大ww型语言模型。同年12 月,《纽约时报》(TheNew York Times)对OpenAI 和微软提起诉讼,指控二者未经许可使用了其数百万篇文章来训练包括ChatGPT 在内的AI 聊天机器人。《纽约时报》声称,OpenAI 和微软的这种行为侵犯了其新闻报道的版权,因为其未就使用这些作品进行人工智能模型的训练达成许可协议。
当人工智能在训练阶段使用受版权保护的作品时,无论是将文本、音乐、图像还是其他类型的作品纳入训练数据集,都需要先将作品复制到存储介质中。在现行法律制度下,这种复制行为如果没有得到版权所有者的授权,便构成了对复制权的侵犯。即使这种复制是在系统内部进行,且不直接向公众展示,但它是人工智能学习过程中的必要步骤,如果未获得权利人许可,依然可能触及复制权保护的边界。除非适用特殊豁免条款(例如合理使用、法定许可等),否则此类行为存在被认定侵犯复制权的风险。
(2)改编权
改编权是指著作权人依法享有的将原作品改编成具有独创性的新作品的权利。在人工智能的语境下,如果人工智能在进行训练后,不仅仅是机械地复制或简单反映原作品的内容,而是通过对原作品的理解、分析,产出与原作品有相同主题、叙述线或关键元素,在表达上有所变化,且具有创新性的新内容,那么这种过程可视为对原作进行了某种程度的改编。
由ING 荷兰国际集团提供资金支持,智威汤逊广告公司(J. Walter Thompson 机构) 主导,微软、代尔夫特理工大学和伦勃朗故居博物馆提供相关资源支持的微软和荷兰国际银行的“下一个伦勃朗(The Next Rembrandt)”项目,收集了伦勃朗的所有作品数据来训练人工智能,进而创作出类似伦勃朗风格的新画作。这一过程即涉及对伦勃朗作品的改编,因为它基于对原作品的训练最终产生的新内容体现了原作者的风格和具体要素。由于伦勃朗已经逝世数百年,他的作品已经进入了公共领域,在这种情况下,利用其作品进行训练的行为并不存在侵权风险。然而,人工智能训练过程中涉及大量仍处于著作权保护期限之内的作品,当人工智能输出的内容与原作品之间形成了具有创造性关联的新内容(特别是在保留了原作品的基本表达要素的基础上形成的新内容)时,如果未经授权,仍然存在改编权的侵权风险。
(3)信息网络传播权
根据我国《著作权法》的规定,信息网络传播权是指著作权人有权决定是否允许他人通过有线或无线方式将其作品向公众提供,使得公众能够在其选定的时间和地点获得该作品的权利。
从使用行为上来讲,人工智能在训练阶段使用的通常是大量的训练数据集,这些数据集可能包含受版权保护的完整作品或作品片段。在训练即内部使用阶段,如果仅仅是算法模型在封闭环境中学习和分析数据,并未将原始作品公之于众或通过信息网络提供给公众下载或浏览等,理论上并不构成对信息网络传播权的直接侵犯。然而,有学者指出,在实践中,机器学习等行为通常要求数据在网络上传输或存储在云端服务器上,这一步骤可能构成对原作品的“向公众传播”。另一方面,当人工智能生成新内容时,如果其中包含了对原作品实质性的引用或复现,导致生成内容与原作品存在实质上的相似性,那么在后续的公开传播中将可能侵犯原作品的信息网络传播权。即使目的并非直接公开展示作品,但只要是通过技术手段使作品可以被公众通过信息网络传播方式获得,哪怕只是间接地触及了作品的存取和使用,也有可能触犯信息网络传播权。
2. 经济利益考量
(1)个人的抵抗情绪
作者之所以反对自己的作品未经同意就被用于训练人工智能,主要是出于对眼下经济利益和未来职业发展的悲观考量。
在经济利益方面,作者可能丧失潜在的收入。换言之,作者可能失去通过授权使用作品获得报酬的机会。许多作者依靠许可作品的使用来获取收益,比如出版、二次创作、改编等。作品未经许可被用于人工智能训练,将减少作者通过授权获得的经济效益。另一方面,即使使用其作品进行训练的相关企业愿意支付许可费用,费用也可能难以恰当反映作品的真实价值。
进一步讲,作者不仅关注眼前的实际经济损失,更担忧未来的职业前景。人工智能生成内容(AI Generated Content,AIGC)的逐渐成熟,在一定程度上替代了原有作者的市场生态位。早在2014 年,就有利用人工智能撰写新闻稿件的事情发生,如今的大语言模型更能生成与人类作者难以区分的内容,冲击了由人类作者进行创作的传统商业创作模式,并对作为训练数据的原作品产生难以忽略的竞争威胁,这一现实引发作者被替代的担忧。2024 年4 月,200余名音乐家通过艺术家权利联盟发布了一封公开信,呼吁人工智能开发者、技术公司、平台和数字音乐服务商停止使用人工智能侵犯和贬低人类艺术家的权利。信中提到,一些最强大的技术公司正在利用其作品来训练人工智能模型,这些行为正在用大量人工智能创作的“声音”和“图像”取代人类艺术家的作品,这些声音和图像大大稀释了支付给艺术家的版税,而这对于许多音乐家、艺术家和词曲作家来说,将是灾难性的。
(2)企业的违规风险
从人工智能企业的角度来看,使用他人作品来训练人工智能也将面临一系列《著作权法》上的侵权风险,一旦被认定侵权将招致经济损失。
一方面,企业在灰色地带运作可能会面临侵权纠纷。当前法律法规对于人工智能训练过程中使用作品的相关规定尚不明确,一旦败诉,企业会面临支付巨额赔偿金的情形,品牌形象也可能因此受损,甚至被迫更改商业策略,相应的市场也因此收缩。如前所述,虽然在某些情况下,在人工智能的训练过程中对仍在著作权保护期内的作品的使用可能以合理使用进行侵权抗辩,但这一点在法律界尚未达成一致意见。合理使用抗辩通常需要满足一定的条件,如非商业用途、适量引用等,而商业使用和大规模的数据抓取显然更具争议性。未经授权而使用他人作品作为训练数据,可能导致对原权利人复制权、改编权以及其他相关权利的侵犯,企业始终面临潜在的不合规风险。另一方面,企业也面临许可成本高昂的问题。如果要合法使用大量版权作品,企业可能需要支付高昂的版权许可费用。有学者认为,“事前授权”式使用付费模式与海量的学习材料需求之间存在龃龉,会导致交易效率低下、交易成本增加等负面结果。
(二)著作权限制制度的适用困境
1. 法定许可与强制许可适用不能
一般而言,对著作权的限制制度主要包括法定许可、强制许可和合理使用三种。
法定许可制度是指在特定情形下,对未经他人许可而有偿使用他人享有著作权的作品的行为依法不认定为侵权。但在人工智能训练场景下,训练数据集可能包含大量不同类型的作品,难以通过单一的法定许可机制处理所有类型的版权问题,处理起来十分复杂。且法定许可通常包含了向权利人支付费用的规定,但对于人工智能训练数据而言,由于难以量化每个作品对最终模型的价值贡献,如何公平定价并进行有效补偿成为难题。且我国《著作权法》第二十五条对于法定许可所列明的适用场景并不涵盖人工智能训练数据的使用。
强制许可多见于专利领域,但著作权领域也有相关机制的存在。它在特定条件下允许政府授权第三方无歧视地使用某项专利,并通常伴随一定的补偿机制。但强制许可通常是基于公共政策需求或紧急状况而使用,公权力应保持谦抑态度,并不适合用于为了商业用途的大规模数据收集情形。此外,我国现行法律中并未设立强制许可制度。
因此,法定许可与强制许可均难以适用于解决人工智能训练数据的著作权侵权问题。
2. 合理使用存在适用空间
许多国家的版权法中,都有合理使用(FairUse/ Fair Dealing)的存在。合理使用允许在特定情况下未经版权所有人许可使用受版权保护的作品。这是一种旨在平衡著作权人专有权利与社会公共利益的侵权豁免机制,以确保公众在一定条件下能够自由使用已发表的作品而不必取得著作权人的授权,同时免除法律上的侵权风险。
我国《著作权法》第二十四条列举了合理使用的情形,并在2020 年完成了第三次修订。尽管这次修订对合理使用制度进行了完善,但“列举+ 其他情形”的半开放式立法模式为将训练人工智能而使用他人作品纳入合理使用范围所提供的制度空间有限,这一机制已无法适应人工智能时代对作品的使用。人工智能利用作品进行训练在文义上不符合《著作权法》第二十四条所具体列举的前十二种合理使用类型。首先,第二项至第十二项所列举的情形完全不适用于人工智能训练场景,因此无法为人工智能训练行为提供豁免;其次,第一项所列明的为个人学习、研究目的而使用他人已发表的作品只能涵盖个人对于人工智能进行训练的行为,而这是极少数情形,人工智能模型的开发通常需要团队协作,企业及科研院所进行的人工智能训练,并不能适用这一豁免。
美国《版权法》第一百零七条列明了合理使用的四个考量因素,其开放式的合理使用制度构建方式为人工智能训练提供了更为灵活和更具解释空间的环境。实践中,通过Campbellv. Acuff- Rose Music, Inc. 案发展出的转换性适用规则,进一步拓展了合理使用的使用范围。
为消除文本与数据挖掘(Text and DataMining,TDM)在法律上的不确定性,促进相关科学研究与商业发展,欧盟《数字单一市场版权指令》(以下简称《DSM 指令》)引入了“文本和数据挖掘例外”,为教育工作者和商业人工智能开发人员提供通过复制作品或数据库从文本和数据中提取信息的便利。
综上所述,合理使用显示出一定的适应性和灵活性,具有潜在的应用空间,这能够为人工智能训练使用受版权保护的数据提供合法路径。借鉴域外经验,可以对我国的合理使用制度进行解释论上的调试,使其更适应新形势下的人工智能技术发展情况。
三、人工智能训练之著作权法律重释与经济效益重构
本章结合人工智能训练过程的技术原理,首先,论证人工智能使用作品进行训练的行为与传统著作权所规制的使用方式和市场交易方式存在本质区别;其次,从利益衡量角度进行分析,说明这一行为在个人层面并未实质性侵蚀作品的原有市场及作者权益,在企业层面也存在基于成本收益对比的合理性。
(一)人工智能使用作品行为再解读
1. 非传统复制行为
对人工智能的训练过程进行分阶段考虑,可区分为数据收集阶段、预处理阶段、模型训练阶段和输出阶段。有观点认为,机器学习的各个阶段中数据的处理行为仅为对作品内容的“非作品性使用”,因此并不构成著作权侵权。
首先,作品在数据收集阶段、预处理阶段和模型训练阶段中经历了多次转化和抽象处理,而非简单地复制。人工智能在这三个阶段的训练过程中对数据的处理不同于传统意义上的复制行为:它并非直接向公众展示或分发复制品,而是通过学习、分析数据改善自身算法模型。特别是自然语言处理和计算机视觉等领域的深度学习模型,开发者会收集大量的数据集,包括但不限于文本、图像、音频、视频等各类受版权保护的作品,这些作品通常要经过清洗、标注等预处理步骤,以转换成易于处理的格式。在这个过程中,由原始作品转换而来的数据虽被读取和解析,但并未形成与原作相同或完全一致的复制品,而是将其转化为模型可以理解的形式特征或编码,且这些训练数据并未对外展示或传播。
其次,在输出阶段,人工智能模型并没有再现输入数据的具体内容。模型的功能在于学习后进行分析、生成新内容等,以“学习”数据的表现模式,形成一种抽象的知识表征,并不能生成原始作品的精确复制品,更像是对数据内在规律的一种模拟或归纳。
综上所述,数据在这里并不是简单地被“复制粘贴”至另一个载体,而是作为一种手段被用于构建和优化人工智能模型本身。这种使用方式能否直接落入现行《著作权法》中“复制权”的规制范畴,仍有待商榷。
2. 事实本身不受版权保护
著作权并不保护作品中的基本数据、事实和概念。我国《著作权法》第五条将单纯事实消息、历法等排除在外。美国《版权法》也指明版权保护不适用于任何思想、概念、原理或者发现等本身。有学者指出,大多数机器学习系统对作品进行复制,并不是为了使用受版权法保护的作品表达,而是为了获取不受版权法保护的,已由版权法赋予公众的事实要素或组织结构。
《著作权法》的立法目的之一在于保护具有独创性的表达,而非表达所内含的事实本身。有学者认为人工智能利用大量作品进行训练,以学习其中具有独创性的创作规律的行为属于对著作权人之作品的侵权性使用。但其忽略了人工智能在当前发展阶段的工具性质,即人工智能仍是作为一种工具被人类所使用,其无法接触到作品背后的独创性。人工智能虽然能通过学习海量数据提取出统计上的规律,但这种规律是一种概率分布,并不代表它能够理解人类作者的主观意图或情感表达,而这正是作品的独创性之根源。
人工智能训练的过程旨在挖掘训练数据集所蕴含的规律性知识与普适性特征,而非简单地模仿原始作品的创作表达手段。例如,大语言模型对文本资源的学习是为了通过对各类文学作品的系统性分析,提炼出语言结构的特征与联系,理解词汇间的相互作用机制,从而输出符合自然语言规律的结果。同样,人脸识别技术的训练亦不关注摄影作品中作者的独特视觉表达手法,而更多地聚焦在从人像摄影作品中提取人类个体面部特征的独特性和普遍规律,以构建、优化人脸识别算法。换言之,这些人工智能模型的关注点在于从数据中抽象出来的客观事实,而不是作品的具体表达形式。
因此,在人工智能的训练过程中,如果仅利用了受著作权保护的作品中的非受保护元素(事实、数据和概念等),而非其表达形式,那么即便这些数据来源于受著作权保护的作品,这种使用也应当被认为是合法的。
(二)人工智能预期市场利益再考量
利益平衡是民法精神的体现和社会公德的要求,也反映了人权思想和公共利益原则。本章第1 节已说明人工智能使用作品进行训练的行为是否属于《著作权法》上的侵权行为仍有待斟酌;本节将从个人与企业的利益角度进行再次考量,说明作者之经济利益受到损害不是必然结果,企业更能从这一行为中获益。
1. 个人层面:使用范围超越作者预期
作者的著作权保护聚焦于作品在原有市场的价值实现和通常预期内的经济利益,防止未经授权的作品使用对创作者既有的市场地位造成实质性替代和损害。然而人工智能使用作品进行训练的行为具有非传统性,探讨人工智能训练与作品的关系时,应当考虑人工智能使用作品的目的及其对作品市场的影响。
人工智能创新会驱动产生新的市场,而这些领域的应用,在作品创作之时并不能预见,也不是原作者所能实现的。文生文、文生图、文生音乐和文生视频等新兴市场正是基于对既有作品的学习与训练才得以诞生和发展。在文生文领域,以ChatGPT、文心一言等为代表的大语言模型,不仅可以生成风格各异的文章,满足读者的个性化需求,更可以在其他领域中发挥作用。如在教育领域可以通过语言大模型为使用者进行在线辅导,提供个性化的知识内容,并对使用者的回答提供智能反馈,提高优质教育的可及性;在娱乐领域,游戏设计者可以利用大语言模型(以下简称LLM)为游戏角色定制对话内容,丰富游戏剧情,甚至可以实时生成对话,提升玩家沉浸感;在商业领域,LLM 可以通过分析数据、总结信息等方式提供决策支持。文生图、文生音乐和文生视频等技术,则可跨越传统创作领域的界限,实现跨媒介的艺术融合与再生成。
在Campbell 案中,法院以“原创作品的作者是否会发展”来界定原有市场与潜在市场。在创作初期,作者难以预见到人工智能训练这样的新型应用场景会成为作品的潜在市场,这种使用方式超出了个人作者创作和传播作品的一般能力和意图,因此并未实际触及作者通过发行、许可或授权作品而获取收益的核心市场领域。在《著作权法》已对原有市场给予有力保护的情况下,对于像人工智能训练这样涉及非传统、难预见的潜在市场用途,不应当被自动归类为侵犯著作权。因为它并未实质性挤占作品在传统市场中的份额,也无损于作者创作活动的直接经济回报。如同工业时代机器对人的代替,工业制品的价格与手工制品的价格在市场上会呈现出明显的区别,标有“手工生产”的产品价格会比流水线生产的同类产品的价格更高。同样,合理的人工智能训练还能通过技术创新间接促进知识产品的多样化,扩大市场整体规模:一方面,降低知识获取与内容生产的门槛;另一方面提高优质创作者的收入,有可能为包括原作者在内的更多创作者创造新的就业机会和经济收益。
2. 企业层面:合理使用提供显著动力
从成本方面考虑,企业通过取得许可而利用作品进行人工智能训练所面临的成本极高。温蒂·戈登(Wendy J. Gordon)指出适用合理使用制度对侵权行为提出抗辩的原因中,即包括寻求或取得权利人的许可代价十分高昂。作品取得著作权的普遍化与低门槛化导致作品总量激增,独创性标准的降低导致大量无价值作品受到《著作权法》的保护。社交媒体上用户随手所发的日常生活内容、对某一商品或服务的评价,都可能因其独创性而成为作品。大量网络作品的著作权归属不清晰,导致确定作品的真正权利所有人以及协商达成许可协议的过程异常复杂。作者本身可能对这些内容的后续使用并不在意,但企业要逐一取得许可并进行人工智能训练却极为困难。这种现象不仅推高了企业的技术创新成本,更可能引发“反公地悲剧”。
从收益方面考虑,企业利用作品进行人工智能训练的收益可观。首先,企业可以利用人工智能激活存量市场,发掘增量市场。将作品用于人工智能训练不仅不会导致原作消费者流失,反而可能借助技术创新催生新市场需求和商业模式。依托人工智能,企业可以开发出独特的付费内容、订阅服务等多种盈利路径,进一步拓宽企业的发展空间。其次,企业还能够通过与其他企业、创作者开展跨界合作,构建更为多样化的产业生态。
四、人工智能时代合理使用制度之调试
如前所述,人工智能使用作品进行训练的行为不应被自动视为侵犯著作权,但法律实践复杂,这一行为在现有著作权制度下的侵权风险也不容忽视。法律框架应与国家经济发展政策相协调,作品的使用越有助于公共利益的增加,法律越应该提供相应激励。为消除法律不确定性带来的风险,应结合法律原则、国际趋势、社会利益等进行综合考量,采用对合理使用制度从功能主义视角进行扩张解释的进路提供相应解决办法。将人工智能使用作品进行训练的行为纳入合理使用制度中,虽然短期内可能对著作权人的利益造成影响,但有助于促进信息自由流动并为人工智能产业的发展提供广阔可能。
(一)适应技术发展的行为界定
1. 功能主义的内涵及其适当性
功能主义(Functionalism)关注行为的目的与社会功能,而非仅仅局限于行为的形式或表面规则,其核心在于理解和评价某种行为或制度的社会价值和实用效果,强调法律制度和规则应当服务于社会的特定功能和目的,以及法律变迁背后的实用性和功能性因素。莱因斯坦(Rheinstein)认为,法律作为一种社会控制和组织的工具,要求人们探究具体法律规则以及法律制度所承载的社会功能。要证明法律规则和制度的合法性,就要从该规则与制度在当前社会中承担什么功能以及是否很好地承担这一功能两方面来考虑。在《著作权法》的语境下,这意味着不单纯依据著作权人的专有权来评判某项使用行为是否侵权,也要考察特定用途如何实现促进公共利益、创新和知识积累等功能。换言之,从功能主义视角需考虑该行为是否有助于实现《著作权法》立法所欲实现的制度功能,即作者利益与公共利益的平衡,从而在一定程度上包容和支持那些虽有侵权风险,但有助于增进整体社会福祉的创新行为。
2. 功能主义视角下合理使用边界之扩张
有学者指出,现行版权法以“作者中心主义”为主导,而合理使用则被边缘化。《著作权法》不应当成为技术革新的阻碍。从功能主义的视角对人工智能使用作品进行训练的行为进行审视,需要超越单纯的著作权人利益考量,不局限于对法条字面含义的机械解读。鉴于作品是提升人工智能模型性能不可或缺的原材料,在评估人工智能对作品利用的合法性时,需要充分考量技术发展所带来的公共利益,不应草率认定其为侵权行为。
(1)商业使用:转换性使用抗辩
美国通过法律和判例建立了开放式的合理使用制度,且未区分商业性质的使用与非商业性质的使用,为人工智能使用作品进行训练提供了较大的解释空间。其《版权法》第一百零七条规定了合理使用的四个要素,即使用目的与性质、被使用作品的性质、被使用部分的数量与质量、对被使用作品潜在市场或价值的影响。另外, 转换性使用(Transformative Use)也是美国合理使用制度中一个重要组成部分,是指如果一种新的使用对原有作品进行了实质性的转化,赋予了新意义或产生了新的信息、美学、见解等,则有可能落入合理使用的范畴,从而不构成侵权。自美国联邦最高法院于1994年将该规则运用于Campbell 案以后,该规则逐渐成为美国司法实践中衡量某一作品使用行为是否构成合理使用的重要认定标准。
基于此,使用这四个要素及转换性使用概念对人工智能使用作品进行训练的行为进行分析。第一,使用目的与性质:人工智能在训练过程中使用版权作品,如果这种使用使得经过训练的人工智能可以生成具有独立价值的新内容,可被认定为体现了转换性,从而被视为合理。第二,被使用作品的性质:尽管作品受到版权保护,但如果人工智能训练的过程并未直接向公众展示这些原始作品,而是将其转化为机器学习的数据输入,那么这种使用体现出更侧重于作品的知识内容而非其表达形式的一面,从而在某种程度上减轻了对作品原创性表达的侵犯。第三,被使用部分的数量与质量:不可否认,人工智能训练需要使用大量完整作品或作品片段。然而,在训练过程中,这些作品被分解成人类不可理解的数据形式,并混入庞大的训练数据集之中,单个作品在整个训练过程中的作用被极大稀释,而且最终目的是实现算法的功能提升而不是直接再现作品本身。因此,只要使用的数量和质量与其训练目标相匹配,即使规模较大,也可满足合理使用的条件。第四,对被使用作品潜在市场或价值的影响:人工智能模型经过训练后产出的内容与训练数据中的任何单一作品本身不同,因此,除非其生成的内容直接替代了原作品的市场需求,否则很难说对原始作品的市场价值造成直接的竞争性损害。另外,如果人工智能的输出增加了产品多样性或开辟了新的市场领域,实际上会扩大而非侵蚀原始作品市场的发展潜力。
欧盟《DSM 指令》第四(一)条将TDM豁免的范围扩展到基于商业目的而进行TDM,商业人工智能系统开发人员可以复制作品或数据库,以从文本和数据中提取信息,只要人工智能训练过程需要,其可以保留这些副本。但也保留了权利人通过协议、单方声明等方式拒绝的权利。
日本《著作权法》早在2009 年就以“计算机信息分析”的名义规定了数据挖掘例外。2018 年的日本《著作权法》修订中,又将这一条款中的使用条件拓展为“提供新的知识和信息”,且不对适用主体和目的进行限制,为企业出于营利目的而训练人工智能的行为消除了法律风险。甚至允许开展信息处理的主体将此类训练产物整理成作品集,在必要限度内向社会公众提供。
从比较法的角度看,美欧日等主要国家和地区在对待人工智能使用作品进行训练这一问题上的立法态度和司法实践,均体现为逐步扩大对合理使用制度的解释,以便包容并规范人工智能技术的发展。《知识产权强国建设纲要(2021 - 2035 年)》中明确了知识产权作为国家发展战略性资源和国际竞争力核心要素的地位,并要求知识产权回应新技术、新经济、新形势对知识产权制度变革提出的挑战。也有学者建议在现行合理使用制度框架下增设“人工智能创作”的合理使用类型。中国在面对人工智能技术快速发展及其对作品使用的特殊需求时,可以借鉴国际上的法律经验和司法实践,对现有的合理使用制度进行扩张解释,纳入人工智能使用作品进行训练的行为。
(2)非商业使用:科教领域数据挖掘例外
在非商业性质的科教领域,将作品用于人工智能训练具有更强的合理性:这一情形下的使用服务于公共利益,促进知识创新,且一般不会实质性地损害版权作品的正常市场。各国通过立法手段设定例外,既符合国际版权协定的精神,也是对数字化时代科研需求的积极回应。对在科教领域实施的TDM 行为提供豁免,是国际版权制度演进的趋势。
欧盟《DSM 指令》第三条将TDM 例外的适用范围限定于不具有营利性的大学、研究机构及文化遗产机构,且权利人不可以拒绝此类非营利性的使用。
另外,存在于《伯尔尼公约》第九条第二款、TRIPs 第十三条、WCT 第十条等国际公约及我国《著作权法》第二十四条中的“三步检验法”同样可用于证成人工智能在科教领域使用作品属于合理使用范畴的合理性:第一,对作品的使用限于某些特殊的情况:在科教领域,人工智能使用作品进行训练通常是为了科学研究、学术分析等旨在促进知识增长的目的,这些用途具有明显的非营利性和公益性,与日常生活使用、商业性使用皆有不同。第二,不应与作品的正常利用相抵触:人工智能在科教领域对作品的使用并不会妨碍作品在市场上的正常流通和使用。相关科研成果往往以新的理论构建、技术创新等形式展现,而不是以替代原作品的形式在市场上销售或传播,与原作品的正常使用方式并行不悖。第三,不得不合理地损害版权持有者的合法利益:在科教领域中,人工智能对作品的使用通常不直接影响作品的商业价值。这类使用所转化的成果与原作品不属于同一市场竞争领域,对作品的原本市场价值冲击较小。
(二)考虑多方主体的利益平衡
以合理使用方式使用作品进行人工智能的训练,确实有助于科技与产业发展,但作者的利益与感受不应被忽视,应尊重作者权益,以维护其创作积极性;另一方面,企业也可采取建立共享数据资源库的方式进行企业经济利益与社会责任承担的平衡。
1. 个人层面:提供经济名誉双保险
(1)明确侵权行为以提供维权路径
尽管人工智能使用作品进行训练的行为,出于社会公共利益的考虑应被视为合理使用范畴,但也不能从训练行为中完全免责。基于权利与义务的一致性,人工智能在对著作权作品进行宽泛合理使用的同时,也应承担与此相应的更多责任。如果人工智能生成的内容与原作品具有实质上的相似性,那么应当承担著作权侵权责任。
从保护原创性和激励创新的角度出发,如果不对人工智能生成的实质性相似内容加以约束,可能导致作者的创造性劳动成果被无偿占用,无疑会打击作者的创作热情。根据“接触+ 实质性相似”的著作权侵权判定规则,如果人工智能最终输出的内容与之前所使用的数据作品存在实质性相似,则同样可能会侵害相关著作权益,其训练者或使用者应当承担相应的法律责任。结合后文提到的标明数据来源义务,可为侵权判定提供抓手。
(2)标明数据来源以提供名誉补偿
加强对数据来源和使用的监管是目前的立法趋势。国家网信办等七部门联合公布的《生成式人工智能服务管理暂行办法》中就包括要求服务提供者履行训练数据来源的说明义务。标明数据来源是企业践行数据伦理、承担社会责任的表现,也是对创作者权益的尊重。
标明人工智能训练数据的来源为用于训练模型的作品提供了公开曝光的机会,作者的名字及作品名称得到传播,有助于使作者获得更多关注,从而提高其知名度与业界名誉。从作者自身视角来看,也能看到自己作品对技术进步作出的贡献,从而提高自身价值感;从企业视角来看,公开承认并尊重作品来源有助于建立其与作者之间的信任关系,企业可借此树立尊重作者的良好形象,从而吸引更多作者参与。另外,也要考虑到作者出于个人隐私考虑而不愿意显名的情况,可通过去标识化等措施保障个人信息安全。
2. 企业层面:建立共享的数据资源
计算机软件领域有“开放源代码”运动。受这一理念影响,知识共用理念进入著作权领域,表现为知识共享协议(Creative Commons,以下简称CC 协议)。CC 协议可为著作权人提供作品使用之开放程度的选择,从而增加作品的流通性,成为他人据以创作的基础。目前,维基百科等社区已采用CC 协议等方式开放授权,这些开放授权的海量作品已经成为人工智能训练的重要数据来源。同样有学者认为,应重点关注数据共享模式如何设计,以促进数据共享、数据协作和获得无偏见的数据分析。
在法律风险尚不明确的情况下,建立共享的数据资源库有利于缩小中小企业与大型企业之间的数据资源差距,从而实现技术和知识的包容性增长。大型企业通常拥有充足的预算来获取海量数据,相比之下,中小型企业则在数据获取上存在劣势。通过数据共享行动,后者能以较低成本获取原先难以获取的数据,从而消除因数据垄断而带来的不正当竞争风险,营造公平竞争的市场环境。
另外,共享的数据资源库将涵盖广泛且多样化的数据样本,这对于消除因数据量不足或数据来源单一导致的算法歧视至关重要。如果数据分布不均匀、数据代表性不足,则可能导致人工智能的输出结果带有偏见与歧视。通过数据资源共享,可以使人工智能在训练过程中接触到大量、多样化的信息,减少因数据局限而产生的算法歧视现象。
五、结语
从行为定性上对人工智能使用作品进行训练进行再审视,可以提炼出其非传统、变革性的使用特征,应当被视为对原作品的转换性使用而落入合理使用的范畴。从利益衡量角度考虑,更可发现其促进科技进步、繁荣知识生产的一面。因此,消除人工智能使用作品进行训练的著作权侵权风险,有利于文化事业和文化产业的发展与繁荣。综上所述,在功能主义视角下,人工智能使用作品进行训练,如果满足相应条件,应当被纳入合理使用范畴。
从根本上讲,创新既是推动社会进步的源泉,也是法律制度应对时代挑战、求变求新的内在驱动力。合理使用制度随着技术的进步正经历着一场深刻的演变历程。人工智能训练对作品的非传统使用方式恰恰反映了技术进步对传统著作权边界的挑战。面对数据密集型的人工智能创新活动,合理使用制度需要积极适应和调整,更好地成为融合多方权益的复合法律制度。法律制度在时代变迁中应通过不断地自我革新,秉持动态的、前瞻性视角,在科技与法律的交汇处,寻求尊重私人产权、鼓励技术创新与维护公共利益之间的动态平衡。