生成式人工智能数据预训练的著作权法规制

2025-01-31 00:00:00周千惠
传播与版权 2025年2期
关键词:生成式人工智能合理使用

[摘要]文章从生成式人工智能数据预训练入手,发现其存在诸多侵权风险,即复制权侵权,改编权侵权,广播权及信息网络传播权侵权。基于此,文章结合国内国际针对生成式人工智能数据预训练制订的版权规制,提出“增设‘人工智能创作例外’合理使用新类型”“灵活使用三步检验标准”的风险治理策略,旨在为未来生成式人工智能领域的法律规制提供理论基础和实践指引,推动生成式人工智能在合法合规的框架内不断演进。

[关键词]生成式人工智能;数据预训练;合理使用

一、生成式人工智能数据预训练

(一)生成式人工智能的发展

当今社会,人类已从依赖传统信息的时代迈入了由数据驱动的智能发展阶段,在信息技术迅猛发展的今天,生成式人工智能正在深刻改变内容创作的方式。2022年11月,OpenAI公司推出了新型生成式人工智能—ChatGPT,这款预训练的通用大型语言模型一经发布,即引发了强烈反响。相较早期仅用于辅助创作的人工智能技术,生成式人工智能已经能够独立生成高质量的文本、图像和音乐等多种形式的内容,展现了前所未有的创造力。

人工智能初期发展主要集中在辅助创作领域,多被用于完成文本自动补全和语法纠正等简单的自动化任务,虽然能够提高创作效率,但是其功能和应用范围都非常有限。深度学习和生成模型的快速演进使得人工智能逐步掌握自主生成内容的能力,能够以极高的水准创作文章、视觉艺术和音乐等多样化的作品。例如,AlphaGo通过运用深度学习技术,从海量围棋历史对局中学习棋步策略,并在自我对弈中进行强化学习,不断优化其策略,从而战胜了多位人类顶级围棋高手。

在自然语言处理(NLP)技术实现突破的背景下,机器在理解和生成自然语言方面也取得显著成绩。Transformer架构的出现为大型语言模型的构建提供了关键性的支持和理论框架。生成式预训练模型(GPT)的出现将生成式人工智能的能力提升到一个新的高度。例如,OpenAI公司推出的GPT-3模型配备1750亿个参数[1],经由庞大语料库训练,采用了上下文学习机制(In-ContextLearning),ChatGPT凭借此机制能够灵活应对多种下游任务,有效执行自然语言处理、图像识别及语音处理等复杂任务,展现卓越的语言理解和生成能力。

(二)生成式人工智能数据预训练的技术运行原理

生成式人工智能技术(GenerativeAI)依托深度学习模型来生成数据。以自然语言处理为例,ChatGPT构建了大型语言模型LLM(LargeLanguageModel)和强化学习微调训练模型,采用了Transformer神经网络架构,这些深度神经网络模型擅长处理序列数据,通过自注意力机制捕捉输入数据间的联系,对用户输入的指令信息进行全面剖析,从而解析其具体意图。同时,ChatGPT能够依据数据库中已有的文本语料,按照数字顺序构建内容框架,最终将该框架转译为文本形式,生成满足用户需求的输出结果[2]。

预训练指在海量的数据上实施无监督学习,旨在预先构建一个数据模型或完成模型的训练过程。生成式人工智能模型是一种参数庞大且需要在预训练过程中使用大规模语料库进行自监督学习的自然语言处理模型,要想在广泛的应用场景中生成高质量的内容,大量的数据投喂或训练十分必要[3]。数据预训练是机器学习过程中的必要步骤,而机器学习是数据预训练所需的核心技术,总的来说,数据预训练分为数据输入、机器学习与结果输出三个过程[4]。以ChatGPT为例,这一生成式人工智能在数据训练阶段采用的数据收集途径包括获取政府、学术机构及公司公开发布的数据集,或者运用爬虫技术从互联网搜集文本、图像等相关数据。然而,在收集用于模型训练的数据时,如果人工智能未经授权就复制互联网或其他来源上受著作权保护的文本、图像、视频等作品,就会面临版权侵权的风险。

二、生成式人工智能数据预训练中的版权风险分析

(一)复制权侵权

生成式人工智能在数据预训练阶段通常采用两种手段进行数字化处理:第一,将以非数字方式记录的知识和信息转变为机器可解析的编码格式;第二,通过API等接口工具,从外部来源调取已完成编码转换的数据内容。这些手段为人工智能技术获取知识和处理数据奠定了基础。《中华人民共和国著作权法》(以下简称“《著作权法》”)规定,除合理使用、法定许可等法定豁免规定外,未经著作权人许可擅自使用在著作权保护期范围内的作品构成著作权侵权。当前,生成式人工智能所获取的数据并非完全来自于公有领域,其在收集海量数据训练模型时难免会复制已受版权保护的作品,而这种行为涉及对著作权人复制权的侵权风险。在最新修订的《著作权法》中,我国将“数字化”新增为复制权的一种行为方式,使我国版权法中的复制行为从传统的印刷、拓印等一经复制便被固定的形式扩展到有形载体和数字载体以及数字载体相互之间的复制。然而,无论复制的表现形式多么丰富,其本质始终是对既有作品的重新呈现[5]。在生成式人工智能采集数据的过程中,其收集的数据都会被先行复制后存入数据库,复制是实现数据存储的必要前提,那么在数据收集过程中爬取数据并将其存储至数据库的行为就构成著作权法上的复制行为。因此,根据我国著作权法的规定,如果该复制行为未经版权所有者授权且没有特殊的抗辩理由,则生成式人工智能进行数据预训练侵犯了著作权人的复制权。

(二)改编权侵权

改编权是赋予权利持有人允许他人在原作基础上进行内容的调整和加工,以形成富有创意的全新作品的权利。在生成式人工智能数据预训练阶段,由于机器学习的需要,人工智能通常需要将收集的数据转换为相应的结构化数据,而对数据的转换修改、整理删除等操作必然会涉及对原有数据内容的调整,进而可能引发侵犯著作权人改编权的风险[6]。要想分析数据预训练的改编权侵权风险,我们要先从机器学习的方法入手。基于训练数据是否包含特定作者的作品这一标准,机器学习被分为一般机器学习与特殊机器学习[7]。第一,一般机器学习指人工智能在由众多作者作品构成的数据库中,通过算法训练来分析和选择数据,再根据用户的指令与数据库内容进行匹配生成作品的过程。这类作品的风格和外观具有一定的随机性,往往难以被用户所掌控,即使它们可能涉及改编权,但由于缺乏具体的比对标准,一般机器学习的侵权风险较低。第二,特殊的机器学习指相关主体通过使用某一特定作者创作的作品对算法进行训练的学习过程。例如,巴黎索尼计算机科学实验室的技术人员用300多首巴赫的作品训练了人工智能系统,这些歌曲在训练过程中被转换成不同的音符,并最终生成了2500多首作品。这些作品使包括专业音乐家在内的众多听众认为他们是巴赫本人创作的作品。根据著作权法的相关规定,大多数作品的保护期限在作者死亡50年后便终止,因此巴赫的作品现已成为公共领域的文化遗产,不再受版权约束。然而,如果作品仍处在版权保护期限内,使用这些作品进行算法训练便会涉及版权侵权问题。在特殊的机器学习过程中,相关主体会从众多作品中提炼属于作者个性化表达的信息,并运用这些信息投喂人工智能进行数据预训练,以高度模拟原作者创作风格为目标进行表达。作品是作者独立构思的产物,其独创性体现在个性化的表达方式,而人工智能生成的内容可能会展现类似的表达特征,进而对被学习的作品产生替代效果[8]。因此,基于预训练数据来源的特定性,特殊的机器学习生成的作品存在侵犯原作品改编权的风险。

(三)广播权及信息网络传播权侵权

“广播权”在《著作权法》中的定义为以有线或者无线方式公开传播或者转播作品,以及通过扩音器或者其他传送符号、声音、图像的类似工具向公众传播广播作品的权利。在“央视国际网络有限公司诉北京百度网讯科技有限公司侵害作品信息网络传播权案”中,法院判定互联网传播行为具有有线传播的特征,因此依据《著作权法》,将其认定为信息网络传播权的一部分,作为财产权加以保护,并裁决被告向原告支付赔偿款共计50.28万元。在著作权法中,信息网络传播权作为一种财产权利,与广播权具有相似之处,而该判决中提到的“有线传播”概念,已被扩展为包括网络形式的传播方式。因此,从法律逻辑统一的角度来看,广播权中的“有线传播”理应包括基于互联网展开的传播行为。鉴于此,如果人工智能输出结果与原作品存在实质性相似,并将该结果通过网络向公众传播,那么生成式人工智能在进行数据预训练时可能面临侵犯原作品广播权及信息网络传播权的风险。一般而言,人工智能生成作品涉及的广播权及信息网络传播权侵权问题主要发生在数据输出环节,但也有观点指出,数据预处理阶段同样存在潜在的广播权及信息网络传播权侵权风险。例如,在具体实践环节,技术人员为了进行数据挖掘或机器学习,验证研究结果的可行性,常常需要将数据上传至云端或利用互联网进行共享,这种方式可能存在侵犯原作品的广播权及信息网络传播权的潜在风险[9]。

三、生成式人工智能数据预训练的版权规制选择

(一)域外制度借鉴

1.美国:转换性使用的法律规则

在美国,人工智能在数据预训练阶段所面临的版权及合理使用问题得以有效解决,主要归因于转换性使用理论的应用。该理论首次在“Campbellv.AcuffRoseMusic案”中被提出。根据这一理论,当原作品被以不同的形式进行重新诠释,并被赋予全新的意义或功能时,这种改动可被视为对原作品的转化性使用,并被认定为符合合理使用的法律规范。法院在判定生成式人工智能生成的作品是否构成转换性使用时,主要依据是其是否具备足够的“转换性”特征,而非商业属性。在司法实践中,法院应用转化性使用规则通常从两个方面进行评估。第一,使用的内容与使用目的是否与原作品存在明显的差别,作品的使用是否被赋予新的功能。当新作品的使用目的和性质发生较大转变时,就不太可能对原作的市场产生直接的替代作用。在“AndyWarholFoundationfortheVisualArts,Inc.v.Goldsmith案”中,美国最高法院指出,判断转换性使用的核心在于新作品“是否以及在何种程度上”与原作品在目的和性质上存在相似,单纯的形式或风格变化不足以证明其使用目的已完全转换,必须综合考虑使用背景等因素,以确定其使用目的是否具有创新性[9]。第二,使用作品是否具有不同的功能,这种功能转换性是美国法院在司法实践中确立的一种新形态,它扩展了原有转换使用概念的范围[10]。在“AauthorGuildv.HathiTrust案”中,美国法院认为,HathiTrust图书馆提供的全文检索服务、面向残疾人的图书访问权限以及数字化保存功能,将原作品单一的阅读用途转变为服务于研究、保存及具备社会公益性的多重功能,通过对原作品进行重新定位,赋予了其新的功能,这种使用方式具备高度的“转化性目的”,因此可以被视为合理使用。从判决结果来看,美国法院对“转化性使用”的阐释采取了较为灵活的方式,为其提供了宽广的解释余地,以确保该理论得到更全面的应用。

2.欧盟:新增文本数据挖掘的例外规则

欧盟的早期版权立法,如1996年发布的《数据库保护指令》和2001年的《信息社会版权指令》,因采用封闭式条款设计,未能契合文本与数据挖掘的需求,从而对人工智能技术的应用和推广产生了不利影响。2016年,欧盟公布了《数字单一市场版权指令》(以下简称“《指令》”)的初版提案,旨在加强成员国间版权规则的一致性,将科研相关的文本与数据挖掘活动视作特定情况纳入版权保护的例外范畴。2019年4月,经过修订的《指令》正式生效。新《指令》在保留科研活动中文本与数据挖掘的特殊权利的同时,还增添了针对数据挖掘需求的相关例外规定。新《指令》第4条则进一步规定,出于文本和数据挖掘对合法获取的作品或其他内容进行复制与提取的行为不构成侵权。新《指令》第4条则进一步规定,只要内容是合法获取的,其用于文本与数据挖掘的相关行为则不构成侵权。考虑到现有的“基于科研目的的文本与数据挖掘例外条款”约束性较强,难以覆盖商业决策支持、公共服务优化、应用程序开发或技术革新等非科研领域,且文本与数据挖掘行为并不符合2001年的《信息社会版权指令》中临时复制的合理使用条件。对此,欧盟制定了新的“基于文本与数据挖掘目的的文本与数据挖掘例外”条款[11],允许行为主体在未被权利人明确禁止的情况下,对合法获取的数据资源进行自由复制与提取,同时取消了主体资格限制,从而扩大了技术应用的灵活性和适用场景。

(二)我国制度选择

1.三步检验标准的辅助性考虑因素

随着生成式人工智能技术的发展,我国《著作权法》迫切需要解决因使用作品作为机器学习训练数据而可能引发的侵权争议。《中华人民共和国著作权法实施条例》(以下简称“《实施条例》”)通过制定三步检验标准,为相关判断提供了明确的顺序和参考依据。三步检验标准有助于法院在保护版权人利益和促进公共利益之间找到平衡点,使得合理使用制度在实践中的应用变得更加清晰且具有可操作性。在我国司法实践中,这一规则多被当作一种辅助性的参考工具,当遇到《著作权法》未具体规定的情况时,适用这一规则通常会变得非常困难,甚至无法实施。究其原因,法定情形提供了明确的法律依据和操作指南,而三步检验标准由于具有抽象性特征,在应用时需要综合考量多方利益及具体情境,这种灵活性在特定情境下可能引发差异化解读,进而增大了法律适用的不确定性和复杂性,加大了法院判决时的风险。基于此,为了在实际操作中有效保护版权人和用户的合法权益,三步检验标准在我国主要作为辅助性考虑因素,而不是直接适用于所有合理使用情形。

2.合理使用制度无法提供适当的豁免

我国著作权法中有法定许可和合理使用两种侵权豁免理由。在法定许可制度方面,我国著作权法当前规定的法定许可类型难以适用于人工智能的创作情境,尽管依据法定许可制度,使用作品不需要经过原著作权人许可,但是即便按照现行法定许可费的最低标准估算,在数据预处理阶段使用作品所产生的潜在许可费用也极为庞大,让从事人工智能研发的企业或者研究机构负担如此高昂的许可费较为困难。在当前各国人工智能技术飞速发展的国际背景下,我国也在不断提升人工智能技术水平,相关法律法规对数据输入行为设置过多的限制和过高的成本,与鼓励知识产权创新创造的宗旨相违背。因此,相对而言,人工智能供应商依据合理使用制度为其数据输入行为主张免责具有一定的合理性。然而,现行合理使用制度难以满足人工智能技术发展的需要,不能为生成式人工智能数据预处理阶段使用作品的行为提供适当的版权豁免。我国《著作权法》明确列举的合理使用情形也未涵盖数据挖掘环节,合理使用条款中明确列举的情形中也只有少数涉及数据挖掘环节。同时,相关主体在课堂教学或科学研究中将数据处理挖掘作为使用例外通常限于非商业目的,若某些数据预处理行为不属于科学研究范畴,或含有任何商业性质,则该例外不适用。当前,软件及互联网公司致力于提升生成式人工智能技术,依据企业特性,难以将其数据挖掘行为限定为非商业用途。人工智能在创作过程中使用数据,完全是为了产生新的作品,并不符合上述《著作权法》中规定的合理使用情形。而生成式人工智能在创作过程中需要用于训练的数据作品,其使用范围显然已经超出了《著作权法》第二十四条规定的合理使用的适当性标准[12]。除了先前提到的例外情况,现有法律并未明确列出可为数据挖掘提供合法依据的其他情形。《著作权法》在第三次修订时不仅保留了现有的合理使用条款,还新增加了相关的兜底条款,以应对其他合理使用的可能情况。尽管这种做法看似能够满足将合理使用制度应用于新型作品的需求,然而,它并未实现将合理使用制度由封闭性立法模式转变为更加开放灵活体系的转变。这导致法官在缺乏明确法律授权的情况下,依然无法创立新的合理使用类别。因此,这一调整可能无法有效扩大裁量空间,也未必能真正推动数据挖掘的发展[13]。

四、生成式人工智能数据预训练阶段的著作权风险治理

(一)增设“人工智能创作例外”合理使用新类型

我国可以参考欧盟增设“文本数据挖掘”例外,以体现我国大数据、人工智能的时代特征。同时,我国通过引入这一条款,不仅能克服生成式人工智能作品生成过程中的数据获取难题,还能降低人工智能在使用有版权保护作品时的法律风险,进而提高人工智能作品的整体水平,推动新兴领域的健康发展。我国新修订的《著作权法》第二十四条中新增加了合理使用的兜底法律条款,这进一步扩展了文本数据挖掘行为被视为合理使用的可能性,为相关实践提供了更多的法律保障。第一,当前我国进行人工智能的研究主体大多是大型互联网企业,这些企业为生成式人工智能的研发投入了大量资金和高技术人才,因此该条款的适用主体应扩展至为发展人工智能而需要使用数据的公司及企业,这种不限定适用主体的做法更加符合我国国情。技术的快速发展使得互联网与软件企业在应对市场动态变化方面具有显著优势,其在文本与数据挖掘方面的能力通常超过部分科研组织。鉴于此,立法机关若仅将研究主体限定为学术机构或文化组织,则可能会限制文本与数据挖掘技术的广泛使用和持续进步。第二,只有当文本与数据挖掘符合“出于科学研究目的”时才符合合理使用的标准。文本与数据挖掘合理使用的目的要件应确保挖掘行为符合规定。“以科学研究为目的”的数据挖掘能够限制使用主体利用文本与数据挖掘技术实施可能损害权利人合法权益的行为,这符合著作权法促进科学和文化的繁荣发展的宗旨,有助于防止文本数据挖掘技术的商业化滥用。当文本与数据挖掘技术服务于科研工作时,其产生的最终效益归属于社会公众利益。基于此,适度牺牲著作权人的部分利益,以增进社会公共利益符合《著作权法》立法目的[14]。

(二)灵活使用三步检验标准

我国著作权法长期采用封闭式立法模式,具体规定了12种著作权法例外类型。从法律解释角度看,《实施条例》所确立的三步检验标准对《著作权法》中规定的12种具体例外条款的适用起到了限制作用。因此,如果某一行为构成合理使用,它必须既属于《著作权法》中规定的12种具体例外之一,又需通过三步检验标准的评估[15]。在现行著作权法体系下,三步检验标准仅适用于评估《著作权法》第二十四条所列举的具体情形是否符合各项规定,这加强了对合理使用条款的限制,导致包括生成式人工智能数据预训练在内的多种数字时代新型使用场景无法被纳入合理使用条款的范畴。为了推动技术革新,立法机关有必要赋予人工智能开发者更大的发展空间,使其能够高效使用现有材料,并通过编辑和整合构建新的数据库。因此,立法机关应在肯定三步检验标准立法价值的基础上,探索其对新兴领域著作权法的适用空间;通过采用较为开放的模式规定人工智能数据预训练适用合理使用的具体要件,再依据三步检验标准进行个案判定。而司法机关通过在司法实践中灵活有效地应用三步检验标准,可以在保障著作权人权益的同时促进创新和公共利益的发展。因此,立法机关围绕三步检验标准,结合人工智能技术的特点和我国著作权法的相关规定,将数据预训练过程中涉及作品的使用行为纳入合理使用的范畴具有一定的可行性。在司法实践中,部分法院也认为,只要相关行为未妨碍原作品的正常使用,且未对著作权人的合法权益造成不合理的损害,即可被视为合理使用,而不必拘泥于《著作权法》第二十二条所列举的具体例外情形。

五、结语

生成式人工智能技术的迅猛发展为国家经济和科技进步注入了新的动力,但其在数据预训练过程中涉及的著作权问题备受重视。综上所述,生成式人工智能所推动的技术革新正在塑造前所未有的创作方式,并伴随着一系列与版权相关的复杂问题。以ChatGPT为代表的生成式人工智能在数据预训练和内容生成过程中面临复制权、改编权和广播权及信息网络传播权等方面的版权风险,美国和欧盟的版权法制改革为我国提供了有益的借鉴。生成式人工智能的发展需要在版权保护和技术创新之间找到平衡,我国立法机关可在保护版权人利益的同时促进人工智能技术的创新发展,为数字经济和智能社会的建设提供坚实的法律保障。这需要立法机关不断完善法律制度和应用技术手段,有效规制生成式人工智能数据预训练过程中的版权问题,促进其在合法合规的框架内健康发展。

[参考文献]

[1]陆伟,刘家伟,马永强,等.ChatGPT为代表的大模型对信息资源管理的影响[J].图书情报知识,2023(02):6-9.

[2]王瑶,李胜利.生成式人工智能的版权风险及其应对:以ChatGPT为视角[J].海南金融,2023(10):49-58.

[3]丁道勤.生成式人工智能训练阶段的数据法律问题及其立法建议[J].行政法学研究,2024(06):16-28.

[4]吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020(03):653-673.

[5]冯晓青,付继存.著作权法中的复制权研究[J].法学家,2011(03):99-112.

[6]张平.人工智能生成内容著作权合法性的制度难题及其解决路径[J].法律科学(西北政法大学学报),2024(03):18-31.

[7]詹爱岚,田一农.生成式人工智能机器学习中的著作权风险及其化解路径[J].电子知识产权,2023(11):4-14.

[8]李安.机器学习作品的著作权法分析:非作品性使用、合理使用与侵权使用[J].电子知识产权,2020(06):60-70.

[9]万勇.人工智能时代著作权法合理使用制度的困境与出路[J].社会科学辑刊,2021(05):93-102.

[10]谢琳.论著作权转换型使用之非转换性[J].学术研究,2017(09):61-67.

[11]吴高,黄晓斌.人工智能时代文本与数据挖掘合理使用规则设计研究[J].图书情报工作,2021(22):3-13.

[12]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022(04):128-140.

[13]张惠彬,肖启贤.人工智能时代文本与数据挖掘的版权豁免规则建构[J].科技与法律(中英文),2021(06):74-84.

[14]董凡,关永红.论文本与数字挖掘技术应用的版权例外规则构建[J].河北法学,2019(09):148-160.

[15]万勇.著作权法三步检验标准的误解澄清与本土重塑[J].上海政法学院学报(法治论丛).2022(04):42-55.

猜你喜欢
生成式人工智能合理使用
生成式人工智能的教育启示:让每个人成为他自己
挑战·融合·变革:“ChatGPT与未来教育”会议综述
生成式人工智能时代的政治传播走向
党政研究(2023年3期)2023-05-29 01:10:39
生成式人工智能重塑教育及教师应对之道
人机共生时代国际传播的理念升维与自主叙事体系构建
对外传播(2023年4期)2023-05-21 20:52:16
生成式人工智能的教育应用与展望
信息自由与版权法的变革
现代法学(2016年6期)2016-12-08 17:15:04
室外艺术品原作者署名权的行使规则案例分析
资治文摘(2016年7期)2016-11-23 01:28:38
浅析如何正确使用多媒体进行高中政治教学
南北桥(2016年10期)2016-11-10 17:24:59
“非遗”图像——浅谈非物质文化遗产的图片拍摄