[摘要]训练数据已经成为生成式人工智能发展的核心,生成式人工智能通过对大规模训练数据的学习生成新的内容,这在促进技术进步的同时,也给著作权法律制度带来严峻挑战。具体来说,生成式人工智能在输入阶段的数据获取、训练阶段的“黑箱”现象以及输出阶段的内容相似性,均可能涉及著作权侵权。文章认为,生成式人工智能训练数据合理使用的适用范围应重点集中于输入阶段,并建议有关主体扩展合理使用的主体范围,承认特定条件下的商业性使用,严格限定合理使用行为仅为复制行为,以期平衡技术创新与著作权保护,推动生成式人工智能产业的健康可持续发展。
[关键词]生成式人工智能;训练数据;著作权;合理使用
一、问题的提出
近年来,以机器学习技术为核心的生成式人工智能,引领各领域的新浪潮,为人工智能产业注入新的生机与活力。生成式人工智能的发展基础包括训练算法、训练算力和训练数据三大要素。其中,训练数据是生成式人工智能的重要驱动力。根据我国《互联网信息服务深度合成管理规定》,“训练数据,是指被用于训练机器学习模型的标注或基准数据集”。
生成式人工智能在创作过程中依赖大量的训练数据,高质量的生成内容则建立在优质数据的基础上。目前,这些优质数据通常受到《中华人民共和国著作权法》等的保护。在实际应用中,生成式人工智能未经授权获取和使用受著作权法保护的作品,会引发侵权纠纷,导致权利关系失衡。例如,2023年Getty Images在美国特拉华州向Stability AI提起诉讼,指控其侵犯版权和商标权,该案件被认为是全球首例涉及“Stable Diffusion”算法模型及训练数据的版权侵权案。在该案中,Getty Images起诉称,Stability AI未经授权使用其拥有或代表的受法律保护的数百万张图像及相关元数据进行模型训练,侵犯其版权。Stability AI则辩称,其使用这些内容进行模型训练属于合理使用。然而,在全球范围内尚无司法实践对此类案件做出明确的定论[1]。该案件也使生成式人工智能训练数据合理使用问题置于公众视野。
基于此争议,学界已经展开深入研究,并提出多元化的观点。部分学者认为,生成式人工智能使用受著作权法保护训练数据的行为可解释为合理使用[2]。部分学者则主张,生成式人工智能对训练数据的使用行为并不符合合理使用的条件,应通过许可形式来进行规范[3]。可见,学界针对这一问题尚未达成统一意见。因此,文章聚焦于生成式人工智能训练数据可能出现的侵权风险,分析其合理使用的适用逻辑,并提出优化路径。
二、生成式人工智能训练数据的侵权风险
(一)输入阶段的确定侵权
生成式人工智能的学习、训练和内容创作需要大量数据的支持,包括数据的获取和使用。根据数据来源不同,其训练数据可以大致分为三类。
第一类是公有领域的数据,生成式人工智能使用进入公共领域的数据即通过开放的共享平台下载所需要的数据等,由于此类数据本身已不存在著作权保护问题,暂不进入著作权规制的范围。第二类是以交易的形式,通过购买他人数据库中的数据来获取的数据。我国著作权法并未对数据库做出专门的法律规定。然而,在通常情况下,数据库的所有者需要向权利人支付报酬,并获得授权,才能将数据库中的内容进行传播。因此,数据库所有者可被视为内容的传播方,并享有传播这些内容的权利。若生成式人工智能开发者通过绕过技术保护措施的手段,免费获取有偿提供的数据,则这类行为会构成对数据库所有者传播权的侵犯。第三类是将非数据形式的作品转化为数据形式,即将原始数据转换为模型可处理格式的数据。生成式人工智能训练数据的输入过程必然伴随着相应的复制。根据我国著作权法,复制权是著作财产权中最为核心的权利,任何人未经许可复制他人作品的行为,均构成侵权行为。将非数据形式的作品转化为数据形式,即为复制,这种复制行为属于著作财产权中复制权的控制范围。只要没有获得权利人的授权,无论这种非数据形式的作品是通过合法还是非法手段获取的,都构成侵权。
(二)训练阶段的疑似侵权
当前,生成式人工智能训练过程存在“黑箱”现象。生成式人工智能通过自然语言处理技术对大量数据进行学习训练,从中挖掘统计规律,以实现深度学习并优化决策。然而,这些统计规律并非以传统数据存储的方式存在,而是被编码在数以亿计的模型参数中,这使得外部人员无法直接了解相关的内部工作原理,甚至连生成式人工智能开发者也难以详细理解。这一不公开、不透明的算法运行过程便是“算法黑箱”。因此,生成式人工智能训练过程受技术影响较大,且缺乏可解释性,导致该过程中的侵权界定复杂。
学界对生成式人工智能训练数据在训练阶段是否构成侵权也有不同观点,有学者主张,生成式人工智能在训练阶段主要从大量数据中学习和提取特征,而不涉及对原始数据中表达性内容的直接使用或展示,属于典型的非表达型机器学习,不构成侵权[4]。还有学者主张,生成式人工智能训练过程需要对数据进行智能识别以及转码,期间的转化关系也需要进行设定和调整,经过转码过后的内容具有新的原创性表达,那么此时的转码行为完全可能符合侵犯权利人改编权的构成要件[5]。然而,笔者认为,以上观点均有较大局限性,有关主体需要对生成式人工智能训练数据在训练阶段进行一定的技术预设,认定生成式人工智能训练过程是基于特定技术运行下的生成过程。
(三)输出阶段的客观侵权
生成式人工智能训练数据输出阶段是否侵权,需要有关主体将被控侵权的人工智能生成物与权利人作品进行客观对比,按照实质性相似原则进行判断。而该阶段合理使用规则的适用仍然需要有关主体判定生成式人工智能在输入阶段是否将权利人的作品纳入训练样本。
从已有产业实践来看,生成式人工智能输出阶段的生成物一般分为两种:第一种是人工智能生成的不同于以往权利人作品的“创新”表达;第二种是人工智能生成的与权利人作品相同或者存在一定相似的“非创新”表达。前者难以追究法律责任,后者受到权利人的侵权追诉。侵权指控的核心在于是否构成著作权法中的“表达性使用”,即利用原作品的独创性表达,并基于此创作出与原作品相关的新作品。这类衍生作品不仅可能直接复制、改编或模仿原作品,还可能在市场上与原作品形成竞争,从而影响权利人应得的经济利益。有关主体对此类侵权行为的认定需要遵循“接触+实质性相似”“思想与表达二分法”等判定标准。具体而言,生成式人工智能在内容表达上若一旦落入原作品的表达范畴,与原作品构成实质性相似,则可以被判定构成侵权。
三、生成式人工智能训练数据合理使用的适用逻辑
(一)适用范围:限于输入阶段
生成式人工智能训练数据合理使用问题的研究应区分具体侵权阶段,只有厘清不同阶段的侵权形态及其关系,才能准确探寻合理使用规则适用的逻辑和范围。在生成式人工智能创作过程中,其输入阶段的数据未经许可使用则明确构成侵权。训练数据的输入是生成式人工智能创作的基础和前提,而大量数据构成机器学习的训练数据库,成为其创作的主要素材。即使算法先进,如果输入的数据不完整,则输出的结果也可能存在一定的缺陷,而要经权利人许可后再使用,这种“海量性”与“随机性”使数据使用的自愿许可几乎不可能,且交易成本较高,因此如果不将其纳入合理使用的范围,会严重阻碍生成式人工智能的发展[6]。生成式人工智能的机器学习过程技术结构复杂,算法更新速度较快,被认为存在不可追溯、不可解释性。具体来说,生成式人工智能训练数据的侵权论证难度较大,且存在诸多不确定性。生成式人工智能在输出阶段的数据则可以通过客观标准判定是否构成侵权,且其的生成原理决定自身无法在输出阶段单独主张适用合理使用规则。因为如果一方想主张生成式人工智能训练数据适用合理使用以形成侵权抗辩,仍需要证明自身在训练数据的输入阶段没有将权利人的作品纳入训练样本,或者在输入阶段已构成合理使用。综上所述,合理使用规则的适用判定主要集中于生成式人工智能训练数据的输入阶段。
(二)适用目的:符合利益平衡
著作权制度作为典型的利益平衡机制,旨在调和权利人和社会公众等多方主体之间的不同利益。作为著作权法中的权利限制与例外制度之一,合理使用制度的设计反映这一平衡。具体而言,著作权法通过授予权利人对作品的排他性控制,防止他人未经许可侵犯其智力劳动成果,从而保障权利人能够通过许可他人使用作品获取合理的经济回报,并激励创作。然而,生成式人工智能的发展则倾向于自由、大规模地获取数据,推动公众对知识的广泛接触和传播,从而促进科学文化的发展。两者之间的矛盾和冲突逐渐加剧,有关主体亟须寻找到一条平衡的路径[7]。换言之,实现生成式人工智能发展与著作权保护之间的平衡,既有助于激励创作,又能促进技术发展。在此背景下,合理使用制度的设计尤为重要,而生成式人工智能训练数据纳入合理使用范畴,成为调和技术发展与著作权保护之间冲突的有效机制。
在数字技术快速发展的背景下,学者提出“技术性合理使用”的概念,认为机器学习等技术在带来经济利益或积极社会效应的同时,应该倾向于被认定为合理使用[8]。此外,一些国家和地区已经通过立法或司法判例明确在特定条件下生成式人工智能训练数据构成合理使用的相关规定,为其发展和应用提供法律指引。例如:日本著作权法将生成式人工智能训练数据使用归入“计算机信息处理”行为,纳入合理使用范畴,以立法之举释放出推动该国生成式人工智能产业发展的强烈信号;美国虽并未通过正式的法律条文确认数据使用的正当性,但在一系列司法判决中通过“四要素分析”和“转换性使用”标准,判定数据使用行为符合合理使用的条件,从而为相关技术应用提供法律支持。在我国,《中华人民共和国人工智能法(学者建议稿)》第二十四条对数据合理使用做出规定,这可以为判断生成式人工智能训练数据是否构成合理使用提供法律依据[9]。综上所述,有关主体通过对合理使用条款的详细解释,明确生成式人工智能训练数据是否符合合理使用的具体标准,这不仅有助于实现数字时代利益的合理分配,还能够进一步平衡技术发展与著作权保护之间的矛盾。
(三)适用效果:不构成市场替代
生成式人工智能在输入阶段的复制行为并不会直接影响原作品的市场。在这一阶段,生成式人工智能训练数据的使用主要发生在模型的内部处理过程中,并未以可获取的复制件形式对外公开或分发内容。因此,权利人并未失去对其作品的控制权,也未失去作品的市场份额。简言之,生成式人工智能在输入阶段对原作品的复制并不会对其商业价值或市场需求产生实质性替代作用,因为这一过程并未直接影响消费者对原作品的需求或供应。尽管生成式人工智能训练数据可能包含某些特定的作品,然而在输出阶段,生成式人工智能与数据输入之间通常并不构成实质性相似,即生成式人工智能输出的内容并不会与原作品直接进入同一市场,也不会替代或侵占原作品的市场需求。
从长期的角度来看,如果有关主体不将生成式人工智能在输入阶段对作品的使用纳入合理使用的范畴,虽然短期内可能有助于保护权利人的利益,但会导致权利人垄断其作品,限制竞争[10]。
四、生成式人工智能训练数据合理使用的优化路径
(一)行为主体:应作扩大解释
笔者认为,有关主体对合理使用的行为主体应作扩大解释。我国著作权法中的合理使用制度对使用主体存在严格限定。然而,随着生成式人工智能的迅猛发展,现代科研活动的主体已经不再局限于传统的个人、科研机构或非营利组织。以阿里巴巴、腾讯、百度等为代表的大型科技企业,已经成为科研创新的重要力量,并在生成式人工智能领域取得大量具有市场价值和广阔前景的科研成果。因此,过于严格的主体限制不仅可能抑制科研活动的整体社会效益,还可能削弱我国在相关高新技术产业中的国际竞争力,进而对社会利益造成不利影响。
基于上述考虑,笔者认为,有关主体不应对生成式人工智能训练数据合理使用的主体范围进行过度限制。具体而言,在适用主体的限定上,有关主体应借鉴国际相关做法,任何从事科研活动并符合相应条件的主体都应被视为生成式人工智能训练数据合理使用的适用对象,无论其身份背景或所在机构的性质如何[11]。同时,有关主体也应放宽合理使用主体的限制,从长远来看,这不仅能够为中小型企业提供更多机会,还能够更大限度地推动生成式人工智能的开发与应用,进而促进该领域的经济增长和产业发展。
(二)行为目的:承认特定条件下的商业性使用
在当前法律框架下,合理使用的适用目的通常仅限于非商业性使用。然而,随着生成式人工智能的商业应用日益广泛,其对训练数据的依赖已成为推动企业创新和社会进步的关键因素。尤其商业性科研活动取得的创新成果,不仅具有显著的市场价值,还为社会带来诸多积极的效益。若仅因为这些研究活动的商业目的,有关主体就将生成式人工智能训练数据排除在合理使用之外,则不仅可能遏制企业的创新动力,而且与国家鼓励科技创新、推动产业升级的政策目标相悖。因此,笔者认为,有关主体应当在特定条件下允许生成式人工智能出于商业目的使用训练数据,在合理使用判断中将公共利益纳入考量,确保数据来源的合法性与透明度,并不得影响原作品数据的正常使用或者不得不合理损害权利人的合法权益。其中具体措施可以包括要求生成式人工智能在使用数据生成内容中明确标记原作品的权利主体,并通过数字水印等技术永久嵌入标记,维护权利人的权益[12]。实践证明,有关主体承认特定条件下的商业性使用,更符合我国科技创新的政策,有利于促进生成式人工智能研究成果的落地与转化,提高我国在生成式人工智能领域的竞争力。
(三)行为方式:仅限复制行为
关于生成式人工智能训练数据的合理使用行为,当前国际上相关法规存在较大差异。欧盟将其合理使用限定于复制和提取,排除信息网络传播与改编等行为,而英国要求在其进行复制时,必须明确标注原出处。在我国,一些学者认为立法应对其传播行为加以限制,也有学者主张将合理使用的行为要件扩展至传播权。然而,笔者认为,若将生成式人工智能训练数据合理使用的行为延伸至传播权,可能会引发一系列问题。传播行为具有公开性,且借助互联网,传播行为的影响力将会迅速扩展,甚至是无限扩展。如果不对这种传播行为进行适当控制,可能会导致原作品被滥用,进而使生成式人工智能在使用作品时享有过多豁免,这不仅损害权利人的利益,还可能影响知识产品的创作与共享,造成“超人类待遇”的局面[13]。此外,复制行为是生成式人工智能应用中的基础性行为,也是对合法获取的数据进行深度学习的前提。如果有关主体不允许对合法获得的数据进行复制,生成式人工智能将无法开展有效的训练,科研活动也将受到严重制约。因此,有关主体对生成式人工智能训练数据的合理使用,应限制于复制行为,而不应涉及其他权利,特别是传播权、改编权等。
五、结语
生成式人工智能的快速发展及其广泛应用,虽然为社会发展带来新机遇,但也使著作权保护面临严峻风险,给我国现有著作权制度带来前所未有的挑战。因此,针对生成式人工智能训练数据合理使用的适用问题,有关主体要对相关法律框架进行必要的调整和完善,以便保障权利人的权益,促进技术创新。实践证明,将生成式人工智能训练数据纳入合理使用范畴,不仅能够促进我国数字产业的发展,提升相关产业的国际竞争力,还能够为生成式人工智能的合法合规运用提供助力,并有助于构建更为公平的利益分配机制,平衡生成式人工智能与权利人之间的利益关系。
[参考文献]
[1]管育鹰.生成式人工智能相关版权争议焦点问题探讨[J].北京工业大学学报(社会科学版),2025(01):103-111.
[2]丁晓东.论人工智能促进型的数据制度[J].中国法律评论,2023(06):175-191.
[3]高阳,胡丹阳.机器学习对著作权合理使用制度的挑战与应对[J].电子知识产权,2020(10):13-25.
[4]魏远山.生成式人工智能训练数据的著作权法因应:确需设置合理使用规则吗?[J/OL].图书情报知识,1-11[2024-12-20].http://kns.cnki.net/kcms/detail/42.1085.G2.20240515.1112.002.html.
[5]彭飞荣.论算法创作中涉数据的著作权侵权风险及其化解[J].法律适用,2023(04):46-55.
[6]林秀芹.人工智能时代著作权合理使用制度的重塑[J].法学研究,2021(06):170-185.
[7]沈玥.人工智能深度学习的合理使用研究[J].湖北经济学院学报(人文社会科学版),2023(07):72-77.
[8]万勇.人工智能时代著作权法合理使用制度的困境与出路[J].社会科学辑刊,2021(05):93-102.
[9]杨曦,邓臻宇.AIGC创作适用著作权合理使用的困境与出路[J].出版广角,2024(17):75-80.
[10]来佳洋.机器学习输入阶段的著作权侵权风险及应对策略[J].中阿科技论坛(中英文),2024(10):161-165.
[11]王文敏.文本与数据挖掘的著作权困境及应对[J].图书馆理论与实践,2020(03):28-34.
[12]顾男飞,方舟之.ChatGPT等生成式人工智能使用作品的合理边界与侵权规制[J].数字图书馆论坛,2023(07):1-8.
[13]王楷文.人工智能数据输入与著作权合理使用[J].文献与数据学报,2021(02):110-118.
[作者简介]支雪婷(2001—),女,陕西铜川人,西安财经大学法学院硕士研究生。