摘 要:【目的】探讨人工智能(AI)深度学习应用与著作权保护的冲突与协调机制,以平衡技术创新与权益保护的关系,提出合理的著作权法应对策略。【方法】通过对AI深度学习的应用现状进行分析,结合著作权法的相关规定,研究AI创作过程中的著作权侵权风险形成机制。并且,以百度文心一言等为例,详细研究了AI创作的3个阶段。【结果】著作权侵权风险主要来源于数据输入和输出阶段。在AI创作的数据输入阶段,对既有作品的搜集和处理可能涉及侵权问题;在输出阶段,AI生成的作品著作权归属复杂,涉及AI模型与人的独创性输入。此外,不同数据来源也带来了不同的侵权风险。在已有制度的框架下,AI创作很难避免违法利用数字作品。【结论】建议对合理使用条款加以修改,将AI创作纳入合理使用的框架内,将灰色地带的AI产业合法化。
关键词:人工智能;著作权;合理使用
中图分类号:TP18;D923.41" " 文献标志码:A" "文章编号:1003-5168(2024)24-0105-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.24.020
Risks and Solutions of Copyright Infringement in Artificial Intelligence-generated Creations
Abstract: [Purposes] This paper aims to explore the conflicts and coordination between the application of Artificial Intelligence(AI) deep learning and copyright protection, in order to balance technological innovation and rights protection, and propose reasonable copyright law countermeasures.[Methods] By analyzing the current application status of AI deep learning and combining relevant provisions of copyright law, the mechanism of copyright infringement risk formation in the AI creation process is studied. Taking examples such as Baidu's Wenxin Yiyan, the three stages of AI creation are studied in detail.[Findings] It is believed that the main risks come from the data input and output stages. In the data input stage of AI creation, the collection and processing of existing works may involve infringement issues. In the output stage, the copyright ownership of AI-generated works is complex, involving the originality input of AI models and humans. In addition, different data sources also bring different infringement risks. At the same time, within the framework of existing systems, it is difficult to avoid illegal use of digital works in AI creation.[Conclusions] It is suggested to modify the fair use terms to include AI creation in the fair use framework, thereby legalizing the gray area of the AI industry.
Keywords: AI; copy right; fair use
0 引言
随着科技的飞速发展,人工智能(Artificial Intelligence,AI)技术已经逐渐渗透到人类社会生活的各个方面。其中,深度学习作为AI领域的重要分支,应用日益广泛,尤其在图像识别、自然语言处理、语音识别等领域取得了显著成果,但也带来了前所未有的法律挑战,特别是在著作权保护方面。随着AI深度学习技术的广泛应用,其与著作权之间的关系日益复杂,引发了广泛的关注和讨论。
著作权作为知识产权的重要组成部分,旨在保护创作者的创作成果,鼓励创新和促进知识传播。在AI深度学习的应用过程中,如何界定和保护著作权成为亟待解决的问题。AI深度学习的训练和推理过程涉及大量的数据输入和学习任务,这些数据可能包含了诸多受著作权保护的内容,如文字、图片、音频等。AI模型在学习这些数据的过程中,不可避免地会涉及对这些内容的复制、修改和使用,这可能引发著作权侵权问题。
此外,AI深度学习生成的作品,如AI创作的画作、文章等,其著作权归属也是一个复杂的问题。一方面,作品的主体部分是由AI模型独立生成的;另一方面,作品的生成也包含AI使用人对AI模型提供提示词等作为人的独创性的输入。
因此,探讨人工智能深度学习与著作权之间的关系具有重要的理论意义和现实意义。本研究旨在通过分析当前AI深度学习的应用现状,结合著作权法的相关规定,探讨AI深度学习与著作权之间的冲突与协调,针对如何在新的时代背景下平衡技术创新与权益保护,提出合理的著作权法应对策略,以期为推动AI技术的健康发展提供有益参考。
1 AI创作中著作权侵权风险的形成
迈入新时代,广义上的数据是否能由著作权法进行保护仍然存在争议,但狭义上的数据即数字化作品能得以保护已经是社会的共识[1]。数字化载体并不会对其图像或文字等具体表达产生影响,其性质没有发生根本性的改变。
而AI创作主要是基于狭义上的数据并且通常需要经历3个阶段,即数据输入、学习及最终的输出阶段。以百度文心一言为例,在数据输入阶段,需要从各种渠道,如互联网、书籍、新闻报道、学术论文等,搜集大量的数据。在搜集到原始数据后,经过一系列预处理操作,如去除噪声、分词、词性标注等,剔除无用数据。在学习阶段,需要利用处理后的信息进行模型训练,这是一个逐步迭代的过程,模型会不断尝试从数据中学习相应的规律和模式。在训练过程中通常会有人为操作,根据模型的性能表现调整相应参数,优化模型学习成果,一般需要复杂的数学计算和算法优化。在最后的输出阶段,系统通过对用户输入信息的理解和解析,提取相应关键信息,在已学习的知识库中进行相应检索,进行推理和判断,生成相应的输出。
数据在AI创作的3个阶段中并不都存在相应的著作权侵权风险。学习阶段是对输入阶段的工作成果以数学模型进行处理,Chat GPT及文心一言这类大语言模型都是使用基于Transformer的自然语言处理模型,Google的bard使用的是BERT模型,此外,在细分领域也使用视觉处理的卷积神经网络(Convolutional Neural Networks,CNN),语音识别的循环神经网络(Recurrent Neural Network,RNN)和长短期记忆人工神经网络(Long Short-Term Memory,LSTM)等。这些模型通常仅是计算机程序语言及相应数学模型的结合,并不存在通常意义上的著作权侵权风险。风险通常来源于数据的输入阶段及数据的最终输出阶段。
输入阶段的主要工作内容是搜集并处理数据,这一步骤是整个流程的基础,为后续建立模型提供了必要的素材和支撑。通常情况下是由专门的程序员来完成。在搜集数据的过程中,需要广泛收集各种来源的信息,其中包括数字作品及经过数字化处理后的实体作品。这些数字作品可能涉及各种形式,如文本、图像、音频和视频等,而数字化后的实体作品则是通过扫描、拍摄或其他技术手段将传统形式的作品转化为数字化的形式。在搜集和处理这些数据的过程中,不可避免的问题是对既有作品的搜集及处理是否涉及侵权。
根据相关调查报告,AI行业从业者的数据来源有以下5种情况。第一是自行搜集,在相关人员自愿的前提下对其进行数据采集,或在公开场合主动收录、拍摄;第二是从公开平台获取,如Kaggle、OpenML、UCI机器学习库、TensorFlow Datasets、Google Cloud Public Datasets等开源平台,平台所有人既有高校,也有商业公司;第三是数据爬虫技术搜集;第四是向市场中的商业团队购买;第五是模拟数据[2]。从以上5种情形来看,第一至第四的4种获取途径均有可能产生法律风险。而一旦该阶段的行为被定性为侵权,那么基于这些数据所建立的模型,就如同“毒树之果”一般,其合法性也会受到严重质疑。
在AI创作的输出阶段,系统对用户请求的响应构成了该流程的核心环节。这一阶段不仅涉及数据的生成与内容的呈现,更要求系统能够精准捕捉用户的个性化需求,并据此进行定制化输出。在前期阶段严格遵循了版权法规,确保了数据的合法性与合规性的基础上,输出阶段仍可能因用户请求的特殊性而带来潜在的侵权风险。具体而言,当用户请求AI模仿某一特定作者的作品风格进行创作时,系统需要理解并再现该作者的创作特征。这一过程中,AI需要对原作进行深入分析,提取其风格元素,并在保证原创性的前提下进行模仿。但由于风格模仿本身涉及对原作一定程度的复制与借鉴,因此在实际操作中难免会越过合法使用的界限。此外,用户请求与现有作品特征的相似性也是导致侵权风险的重要因素。在AI创作过程中,系统可能因未能准确识别用户意图与现有作品之间的区别,在输出结果中呈现与已有作品相似的表达方式、情节设置等。这种相似性可能构成对原作的实质性相似,从而引发侵权问题。
2 AI创作侵权之法理分析
2.1 著作权侵权种类及法理论证
AI创作的数学基础是运用向量与矩阵理解和操作大规模数据集,并用概率论与数理统计辅助计算理解数据中的不确定性,从而进行预测和决策。在此过程中,会不可避免地收集大量已有数字化作品。同样以文心一言为例,其通过网络爬虫或API接口快速获取大量数据,与其他平台公司交换数据,通过公开渠道搜集开放数据集,如学术数据、政府公开数据、传感器数据、社交媒体数据,以及收集用户在使用其公司的其他产品、服务时所产生的数据。在这些过程中,AI所收集的数据会保存在其服务器内几乎形成永久性复制品,在著作权法意义上属于复制行为,存在侵犯复制权的风险[3]。
从创作结果来看,AI创作的结果与人类创作的结果别无二致,同样是3种情形:其一是与已有作品构成实质性相似的作品;其二是虽有已存作品的相似点,但有完全不同的表达,此类仍是具有独创性的作品;其三是与已有作品完全不同的全新作品。人工智能的思想是人类无法判断的,因此在第一种情形下,毋庸置疑会构成对原著作权人权益的侵犯;第二种情形与第三种情形下通常不会构成著作权侵权。
AI创作的侵权尽管不只发生在输出阶段,但通常只有在输出创作结果之后才会产生对现有作品的直接侵害,因此可以说该阶段是纠纷发生的主要阶段。针对是否侵权的判断,学界也有提出以“表达性使用”与“非表达性使用”对输出结果进行区分[4]。表达性使用强调对作品本身内容的呈现和传播,包括其文字、图像、声音等具体表达形式。如果AI创作结果涉及对作品独创性表达的复制、展示或演绎,那么这种使用方式就构成了表达性使用,存在侵权风险。而非表达性使用主要关注的是作品所承载的事实性信息或思想,这种使用方式并不涉及对作品独创性表达的复制或展示,而是将作品作为信息或数据的来源,用于研究、分析或其他非创造性目的。如果AI创作的结果构成非表达性使用,则不具有侵权风险。
以“接触+实质性相似”规则进行判断时,在AI创作时代出现了其他判定方法所不具有的优势。以往的判例通常会要求证明被告有接触在先的情形,如2022年“皮革纳福兔”玩偶侵权案,以及2020年最高人民法院驳回再审申请的潘某某音乐抄袭案等。但如果是AI作品则只需要调查AI的输入数据是否有相应作品即可,这将是最直接的证明材料。
“实质性相似”则存在不同的认定方法。在以往的实践过程中,各地裁判的认定方法相差极大,但总体可以概括为整体观感法、抽象测试法及二者的结合。在抄袭比较明显的情况下,将采用整体观感法进行判断;如果作品相似度难以判断,则会采用抽象测试法划分作品独创性,并进行单独对比分析。
2.2 AI创作侵权豁免困境
为平衡著作权人利益与社会公共利益,各国在著作权立法上都会规定相应的法定抗辩理由。在我国现行法律中,著作权法侵权豁免的法定理由仅有合理使用与法定许可两种类型。
法定许可的4种类型虽然不是必然不适用于AI创作的场合,但基于社会发展现状,不具备现实可能性,不予讨论。因此本研究主要讨论以下几种有可能适用于AI创作的合理使用条款。
第一是《中华人民共和国著作权法》(以下简称《著作权法》)第24条第1款第1项的规定:为个人学习、研究或者欣赏,使用他人已经发表的作品。AI使用他人作品的场合当然属于为学习、研究而使用他人作品,但AI不属于个人,创造AI的组织机构也不能属于个人的范畴[5]。不过此条依然有适用的场景,即AI是由自然人单独创造的。从信息技术的发展现状来看,已经出现由个人创造的AI,因此该条款有适用的可能性。当然,此种情形下依然要求以学习、研究为目的,不能有商业利益的追求。
第二是《著作权法》第24条第1款第2项的规定:为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品。AI是在深度学习已有作品之后进行独立创作的,因此对已有作品的引用是不可避免的,同时AI创作并不会只对单一来源作品进行引用,而是会大量参考同类数据,所以属于适当引用情形。但AI创作的目的不仅仅包括条款列举的“介绍、评论某一作品或者说明某一问题”,AI创作的目的基于用户的需求,而用户需求的不确定性使该条款的适用变得具有相应的不确定性。
第三是《著作权法》第24条第1款第6项的规定:为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。AI创作中对数字作品的使用应当属于科学研究活动,但用此条进行抗辩时,会受到目的限制和数量限制。在AI创作活动中,需要大量复制已有作品,并且其使用目的包罗万象,显然超出条款列举的目的要求,因此,该条款的适用性较低。
3 AI创作社会利益衡量与相关立法建议
AI产业将会是下一个国与国之间竞争激烈的产业,但AI的发展需要工业硬实力与文化软实力的共同推进。芯片作为现代工业皇冠上的明珠,虽然与法学看似无关,但在如何促进文化软实力与AI产业的配套方面,法学义不容辞。
目前,处于AI产业发展头部的日本与美国均采用柔性立法,以减少对AI产业的限制[6]。以日本为例,日本的立法总体上是对计算机程序后端的限制简单化及灵活处理,也就意味着对AI的输入阶段与学习阶段几乎不作任何限制[7]。在这种情况下,日本的相关研发机构及商业公司可以全力发展AI技术,因此在市场上可以看到细分领域内充斥着大量的日本AI模型,日本柔性立法在其中发挥的指引作用功不可没。
而我国现在推出的AI大模型在数据的来源上存在非常大的著作权侵权风险,其中充斥着大量授权不明的作品,但AI大模型可以说是人类集体智慧的产物,对每个单独作品的利用属于低密度利用,虽然几乎可以忽略不计,但又不可或缺。目前我国的著作权并没有对AI对作品的利用作出规定,AI产业目前仍处于灰色地带,但很显然无论法律是否允许,该产业依然会使用数字作品进行AI深度学习。
著作权法不仅要保护著作权人的合法权益,同时也肩负着平衡社会公共利益的任务。基于新兴技术产业发展需求,为鼓励技术创新与发展,促进作品高效利用,我国应将AI对作品的利用纳入合理使用范畴,消除技术创新主体的顾虑,推动AI技术向前发展。
但目前我国著作权法对此的规定仍是全封闭式的,即采用有限列举的方式列明可以适用合理使用的情形并严格限制兜底条款的适用。如果要从我国现行全封闭式的刚性限制直接转换为美国和日本开放式的柔性限制也存在直角转弯的问题,即在社会层面可能会经历法律规定大幅度转变与当下经济产业不相适应而导致的阵痛。因此,作为过渡阶段,本研究建议在合理使用条款中增加对应内容以促进AI对数字作品的利用,待社会条件成熟或其他合适时机再将立法转为柔性立法或半开放式立法。
4 结语
AI时代的到来,引发了一系列法律问题。著作权法现有规定与人工智能对大量数据的使用需求之间的矛盾是一个亟待解决的问题。基于AI产业的发展需求出发,借鉴他国先进实践经验,以促进我国法治进步是可行之道。由于立法模式的不同,我国需要针对AI产业适用特殊的法律规制模式,采用事前保护、事中监督与事后救济三管齐下的方式,更好地平衡产业创新发展与著作权权益保护之间的关系。
参考文献:
[1]彭飞荣.论算法创作中涉数据的著作权侵权风险及其化解[J].法律适用,2023(4):46-55.
[2]高泽晋.潘多拉的魔盒:人工智能训练数据的来源、使用与治理:面向100位AI开发者的扎根研究[J].新闻记者,2022(1):86-96.
[3]高阳,胡丹阳.机器学习对著作权合理使用制度的挑战与应对[J].电子知识产权,2020(10):13-25.
[4]王文敏.人工智能对著作权限制与例外规则的挑战与应对[J].法律适用,2022(11):152-162.
[5]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022,36(4):128-140.
[6]刘湘丽,肖红军.软法范式的人工智能伦理监管:日本制度探析[J].现代日本经济,2023,42(4):28-44.
[7]郑重.日本著作权法柔性合理使用条款及其启示[J].知识产权,2022(1):112-130.