崔国斌
关键词:人工智能;用户;独创性;生成物;版权
一、引言
日趋成熟的内容生成式人工智能(AI)系统大大降低了文学艺术创作的门槛,使得普通用户输入文字指令或示意图、设置规格参数就能够指引它生成具有市场价值的生成物。人工智能生成物具有文学艺术作品的外观,也融入了用户的贡献,从表面来看,将它们纳入《著作权法》的保护范围是顺理成章的事情。不过,事实并非如此简单。AI协助创作的进入门槛很低,生成作品的过程高度自动化,作品创作的平均成本几乎可以忽略不计,这些事实导致学术界多数意见认为没有必要对AI开发者在生成物中的贡献提供版权保护。部分代表性的AI开发者也主动放弃寻求版权保护。
在AI生成物中,除了AI开发者还有用户的贡献,因此,在讨论生成物的作品属性时,需要分别考虑AI系统开发者与用户的贡献。限于写作目的和篇幅,本文假定AI系统开发者不对生成物提出版权保护主张,仅仅关注AI用户是否能够对生成物主张版权保护。这一问题在学术界也同样存在广泛的争议。实践中,司法判决和行政决定的立场也不一致。比如,美国版权局在著名的Zara案中就明确否定用户在AI生成物中独创性贡献,而北京互联网法院在最新案件中则肯定了用户的作者身份。虽然这些具体个案的事实并不完全相同,结论未必具有可比性,但是从决策者的分析思路看,各方对于《著作权法》独创性的底层认识还是存在明显的差异。
在上述背景下,对AI用户贡献的独创性问题展开深入研究意义重大。接下来,本文首先将AI用户的贡献分成两部分,即用户初始指令的输入(初始阶段)和用户对AI输出内容的调整(后续阶段),在第二节和第三节分别探讨用户在这两个阶段的贡献的独创性,认为用户初始阶段作出独创性贡献的可能性较小,而在后续阶段则可能性很大。相反的意见认为,A用户无法预见AI输出的具体内容,因而不能被视为AI生成物的作者。第四节对这一意见作出系统性的反驳,认为AI用户在对AI输出物的初稿进行多轮修改时,还是能够在多个环节作出个性化的选择,最终确定AI生成物的具体内容。这很可能足以保证AI用户成为立法意义上的作者。
二、用户初始输入内容的独创性
典型的AI生成物含有《著作权法》关注的各种作品内容,包括文字、绘画、音乐、视听作品等。创作不同类型作品的AI系统的工作原理相差甚远,同时,用户与AI系统的互动方式也千差万别。因此,在具体个案中,AI生成物体现用户个性化贡献的程度也有很大差异。笼统地肯定或否定AI用户作者身份的主张.都是不可靠的。
为了保证后续讨论的准确性和针对性,本文选择仅仅关注目前引发广泛争议的绘画类AI工具用户的独创性贡献问题。其实,仅仅在绘画领域,能够应用户请求自动输出绘画作品的AI系统,依旧种类繁多。到目前为止,卷入版权争议比较多的是Stable Diffusion和Midjourney绘画系统。即便限缩到这类系统,其中用户与AI工具的互动模式依旧千变万化,我们不可能逐一介绍这些互动模式并讨论其著作权法定性。接下来,集中关注典型的“文生图”和“图生图”模式下,用户在输出初始指令阶段作出独创性贡献的可能性。
(一)“文生图”模式
在“文生图”模式下,用户输入文字指令(提示词),描述自己想要的图片内容,然后AI系统就可以依据该文本指令输出大致相关的图片。比如,在北京互联网法院处理的李某某案中,用户为绘制女生图片,初始输入一长串英文的正向提示词,中文翻译如下:“(超逼真照片1:3),超高品质高细节的原始图像数据处理格式彩色照片,外景,日本偶像,高度细节对称且迷人的脸,棱角匀称的脸,完美的皮肤,皮肤毛孔,梦幻般的黑眼睛,红褐色的辫子,均匀,长腿,长筒袜,软对焦,(胶片纹理,生动的色彩,胶片仿真,柯达黄金肖像100.35mm,佳能50f1.2),镜头光晕,黄金时间,高清,电影,美丽的动态灯光。”与此同时,用户还输入了由接近200个英文单词组成的反向提示词,指引AI系统避免输出的内容,比如“缺失的手指”“多余的数字”“签名”“长脖子”等。
AI系统之所以能够依据文本指令绘出图画,是因为开发者在研发阶段收集了海量的图片,对图片要素进行人工或自动的标注,然后对AI系统进行训练,让它将特定提示词与具体画面表达建立对应关联。同时,AI系统能够自动完成具体画面的渲染,达到特定的艺术风格。以Stable Diffusion系统为例,在用户使用AI系统输出画面之前,AI系统通常许可用户选择适合绘制不同风格图片的大模型和更具体限定人物特征和照片风格的LoRA小模型插件(满足定制化需求)。大体上,大模型属于具备基础绘画能力的模型,可以应用户请求绘制各种通用类型的图片。而LoRA小模型插件在大模型基础上实现更具体地定制AI绘图内容。比如,大模型可能具备输出一般人像图片的能力,但是并不精于亚洲女性的刻画。有人利用大量亚洲女性图片训练出LoRA小模型。将该插件与大模型结合,就能实现更精细地刻画亚洲女性的画面来。显然,专业用户可以利用自己收集的图片训练出自己的LoRA模型插件,用来绘制某些专门类型的图片。比如,借助于专门的LoRA插件,AI系统可以专门绘制特定模特的各种造型图片。因此,在创作前的LoRA模型训练和选择阶段,用户其实就有可能做出自己的个性化贡献。不过,多数用户仅仅是在使用AI工具时,选择他人提供的不同的大模型和LoRA插件,而不是直接动手去训练此类模型或LoRA插件。因此,在后文的讨论中,我们忽略普通用户在这一环节做出贡献的可能性,尽管理论上这一贡献有可能影响法院对用户独创性贡献的评估。
在使用AI的“文生图”功能进行创作时,用户一般要先选定大模型和LoRA模型(如果有的话),并且赋予LoRA模型相应的参考权重,然后再按照既定的互动格式输入正向和反向的提示词,进行图片创作。用户对于AI基于特定提示词输出的图片不满意时,可以放弃该图片,要求AI重新随机输出;或者修改现有提示词中某些提示词的权重,让AI重新输出;或者重新输入新的提示词,让AI重新输出,审视不满意后继续放弃;重新输入,不满意,再放弃;再重新输入……这一过程可以不断地重复,直到用户获得满意的画作。比如,用户首先输入“外景,偶像”,AI系统就会随机输出画面。用户对输出画面不满意,可以不断要求重新生成,也可以输入新的限制性的指令,比如“外景,偶像,棱角匀称的脸,完美的皮肤,皮肤毛孔,梦幻般的黑眼睛,红褐色的辫子,均匀,长腿”,从而增加输出图片符合用户预期的可能性。
为了后文的法律分析方便,这里先假定上述每一轮的AI输出都是基于该轮输入的提示词而重新随机输出,不建立在上一轮输出画面选择的基础之上。这里将这一看似无聊且效率较低的“输入提示词——随机声场画面”创作模式定义为“单回合”暗箱模式。之所以将它称作暗箱模式,是因为在每一轮中用户的贡献仅仅在于不断向AI暗箱中输入可能很简单也可能非常复杂的提示词,然后被动地等待AI系统随机输出的画面,用户无法事先预见AI输出的具体内容。而强调“单回合”是因为用户虽然有可能无数次输入提示词,但是每次都只是在等待AI暗箱的输出结果。在这一随机过程中,用户并没有初步选定上一次输出画面,然后让AI在这一选定画面的基础上作微调或修改,而是直接每次都从零开始重新随机生成。因此,用户在反复试错的过程中,并没有将先前的选择结果直接固定并累积下来。
在上述互动过程中,用户是否构思出相对具体的作品内容,取决于用户输入的文本提示词内容的具体程度。如果用户仅仅输入非常简单的指令,比如,“外景,偶像”,然后选定AI随机生成的一幅图片。在这一常见情形下,用户指令充其量只是抽象的思想或基本的概念,没有独创性可言,用户的确对于作品的表达没有任何贡献,对于作品的最终表达也没有预见。我们大致可以说用户在这类图片中的独创性贡献度的量化数值接近0%。如果用户走向另一极端,在脑海中事先构思出一幅十分具体的绘画作品,对于线条的走向、色彩的搭配都有具体的概念,然后通过巨细无遗的语言指令让AI系统将它再现出来。当然,这里假定AI系统技术设置允许用户输入的如此细致的提示词,尽管现实中AI系统大概率不会这么做(倒是没有技术障碍),因为这一需求可能只存在于理论推理中。为了便于思考,不妨考虑下面这一极端的假想例子:用户在脑海中将画面分成100*100的方格,这大致有1万个方格。然后通过提示词对每个方格内具体的表达要素和颜色填充提出要求,最终形成一幅整体的“外景”绘画。在这一创作过程中,AI系统接近普通画家所直接控制的画笔,已无所谓多少“智能”可以发挥。AI系统为用户节省的只是各种调色和线条描绘的机械工作。这时候,估计很少人会否认用户在这一创作过程中的实际预见作品表达的细节,对于最终输出的作品作出的独创性贡献。这时候,用户对于最终画面的独创性表达的预见程度可能接近100%。
理论上,用户输入的提示词所体现的用户对于AI输出图片、输出内容的预见度,可能会在0%到100%之间的连续分布。在具体个案中,这一预见度的数值如何,取决于用户的具体操作。不过,从现有的实践看,在绝大多数情况下,用户在输入提示词时对AI可能输出的绘画作品的预见程度都很低,接近0%这一端。即便用户写出非常复杂的提示词,比如,由几百甚至更多的提示词组合在一起,看起来是很长的文本,结论也不例外。这是因为这些提示词文本即便很详细,也无法真正让不同人在脑海里将它所描述的场景准确想象出来,并具有视觉上的一致性。不同的AI系统本身基于相同的提示词指令,可以输出完全不同的画面。不仅如此,相同的AI基于相同的提示词指令,也可以输出无数不同的画面。这些AI系统实际上在模仿人类的思考方式。这一输出结果差异足以说明,文本所描述的意象与具体画面之间的巨大鸿沟。即,提示词指令通常并不足以导致画面的相对确定性。因此,除了在上述“100*100的方格”类极端情形下,我们通常不能认为,编写提示词的用户对AI输出画面作出独创性贡献。
即便用户输入的提示词文本体现了一定的创意,构成《著作权法》意义上的文字作品,上述结论也不会实质改变。毕竟,《著作权法》对于文字作品的独创性要求很低,有时候7—10个汉字的组合就可能构成文字作品。不过,文字作品的版权保护通常并不能延伸反映该文字作品的绘画作品上(反映剧情的连环画可能是个例外),否则会导致文字作品的版权边界过于模糊,对公共领域内容构成严重的威胁。因此,即便AI用户对其创作的提示词文本享有版权,他也不能因此主张对AI输出画面的版权。在这一点上,很多反对AI用户作者身份的意见是有道理的,值得肯定。
(二)“图生图”模式
除了“文生图”功能外,主流的AI作画工具还许可用户直接输入图形初稿,让AI系统以之为基础进行补充或修改。比如,用户直接利用细棍线条勾勒出想要的人物造型(可以想象一下Nike案中的火柴棍的人形造型),然后让AI模仿该造型绘制出符合该造型具体的人物画面;用户可以输入具体的线描图,然后让AI着色做成立体的画面;用户也可以输入照片或画作初稿,然后指挥AI对它的局部进行修改。对于AI系统而言,“图生图”与前文所述的“文生图”,应该没有本质的区别。在“文生图”的作画过程中,在用户选定AI输出的初稿之后,AI后续的改进工作实际上就很接近“图生图模式”了。这里的差别只是后续改进的图的来源,即用户的原始输入或用户选定的由AI系统随机生成的图片。
如果在“图生图”的创作过程中,用户输入原始初稿后,AI按照简单指令自动输出修改后的画作,未获用户的实质干预,则AI输出画作很可能也只是AI对用户输入内容的“演绎”。用户并不能对AI演绎的“画面”主张作者身份。当然,在用户输入内容构成独创性表达的情况下,AI输出画作类似于用户作品的演绎版本,大概率含有用户原始输入的独创性内容。因此,用户虽然并非演绎版本的作者,但是其依然能够控制该AI生成物的后续利用,因为任何人使用该AI演绎版本时,都要尊重原作作者即用户的原始贡献。
当然,从《著作权法》的角度看,“图生图”模式与“文生图”模式还是有重要区别,原因是用户原始输入内容具备独创性的可能性不一样。在“图生图”模式下,用户输入的图形更可能包含画面中的表达性细节,很可能体现了用户的独创性。这些细节被A系统完整吸收后,使得AI输出画面中自然有了用户的独创性贡献。而在“文生图”模式下,AI一开始输出的画面,虽然经用户选定,但其中的表达性细节通常来源于AI系统,而非用户。因此,该输出物未经后续修改,通常并不体现用户的独创性表达。用户只有在后续的线性改进过程中输入自己更具体的独创性构思,才能使得该输出物呈现自己的个性表达。因此,整体而言,“图生图”模式下,AI输出的作品中体现用户独创性贡献的可能性要远远超过“文生图”模式。
三、用户对Al输出内容的调整
在上述“用户输入—AI随之输出”的“单回合”暗箱模式下,AI输出结果具有很大的随机性。AI输出结果令人不满意时,用户只好让AI重新输出,这样可能要经过很多轮尝试才可能得到满意的图片;或者,输出的图片总是存在这样或那样的缺陷,没有一张刚好让用户满意。显然,这一“单回合”暗箱模式的工作效率很低,可能会浪费用户大量的时间。同时,还要在图片质量上作出妥协。实践中,专业用户很少单纯依靠“单回合”暗箱模式来创作图片,相反,他们会更积极主动地介入AI的创作过程。在AI系统输出初始图片后,用户可以对AI输出的细节进行反复选择,最终实质影响定稿的内容。具体而言,AI用户在以下三方面作出贡献:选定AI输出的初始内容;指引AI修改初始内容;“直接上手”改变AI输出内容。这些贡献综合起来,很可能体现用户的独创性贡献,以下分别加以说明。
(一)选定AI输出的初始内容
如前所述,即便用户输入非常具体的提示词组合,也不会导致用户被视为对AI输出画面作出独创性贡献。不过,在AI根据上述提示词输出诸多可能的画面后,用户对这些画面进行审查,从中选出较为满意的画面的行为,用户的选择将是个性化。原因很简单,AI基于用户输入的提示词,可以输出无穷无尽的初始图形供用户选择。不同用户的选择自然会有所不同,必然会展现其个性。这与摄影作者选择拍摄对象时的贡献类似,只不过这里选择的是AI输出的初始图片,而不是物理的拍摄场景。
不过,脱离更具体的场景,选择单一的初始图片这一行为本身,无法直接让公众评估或感知到选择者自己的个性表达。因此,如前所述,这一选择结果很可能并不满足《著作权法》的独创性要求。不过,当用户的多个单项选择的结果被放在一起,构成一种新的未曾出现过的组合时,公众更容易感知到选择者(用户)的表达性贡献。即,该汇编结果会更有可能被视为立法意义上的新的表达。因此并不奇怪,美国版权局也承认,如果用户从AI输出物中挑选出一定数量的图片,将它们汇编在一起,则用户可能因为自己的汇编具有独创性,而成为该图片汇编作品的作者。
在没有汇编的情况下,强调用户在选定特定图片的过程中有个性化的贡献,还是有一定意义。在用户后续对选定图片进行修改的情况下,这一选择与后续修改一起,增加该图片体现用户独创性表达的机会。这就像多个选择结果放在一起,就会增加整体汇编结果独创性的几率一样。
(二)指引AI修改初始内容
用户最有可能做出独创性贡献的环节是,用户选定图片后利用文字指令指引AI对其中的具体的表达元素进行修改。这里特别强调“文字指令”,是为了将它与后面提到的“直接动手”利用软件工具的绘画功能对视图、线条、色彩等表达要素进行的修改相区别。结合必要参数选择和鼠标操作,用户通过文字指令能够对自己选定的初始图片作出各种各样的修改:在指定的画面局部位置添加新的表达元素,修正现有的表达元素的线条或色彩特征,选定并放大画面局部内容而放弃其余,改变局部或全局的绘画风格,调整画面色彩、对比度和视角,等等。这里以绘制人物画为例具体说明。在AI根据用户的提示词输出一幅令人满意的人物画初稿后,用户可以记录下该画面对应的随机种子编号,从而确保AI系统在后续创作过程中能够再现相同的画面作为修改的基础,然后逐步对画面人物的眼镜、发型、眼睛、嘴唇、肤色、服装、背景等细节进行修改。比如,对于眼镜,用户可以在“眼镜”指令后面,输入进一步的限缩指令,要求AI系统将该画面人物配戴的眼镜高度缩小到原来的三分之二,也可以对镜框颜色做调整。这一过程可以单纯通过键盘选择和文本指令输入的方式实现,而无需用户亲手绘制线条和色彩。在AI系统修改眼镜局部、输出修改内容后,用户如果不满意,还可以不断替换,直到出现大致符合用户预期的结果。随后,用户可以重新将修改后的画面的随机种子号固定下来,作为后续修改的新的出发点。接下来,用户可以在这一修改的基础上,选择新的表达元素(比如发型),输入新的限缩指令进行修改。显然,只要用户有足够的时间和精力,这一修改过程可以不断地细化和深入,无穷无尽。
如果将用户指引AI不断修改选定初稿的过程与现有《著作权法》承认的创作过程相类比,最接近的可能并非摄影行为,而是“拼贴画”创作、“视频剪辑”或“汇编”等创作行为。以上述假想的人物画创作过程为例,用户从原本无数可能的AI输出画面中选定自己满意的一张人物画作为修改的出发点,然后要求AI对选定画面的诸多“特征”,比如,发型、眼镜、配饰、表情、服装、街景等进行修改。为了方便思考,我们可以将用户使用A创作的过程想象成用户面对电脑屏幕上无数窗口,在AI不断输出画面细节,而用户不断选择、细化的过程。具体而言,用户首先是面对一个空白屏幕,只能针对不断输出的全屏画面进行选择。选定之后,画面内容实际上已经高度具体化。然后,该画面理论上可以被任意分割成为诸多局部屏幕画面。这里的“局部屏幕”是形象的说法,对应的是初始画面中具象的表达元素,比如发型、眼镜、配饰、服装,等等。显然,“局部屏幕”可以划分得很细,也可以划分得很粗略,这取决于用户修改的意愿,也取决于AI系统提供的技术可能性。在每一局部屏幕内,用户可以让AI调整已有的画面,随机提供可能的画面供选择,然后用户作出最终选择。显然,在任一“局部屏幕”内,AI的输出选项也几乎是无穷无尽的,用户的每一次选择也都多少会体现其个性。在诸多的“局部屏幕”的选择确定后,用户得到一幅自己满意的“拼贴”画面。
在整个改进过程中,AI用户虽然“动口不动手”,但这并不妨碍该整体画面充分体现了用户对具体表达元素特征的个性化选择。因此,通过文本指令修改AI生成画面,在观念上很接近传统的“拼贴画”的创作过程:AI用户在很多可以自由选择的“局部屏幕”空间选择AI提供的自己满意的“拼贴”元素,最终导致整个“拼贴画”被具体化,呈现出作者想要表达的思想情感。既然《著作权法》保护拼贴画类美术作品,保护视频剪辑的结果,也保护单纯基于选择和编排的汇编作品,则我们有充分的理由相信,《著作权法》也会承认这一基于AI用户多回合的精细选择而获得的整体画面的独创性。当然,在具体争议中,用户是否做出了独创性贡献,需要个案判断,不能一概而论。
(三)“直接上手”改变的内容
现在A绘画系统不仅仅支持用户通过文字或图形指令修改AI输出的画面内容,还许可用户按照自己的构思“直接上手”修改画面表达效果。在生成式AI系统出现之前,帮助用户“直接上手”的绘图软件工具非常普及,已经在很大程度上替代了传统的画笔和画布。其中,用户经常使用的绘图工具应该是Photoshop软件。借助这些工具,用户可以直接剪裁画面的尺幅,直接选择视角、对比度、色彩;直接添加和移除特定的表达元素;利用各种个性化的插件以追求不同的画风(漫画、水彩、油画、素描……);等等。现在,此类绘图软件工具可以无缝插入AI绘图工具插件或者相互融合。这使得用户可以随时将AI输出内容放到绘图软件下,然后“直接上手”加工,以追求更为满意的效果。反之,用户也可以随时将Photoshop处理过的图片引入AI系统中再加工,比如改为矢量图片,增加像素,修正景深,等等。生成式AI工具与传统绘图软件相互之间的功能融合,无缝衔接,显然代表数字绘画工具的发展方向。
在AI与传统绘图软件功能融合的模式下,用户在使用此类工具进行创作时,对AI生成物作出个性化调整,将是非常自然甚至是不可避免的结果。这也就意味着,使用此类工具进行创作时,在最终成果中融入用户的独创性贡献也是大概率事件。这时候,《著作权法》默认使用此类创作工具时用户会作出独创性贡献,也不会产生太大的问题。这就像《著作权法》处理摄影作品的独创性问题一样:虽然的确有用户在使用相机拍摄照片时并未作出独创性贡献,但是,在多数情况下,假定用户在选择拍摄对象、拍摄手法等方面有独创性贡献。
在《著作权法》倾向于承认AI用户独创性贡献的情况下,有理由相信,真正有价值可能引发著作权侵权争议的作品,大多是专业用户利用AI工具反复调试和修改后才获得的高质量作品,这时候,用户作出上述独创性贡献的可能性原本就很大。单纯输入文本指令,静等AI输出画面的“单回合”暗箱创作模式,将只是业余玩家自娱自乐的情形,不再值得著作权法关注。笼统地反对赋予AI用户作者身份的意见,眼里只有这类业余玩家的创作模式,明显是不可取的。
四、用户对输出内容的预见性
否定AI用户做出独创性贡献的代表性意见,一直强调用户创作过程中对A输出内容缺乏准确预见(或事前构思),因此AI系统并非基于用户的自由意志在创作。比如,在Zara案中,美国版权局肯定AI用户在选定初始的图片之后,继续输入新的修改命令,不断修正图片内容,直至最终达到满意的效果。但是,用户每次输入修改命令后,并不能控制也不能准确预见输出的结果,而是由AI系统自动完成修改后,用户再决定是否符合自己的预期。美国版权局在其《版权登记指南》中强调,用户对系统如何阐释指令和生成内容并不具有最终的控制力,而是由系统自己决定如何执行这些指令,并最终决定输出的表达性因素。因此,该输出结果并非用户的创作的成果。
按照美国版权局的逻辑,摄影创作与AI创作区别在于,在摄影过程中,摄影师虽然对于相机最终输出的确切线条和色彩也缺乏直接的控制,而取决于相机内部的机械设置,但是,他在绝大多数情况下还是能够事先构思照片的相对具体内容,比如通过取景框圈定拍摄的范围、事先选定焦距、确定曝光的时间、拍摄的角度等,从而使得摄影师对于相机最终输出的照片还是有比较明确的预期。当然,摄影师的控制和预期与传统的绘画创作过程中,画家对于绘画结果的控制和预期,还是有一定程度的差别——摄影师并不能直接控制摄影作品的线条和色彩的具体选择,这些同样取决于相机内部的“算法”或机械结构。与摄影师相比,AI用户对于最终线条和色彩的控制,更间接一些。在“输入指令—生成内容”的“单回合”暗箱周期中,用户“动口不动手”,无法事先预见AI输出的大致内容,而是任由AI系统随机输出符合用户提示词文本要求的具体表达,然后从中挑选可能中意的初稿方案。
其实,上述反对意见只适用于前述“输入指令一生成内容”的单回合创作模式。在该模式下,即便用户输入很具体的文本指令,也无法预见到AI输出的具体内容。反对意见强调用户无法预见AI输出内容而否定其作者身份,如前所述,是合适的。不过,对于更普遍的多回合“线性改进”的创作模式,上述分析不再适用。在多回合模式下,用户输入提示词后会选定初始的图片,从而有了非常具体的修改对象。用户后续的修正都针对图片中具体位置的具体表达要素,比如在前文提到的人物画的例子中,用户利用指令修改人物的眼镜尺寸和颜色、发型和颜色、服装样式和色彩等,在具体位置添加新的表达因素等。这些实际上都属于很具体层面的表达要素选择,用户在指引AI系统作出修正时,对于图片整体效果的改变有相对具体的预期。这与单一回合的创作过程中,用户单纯输入提示词,不知AI系统会输出何种图片的处境完全不同。不仅如此,在用户选定AI输出的特定表达要素前,用户已经对于呈现在自己眼前、由AI输出的表达细节有明确的认知。换言之,用户在前文所说的每个“局部屏幕”(或窗口)前作出选择,都是基于已经呈现在自己眼前的具体画面细节而作出的。在用户按下确定键时,用户其实非常清楚自己寻找的即确定的表达究竟是什么。美国版权局等反对意见强调用户对细节缺乏预见,是因为他们仅仅将目光放在AI系统基于提示词的输出过程,而忽略了更为重要的,即随后用户对具体表达的选择和审定的多个环节工作。
因此,在多回合“线性改进”的创作模式下,AI用户并非仅仅输入文本指令然后就静等输出结果,而是很有可能在后续改进过程中,对初稿图片的具体位置作出了独创性的选择。在这一意义上,本文认同Mark Lemley教授的评论意见:“随着人们越来越习惯于使用生成式AI,我们应该期待他们写出越来越细致的指令,将AI输出物剪裁成他们希望得到的内容。对计算机的指令足够具体时,就像摄影者对相机发出的足够具体的指令一样,可能体现了创造性(Creativit)。”当然,如果他能够强调一下,用户多轮选择的特殊性,就更完美了。
否定AI用户贡献的意见认为,用户在选定初始图片后,“针对人工智能最初生成的内容所追加的指示又类似于老师批改作业后提出的修改要求。无论学生据此修改了多少次才定稿,都不能说是老师以学生为‘工具‘创作了构成文字作品或美术作品的作业。因为并不是老师的自由意志决定了构成作品的表达性要素。”其实,这一反对意见关于教师批改作业不能成为作者的结论,也是有前提条件的。其一,在批改作业的场景下,教师通常无意成为合作作者,学生也无此预期,因此即使教师作出独创性贡献,也会被视为主动放弃;其二,教师很多时候只是提出原则性的意见,而不对具体的表达内容提出要求,通常也不会反复对学生提出的具体表达进行选择。用户与AI互动的情形与此有明显的区别。AI用户通常并不存在放弃可能的独创性贡献的默示意思表示;AI用户不仅仅提出原则性的批改要求(初始文本指令的输入),而是很可能提出非常具体的修改意见(后续的线性修改)。不仅如此,用户还会直接从AI反馈的无数可能的细节修改方案中选出自己认为最满意的表达。用户针对表达细节的选择直接决定作品最终的表达细节,因此很有可能作出独创性贡献。反对意见将用户利用AI创作的过程,类比为教师指导学生,并不总是可靠的,很容易得出错误的结论。
五、结论
在探讨生成式AI带来的立法上的挑战时,我们需要充分了解现有AI技术提供的可能性以及用户创作过程的复杂性。在AI工具与传统绘图软件功能高度融合的情况下,用户在利用AI工具创作时,无论是“文生图”还是“图生图”,用户都有一定的自由发挥的空间。虽然用户在“用户输入文字或图形指令——AI输出内容”的单一回合中的确不太可能对输出画面内容作出独创性贡献,但是,在多数情况下,用户会在单回合输出初稿的基础上,指引AI对它反复修改。经过多轮的线性改进后,用户很可能对作品中的诸多表达细节作出个性化的选择和调整,从而作出独创性的贡献。这时候依旧片面地强调,用户不能预见也无法控制AI的输出结果,因而不能主张作者身份,就像当年强调摄影者没有直接描绘照片中线条或色彩因而不能成为作者一样,违反《著作权法》激励创作的立法目的,并不能实现有意义的公共政策目标。