AI浪潮下的版权风暴

2024-04-24 07:46林炜鑫
记者观察 2024年3期
关键词:画师模型

林炜鑫

01画师与AI的抗争

在大部分人为AI技术进步欢欣鼓舞时,有一群人开始反抗AI。

过去一年,生成式AI不断挤压着原画师的生存空间。入行五年的游戏原画师石露说,去年的变化要超过以往任何一年。许多游戏开发公司都在使用AI,缩减美术团队。AI“狂飙”的几个月内,原画师的稿费从2万元/张降到了4千元/张。在石露看来,导致画师处境艰难的元凶便是AI。

人与AI的矛盾正在激化。许多画师担心被AI侵权。他们认为,文生图的原理就是“碎片拼接”——开发者提供了大量人类创作的画作给AI模型,模型将其打碎,再拼接,最后生成新的图。在他们看来,AI作图没有灵魂。以普通人的直觉来看,AI生图的过程已经涉及侵权。

推广AI的大公司们也陷入争议的漩涡。

2023年11月29日,四位画师联合起诉小红书AI模型库侵权,理由是小红书的AI图像创作工具Trik,疑似用了他们的作品去训练AI模型。

其中一位名叫“正版青团子”的画师晒出两张插画,分别是她的作品和Trik AI生成的图。“无论是配色元素还是画面风格都和我的图很像,感觉心血被剽窃了。”她在社交平台呼吁道,“希望大家一起维权。”

画师“是雪鱼啊”也将Trik AI生成的图与自己的作品对比,发现两者相似度很高,甚至有类似的元素。他通过在小红书上停更来表达自己的愤怒,理由是小红书未经允许,擅自将他的作品提供给AI,以及平台近乎霸王条约的用户协议,引起了他的不安。

四位画师联合起诉小红书的案件已在北京互联网法院立案。据了解,这是国内第一起针对AIGC(生成式人工智能)训练数据集侵权问题的案件。

小红书方面以案件进入司法程序为由,拒绝发表评论。据“正版青团子”透露,立案之前,小红书曾找过四位画师,希望与他们协商。但他们已经约定不接受调解,坚持立案。“正版青团子”说,希望这起案例能为AI绘图的版权纠纷提供参考。

网易旗下的LOFTER是画师与粉丝常用的交流平台,插画师高悦经常在LOFTER分享自己的作品,积累了一定的粉丝。去年她注意至ULOFTER正在内测一项AI功能“老福鸽画画机”,用户只需使用关键词就能生成绘画作品。她怀疑平台会暗自将他们的作品变成AI的训练素材。

“我对这个平台的信任度瞬间骤减。”高悦说。

眼看越来越多的用戶表达不满,LOFTER官方几天后删除了新功能的活动通告,并且声明训练数据来自开源,并未使用用户的作品数据。然而这项功能并没有第一时间下线,这也是无法让用户信服和放心的重要原因。

一番纠结之后,高悦选择响应部分创作者的号召,清空自己的账号,随后注销,以此表示抗争。在高悦看来,从平台撤退,是目前为数不多的自我保护的方式。

播画师马群回忆,早在2022年AI绘画就曾出圈,但当时AI生成的画经常翻车,比如将人画成狗或马。后来AI进步的速度超出想象,但仍然有迹可循,比如AI还不懂如何画人的手。

然而,这些漏洞短时间内也被攻克了。马群认为,鉴别一张图是手绘还是AI生成越来越依靠人的主观感受了,比如“是否有灵性”。

马群也抵制AI,因为AI让她失去了对绘画的热情。她不是科班出身,靠热情去自学绘画,大学毕业后,她成为一名全职画手。绘画的过程有时很折磨人,但看到成果的那一刻,她的喜悦盖过一切。

而现在,AI抹掉了大多数绘画步骤,一切都在自动化,这意味着马群花赞几年习得的技巧与经验,在高效、强大的算法面前黯然失色。

“创作变得廉价了。”马群说道。

02到法院去

创作者将AI公司告上法庭,几乎贯穿了2023年一整年。

生成式AI之所以能在短时间内掀起声浪,是因为它看起来真的有用,并对某些行业产生了威胁,比如手握版权的内容创作者。

率先向AI发难的是一位名叫卡拉·奥尔蒂斯的插画师。她也是“拼接论”的支持者,面对在绘画领域攻城略地并让她失去一些工作机会的StabilityAi(英国的一家人工智能企业),她陷入焦虑,继而决定反抗。

她向律师马修·巴特里克求助。2022年冬天,巴特里克开始为一群程序员提供法律帮助,这些程序员认为微软的GitHub Copilot(一款AI辅助开发工具)涉嫌侵犯他们的版权。巴特里克指责GitHub Copilot“窃取了程序员的工作”。2023年1月,巴特里克代理了奥尔蒂斯起诉Stability Ai的案子。

类似的诉讼屡见不鲜。图片公司Getty Images分别在美国和英国起诉了Stability AI,指控其非法复制和处理了1200万张Getty Images的图片;以乔治·马丁、乔纳森·弗兰岑为首的小说家们向OpenAI发难,而一群非虚构作家则把矛头对准OpenAI和微软;环球音乐等一众音乐厂牌声称Antropic在训练过程中非法使用了他们的版权作品,并且在模型生成内容中非法分发了歌词。

2023年12月27日,《纽约时报》正式起诉微软和OpenAI,宣称报社数百万篇文章被用作AI的训练数据,而AI正作为新闻消息源与报社竞争。

一场围绕AI版权的全面战争已经打响,难题纷纷抛给了各国的法院。

在中国,一桩AI绘图侵权案,从立案到判决,持续了数月,是其他图片侵权案处理时长的数倍。

2023年2月,原告李昀锴在百家号的某篇文章中发现自己用AI创作的图片被用作配图,但文章作者使用时未经许可,并且裁掉了李昀锴的署名水印。于是李昀锴以侵犯署名权和信息网络传播权为由,向北京互联网法院起诉该作者。

案件本身并不复杂,但是,由于被侵权的图片是AI模型Stable Diffusion生成的,所以引起了大量关注,被网友称为“AI绘图第一案”。

挪用李昀锴图片的人即此案的被告,是位五六十岁的女性,自称身患重病,收到法院通知时一头雾水。在庭审上,她解释那张图片是通过网络搜索获得,具体来源已经无法提供。

她还说,AI绘图是人类智慧的结晶,不能算是原告的作品。这也是该案争论的焦点,AI生成的图片是否构成作品,以及李昀鍇是否享有该图片的著作权。

对各国来说,这都是一个悬而未决的法律问题。去年8月,美国一家法院判决,机器创作的内容没有版权,原因是“人类作者身份是版权的基本要求”。但这个结论很快受到质疑。有人指出,同样是使用机器,如果用手机拍照,照片就能受版权保护,用AI模型生成图片,理应也有版权保护。

针对该问题,北京互联网法院则作出了截然相反的判决。

审理此案的法官要求李昀锴详细演示用AI生成图片的全过程,包括下载软件、写提示词等。为了让法官了解AI技术,李昀锴查阅了很多资料,尽力向法官解释AI绘画的原理和创作过程。

法官最终认为,李昀锴在涉案AI图片的创作过程中,做了很多智力介入,这体现了作品的独创性。因此这幅AI图片被认定为是李昀锴的作品,享有著作权保护。

李昀锴表示,这个判决让国内一些正在观望的AI公司“喜忧参半”,开心的是AI生成的图拥有版权,忧愁的则是,版权归属于用户。

03 AI公司保持沉默

作为版权争议的另一端,AI公司则始终回避这一话题。客观上说,版权争议短期内吵不出结果,所以,回避甚至保持沉默是最稳妥的办法。

2023年12月,美图公司推出新一代大模型,号称具备更强大的视频生成功能。尽管公司高层强调,AI是一种辅助工具,不是要取代专业人士,但许多从业者相信,这些新功能假以时日会进一步威胁他们的工作。

“关于AIGC生成图片的版权问题,实践中有争论,有赖于法律的进一步规范”,一位业内人士说,“虽然目前这方面的法律不是很清晰,但我们总体上会保护用户,尤其是专业人士的版权。”

另一位业内人士也表示认同“AI绘画第一案”的判决结果。

OpenAI在今年开发者大会上,高调宣布将为使用GPT而遭到法律纠纷的人承担诉讼费用。在部分创作者看来,这却像是在挑衅。

某种程度上,AI公司有恃无恐。起诉AI最核心的主张是AI模型在使用训练数据时就已经构成侵权行为,但这一主张并非无懈可击。一些AI公司把AI训练比作人类的学习过程,一个新学徒需要阅读,甚至模仿老师的作品,才能掌握技术。如果法院采纳这一观点,那就不构成侵权。

一位律师表示,AI公司很有可能会采用“合理使用原则”来作辩护。“合理使用原则”大概是指,虽然某些行为严格来说算侵权,但这种行为是一种可以接受的借用,用来促进创造性的表达。例如,学者可以在自己的作品中引用摘录他人内容;作者可以出版改编图书;普通人可以截取电影片段做影评。

换句话说,如果对版权限制过严,文明的创造力将可能停滞。

科技公司长期利用这一原则来规避版权争议。2013年,谷歌因为复制数百万册图书并在线上传书里的片段,遭到作家协会的起诉,法官基于“合理使用原则”,裁决谷歌这一行为合法,因为它为公众创建了可搜索的索引,创造了公共价值。

在大模型时代,“合理使用原则”仍可能发挥关键作用。支持AI不侵权的人认为,大模型生成内容的过程,跟人类创作相差无几——当你尝试画一幅画或拍一支视频,你的脑海里也会有你看过的画或电影。人类的创作在前人的基础上进步,大模型也是如此。

更重要的是,AI的战略地位和商业价值在不断上升,AI技术的支持者普遍担心,如果版权限制过严,将制约AI技术的发展。

另一个障碍在于,AI公司在模型训练数据方面几乎没有透明度。

例如,2023年12月7日,谷歌发布了一份长达60页的报告,其中反复强调训练数据的关键性,但几乎没有提供关于数据的来源、筛选以及具体内容的任何信息。

一位算法工程师表示,他们寻找训练数据的方式无非是:用爬虫将互联网的内容爬一遍;找一些开源的数据集;实在不行就去购买,“总能买得到”。

有学者对此表示,AI公司与其去竞争模型在评测榜单的性能分数,不如比拼一下谁可以拥有最合法的训练数据。

不过,批评AI公司训练数据不透明,也有些苛责。毕竟训练数据将极大左右模型性能,是各家AI公司的商业机密。在现有法律条文下,AI公司也没有义务和动力去公开训练数据。

李昀锴表示,国内没有“证据开示制度”(该制度规定,只要与案件事实具有关联性的证据,当事人有权要求掌握该证据的其他当事人对其进行出示、披露),这意味着AI公司可以不披露模型的训练数据。“现在这个制度下,只要企业不披露,就没人知道有没有拿用户数据去训练。这是一个死结。”他说。

所以,创作者要想在这场版权战争大获全胜,可能性微乎其微。

但这不代表AI公司可以完全不顾一切。舆论的影响也很重要。2023年11月,金山办公开启AI功能公测,很快有人发现,产品隐私政策提到,为提升AI功能准确性,将对用户主动上传的文档材料,经脱敏处理后作为AI训练的基础材料使用。这一条款引起大量用户不满。

几天后,金山办公作出回应,承诺“所有用户文档不会被用于任何AI训练目的”,以此平息这场风波。其CEO章庆元接受采访时说,条款是旧的,只是针对PPT板式的美化,并不涉及用户文档,没来得及更新,导致用户误解。

李昀锴说,AI相关的知识版权界定,目前只能在司法实践的个案探索,“普遍的共识是尊重商业实践,即法律不会过度介入企业的自主行为。如果有知识产权,一般原则是归属于开发者进行分配。”

腾讯混元模型在相关条款中约定,生成内容的版权归用户所有,但“仅供个人学习、娱乐使用,不得将其用于任何商业化用途”。李昀锴说,“其他公司就不是这么‘大方。”

目前呼声较大的一种折中方案是,AI公司应该有一套解决方案去补偿内容创作者,如果作品被用作AI训练数据,创作者可以获得一定的费用。短期来看,这将保护创作者的利益。至于更长远会发生什么,谁也不能保证。

(应访谈对象要求,文中石露、高悦、马群为化名)

摘自微信公众号“智能涌现”

猜你喜欢
画师模型
适用于BDS-3 PPP的随机模型
p150Glued在帕金森病模型中的表达及分布
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
一位洋画师的步步惊心大剧
小小画师本领大
敦煌画师,I服了YOU
3D打印中的模型分割与打包
萌娃遇上插画师
插画师笔下的时髦