陈钰
[摘要]AIGC的出现和广泛应用对诸多行业产生巨大影响,AIGC出圈和爆火的同时其版权侵权问题受到关注。文章通过分析AIGC引发版权侵权问题的根源发现,AIGC以“数据为中心”为训练逻辑,在数据输入、预训练和内容生成过程依赖海量的数据,而其中包含些许受到版权保护的数据。文章结合我国新修订的著作权法中对合理使用的边界和责任主体的界定来讨论AIGC学习和生产的过程是否构成侵权行为,并且基于探讨得出AIGC对数据的使用不属于著作权法中对合理使用的范畴以及其不具备责任主体要素的结论,并提出利用区块链技术为版权护航、精准厘清侵权责任主体、扩宽著作权法合理使用范围的版权保护策略。
[关键词]AIGC;侵权隐患;数字版权;合理使用;著作权法
AIGC(Artificial Intelligence Generated Content)即人工智能生成内容,是继专业生产内容PGC和用户生成内容UGC后一种新的内容生产方式。相比于先前的AIGC模型,新一代的AIGC模型在艺术绘画、视频制作、机器人动作、语音对话等方面都取得了巨大的进步,尤其是在创意、表现力方面充分发挥了技术优势。不过,作为2022年十大科技热词之一,AIGC虽然是生产力变革背景下的最新产物,一方面能够协助行业进行作品创作,获得较好的经济效益;另一方面也带来了AIGC的学习和生产过程是否侵犯他人知识产权的争议。文章将结合我国新修订的著作权法中对合理使用的边界和责任主体的界定来讨论AIGC学习和生产的过程是否构成侵权行为,并且基于探讨得出的结论,提出适合当下的数字版权保护策略。
一、以数据为中心:AIGC模型训练逻辑
AIGC指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的转化能力生成相关内容的技术。AIGC基于训练数据和生成算法模型,自主生成图像、音乐、视频等内容,其过程包括“数据输入—机器学习—内容输出”三个阶段。数据输入是创建AIGC的第一个阶段,数据的输入也就意味着要收集海量的数据助力其训练AI模型,这些数据一般都是通过数据抓取技术从庞大的网络中获得。当然,并不是所有的数据都能够直接进入AI训练的数据集中,还需要对收集的数据进行筛选,包括删除重复数据、不科学数据以及无关数据等,精选后的数据才能够成为训练AI模型的数据集[1]。完成数据输入后就进入机器学习阶段,这个阶段主要是AI通过对数据输入阶段形成的大型数据集进行分析,通过“深度学习”模仿人类的行为、思想和创造力,为最后的内容输出阶段做准备。完成机器学习后就进入内容输出阶段,这一阶段主要是AI通过对数据输入阶段形成的大型数据集进行分析,根据操作方输入的关键词在庞大的数据集中提取相关内容,生成与关键词高度契合的内容。无论在哪个阶段,AIGC模型的生成都离不开数据,需要对其进行数据喂养,有学者更是称AIGC和数据之间的关系就如“母乳”和“孩子”的关系[2],可见“以数据为中心”是AIGC的训练逻辑。
二、“数据中心”思维下的版权隐患:AIGC面临的侵权争议
AIGC小模型是对特定领域内容的生成,数据需求量较低,大多训练模型的数据集都是操作方自身建立或者已经买下版权的小数据库。伴随着生成算法、预训练模型、多模态等AI技术的融合发展,催生了AIGC 生产模式的大爆发,AIGC从小模型时代跨越到大模型时代。尤其是AI预训练模型可以实现多任务、多语言、多方式功能,在各种内容的生成上将扮演关键角色,其对数据需求量更大,但大部分数据存在版权归属问题,所以AIGC在“数据中心”思维的逻辑下存在版权隐患,AIGC正处于侵权争议的风波中。
(一)新修订著作权法中AIGC是否构成合理使用免责争议
在许多侵权案件中,侵权主体都会将合理使用这一条款作为侵权抗辩的理由,但这并不意味着合理使用就成为侵权行为的“免死金牌”,是否构成侵权需要法院根据具体情况进行具体分析。在全球首例大型AIGC侵权案件(Stable Diffusion案)中,即使在合理使用标准更为灵活的美国,依旧有许多学者和律师认为把AIGC对数据和内容的使用纳入合理使用的范畴是件为难的事[3]。根据我国最新著作权法第二十四条规定的十三种合理使用的权利中,文章发现适用AIGC数据模式训练的情况只有三种,分别是“个人学习研究”“适当引用”和“科学研究”。AIGC生成需要经过三个阶段,因此我们需要对这三个阶段的数据使用是否在我国著作权法规定的合理使用范围内做具体界定。首先,数据输入是AIGC生成内容的第一步,也是关键的一步。在这个阶段,AI虽然收集数据,但并未生成内容,在一定程度上符合著作权法第二十四条的第一种情况,即“为个人学习、研究或者欣赏,使用他人已经发表的作品”,处于合理使用的范围,未构成侵权行为。不过,如果除却挖掘公开可用的数据外,AI可能利用技术攫取未公开和授权的数据,根据合理使用的“三步检验法”,这样的行为损害了他人的合法权益,突破了合理使用的界限。数据的合法性会影响生成内容的合法性。显然,最基础的数据输入就被排除在合理使用的范围外的话,AIGC生成的内容也存在一定的侵权行为。不过值得一提的是,新著作权法比原著作权法对合理使用范畴的界定多了一条兜底条款,即“法律、行政法规规定的其他情形”,这看似是一条開放性立法,实际上还是具有封闭性。权威释义指出只有法律、行政法规规定的其他情形,才能构成合理使用[4]。新著作权法这一兜底条款中的“其他情形”的限定条件,首次明确除法律、行政法规的立法机关外,任何机构包括各级审判机构认定的和学者的学理判断认定的合理使用情形,依法都不构成合理使用,AIGC自然也不能够利用其他情形理由使用他人数据作为自身内容生成文本。所以AIGC对数据和内容的使用不在合理使用的界定内,不能构成合理使用免责。
(二)新修订著作权法中AIGC是否能够作为侵权主体争议
主体性研究是哲学思想上一个常思常新的重要命题,不同哲学家对主体性有不同的观点,主体被看作是知觉、意志、自由、理性和道德的所在地。并且由于主体指的是实施行为并为之负责的个人和实体,而不是施行于其上的客体,所以主体经常被当作“人”的同义词,抑或是人的意识[5]。当前,愈来愈多的学者对人工智能主体说纷纷发表自身的见解。支持人工智能主体说的学者把主体中的理性看做人工智能的智能性,认为“机器人也是人”[6]。判断AIGC是否构成侵权行为之前,我们应该厘清其是否具有主体资格,即是否具有民事权利能力和民事行为能力。我国新著权法中第九条规定著作权人包括作者和其他依照本法享有著作权的自然人、法人或者非法人组织。其中,自然人指生物学意义上的人,著作权法规定了自然人的主体中心地位,将其作为权利原始主体、完整主体,即第一著作权人。这是因为只有自然人才是作品的真正创作者。作品是人类的创作成果,表达的是人类的思想情感,并非AIGC这类科学技术革命发展下的成果[7]。无论是自然人、法人,还是非法人组织,AIGC似乎都不具备主体性。同时,AIGC作为强人工智能时代的代表,通过深度学习和训练,其生成的作品具有外观上思想表达特征,从其学习、生成内容的过程来看,似乎其与人类的创作过程无异,如“Stable Diffusion”案件中的作品极具创作性,但是这种类人化的形式和智能性的特征在我国现有著作权法的框架中并不能给予其主体资格。如此看来,尽管AIGC在数据输入和内容生成阶段都被质疑侵权,但我国新著作权法并未将其视为责任主体,所以AIGC本身不构成侵权行为,谁来负这个侵权责任谁就是侵权主体。
三、内容生产革命背景下的版权保护策略
内容生产形式从PGC到UGC再到如今的AIGC,在这种生产力方式变革背景下,AIGC引起的版权问题亟须得到解决。针对上文分析AIGC以数据为中心的思维逻辑,结合AIGC“合理使用”和“侵权主体”的版权争议,文章根据实际的情况提出利用区块链技术为版权护航、精准厘清侵权责任主体、扩宽著作权法合理使用范围三个版权保护策略。
(一)技术赋能:利用区块链技术为版权护航
版权保护是原创作品永续发展的基本保障,也是对著作人合法利益的一种保护。如上文所述,数字时代下数字作品易被复制、被篡改,AIGC创建训练数据集时收集的大量数据都存在侵权风险。面对这种风险,版权保护刻不容缓,中文在线董事长兼总裁童之磊认为:“既然是以技术为因,就应该以技术去应对。”区块链技术是一种去中心化的分布式账本,通过加密、共识和分布式存储等技术手段,能够实现读数据的安全验证。2021年6月,工业和信息化部联合中央网信办发布《关于加快推动区块链技术应用和产业发展的指导意见》,明确指出要发挥区块链在产业变革中的重要作用,促进区块链和经济社会深度融合。这一文件体现党和国家对区块链技术的高度重视,其在数字版权确权、用权和维权等方面发挥着巨大的作用。将受版权保护的作品放在区块链内储存能够有效维护版权人的权利,如果AIGC创建的模型训练数据库中的数据来自区块链数据库中,版权人能够根据区块链不可篡改、可溯源特点,维护自身合法权益,打击AIGC数据获取及内容生成作品的版权侵权行为。目前我国主要有优版权、纸贵科技、瑞云渲染等平台是运用区块链技术保护数字版权,这些平台很好地为数字版权穿上了“保护衣”,保护更多版权人的权益不被侵犯。
(二)责任分明:精准厘清侵权责任主体
如上所述,AIGC在现有法律框架下还未拥有主体资格,不是权利主体,其处于无主体状态。基于此,AIGC正处于主体缺位、权责不明确的困境,谁来为AIGC的过错买单关系到版权人的利益问题。所以,精准厘清侵权责任主体是保护数字版权的另一重要举措。我国新著作权法第十一条指出创作作品的自然人是作者或者由法人或者非法人组织主持,代表法人或者非法人组织意志创作,并由法人或者非法人组织承担责任的作品,法人或者非法人组织视为作者[8]。现有著作权语境下,AIGC不属于自然人作者,在此情形下,法人则成为其数据和作品的作者。“法人作者”是一种“拟制人格”,即以法人名义所表现的共同意志和法律拟制的团体人格。无论是人合组织还是财合组织,法人的意志、行为根源于自然人,但法律通过主观拟制将自然人的意志、行为归属于法人[2]。因此,AIGC在数据和内容生成的过程中其实背后还是人工智能团队在操纵,其数据的筛选和内容的生成都包含了人工智能团队的意志。此外,AIGC所体现的智能性不能完全等同于人类的理性和情感,也不具备民事权利能力和民事行为能力,其造成的侵权行为需要负责的还是幕后操纵的具体的人。厘清侵权责任主体后,一方面著作权人才能够依照相关原理维护自身权益,防范数字版权被侵犯;另一方面也能够震慑操作方想要肆意妄为侵犯著作权的想法。
(三)调整边界:拓宽著作权法合理使用范围
合理使用体现了著作权法的立法目的,具有保护权利人权利和促进社会发展的双重属性。目前我国著作权法第二十四条采用的是“封闭式(有穷举例)+开放式(其他情形)”的立法模式,这为数字环境下新出现的一些情况提供应用合理使用的可能性。但条款中“其他情形”的判定需要司法的具体裁定,在此过程中往往耗费大量人力、物力和财力,不利于技术的发展以及著作权人的维权。同时,根据现有合理使用的范围规定,很多侵权主体在侵权诉讼中以“合理使用”作为抗辩理由,以期通过“钻空子”来逃避侵权处罚,伤害著作权人的利益,所以扩宽著作权法“合理使用”范围具有实际意义。著作权合理使用的扩张应当以扩张合理使用的目的为突破口,譬如可以囊括“为进行学习、研究、欣赏、报道新聞或保存版本之需要,应用人工智能挖掘数据,生成的内容作品非商业性或纯公益性”的情形。其中,为学习、研究、欣赏等都在原来合理使用的范围内,而非商业性和纯公益性属于合理使用目的。除此以外,我国著作权法的立法目的是“促进社会主义文化和科学事业的发展与繁荣”,最高人民法院在文件中表明“在促进技术创新和商业发展确有必要的特殊情形下……可以认定为合理使用”。AIGC代表人工智能内容生产的最新形式,其发展在很大程度上促进了技术创新,拓宽AIGC的合理使用范围不仅可以减少“钻空子”行为,保护版权人利益,还可以进一步促进科学技术的发展。
四、结语
AIGC是生产力变革下的产物,也是智能时代人工智能技术发展的必然阶段。即使AIGC在技术、商业等方面都发挥着巨大的作用,但其引发的新型版权风险也是各行业不容忽视的问题。从上文可知,AIGC在我国现有著作权框架下是一个不具备责任主体但构成侵权行为的人工智能模式,其数据训练和内容生成都对数字版权构成极大地威胁和挑战。尽管文章基于现有著作权法提出相应的版权保护策略,但我们应该清楚地知道,AIGC会在技术革命的浪潮下朝着更加类人化的方向发展,到最后人机不再是主体—客体关系,而是主体—主体之间的关系。到那时候,AIGC已经可能和人一样具有独创能力,相對应地就是其有更新型的侵权手段,保护版权的著作权法也应与时俱进。如何提出更加完善的版权保护策略,是法律界和学界应该继续深究的话题。不过,技术发展和数字版权并非二元对立的关系,社会的发展需要两者共荣共生,过度限制AIGC对数据和内容的使用会导致“寒蝉效应”,阻碍技术的发展。技术革命背景下,我们只能顺流而上,把握好两者之间的尺度,找到技术发展与数字版权之间的平衡点,最大限度地保护数字版权,促进社会发展。
[参考文献]
[1]陈昌凤,张梦.由数据决定?AIGC的价值观和伦理问题[J].新闻与写作,2023(04):15-23.
[2]吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020(03):653-673.
[3]道客巴巴.腾讯研究院-AIGC发展趋势报告2023[EB/OL].(2023-02-02)[2023-06-17]. https://www.doc88.com/p-04087831829947.html.
[4]黄薇,王雷鸣.《中华人民共和国著作权法》导读与释义[M].北京:中国民主法制出版社,2021.
[5]汪民安.文化研究关键词 [M].南京:江苏人民出版社,2007.
[6]周详.智能机器人“权利主体论”之提倡[J].法学,2019(10):3-17.
[7]卢海君.著作权法意义上的“作品”:以人工智能生成物为切入点[J].求索,2019(06):74-81.
[8]李乔宇.业内首份AIGC数据版权倡议书出炉 多方共建版权保护新生态[EB/OL].(2023-06-07)
[2023-06-17].http://www.zqrb.cn/huiyihuodong/
2023-06-07/A1686127077317.html.