戴 欣
(中南大学 法学院,湖南 长沙 410012)
如同人类创作者从前人的作品中学习一样,一种被称为“机器学习”的能够产生系统预设模式之外的最优结果的技术[1],赋予了今天的人工智能在提供了许多例子后模仿人类的作品的能力,例如人工智能运用于新闻写作就具有时效强、效率高的特点[2]。得益于算法技术、计算能力、大数据等因素,以数据训练为基础的机器学习已经占据主导地位。简言之,可将人工智能创作的过程分为三个阶段:数据输入——机器学习——结果输出(如图1)。最终的结果输出并不是前期数据的机械组合,而是综合运用大数据进行统计分析、自然语言处理技术分析后的得出的算法模型的有机输出,算法越是优化,输出结果与原始数据间显性关联就越是难以发觉。因此,为区别与那种只是利用数据的事实性信息或分析数据物理特征,不涉及作品表达内容的类型[3],可以将其称之为表达型人工智能(人工智能创作)。
图1 机器学习下人工智能创作流程图
其中输入端和输出端可以通过外在表现而观察到,中间端的机器学习由算法执行,难以为人所理解,也不易进行法律分析。人工智能创作中的著作权侵权问题学界探讨相对较少,笔墨多在于两个方面:一是人工智能创作对现有受著作权保护的作品的侵权分析;另一是应对人工智能创作的制度适用问题。
首先,在行为性质判断层面,人工智能未经许可利用大量作品进行机器学习是否构成合理使用存在较大分歧。在支持合理使用的学者中,如徐小奔、杨依楠认为人工智能创作对现有作品的接触并不是直接利用作品的表达,既不是对作品的原样呈现,也不是对作品内容的演绎性表达,而是独立的、新的作品增值[4],为非表达目的复制表现性作品不应被视为侵权,必须被承认为合理使用[5];孙阳从结果主义角度认为将合理使用规范应用于人工智能可以促进表达信息的充分使用[6];梅术文,宋歌认为可以从目的转换性使用理论来说明人工智能编创的合理使用属性[7];人工智能创作所利用的训练数据,无论是表达性还是非表达性的,都只是人工智能作品的原料,必须自由地应用合理使用,以防止版权所有者的阻碍、并扼杀人工智能带来的变革性使用[8]。在否定人工智能创作合理使用的学者眼中,该行为不属于我国著作权法所规定的合理使用情形[9],并对原作品市场可能造成较大冲击;也有学者对于人工智能适用合理使用制度表示担忧,James Grimmelmann认为几乎在偶然中版权法已经得出结论,版权法只为人类,并使得人类占据着一个令人惊讶的边缘位置[10]。Sobel Benjamin认为人工智能程序从受版权保护的作品中"学习"存在法律风险。他的结论是,合理使用可能无法保护表达性机器学习应用并认为将当今的合理使用理论应用于表现机器学习将产生两种不良结果之一:如果法院拒绝机器学习的合理使用辩护,有价值的创新可能会转移到另一个司法管辖区或完全停止;或者,如果法院认为该技术得到合理使用,复杂的软件可能会转移输入数据作者的合法收入,导致分配不公[11]。
其次,在制度适用的模式方面,人工智能创作如何适用合理使用制度存在两种观点:第一种观点认为应借鉴美国版权法中开放的“四要素法”来满足人工智能创作的需要,由法官进行灵活的个案考量[12];第二种观点认为借鉴欧盟版权法中的规定,采用“有条件的例外”模式将文本与数据挖掘纳入版权例外的范围[13]。另外,基于对于人工智能机器学习行为的侵权定性,但考虑到产业发展的需求,平衡各方利益后认为现行著作权法虽难以豁免机器学习的侵权责任,但是为了促进产业发展,应当在著作权法中增设新的合理使用例外或文本与数据挖掘例外;也有少数学者认为在产业发展和著作权人利益衡量之后,依然应当认定侵权,并由人工智能训练主体向版权人支付许可费[14];另有学者如华劼认为可以通过推定集体管理机制、税收制度来优化人工智能创作的版权授权机制[15];还有学者认为,相较于合理使用制度的倾斜保护,法定许可制度能兼顾各方利益,实现技术发展与文化创新的平衡[16],并建立人工智能著作权侵权公益诉讼制度[17]。
总体而言,在目前不多的国内文献当中,大多数学者认为现行著作权合理使用制度难以开赦人工智能创作行为,但基于利益平衡,应当条件地给予一定例外。在人工智能创作的三个阶段中,都有著作权侵权风险,在人工智能创作全过程中,不得不注意数据输入的侵权可能以及结果输出的合法性问题。
输入阶段的主要任务是全面收集数据,进而对其进行预处理,形成一个系统全面的数据包,为下一步的机器学习储备资源。本文主要着眼于没有获得许可的数据,此类数据主要通过“网络爬虫”技术获取零散的网站数据、非法获取现有数据库内容以及私自数字化非电子数据等方式来搭建训练库。
第一,利用“网络爬虫”抓取复制、存储网站数据时,搜索引擎一般要遵循“爬虫协议”,即网站告知搜索引擎对某一具体的网站内容或网页是否有抓取权限并将其作为搜索结果具体呈现给用户的协议。就侵权风险而言,除了侵犯复制权外,还可能构成不正当竞争。此外,即使没有违背爬虫协议,其中的著作权侵权风险依然存在。该协议的意志并不能代表网站内容著作权人的意志, 爬虫协议允许访问抓取并不代表著作权人也存在这样的默许,未经权利人许可,不支付报酬,抓取即复制这些数据并进行商业使用,侵权风险非常明显。
第二,利用技术手段获取并复制现有数据库时侵权风险具有多样性,数据库的权利也应当多层次考察。第一层,数字环境中的数据库所有人一般会为数据库设置如同安全阀一样的“技术措施”预先排除可能的侵权危险。如果数据收集者未经许可避开或者破坏这些技术措施,非法接触或传播受著作权法保护的数据库及库内数据,可能面临严重的侵权责任处遇。第二层,数据库可以区分为受著作权法保护的汇编作品和不受著作权法保护的单纯信息集合体。此种情形下,非法抓取构成汇编作品的数据库,自然存在侵犯复制权的的风险。第三层,数据库中的材料可区分为受著作权法保护的数据和不受著作权法保护的数据。此时的非法抓取行为,同样存在侵犯内部材料著作权的风险。
第三、当对受著作权法保护的非电子数据进行数字化时,不论这些原始非电子数据是合法抑或非法取得,对他们进行数字化,均会涉及扫描、转录、文本提取这些复制行为,均有可能侵犯复制权。此外,如果这些数字化之后的数据泄露,更是加剧了这些数据被非法传播的风险,进而有侵犯权利人信息网络传播权的可能。
在机器学习过程中,各类算法会自动分析训练数据中的特征,通过大量分析、分类、聚类,建立一定的映射关系,从而“理解”训练数据的内容,该过程中会对大量文本进行分析,必定要经过多层传导运算,也就是说这个过程中需要多次对数据进行“复制”。此时的复制一般是暂时存储和短暂再现作品数据,可能只是在运行过程中存在以秒计量的时间,通常伴随着计算机的关闭而自动消除,因此也被称为临时复制[18]。我国目前的共识基本认为,即使不考虑“临时复制”背后的国家利益博弈,从传统复制行为的构成要件上考察,临时复制也不应被视为复制行为,因为这是一种客观技术现象,且一般不具有独立的经济价值[19]。从另一个角度看,机器学习过程中的“算法黑箱”正如人脑如何运作一样神秘,机器对于数据的分析和理解过程如同人脑对于作品的理解与欣赏一样,人脑在理解的过程中也会产生一些记忆性片段,会有作品在大脑中回放,似乎没有人指控我们侵犯复制权,因为著作权法根本没有设置“阅读权”或“欣赏权”。鉴于此,机器学习过程中因客观运行而产生的临时复制行为并不会侵犯复制权。进一步,这个过程中还有可能涉及到对原数据的所谓翻译、改编、汇编等行为。一方面,此过程中的翻译、改编、复制行为是否构成著作权法意义上的行为本就受到质疑[20],另一方面考虑到这些行为基本上以复制行为为基础,既然复制是短暂性的,不被认为是受复制权控制的复制行为,那么上述翻译、改编和汇编等行为同样不具有风险性。因此,在现行条件下,该阶段著作权侵权风险并不明显。
人工智能终究不是自然人,不具有人的情感属性,对知识的分析一般只能是为实现“知识”增值目的。但是当二者都是以创作的目的输出时,外在表现却没有什么两样[21],在没有被告知是人工智能的产物时,基本上不会被区分开。因此,在这个阶段的侵权风险判断与常规作品之间的侵权判定也没有本质不同。依然可以适用在我国实践中已被普遍采用的“实质性相似+接触”规则[22]。也即当通过一定的技术手段比对分析发现输出产物与现有作品在思想表达构成同一、实质性相似,且人工智能实际接触了在先作品,除非构成有著作权的限制或例外情形,则可能侵犯复制权、演绎权等专有权利。
逐一对人工智能创作行为的三个阶段分析后可知,最主要的侵权风险为复制行为(主要是输入阶段),以及输出物与现有作品的可能实质性相似(主要为输出阶段),并且输出阶段的侵权风险与非人工智能创作情形下的侵权风险并无实质区别。
上文仅仅讨论了侵权风险,并未坐实其侵权性质,是否需要承担侵权责任还要继续认定是否符合著作权的限制与例外,即“合理使用”和“法定许可”。由于法定许可的法律规定更严格、更明确,明显不包括人工智能创作行为,合理使用制度是讨论的重点。
基于人工智能创作于对现有作品进行分析的这一使用方式,著作权法中列举的十二类合理使用方式只有两类尚且具备讨论余地:“个人使用”与“为学校课堂教学或者科学研究使用”。
第一,在个人使用这一类中关键在于界定主体范围。法律文本将主体限定为“个人”,表面上确实存在“个人”是否仅指“自然人”还是可以包含“法人”“非法人组织”的疑问。但是结合其用途是“学习、研究或者欣赏”来看,这些行为应当仅指“自然人”,毕竟此三种行为,特别是“欣赏”通常意指的是自然人的行为。人工智能的开发在工业、学术界和军方是最先进的,尤其是工业界,在人工智能方面处于领先地位,技术公司从大学聘用顶尖科学家,并利用无与伦比的机会获得巨大的计算能力和大量、及时的数据[23],实际中个人无法承担此类研究费用、无法单独进行此类科学研究,公司法人或其他组织才是开展人工智能创作研究和应用的主体,表现为一种团体行为,无法被囊括进“个人使用”的行为范畴当中,无法构成合理使用抗辩。
第二,“在课堂教学和科学研究中使用”这一抗辩也无法完全发挥作用。人工智能创作如果用于课堂教学,一般只是示例性展示,倘若作为系统教学课程研究这一技术,必将大量使用现有作品,无法满足“少量复制”这一数量要求。于科学研究而言,一方面可能无法满足“少量复制”之一要求,另一方面大量致力于此技术的私人营利性机构也无法满足研究机构所要求的公共属性要求。可见,人工智能创作在现行明确列举中无法找到合法性基础。
1.司法扩张应坚持“三步检验法”的基本框架
结合本土的立法实践,三步检验法应当成为合理使用判定的基本框架。对于四要素检验法,也正如其名“要素”,可以作为三步检验法框架中着重考虑的因素。对此,其实最高人民法院在2011年第18号意见中即有此用意,虽然该意见第8条看似杂合了四要素法和三步检验法,但从用语也可以看出主次。如该条所强调“在促进技术创新和商业发展确有必要的特殊情形下,考虑……(四要素)……等因素,如果……(三步检验中第二、三步)……可以认定为合理使用”,“如果”后所列的条件才真正需要考虑是否满足,前述“考虑”皆是供以论证是否达到条件的理由,也即要得出是否与“正常使用相冲突”、是否“不合理的损害”的结论,可以利用四要素等因素进行说理,将“四要素”按照情况置于第二、三步检测中,使之更具可操作性。
2.人工智能创作行为与受著作权法保护作品的正常使用相冲突
为了说明这一点,可以着重考虑:人工智能创作行为的目的和性质、对版权作品的潜在市场或价值的影响。
第一点因素中,使用的目的和性质起初只是从使用是否具有商业性或是否为教育目的的非盈利性使用方面考虑。使用的目的和性质这一要素在随后的司法实践中发展出以内容转换性和目的转换性为内容的转换性使用要素,并逐步发挥新技术迅猛发展背景下维护著作权利益动态平衡的平衡器作用,缓和不同利益主体间的紧张关系[24],因而该分析已经是第一要素“使用的目的和性质”中的主要分析点。一般认为,转换性使用的认定极其有利于合理使用,而商业性质的使用则不利于合理使用。
首先,人工智能创作无法满足内容上的转换性使用。由于转换性使用一般是在最终结果阶段进行考察,所以在数据输入阶段和人工智能学习阶段缺乏讨论的前提。由于内容的转换一般是为了评论、讽刺等目的。这要求在新作品中看到原作作品的影子,使受众联想到原作品,从而产生比较,实现评论或讽刺的目的。而就其输出的结果而言,并非是对原作品的简单改动或者组合,一般是通过算法模型获取数据特征之后所为的自主创作。此外,由于所设的原始学习作品数据规模庞大,一般也难以认定是对何部作品的改动。因此,人工智能智能创作一般难以使得受众联想到某部原作品,也就无法产生基于比较而来的内容转换。其次,人工智能创作不满足目的转换性使用。目的转换性使用一般与原作品相比有不同的目的,而原作的目的一般是为表达一定思想情感或某一领域的研究成果,使他人能够客观地“阅读、欣赏和感知”[25]。也即,目的转换性使用一般仅是改变了使用目的,原作品表达基本不作改变[26]。就人工智能创作行为而言,输入阶段数据搜集的收集和输入,以及后续对数据的分析与自然人对于前人作品材料的收集与学习的目的并无实质性区别,都是从现有材料中积累“知识”、启发“灵感”。主要的不同点在于学习的方法不同,自然人是通过生物大脑进行感知,进而提升审美,促进输出;而人工智能则是通过算法模型,在特征统计分析的基础上把握作品的特征元素,据此模拟输出、预测输出。因此,输出阶段的输出结果也并不是原作品,甚至不能认为是原作品的片段组合,也就不存在原作品表达的直接利用,也就不存在所谓原作品表达的新使用方式。因此,人工智能创作中对原作品的利用不能构成目的转换性使用。
第二点因素“对版权作品的潜在市场或价值的影响”中所谓之“潜在”即“有可能”而不是已经发生。该因素侧重使用的经济影响,着眼于此类使用是否在市场上为原始产品或其衍生产品带来竞争性替代品,从而剥夺版权所有者的大量收入可能,即合理使用不应当作为原始作品的可替代物而“过度损害其市场”。通过前文的分析可以得知,人工智能创作中对版权作品的利用难以认定为转换性使用,无法依此排除智能创作输出物与所使用的版权作品间的竞争关系。此外,版权作品的许可市场通常被认为是潜在市场的重要市场的一部分[27]。只有对传统的、合理的或可能是发达的市场的潜在许可收入的影响才应该是法律上可审理的[28],否则,即使所涉被使用的版权作品数量足够且极具创造性,如果版权所有者没有合理的经济理由来开发一种许可方案使得这种使用市场化,那么对潜在市场或价值的影响这一因素将不会对使用者产生不利后果。实际上,业已存在一个成熟的数据训练许可市场,只是经常被人所忽略,甚至连许可人也没有意识到这一点。数据(版权数据)训练的市场早已建立在这样一种典型的平台商业模式中:技术平台获取用户数据,用户以此换取技术平台的免费服务。例如谷歌的邮件服务功能虽然是免费的,但其要求用户允许谷歌公司分析他们的大量邮件数据来训练其“智能回复”功能。不可否认,这些数据中许多可能是受版权保护的内容,例如用户发布的文章,上传的视频内容、电子邮件等。使用条款中常见的广泛的知识产权许可表明,用户生成内容的著作权方面有一个明确的许可市场,即使许可人似乎并没有获得明显的经济收益,即使这些信息看起来平淡无奇,毫无价值。如果合理使用明确保护那些为了寻求商业目的而进行人工智能创作的主体,那么这个市场将会被绕过,并“可能损害拥有训练数据权利的主体”。
3.人工智能创作确实会不合理损害权利人合法利益
这一部分可以结合版权作品的性质以及创作行为中所涉版权作品的规模和质量这两个因素综合考察。
关于版权作品的性质这一点,主要考虑作品是事实性还是虚构性。如果是事实性作品,著作权人通常对此类的作品的二次使用需要承受更大的容忍度;如果是虚构性作品,法律通常对其给予较事实性作品更严格的保护,更具创造性,虚构性或幻想性(相对于事实)受版权保护的作品,法院裁定合理使用的可能性就较小[29]。由于人工智能创作所用的训练数据规模大,数据库中也必然包括虚构性作品,甚至某些情况下会刻意选取非事实类作品,以增强输出表达的可读性。例如2015年谷歌在其邮箱服务功能中增加“智能回复”功能,便刻意采用11000余本言情小说来补充训练,以期智能回复能够风格活泼多变。如果这些非事实性作品被大量使用,且在无法排除其使用与原作品的正常使用相冲突的情况下,那么无疑会加重此类使用中“不合理损害”程度的认定,进而不利于合理使用的结论。
使用的数量和质量分析是对原作品而言。从数量角度看,虽说使用得越多就越有可能不构成合理使用,但并没有一个绝对的数量标准区分合理与否,分析的重点在于所使用作品的数量相对于使用的目的而言是否是合理的。当然,对于合理使用的判断不仅考虑使用的数量,还要考虑所使用作品的质量,质量甚至更为关键。在“Harper”案和“Campell”案中美国最高法院认可即使是使用原作品中的一小部分,但却是原作品的核心内容、最有价值的内容时,也应当认定为侵权[30]。在人工智能创作的情况下,所涉训练数据中作品的数量规模通常是海量的,只有最大限度地扩大数据库的总体规模和内容多样性,才能尽可能减少特征偏差。因此,大规模地使用版权作品,其损害性无疑很巨大。此外,基于数据训练的人工智能创作主要通过特征提取来进行预测输出,而这些特征往往就是一部作品中的精髓和核心,如果仅仅是利用原作品中的事实数据或一些无关紧要的内容,此类创作甚至都不能称之为“创作”,只能产生一些不能吸引人类阅读欲望的输出物。因此,无论从数量还是质量方面,人工智能创作利用版权作品的行为都不利于合理使用的判定,都会是“不合理损害”判断中的重要砝码。
因此,人工智能创作过程中未经许可对现有作品的利用不论是在文本抑或司法实践中都难获得著作权限制与例外的合法辩护,此类行为的侵权属性似乎确凿无疑。由此向所涉训练数据著作权人支付合理报酬是应然之理。
其实,人工智能创作未经许可利用版权作品定性为侵权之后,在现行制度下可以有三条规范路径:其一,创设合理使用例外;其二,依照常规侵权处理;其三,归于法定许可制度。本文认为将法定许可制度应用于人工智能创作行为的侵权问题也许是最佳选择。
一方面,促进人工智能产业发展俨然是一项全球性竞争政策,智能创作同样是一项具有广泛应用前景的技术,我国不得不对此加以重视。上述分析已表明,合理使用一旦适用于智能创作中,著作权人的利益将极大受损,作品市场也将越来越单一,已经使得各方利益严重失衡。此外,人类阅读(侵权)机器人阅读(豁免)的分裂甚至会产生这样一个奇怪的后果:在一个越来越多的版权作品创作通过自动化进程进行的时代,版权法却只适用于人类, 并将我们带向一个“人类占据令人惊讶的边缘地位的版权体系”。一部具有戏剧性的双轨版权法已经显现:一半针对人类读者,涉及人类读者的使用会受到严格的审查,确保版权所有者的利益没有被侵占;一半针对计算机阅读,涉及机器人读者则会被很自然地认定为合理使用。这样便又产生一个令人不安的行为,它将鼓励人们和企业把阅读和创作进行外包,依赖于计算机的大规模阅读,甚至是鼓励夸大侵权的规模。更甚者,通过对计算机阅读的豁免,著作权法其实正在贬低人类阅读,因为人类为了细细品味几篇文章一般要付费购买书籍,否者是侵权者,而计算机大规模浏览一百万本书却是一个合理使用的英雄。这难道不是在慢慢将人类排斥在人类引以为傲的作品之外。
另一方面,从促进产业发展,提升核心竞争力的角度讲,面对人工智能创作技术的日趋发展,著作权法无动于衷不作回应也不合理。按照一般侵权路径而不加干涉,产生的第一种情况是人工智能创作活动的管理人为了避免侵权诉讼会尽可能先行采用市场化途径来与数据权利所有人之间达成某种交易,取得使用许可。但是这种行为至少会产生两个问题:其一是极大加重这些研发机构的创新成本;其二是市场失灵,减缓甚至阻碍科技进步。第二种情况是二者事先不进行任何许可交易,人工智能创作方未经许可擅自使用版权作品,那么就可能面临大量的侵权诉讼,将会耗费大量时间、金钱成本,进而产生寒蝉效应,阻碍技术进步和社会发展。此外,任何一部作品总会有意想不到的新用途,如果将作品的所有价值都置于著作权人的垄断权利下,不利于作品价值的充分挖掘,缩小作品的潜在市场,不利于新文化市场发展。
可见,不论是创设新的合理使用类型还是坚持侵权认定且不给予新制度回应都很难平衡各方利益,实现著作权法的最终目的。这样,目光便会很自然地转向“法定许可”制度。在这种制度下,人工智能创作研发人或应用人无需寻求训练数据著作权人之许可,可以直接对版权数据进行使用,但是应当向著作权人支付合理报酬。具体而言,法定许可制度应用于人工智能创作有如下几点优势:
其一,利于实现社会公正。“当财产权严重损害他人的行为时,无论洛克的附带条件还是康德的普遍权利原则,都对他们作出限制——这是走向分配正义的关键性一步”。附带条件原则要求“留下足够好的东西给其他人,并且谁能在一件东西败坏之前尽量用它来供生活所需,谁就可以在那个限度内以他的劳动在这件东西上确定他的财产权”。普遍权利原则认为“每一个人的选择自由可以与任何的自由共存,那么,他就是正确的”[31]。正义的本质则是如何分配基本的权利和义务[32],法定许可则恰好是这样一种制度,它对权利人与使用者两方都给予了一定的限制。它将原始作品的精华给予使用者,让使用者借此创造更大的价值,而不使这些智慧结晶淹没在历史的尘埃中;同时,一定的经济补偿也反馈给了原始权利人,经济的赞美对于高尚的作者而言也很必要。这样,权利人和使用人之间的自由选择恰如其分地融合了,虽说矛盾无法完全消除,至少可以在短期内并存。这种交易性分配对于社会公正至关重要,照顾各方感受和体验,在矛盾中找到了共存之地。
其二,有利于提升社会效率。 “市场失灵”总会经常性出现在版权作品的自然许可市场中,当合法的权利放置在被利用的环境时,往往会大大超越权利被赋予时所设想的力量,著作权人对作品的控制力便是如此,由于双方的谈判、僵持等会无限延长交易时间,甚至中断交易。法定许可制度会在一定程度上解决这个问题,因为它既保障权利,以显示其合法性地位,又尽可能消除权利无限制被利用的环境,从而使得权利的力量不至于大得不合理地损害与之相关的权利。也即,法定许可拟制出一个处于政府管控下的市场取代经常性无效的自然市场。这个拟制市场省略了单独协商环节,建立相对统一的付费标准,可以为双方节省大量时间、人力、资金等交易成本,消除权利流转障碍,促进权利流动,反映在作品上即加速知识增值,进而提升社会增值效率。
由此可见,无论是从正义还是效率角度考虑,法定许可制度对于人工智能创作行为的适用性都优于其他路径,尽管可能存在其他更好的方法来解决这个新技术带来的挑战,但法定许可制度本就常常被当作一种临时性制度工具[33],美国便一般认为法定许可存在于无法通过市场自行解决的特殊情况下。
1.法定许可设置的基本要素
法定许可制度的基本要素应当包括适用主体、适用客体、适用行为、付酬方法等方面。
第一,在适用主体方面,现行著作权法中既有的法定许可类型都有特定的适用主体。但是人工智能创作活动并不像上述类型一样涉及某个领域的特殊利益,因而申请适用这一法定许可的主体不需要特定化,只要某一主体具备进行只能创作研发和应用的能力,便可以依照程序申请。也即,适用主体为一般自然人、法人和非法人组织。
第二,在适用客体方面,由于人工智能创作内容多样,可以生成文字,视频,音乐,画作等形式,因而法定许可制度也不应限制训练数据的作品范围,但前提是这些作品已经发表。更进一步,法定许可制度必然要求所涉作品来源于合法源头,排除来源于侵权数据库例如“Sci-Hub”之类的侵权来源。因为这类侵权来源会使得法定许可制度的目的落空,无法运作,再次使得双方利益失衡。对此,日本、英国和欧盟在其应对计算机信息分析技术的例外规定中要求数据来源的合法性。总之,此类法定许可的作品客体应界定为一切合法来源的已发表作品。
第三,就适用行为而言,人工智能创作中主要面临侵犯作品复制权、演绎权的风险,但考虑到技术发展可能产生其他利用方式,适用行为不必严格限定在复制和演绎行为,应加上“依技术运作需要的其他必要行为”作为弹性条款,充分促进技术发展。
第四,在付酬方面,虽然在某些法定许可类型中先后出台了相应支付标准,归结起来即三种:(1)按照一定使用数量乘以某一确定的额度;(2)特定产品依照营收的一定比例收取许可费;(3)定额支付[34]。这些规定对于人工智能创作法定许可的参考意义有限。智能创作中的训练数据涉及的版权作品数量庞大、来源主体分散,且作品形式多样,上述方法均不具有可操作性。针对所涉及版权数据的特点,应当采取按比例收取输出物市场收益额的方法,直接从终端按照年度计算费用,即“先用后付,以收定付”。首先,这样可以免去前期对大量版权数据进行一一计算,进一步节省相应运行成本,快速进入研发阶段。其实面对海量数据,在现有技术条件下也无法一一计算。其次,依据市场收益额的一定比例收取许可费意味着没有收益额便不用缴纳许可费。一方面意味着为科学研究、促进公益等为目的的非盈利性主体所为的人工智能创作研发应用根本就不用承担许可费,合理照顾社会公共利益;另一方面意味着为非盈利性公益研究和商业性研发应用拥有相同的竞争前提,同等竞争,更有利于激发各方创新活力。
2.法定许可的制度保障
目前,我国相继建立了五家著作权集体管理组织,相应地在音乐作品、音像作品、文字作品、摄影作品、电影作品等领域开展活动。实际上,目前的人工智能技术还处在专门应用阶段,一般集中在某一作品形式领域进行创作,例如文字作品、音乐作品、美术作品等,相应的训练数据类别往往也是单一化。这样看,单独由上述各类集体组织分别管理也未尝不可,但是随着技术扩展,多类型作品融合训练日趋普遍也是情理之中,并且利用美术作品进行数据训练已经出现,却没有对应的集体管理组织。因此,仅依托现有机构难以全面处理人工智能创作所涉训练数据的著作权问题,应当考虑建立统一的“数字著作权集体管理组织”,集中处理数字化版权作品的许可使用问题。在建制上可与现有的五大组织并立,并分别为不同类型的作品设立专门委员会,一方面与五大组织衔接开展联合运行,另一方面填补其他作品类型管理机构缺失。针对人工智能创作的行为特点,该集体管理组织应在以下几个方面重点应对:
第一,建立统一电子版权数据库。首先应大力促进著作权登记。虽然著作权登记不是获得著作权的必要条件,但是对于著作权确权、流转、保护工作的开展具有重要意义。其次,登记应建立统一的数据作品版权信息区块码,严格记录权利人、发布时间、特殊声明等必要信息,这是最为关键的一步,否则后续的追踪记录便无法进行。这些信息应当与其他登记机构共享登记信息,及时公开。再者,登记不仅可以是权利人现行预防性登记,也可以是使用人为了获取许可使用而主动进行许可登记,例如使用者将某类尚未进行数字版权登记或是尚未数字化的作品数字化后在该组织内进行登记,但应当限于该集体管理组织会员所享有的版权作品,以免除不确定的诉讼风险。
第二,授权许可与费用收付机制。在许可方面,依照上文“先用后付,以收定付”原则,任何意欲从事人工智能研发与应用的主体,不区分其是否为商业性质,数字著作权集体管理组织均应进行授权许可,但应从实际使用领域和财务报告两个方面进行重点管理。其中实际使用领域的管理是为了保证被许可的版权数据仅仅为被许可主体应用于人工智能创作的研发应用,杜绝被许可主体擅自二次许可或转换应用领域。财务报告管理的主要目的是确定被许可主体利用人工智能创作而产生的营收额。例如欧洲议会机器人民法规则委员会收到的一份报告草案中强调“可能需要引入公司报告要求,说明机器人和人工智能对公司经济成果的贡献程度和比例,以便征税和缴纳社会保障费”。道理是一致的,只有通过财务报告才能弄清人工智能创作的营收贡献,才能合理确定额度基数。当然,这种贡献比例大多数情况下无法查清,双方的自由协商可以在此时发挥作用。此处的双方尤指集体管理组织和使用者之间的协商。若是由数据权利人和使用者之间进行协商,那么法定许可的效率取向依然难以实现;若是直接由相关政府部门统一核定比例,则通常难以体现作品的真实价值;由集体组织进行协商会最大程度上使得定价比率具有灵活性和代表性。因此,在许可费收取方面主要要通过财务报告以及集体管理组织与使用者之间的协商来确定额度基数和收取比例。在许可费分配方面,由于被许可的作品数据来源广、数量多,虽然这些作品数据间必然存在独创性高低差异,但在数据训练过程中无法准确测算哪一部分数据的价值更大、对算法贡献的贡献更为突出,既然同是受著作权法保护的客体,因此在训练过程中将其视为同质化的训练材料也具有合理性。进而,在向数据权利人分配许可费时,应当以权利人被许可使用的作品数量为依据来进行分配。至于无主作品,可以采取先留置并及时通告,若在5年内无权利主体申领,可将这部分作品所获得许可费抵扣集体管理组织的运行成本。
第三,统一维权机制。侵权行为因法定许可合法化,理当成为技术开发和应用者的理性选择,然而故意规避这个机制的行为必定也会出现。因此,当人工智能创作研发和应用者私自使用版权数据进行训练或是将许可用于训练的版权数据用于其他领域或是故意隐藏相关财务报告,该组织即可以自己的名义对此类行为提起诉讼或采取其他维权机制。特别地,应当赋予该类集体管理组织一定地延申性管理权限,即允许该组织对于非会员的数据作品被非法用于训练的情况提起诉讼或仲裁或协商,发挥专业组织的优势。为了对该集体管理组织以激励,应当允许集体管理组织分配一定比例的侵权赔偿金。当然,应当允许非会员选择由自己处理该项事宜,排除集体管理组织的诉讼管理权。也即此类集体管理组织的权限只能延申到非会员的维权管理上,而不能延申至许可使用权限。
3.法定许可的技术支持
用技术应对技术是科技发展的必然选择,在新技术对版权数据权利确认、数据使用记录、数据安全三个方面都带来了棘手的挑战。应对上述挑战,区块链技术是一个重要的技术方向,将其应用于版权登记可以有效降低登记成本,区块链的不可篡改性能够提升登记证明力。依靠每一份登记作品上独一无二的哈希值和时间戳还能够全程追踪登记作品的使用情况[35]。例如美国的“Blockai”公司已经利用区块链技术保护版权作品,中国的小犀版权链已经面向工业版权提供服务,北京互联网法院采纳“天平链”电子证据,审判中也认可区块链取证的证据效力。此外,保障数据安全除了依靠区块链的不可篡改性和可追溯性外,采取其他必要的例如常见的版权保护技术措施和保护接触技术措施来维护数据安全性也是必要的[36]。
人工智能的发展确实给人类带来了机会,这样一个全新的事物同样也带了许多挑战,趋向守旧的法律如何能够更快地与技术接轨,全面审视必不可少。人工智能创作给著作权法律特别是合理使用制度带来了危机,对此有必要保持足够的慎重,否则颠覆的不仅是作品及其市场,更有可能颠覆人与机器的关系。人工智能创作确实与合理使用的制度目的不相符合,但技术的进步也是人类的进步,必定需要一定的妥协,法定许可制度的历史使命再一次体现,构建好这一制度才能更好地协调新旧利益,协调著作权的目的与科技进步,使二者最大化的同一。