智能写作使用他人作品的合法性界限
——以展示性使用与非展示性使用区分为视角

2021-01-28 20:59李富民
社会科学家 2021年8期
关键词:著作权法语料库规则

李富民

(河南财经政法大学 学报编辑部,河南 郑州 450046)

目前备受赞誉的人工智能生成内容和备受诟病的写作软件抄袭同属于写作软件行业,遵循基本相同的工作原理,都需要大量使用他人作品建立语料库和运用算法生成内容,其区别仅在于智能化程度有高低,输出文本质量高低有别。近来网络小说《锦绣未央》抄袭集体维权案的审理和判决使大家开始注意到写作软件使用他人作品的侵权治理问题,[1][2][3]探讨写作软件著作权侵权的可责性以及相关主体的责任承担,[4][5]但关注的热度明显低于人工智能生成内容著作权保护,与该问题的重要性不相匹配。就研究现状而言,有关人工智能生成内容著作权问题研究仍偏重于人工智能创作成果的著作权保护正当性及保护模式的研究,有关人工智能使用他人作品侵权问题的研究尚未得到充分的重视①截至2020年1月5日,在中国知网上笔者以“人工智能生成内容”和“著作权”作为关键词进行搜索发现有92篇论文,其中有些作者是知识产权法领域的知名学者;以“写作软件”和“侵权”作为关键词搜索发现只有6篇论文;以“人工智能生成内容”“侵权”“人工智能”“著作权侵权”作为关键词搜索,发现检索到的论文均是讨论人工智能生成内容著作权保护的。。由于“以授权使用为原则”的现行著作权法无法有效规制智能写作使用他人作品行为,在授权使用规则改革难度很大的情况下,笔者结合我国立法司法实际,将调整合理使用规则作为可行性的路径选择,运用类型化的研究方法,根据智能写作使用作品的特征以及对著作权保护的影响,尝试将其分为展示性使用和非展示性使用,根据不同使用类型分类治理,提出的智能写作使用作品合法性判断的系统性规则,实现对智能写作使用作品的全流程治理,以图得到兼顾写作软件行业健康发展与著作权有效保护的治理目的。

一、智能写作使用他人作品的具体情形

了解智能写作软件运作机制是分析其使用作品行为的前提。它通常包括以下流程:(1)收集作品建立语料库;(2)设计软件,运用算法对语料库的资料进行分析操作;(3)根据用户的指令进行创作并输出,形成用户想要的文本;(4)生成内容的公开展示和传播。上述流程可以分为智能写作软件开发和应用两个阶段,其中第一步建立语料库和第二步写作训练属于智能写作软件开发阶段,主要由软件开发者完成,旨在形成一个包含语料库和算法规则在内的智能创作系统。第三步操作智能写作软件生成内容和第四步公开展示、传播生成内容属于智能写作软件应用阶段,具体应用可能由软件开发者自己使用,也可能提供给网络用户使用。如果软件开发者将在线发布写作工具提供给用户,开发者还会收集用户生成的内容,用于算法的改进以及用户的后续创作,从而实现第一阶段与第二阶段的衔接和循环反复,不断改进智能写作软件,吸引更多的用户,形成网络写作与分享社区。

智能写作软件开发和应用全流程均存在使用他人作品的情形。具体言之,第一步建立语料库存在对他人作品全文复制、汇编等使用行为,将其变成计算机能够识别的文本还存在格式转换、编制索引行为等使用行为。第二步算法分析和创作训练是一个不断循环往复的数据喂养训练过程,是一个“人机回圈”过程,[6]只有经过反复尝试才能建立比较完善的创作模板与程序,逐步具备模仿人类进行创作的能力。在这一过程中,存在对在先作品进行信息抽取、特征分析,生成内容片段等使用行为,其中既涉及对在先作品字面表达的复制、改编或者重新编辑等使用行为,又涉及提炼在先作品表达结构等抽象特征的使用行为。第三步使用者根据写作软件设置的模板进行选择,形成的一组指令集合指挥写作软件利用语料库进行创作,输出使用者想要的文本信息。此外,写作软件还会提供编辑工具供使用者修改。写作软件根据在先学习中形成的写作模板,抽取语料库中的信息进行创作,创作出来的作品必然带有在先作品的某些特征。最后一步使用者发布软件生成的内容中如果含有在先作品的表达,就会存在对在先作品的复制、演绎、发行、信息网络传播等使用行为。

上述使用行为是否落入著作专有权范围分为两种情形。其中少数使用行为没有落入著作专有权范围,如抽取在先作品表达组织手段、作品结构特征等抽象要素可以归属于“思想”,根据“思想与表达二分”规则被排除著作权保护。而大部分使用行为确定无疑落入著作权专有权范围,如从收集作品建立语料库到生成内容发布,每一个阶段对在先作品的复制、改编、汇编、信息网络传播行为等。

二、现有著作权法规则无法有效规制智能写作使用他人作品行为

著作权以授权使用为原则。鉴于智能写作使用他人作品的特殊性,授权使用困难重重。智能写作本质上建立在大数据的基础之上,需要收集海量作品建立语料库进行算法分析以形成创作模板。海量使用会产生巨额交易成本。首先,即使单部作品授权成本很低,海量授权产生的总价也会过高。其次,海量授权产生的寻找成本和谈判成本无法承受。再次,被使用的作品会存在大量的孤儿作品和绝版作品,无法找到著作权人,授权成为不可能。最后,我国集体管理组织不发达,无法为其授权提供更多的帮助。智能写作使用作品产生的海量授权成本难题非传统的个别授权或者现有的集体许可所能解决,相关规则创新目前也陷入停滞。

我国现有合理使用规则同样难以提供有效帮助。相关合理使用规则主要包括科研合理使用规则、个人合理使用规则和合理引用规则。根据著作权法第22条第1款第6项规定,为科学研究少量复制已经发表的作品构成合理使用,但是不得出版发行。尽管可以将智能写作软件开发视为一种科研行为,但难以适用该规则,因为开发者为建立语料库,往往是全文复制,大规模汇编他人作品,与“少量复制”的要求相悖;同时通过软件许可或者销售提供给用户使用,不符合“不得出版发行”的要求。根据著作权法第22条第1款第1项规定,“为个人学习、研究或者欣赏,使用他人已经发表的作品”构成合理使用,用户利用智能写作软件生成内容尽管可以视为个人使用,但是用户将生成内容对外发布和传播,既超出了“为个人学习、研究或者欣赏目的”,又超出了个人使用的空间。根据著作权法第22条第1款第2项规定,“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”构成合理使用。利用写作软件生成内容可以视为一种创作行为,如果生成内容满足合理引用的构成要件,固然可以获得该规则庇护,但是大量全文复制他人作品建立语料库的行为,能否视为创作行为存在疑问,[7]同时也难以满足合理引用的数量要求。

此外,《著作权法实施条例》第22条尽管规定了合理使用判断标准,但是将适用范围限制在法律已规定的具体类型,而智能写作使用他人作品本质上属于计算机自动处理文本数据行为,是一种全新的使用类型。现有著作权法规则无法有效治理智能写作使用作品行为的根源在于其使用作品的特殊性。智能写作使用作品的特殊性主要表现为两点:一是海量文本复制建立语料库供计算机自动处理;二是利用创作模板提取现有作品特征自动生成新文本并传播。现有著作权规则没有考虑其特殊性,合理使用规则无法适用,如果贯彻授权使用则会产生海量授权成本,最终导致智能写作使用作品陷入高侵权风险。我国法院曾在王梓诉谷翔、谷歌公司的图书扫描案中试图进行规则创新,将谷歌公司扫描图书制作数据库并供搜索展示的行为区分为手段行为和目的行为,认为只要目的行为构成合理使用,作为实现目的之所需的手段行为也构成合理使用,①王莘诉北京谷翔信息技术有限公司等侵犯著作权纠纷案,(2011)一中民初字第1321号判决书,(2013)高民终字第1221号判决书。将搜索展示行为的合法性扩张到作为手段的扫描复制行为,但可惜的是法院又认为全文复制超出其目的范围,构成侵权,最终使该案判决的意义大打折扣。同时,该案区分手段行为与目的行为的做法也受到了学者的批评。[8]智能写作使用作品合法性难题如何解决在我国依旧悬而未决。

三、智能写作的类型化治理思路与具体规则构建

(一)智能写作使用他人作品规制新思路:区分展示性使用和非展示性使用

在授权使用规则改革难度很大的情况下,调整合理使用规则为智能创作使用他人作品提供最低保障成为可行的改革路径。根据智能写作使用作品的情形以及对著作权保护的影响,笔者认为将其使用分为展示性使用和非展示性使用分类治理,能够兼顾写作软件行业健康发展与有效保护著作权。具体言之,主张非展示性使用构成合理使用;展示性使用则按照现有著作权侵权规则判断。所谓非展示性使用是指“供计算机分析使用而不向公众展示作品表达”的使用,展示性使用是指能够向公众展示作品表达的使用。[9]该区分最早来源于谷歌图书和解协议,但随着该协议被美国联邦法院否决,其价值没有受到应有的重视,但它的确源自著作权人群体与大数据企业的共识,契合计算机自动处理数据的实践与利害关系人之间利益的合理配置。

区分对待展示性使用与非展示性使用对平衡智能写作软件行业健康发展与有效保护著作权具有重要意义。首先,非展示性使用能够满足智能写作软件开发的需要,无论是建立语料库、还是运用算法进行写作训练,抑或收集用户生成内容都是搭建、改进写作软件之所需,这些使用没有向公众展示和传播在先作品,故属于非展示性使用,将其认定为合理使用能完美解决智能写作开发对作品的使用需求。其次,高级人工智能写作软件与普通写作软件的根本区别在于用户生成作品的根本性差异。在人工智能创作中,用户利用软件生成内容是原创的,尽管可能含有在先作品表达,但是比较少;而普通写作软件生成内容很可能是对在先作品的简单提取和组合,有的软件甚至列出用户可能需要的多个作品片段,并提供编辑工具供其粘贴和修改。故智能写作软件优劣可以根据其向用户展示在先作品表达的多少来确定,越智能的写作软件越不需要展示在先作品,而智能程度越低的软件向用户展示在先作品表达越多,最差的写作软件实际上就是带有搜索编辑功能的在先作品数据库。根据现有著作权法规则判断智能写作中展示性使用的合法性,可以将低劣的写作软件对作品的展示性使用定性为侵权,实现优胜劣汰。故将展示性使用与非展示性使用作为智能写作使用作品合法性的判断标准,能够实现促进写作软件产业健康发展与有效保护著作权之间的完美平衡。

(二)智能写作使用作品的具体治理规则

1.智能写作基础之保障:非展示性使用合法性论证与具体规则设计

智能写作软件开发的基础保障在于将非展示性使用认定为合理使用。对此,需要研究两个问题,即非展示性使用在应然上是否构成合理使用和非展示性使用豁免规则在我国如何设计。

关于第一个问题,“三步检验法”或者“四要素分析”是两个适当的判断依据。“三步检验法”源于伯尔尼公约等国际公约,既是各国确定合理使用具体类型的选择标准,又可以当作合理使用的一般条款。非展示性使用可以通过“三步检验法”测试,首先非展示性使用属于写作软件使用作品的一类情形,因而是“具体的、特殊的”;其次非展示性使用以计算机作为使用主体,不向人类展示和传播,与作品的正常使用方式与传统市场存在根本性差异,不会影响作品正常使用,也不会不合理损害作者利益,因此满足后两个要件。不过存在例外情况,随着计算机自动处理市场的发展,可能会出现主要供计算机自动处理的数据库,计算机自动处理使用属于其正常使用范围,合理使用一般条款就无法适用。“四要素分析法”虽然源自美国版权法第107条的合理使用一般条款,但其影响早已超越国界。非展示性使用同样能够通过其测试。在使用性质上,智能写作将作品用于算法模板构建和信息提取,与普通写作使用有显著差别,转换性使用属性明显,该要素判断明显支持智能写作。在被使用作品的性质上,智能写作使用的作品类型广泛,对合理使用判断的具体影响只能作个案判断。在被使用作品的数量和性质上,智能写作是全文复制和大量使用,不利于合理使用判断,但是作为复制依赖型技术,智能写作的使用并未超出必要的范围。市场影响分析对智能写作使用非常有利,因为智能写作使用本质上是将作品当作数据使用,不向人类展示和传播,对被使用作品的传统市场没有影响。综合权衡四个要素,智能写作的非展示性使用应该构成合理使用。

关于第二个问题,在我国著作权法语境下有两个途径,一是著作权法直接引入合理使用的“三步检验法”,具体做法是在著作权法第22条合理使用条款具体类型中增加“其他特殊、具体的情形”的兜底条款,同时将后两个要件作为第22条的一个条款。尽管不是直接针对非展示性使用,但是合理使用一般条款足以为其合法性认定提供适当的法律依据。二是就非展示性使用例外设置具体例外。鉴于在数字环境下非展示性使用与计算机自动分析紧密相关,同时适用场景具有多样性,建议借鉴《日本著作权法》第47条之七的计算机自动分析著作权例外条款并进行适当改造。笔者拟出如下规则,“基于数据挖掘、人工智能创作、信息提取、信息搜索等不同目的,可以复制或者改编作品供计算机自动分析,但不包括向公众传播。为了供计算自动分析使用而制作的数据库作品,不在此限”。对该条款特做如下说明:第一,区分了展示性使用与非展示性使用。本条款明确调整的行为属于“非展示性使用”,向公众传播的行为合法性判断适用别的条款。第二,非展示性使用主要是为了解决计算机自动分析通用技术使用作品合法性问题。第三,通过对使用目的的列举使之能够包括智能写作中的使用。第四,排除适用于主要供计算机分析使用的数据库。

合理使用一般条款与著作权具体例外各有利弊,一般条款适用虽然灵活但是具有不确定性,使用者证明成本高,对法官素质也提出了较高的要求。具体例外虽然具有法律确定性但是丧失了灵活性,无法应对新的情形。就智能写作使用作品而言,单独为其制定著作权例外可能性不大。不过其所依赖的计算机自动分析使用作品行为在大数据时代具有普遍性,而且具有更广泛更重要的产业意义,专门设立著作权例外是可行的;通过目的列举可以将智能写作使用作品的情形明确纳入其规制范围,提供了比合理使用一般条款更大的法律确定性。两相对比,笔者以为我国应该设立包括智能写作使用在内的计算机自动分析使用著作权例外;如果立法上实在有困难,退而求其次引入合理使用一般条款。

2.智能写作输出之约束:展示性使用侵权责任认定及责任承担

展示性使用是区分智能写作软件好坏的利器。展示性使用实质上是将在先作品表达当作创作内容提供给用户,供用户直接使用或者进一步修改。鉴于智能写作是通过现有语料库分析、学习和模仿而生成内容,带有在先作品表达或者其特征在所难免,但是这并不能成为抄袭的借口。只有对展示性使用进行有效约束才能促进写作软件行业的健康发展和兼顾著作权保护。著作权法应该采取平等对待的原则,对写作软件的展示性使用与自然人使用采用同样的治理规则。具体言之,写作软件展示性使用的合法性应该按照著作权法现有规则进行判断。是否构成合理使用可以按照著作权法第22条的合理引用规则进行判断。合理引用成立必须符合下列条件:(1)引用对象是“已经发表的作品”;(2)引用目的是“介绍、评论某一作品或者说明某一问题”;(3)引用限度必须是“适当”的。同时,引用“应当指明作者姓名、作品名称,并且不得侵犯著作权人依照本法享有的其他权利”。引用合理性和标示引用来源的要求不仅能够将引用部分与作者自己创作部分区分开,而且将引用限制在附属地位上。[10]在智能软件写作中,指明来源还有另外的作用,即帮助用户知晓哪些内容不是软件自行创作而是借用的,避开侵权风险;同时也有助于用户判断写作软件的功能和质量。此外,写作软件对字面表达之外要素的使用,可以按照“思想与表达二分”的原则进行处理。

展示性使用的侵权责任承担应该区分有无用户参与而有所差别。对于用户使用写作软件产生的具体侵权行为,用户构成直接侵权,软件开发者因提供了帮助或者进行教唆而构成间接侵权。根据我国现有规定,软件开发者承担共同侵权责任,包括停止侵权责任和损害赔偿责任。用户承担停止侵权责任是应有之义,但是否承担损害赔偿责任应该区分情形而定。写作软件如果对展示性使用已经标明来源的,用户仍然予以使用,用户应该承担损害赔偿责任。如果开发者对展示性使用没有标明来源,用户又不知道是否属于在先作品表达的,证明其主观上无过错,不需要承担损害赔偿责任而只需要返还利润。上述关于用户损害赔偿责任的认定缺乏直接的法律依据,是笔者类推适用出版者损害赔偿责任规定的结果。《最高人民法院关于审理著作权民事纠纷案件适用法律若干问题的解释》第20条规定,出版者承担损害责任应该“根据其过错、侵权程度及损害后果等承担民事赔偿责任”,出版者尽了合理注意义务的,不需要承担损害赔偿责任,只需要返还所获利润。用户使用写作软件创作的合理预期是写作软件提供的内容是自行创作而不是抄袭的,与普通作者抄袭他人作品的情形存在明显的不同,更接近于出版者的地位,因此类推适用出版者的损害赔偿责任认定是合理的。我国学者王迁同样认为没有过错的直接侵权者无须承担损害赔偿责任。[11]

写作软件的展示性使用,在无用户参与的情形下,软件开发者应该承担直接侵权责任。在这种情况下,软件开发者之所以需要承担侵权责任,不是因为造成了现实的具体的侵权行为,而是其具有展示性使用功能。这种展示性使用功能使其语料库中的作品可以被复制和传播,尽管还没有呈现为具体的侵权行为,但是如果写作软件流入市场,将会导致大面积的侵权行为,因此法律有必要在其未发生之前予以制止。写作软件潜在的展示性使用可以按照《著作权法》第50条规定的行为保全制度进行处理。这实际上也意味着写作软件开发者必须采取合理技术措施防止非展示性使用演变成展示性使用,否则可以按照展示性使用追究侵权责任。

四、结语

智能写作软件对他人作品的使用具有复杂性,区分为展示性使用和非展示性使用不仅鲜明地展现其现实使用形态,而且契合作品使用对著作权保护影响的分析,因此展示性使用与非展示性使用的区分对待能够为智能写作著作权侵权治理提供有效的思路。将非展示性使用认定为合理使用能够为智能写作软件开发提供良好的前提条件,而展示性使用的合法性按照现有著作权规则认定,不仅能够有效保护著作权,还能促进写作软件行业的优胜劣汰,促进行业健康发展。在我国著作权法语境下,非展示性认定为合理使用尽管具有理论上的正当性,但是缺乏明确的规则,因此有必要引入能够保障计算机自动分析的非展示性使用著作权例外。展示性使用合法性认定尽管不缺乏相关的著作权规则,但是需要澄清具体的法律适用。对此应该区分有无用户参与而分别认定责任,在软件开发者与用户之间进行合理的责任划分;要运用责任认定督促智能写作软件开发者采取技术措施防止非展示性使用滑向展示性使用,损害著作权人利益。

猜你喜欢
著作权法语料库规则
新《著作权法》视域下视听作品的界定
撑竿跳规则的制定
众议新《著作权法》 版权保护覆盖面扩容,期待相应细则出台
数独的规则和演变
平行语料库在翻译教学中的应用研究
《中华人民共和国著作权法》与《日本著作权法》之法条差异
《语料库翻译文体学》评介
让规则不规则
TPP反腐败规则对我国的启示
语篇元功能的语料库支撑范式介入