使用AI转录有声读物字幕的法律界限
——基于亚马逊被诉侵犯版权案视角

2020-01-19 19:14:41郑聪

淮南师范学院学报 2020年6期

郑聪

（圣路易斯华盛顿大学法学院，密苏里圣路易斯 63130）

一、问题的提出

2019年8月，美国著名互联网企业亚马逊旗下的有声读物Audible被七家出版巨头起诉。争议焦点主要集中于Audible公司旗下一款即将推出的“Captions”功能（以下简称“字幕”）。该功能的工作逻辑主要为：通过机器学习及AI的帮助，为播放中的有声读物生成与语音对应的文字。然而，七家原告作为出版商及作家利益代表，主张Audible公司仅仅拥有出售有声读物的权利，该权利并不延及任何其有声读物的相应文字版本。因此，原告主张Audible公司凭借其字幕功能，在未经授权的情况下，涉嫌使用、传播原告享有版权的文字作品，已经构成了著作权侵权；同时，将无法避免地导致电子书销量降低，并波及传统出版商及作者的版税收入［1］。

本案问题的核心在于部分有声读物平台通过AI转录语音生成相应文字的行为是否构成侵权？本案原告认为亚马逊公司出于自己利益，在未经同意许可的情况下进行利用音频生成文字并传播的行为已经构成了美国版权法下的典型侵犯行为。亚马逊公司则认为通过AI自动生成字幕的行为并不构成侵权，其原因有二：首先，有声读物所提供的字幕只是针对所读的句子产生的文字，并不能达到或者呈现一本书的效果，如不能翻页、不能成体系生成等；其次，这种提供字幕的做法实质上是在发挥文字的教育功能，帮助收听者查询不熟悉的单词，尤其是能够帮助儿童提高识字能力，因此不构成侵权。

目前，该案仍在审理中，尚未作出最终判决。可见，使用AI转录有声读物字幕在美国司法实务领域存在争议，究其原因主要系美国和我国对于有声读物本身的版权属性在法律定位上存在不同。当然，这种不同并不是有声读物争议的主要原因，即使在我国法律体系内部也会存在这种争议。然而，无论何种语境下，针对使用AI转录有声读物字幕存在的法律问题都需要从三个方面加以回答：第一，使用AI转录有声读物字幕是否构成侵权？第二，使用AI转录有声读物字幕侵犯了何种著作权？第三，如何回避使用AI转录有声读物字幕的侵权风险？事实上，要回答上述问题首先需要澄清的是有声读物本身的法律属性，以及有声读物使用AI生成的字幕与文本之间的关系问题。

二、有声读物及其使用AI生成字幕的法律属性及定位

探索有声读物的法律属性，还需要从有声读物自身的发展说起。有声读物之所以出现和人类的阅读方式密切相关。古代社会，由于纸质文本较为昂贵，普通民众由于经济能力有限无法有效获得阅读文本，从而依托于口口相传的口语阅读和背诵来进行知识的传递，可见，阅读方式最早体现于“听”上。后来随着纸质读物的普及，其获得方式也更为简易，而民众为了提高阅读效率，“看”作为阅读的主要方式逐步成为主流。一般而言，当下听书的体验主要适用于伴随性阅读和碎片化阅读，正是这一特征使得我国国民听书率有较大提高，20%的成年国民有听书习惯［2］。由此可见，有声读物发展到当下必须从现行法律规范中找寻相应的法律依据，从而为有声读物的发展提供制度和规范支撑。

（一）有声读物的法律属性

对于有声读物的法律定性，有学者直言：有声读物是作品，因为有声读物符合《著作权法》对“作品”规定的要件。然而这一论断还需要根据我国法律的规定进行具体分析。我国《著作权法》规定受法律保护的“作品”必须符合三个要件：自然人劳动创作的能够传播的文学、艺术和科学思想；能够以有形形式加以复制；具有独创性［3］。从这三点来审视有声读物的内容，我们不难发现有声读物十分符合前两项标准，而是否符合独创性存在争议。因此，判断有声读物是否符合《著作权法》中关于“作品”的规定还需要根据有声读物的具体内容加以具体分类。

有声读物的类型可以根据现实生活的表现形式，以及有声读物本身与文字内容之间的关系加以确定。一般而言，有声读物可以分为三种形式：第一，利用TTS（Text-to-Speech）技术机械性地对文字进行朗读；第二，将需要朗读的文字用录音形式加以录制；第三，有声读物对文字进行了一定程度上的修改，在修改的过程中对内容进行整合和加工，并加入部分音效将其剪辑录制制作成产品。从作品的认定角度出发，首先利用TTS技术进行的机械性朗读因为只是一种简单的阅读和复制，从而缺少相应的独创性，因此不符合著作权法意义上的“作品”。相较于第一种的简单复制，第三种类型有声读物因为对文字内容进行了修改，并加入了制作者和朗读者自身的理解和情感，同时在录制之后进行背景音乐上的剪辑，从而使得有声读物具有了独创性，这符合著作权法上的“作品”要求。第二种有声读物是否具有独创性在判断上有一定难度，虽然第二种读物对原有的文字进行了一定程度的劳动创造，付出了相应的劳动价值，但是这种劳动付出是否符合著作权法意义上的“独创性”则存在商榷之处。因此，有学者认为在这种意义上，第二种有声读物的创造性不足，不能构成作品，而只能作为与作品相对应的录音制品受到保护，相关的录制者只能享有邻接权而非狭义的著作权［4］。由此可见，有声读物的法律属性，也即有声读物是否符合“作品”的要求还需要根据有声读物的具体内容加以确定。

（二）使用AI生成有声读物字幕行为的法律定位

从上文可以看到有声读物与文字的关系对于界定有声读物的性质十分关键，而决定有声读物基本属性的关键在于其是否具有独创性，这也是对有声读物进行分类的重要标准。事实上，要想确定使用AI生成有声读物字幕行为的法律属性，还需要厘清有声读物本身和文字作品在著作权上的关系。

我国著作权法对于作品的著作权有广义和狭义之分，广义的著作权是包含邻接权在内的，可见我国现行著作权法规定的基本结构都是基于“著作权——邻接权”的二元结构体系。著作权旨在保护作品的创作，而邻接权则主要保护作品的传播。如果从这个意义出发，我们不难看出有声读物本身应该主要受邻接权的保护，基于此有学者就认为有声读物的制作和传播就涉及了表演者权、录音录像者权和广播组织者权这三类邻接权［5］。然而，从本质上看，某一作品是享有著作权还是邻接权主要针对作品的拥有主体和作品本身的创造性，即使是有声读物也并不只是涉及到邻接权，何况邻接权制度也并不是世界普遍认可和采用的制度［6］(P21)。正如上文所言，美国就不存在邻接权制度，而是将表演者的表演、录音制品等与有声读物密切相关的内容一并视作作品加以保护。正是在这一前提下，我们才能很好地理解亚马逊被诉侵犯版权案的基本内容。因为美国没有邻接权制度，而是将文字版权、录音制作等都视为作品，其在保护过程中可谓一视同仁，这样才会产生非常明确的版权纠纷问题。

综上，亚马逊公司之所以被许多版权商起诉侵犯版权，其中涉及到的一个关键问题就在于亚马逊公司只是向有声读物的制作公司购买了有声读物版权，而没有获得有声读物背后文字出版商的许可。而通过AI转录有声读物的字幕就难免会涉嫌侵犯文字出版商对于文字本身拥有的发行权等著作权。然而，到底使用AI转录有声读物字幕是否构成侵权以及构成何种侵权，还需要进一步结合案情加以分析。

三、使用AI转录有声读物字幕的侵权风险

有声读物虽然是当下比较新颖的事物，但是其发展速度和影响力都超过一般人的想象，可以说，有声读物通过“迎合”当下人们快节奏的生活而迅猛发展。然而，在发展过程中，有声读物在法律风险层面遇到了较为严重的问题。虽然有学者通过对《著作权法》的解释和对实践中出现的案例进行分析，总结出有声读物在著作权上的定性，但是有声读物涉嫌著作权的侵犯案件却呈现增长趋势［7］。笔者通过裁判文书数据库进行检索，截止到2019年9月17日，全国已有169件有声读物涉嫌著作权侵权的案件一审审结。从中不难看出有声读物本身具有的争议性，而相关法律规范和法律适用方法的滞后也造成有声读物的侵权风险较高。

（一）使用AI转录有声读物字幕是否构成侵权

从出版社诉亚马逊使用AI转录有声读物字幕涉嫌侵犯的案件中我们发现，这一问题主要涉及出版社、有声读物制作者和作为有声读物发布平台的亚马逊。在这个案件过程中，有声读物制作者这一主体并没有出现，其原因在于美国法律规定了有声读物等录音制品具有独立的著作权，亚马逊从有声读物制作者那里购买了有声读物，以及有声读物制作者从出版社购买了作品的使用权等都是符合相关法律规定的。因此，涉嫌侵权与被侵权的双方主要是出版社和对有声读物进行转录的亚马逊平台。那么亚马逊使用AI转录有声读物字幕是否构成侵权呢？

本文认为，无论是基于美国的单一著作权保护体系①，还是我国的“著作权——邻接权”二元结构体系，有声读物即使只是以邻接权的形态出现，其也应受到著作权法的保护。正如我国《著作权法》规定的那样，被许可人复制、发行、通过信息网络向公众传播录音录像制品，还应当取得著作权人、表演者许可，并支付报酬。换言之，所有具有文字版权的作品一旦改变成有声读物进行传播，不管其目的是否在于营利，都需要著作权人的许可［8］。从这一规定，我们可以引申到有声读物与转录字幕之间的关系上。既然有声字幕具有独立的作品属性，而亚马逊这一平台也并没有向拥有文字作品著作权的出版社购买相应的作品使用权，则我们可以简单得出结论：亚马逊等平台进行的AI转录字幕涉嫌侵犯风险。正如出版社在诉讼中提出的那样，亚马逊通过AI转录有声读物字幕之后，将相应的转录文本不加注意全部呈现给客户，这可以说是亚马逊独自让还受著作权法保护的作品，在未经权利人同意和许可的情形下，为了自身利益对这些作品进行重新利用，这种行为无疑是美国版权法所禁止的典型侵权行为。此外，由于亚马逊通过AI自动生成了相应的字幕和文本，就会给出版社造成巨大压力，损害了文字作品的销售效果，从而侵犯了出版社的经济利益。还有一点不可忽视，那就是通过AI转录的字幕存在较多的错误，不仅给阅读者带来困扰，影响阅读效果，也在一定程度上影响了阅读者对于作品的认知和感受，造成作品影响力大打折扣，影响了作品的接受度和出版社的经济利益。

从我国著作权法层面对这一问题加以审视，也可以得到相同的结果。我国采用“著作权——邻接权”二元的著作权保护结构，一般意义上认为有声读物“属于以录音制品形式存在的复制件”［6］(P18)，其是否具有独创性是存在质疑的。对这种观点本文采取比较审慎的态度，而即使只承认有声读物只在邻接权意义上存在著作权，那么这一邻接权具体还包括表演者权、录音录像权等权利内容。无论将有声读物理解为著作权还是邻接权，其权利属性都是不变的，其同样也具有不可侵犯性。最为关键的是，有声读物的独立权利属性的存在并不会影响有声读物与原作品之间的关系，也即无论是有声读物、原作品以及对有声读物进行的改造和使用，都不可侵犯权利内容。

具体到亚马逊被诉这一案件，亚马逊提出的相关抗辩能否使其阻却其行为的侵权性质呢？本文认为其提出的理由是比较牵强的。亚马逊的理由主要有以下两点：第一，亚马逊不认为其行为构成侵权，乃是因为亚马逊认为自身通过AI转录的字幕并不能称其为“书”，也并没有打算成“书”，因为转录的字幕无法翻页，只能在用户收听时自动生成；第二，亚马逊认为其提供的字幕具有良好的教育功能，也就是说AI转录的字幕能够帮助用户及时查找不熟悉的词语，可以提高儿童的识字水平和学习能力。本文认为这两点是很难站得住脚的，首先，亚马逊提出的第一个抗辩理由认为转录的字幕不是书，其也并没有试图成书，这显然不能构成相应的理由。究其原因乃在于亚马逊混淆了“书”与“作品”的概念。不构成“书”并不代表不构成侵权，而主观上没有试图成书更不能成为不构成侵犯的理由，毕竟著作权侵犯不要求侵犯方有主观故意存在。其次，亚马逊认为字幕服务具有教育功能，这显然是为侵权寻求理由，即使字幕本身具有相应的教育功能，其教育功能的发挥也不能建基在侵犯著作权的前提上。通过对版权所有者权利的侵权来实现所谓的“教育”功能，这种观点站不住脚，也十分可疑。

实质上，亚马逊提出的抗辩理由还涉及到著作权的合理使用原则和首次销售原则。所谓合理使用，是《伯尔尼公约》中提出的对著作权的限制，其主要包括：对作品的适用不能妨碍著作权人对作品的正常使用；不能对著作权的合法权益造成损害；不能超过使用目的的必要范围等。然而，合理使用原则的具体内容在实践中发生了变化，非盈利使用一度被作为排除合理使用的重要标准。事实上，合理使用是将一定的损害保持在合适的范畴之内，而并不是排除对著作权人的侵害。本文中亚马逊使用AI进行的文字转录行为本身显然已经超越了合理使用的范围，不能将合理使用原则作为其抗辩的理由。所谓首次销售原则，又可称之为权利穷竭原则、发行权用尽原则，主要是指合法制作的作品或者复制件首次合法进入市场后，著作权人无权控制该作品原件或复制件的再次发行。虽然首次销售原则在各国立法中都有不同程度的规定，然而这一原则在当下的运用产生了弊端，尤其是自媒体时代和信息网络无比发达的个体产生信息的背景下，因此各国纷纷采取措施对这一原则进行了限制［9］。就本案而言，其并不适用首次销售原则，最根本的原因在于亚马逊公司并没有从出版社手里购买相应的版权，在不拥有版权的情况下，显然无法将之理解为首次销售原则的涵摄范围。

（二）使用AI转录有声读物字幕侵犯了何种著作权

上文从亚马逊被诉案着手，分别从出版社和亚马逊两方的立论出发，阐述了亚马逊通过AI转录有声读物字幕的行为是构成侵权的。即使不运用这种理论分析方法，从侵犯行为四要素的分析框架来看，亚马逊的行为也是符合侵权要件的。首先，亚马逊通过AI转录有声读物字幕的行为已成事实，而亚马逊公司也并没有从出版社那里获得版权，因此其符合侵权的行为要件；其次，亚马逊公司的行为造成了一定程度的危害结果，既使得文字作品版权所有者出版社产生了损失，也错误引导了公众的学习方向和学习质量；再次，亚马逊公司使用AI转录有声字幕的行为与出版社版权受损之间存在鲜明的因果联系；最后，正如上文所言，亚马逊的行为并不具有合理使用等违法阻却事由，其提出的所谓教育作用也难以成立。

综上可知，使用AI转录有声字幕行为侵犯了出版社对作品拥有的一系列著作权。虽然仍有部分学者认为录音录像本身是一种机械的复制行为，录制人员的工作主要是技术性的，而不是智力型的、创造性的②，但是本文认为出版社所拥有的这些著作权是不可回避的，其主要包括：文字作品制作权人的著作权类型，如当制作的有声读物没有新增任何独创性，仅构成文字作品的复制件时，制作者侵犯的是著作权人所享有的复制权；当制作者的有声读物具有一定的创造性，但尚未达到作品所要求的创造高度，只是构成录音制品，则仍然侵犯的是著作者的复制权［10］。当制作的有声读物满足了作品所要求的独创性，达到了一定的智力创造高度构成改编作品时，所侵犯的是文字作品著作权人所享有的改编权。此种情形主要是指制作者通过综合利用人声、配音、背景音乐、声效、情感等诸多元素对文字作品进行适当修改后录制成音频。同时，也包括传播有声读物所拥有的著作权，如广播权，即广播电台需要获得著作权人的许可，其未经许可将广播内容上传到客户端的行为将会侵犯著作权人的信息网络传播权。利用AI技术将有声读物识别成文字在为听书者提供便利的同时，有可能侵犯著作权人的信息网络传播权，导致听书者不需要再去购买相应的纸质版或者电子版书籍，从而侵犯了著作人的权利。

四、使用AI转录有声读物字幕的侵权风险回避举措

无论是在理论层面还是实务领域，也不论是在对有声读物进行独立版权保护的美国还是采用“著作权——邻接权”二元保护结构的中国，在没有获得出版商和作品著作权人的许可下，仅仅通过AI自动转录有声字幕的行为显然存在侵权嫌疑。因此，无论是有声读物的网络平台还是出版商，以及有关版权立法的相关政府部门都应该正视这一现状，采取相应措施对相关的侵权风险加以回避。具体措施主要包括以下方面：

第一，加强有声读物平台的管理，要求有声读物平台履行相应的注意义务。使用AI转录有声读物字幕从根本上说是有声读物提供平台的具体行为，而相应的侵权风险也大多存在于有声读物平台之上。因此，避免有声读物转录字幕的侵权问题，还需要追根溯源从平台的管理着手。首先，有声读物提供平台，如亚马逊等应该对平台上的所有音频读物进行统一管理，针对每一个读物的具体内容，从细节层面进行审查。有学者指出，具体做法可通过数字版权保护技术（DRM）③开辟有声读物版权维护的新方向。通过数字版权保护技术的运用，可以实现既可为读者提供声音和文字的双重阅读体验，也可以提高平台的服务质量，最终有利于版权保护，回避相应的风险。其次，作为专业提供有声读物的网站经营者，在获得语音或者文字授权时应履行相应的审查义务和合理注意义务，将侵权风险降到最低。网站平台应该人身审查授权人的相关证明文件，确保授权的合法性。这一过程中应该对原始著作权人的授权文件加以重点审查，避免因授权问题造成自身权利受损。

第二，相关立法和执法部门要对有声读物的著作权进行合理分类，加强有声读物独立版权的保护，建立不同层级的保护标准。如上文提到的，使用AI转录有声读物字幕的问题实质上是有声读物的著作权保护标准问题，我们不可以直接武断认为有声读物是否具有独创性，或者仅认为有声读物是录音制品不具有独立版权④，也不可能直接认为有声读物是演绎作品、复制行为产物等，而应该针对有声读物的具体内容，对有声读物的法律属性进行科学认定，对其内容进行科学区分。正如部分学者所言：“相关部门在制定有声书行业标准时可以尝试着进行区分，把用机器语音技术读出来的制品和用著名播音员演播出来的制品区分开来，设定一些体现独创性的标准，把后者上升到作品层面，使其有独立的版权”［11］。

《视听表演北京条约》第5-11条规定了“精神权利”“表演者对其尚未录制的表演的经济权利”“复制权”“发行权”“出租权”“提供已录制表演的权利”“广播和向公众传播的权利”。表演者上述权利应该受到更加全面的保护，将表演者对现场录制和传播的控制扩大至对录制品本身的控制，而表演者和录音制品制作者对作品的出租权则可以延伸至录制品。在此基础上应该针对相关录音制品的著作权进行分类确认和管理，因为有声读物内容提供商在其平台上对于有声读物的制作方式采取不同方法，有声读物的法律定位也有不同。具体而言：（1）如果第三方或用户制作的有声读物上传到运营商平台上，此时平台只是技术服务提供者，而非内容提供者；（2）如果平台自己制作有声读物，对作品进行编辑处理，加上后期音效与剪辑等，则平台本身就属于内容提供者；（3）如果有声读物平台与主播签订了相关协议，约定好著作权的归属问题，按照相应的比例进行分成，那么有声读物平台则仅为合作者。鉴于上述有声读物平台的不同表现形式，应针对有声读物进行不同定位，从而确立有声读物的著作权属性，更好地采取措施保护有声读物著作权，解决相应的纠纷。

第三，探索有声读物平台对有声读物语音和文字版权的一体化购买模式，减少纠纷发生的可能性。亚马逊被诉案的起点虽然在于有声读物的著作权属性，但是其导火线还是在于有声读物制作者和发布者与其文字作品著作权拥有者之间的纠纷问题。为了避免这方面的纠纷，最为根本的措施乃在于有声读物平台要采取一定的著作权侵权风险规避措施，典型的莫过于提前获得相关权利人，尤其是作品著作权权利人的授权。然而，时下的授权模式无法适应有声读物的发展趋势。问题的关键在于，当前的著作权授权模式采取的是“一对一”的授权形式，这种形式虽然具有一定的针对性，但是却极大地增加了平台的工作力度，不利于降低平台成本和平台的长效发展。在这种情形下，有学者直接提出“当前需要设计出更为合理的授权模式，将音频与版权打包授权”。这种模式不仅降低了文字制作者与有声读物平台之间发生版权纠纷的概率，也把问题的解决办法置于版权运用之前，有声读物平台与文字创作者、出版商之间提前签订合同，提取各自所需的内容，有助于进一步化解纠纷。

注释：

①美国法律认为，表演者表演他人的音乐作品是创作行为，因为音乐作品本身是一件不完整的作品，需要通过创造性的表演让人们更好地欣赏和理解。所以，在美国，任何对音乐作品的乐器演奏和演唱都可以构成有独创性的作品。同样，由于美国版权法只要求作品具有最低限度的创造性，“捕获声音、编辑和编排”被认为和摄影一样，是一种与文字作品、音乐作品和美术作品等并列的法定作品类型。参见黄颖、刘娜《有声书版权瓶颈探源》，载《出版广角》2017年10月（上）。

②有学者认为录制者权也是一种邻接权，因为法律认为，录音录像是一种机械的复制行为。虽然我们认为，录音录像不仅依赖于设备，还依赖于个人的技术水平，而且通常录音录像后期剪辑的时间比前期录制的时间还要长，录音录像工作者在其中也付出了很多智力劳动，但是法律认为录音录像制作中，机械录制的成分还是多一些，录制者受制于原作者的著作权，要取得许可并支付其报酬。参见黄颖、刘娜《有声书版权瓶颈探源》，载《出版广角》2017年10月（上）。

③DRM包括对信息的加密防护和信息破坏后的追踪调查。通过信息加密技术可杜绝有声读物数字信息的泄露，拦截外界侵扰，如有意外发生，将利用媒体指纹、数字摘要和水印等手段举证维护自身权利。参见初晓旭《新媒体环境下有声书版权侵犯问题与应对策略》，载《出版发行研究》2018年第9期。

④实质上，有声读物之所以受到著作权法的保护乃是因为它完全符合作品的要件，或者是作品的传播形式。参见冷协凡《有声读物著作权保护探究》，华南理工大学硕士论文，2017年。

使用AI转录有声读物字幕的法律界限——基于亚马逊被诉侵犯版权案视角