云环境下的“一带一路”语言数据版权风险*

2018-01-28 15:20:07黄海瑛

图书馆论坛 2018年7期

黄海瑛

“一带一路”建设需要语言提供交际服务、通心服务、话语构建服务等[1]，因此“一带一路”建设需要进行语言战略规划，既包括宏观构架又包括微观举措。在宏观构架方面，由国家主管机关(如国家语委)响应现实需求进行顶层设计。在微观举措方面，由相关机构制定标准、梳理流程、清理版权、开发平台。2015年1月国家语委下发《国家语言文字智库建设规划》；2015年6月中国语情与社会发展研究中心召开“服务‘一带一路’战略的语言资源建设与开发利用学术研讨会”；2015年12月国家信息中心牵头开发的“一带一路”大数据综合服务门户上线；2016年4月成立“语言大数据联盟”，建立全球开放共享平台。由此可见，云环境下的“一带一路”语言数据引起广泛关注。云环境下的“一带一路”语言数据来源主体多元，载体形式多样，交易方式各异，涉及大量版权问题，亟待研究。

1　云环境下“一带一路”语言数据急剧增长

1.1　译联网的兴起促进语言数据暴增

大数据犹如工业社会的“石油”[2]。大数据时代，语言数据的生产工具、采集渠道、分析手段、应用场景和作用领域不断增加，逐渐形成语言大数据。语言大数据通过互联网提供服务，形成“互联网+语言处理”服务模式，被称为“语联网”；其应用于翻译领域，形成“译联网”。“语联网”“译联网”成为重要的语言数据增长平台，其发展模式引起信息管理学界和语言文字学界关注，并在实践领域取得重要进展。通过“语联网”“译联网”，全球有60多万名译员、1000多家翻译公司开展协同工作[3]。在我国，2015年10月科大讯飞输入法推出随声译功能，语言识别和机器翻译是核心技术。随着这两项技术的进步，社交媒体翻译、照片识别翻译、视频识别翻译、文件扫描翻译、语音识别翻译、人工智能翻译等不断成熟，提升了翻译效率，增加了语言数据，丰富了语料库。2015年文思海辉和传神网络两家公司在美国语言行业调查机构Common Sense Advisory发布的《2015年语言服务市场报告》(The Language Service Market：2015)中，名列亚洲第2、3名，全球第16、19名。在国外，美国Mark Davies的GloWbE语料库规模达19亿词，Google Books：British English语言数据达340亿词，Google Books：American English语言数据达1500亿词。社交网络Facebook和Twitter实现多语本地化。微软在2014年将机器翻译嵌入Skype Translator，从技术层面实现跨语言的实时沟通，2015年4月实现英文与中文(普通话)之间实时语音对话。云环境下译联网的兴起促进了语言数据的急剧增长，引发包括版权在内的系列问题。

1.2“一带一路”战略对语言数据提出需求

“一带一路”战略覆盖65个国家、44亿人口[4]，通用语近50种，地区语、民族语或部落语超过200种，方言超过2000种，和我国直接接壤的国家和地区的方言就有上千种[5]。习近平2014年在柏林会见德国汉学家时指出：“没有语言互通，合作交流就没有基础，民心相通就难以实现。”语言相通是“一带一路”战略的基础性任务，“一带一路”战略需要语言铺路。语言既是交流工具，也是文化载体。如果“一带一路”相关国家不能实现语言交流和文化理解，“一带一路”战略就不可能有序推进。“一带一路”语言数据需要采集、整理、分析和使用，需要在云环境下，利用大数据技术满足语言数据处理需求。语言数据库还涉及一项重要的文化使命——濒危语言保存。仅我国使用人口在千人以下的“濒危语言”就有15种，需要在“一带一路”战略中充分利用大数据技术来实现语言数据的历史文化功能[6]。十八届五中全会将“大数据战略”上升为国家战略。“一带一路”战略下语言大数据的建设包含语言数据平台开发、面向翻译的语料库建设、人工翻译服务、机器翻译服务等，涉及不同国家的版权法律、不同机构主体、不同数据类型、不同业务流程，具有版权风险。

2　云环境下“一带一路”语言数据版权客体范畴

2.1　语言数据主要特征

(1)工具性。“一带一路”语言大数据在分析语言时，不再聚焦语言因果关系的追寻，而是转变为对语言相关关系的描述，并根据相关关系来挖掘语言的潜在内容。传统的语言数据回答的是“为什么”，现在回答的是“是什么”，并通过“是什么”来探究“为什么”，先展示结果再展示原因。

(2)文化性。国际化推动语言全球化，并进一步推动全球化语言的地方化。全球化语言在地方化过程中不断替代地方语言的交流功能，消弱地方语言的生长空间，最终逐渐消灭语言的多样性。语言是文化的载体，一种语言体现一种文化。文化中的族群性格、认知结构和文化视野通过语言体现出来。消除语言的多样性也就消除了文化的多样性。“一带一路”语言大数据具有文化性，涉及公共利益，在版权保护过程中应该得到体现。

(3)生态性。语言是不断演化的。语言的萌芽、成长、丰富，外来语言的吸收，甚至语言的消亡等有其生态发展过程。语言生态发展有一定规律性。“一带一路”语言大数据可以通过数据采集、融合、挖掘、分析、迁移等手段展现其生态发展过程，寻找发展规律，以便解决语言危机。从版权角度而言，“一带一路”语言数据的变迁形成若干不同版本，各历史时代和各种版本形态的语言是否有版权，有什么样的版权，版权之间的关系如何，需要根据国内外法律来进行具体分析。

(4)关联性。语言之间的联系分为纵向联系和横向联系。“一带一路”不同国家、地区、民族之间的语言从横向而言有相似性，从纵向而言有演化性，相似性和演化性构成了关联性。关联性使得大数据分析方法有着较大的适用空间。通过大数据手段，可以将“一带一路”各种语言的历史演化和空间交互情况展示出来，丰富语言内涵。语言的“语内”相关性、“语际”相关性、“语境”相关性的揭示需要在版权归属和版权转移等基础上加以解决。

2.2　语言数据的版权法律关系

“一带一路”语言数据的版权风险需要从法律关系入手来考察。从版权主体而言，主要包括三类：语言数据的生产者、语言数据平台服务的提供者、语言数据的终端用户。生产者将语言数据上传到平台，由平台提供给语言数据终端用户使用。在版权主体方面有3个特殊性。

(1)语言数据的生产者并不一定局限于自然人。机器翻译将扮演重要角色，产生大量数据，并形成语言逻辑规则数据，这些数据的版权问题具有特殊性。

(2)语言数据平台的版权责任问题。语言数据平台聚集大量数据并提供服务，当终端用户侵权时平台应该承担何种形式的版权责任值得探究。具体而言，要研究平台承担的是直接责任或间接责任或替代责任等，以及每种责任形式的范围和条件。

(3)终端用户使用的责任问题。随着即时翻译工具的兴起，用户会应用到大量翻译资源，包括机器翻译资源，其侵权如何判定值得重视。

在版权客体方面，“一带一路”语言数据的范畴需要界定，即哪些语言数据属于本文讨论的范畴，其边界在哪里。作为对象而言，语言大数据涵盖范围广，可以按照不同标准划分成不同类别。广义上的语言大数据包含与语言相关的一切结构化、半结构化或者非结构化数据。语言大数据可划分为不同子系统，而各子系统又按照某种方式发生联系[7]。本文所称语言大数据是指与“一带一路”战略相关的，结构化、半结构化或非结构化的，具有大数据特征的数据集合(日常用语形成的通用语言大数据不在本文讨论范围)，具体包括：语言资源数据(语料库等)、特殊语言数据(盲文等)、语言生态数据(语系、语族、语支等)、语言服务数据(语言人才服务、语言平台服务、语言技术服务等)。

在版权内容方面，因为“一带一路”语言数据平台涉及众多主体，特别是翻译数据比重很大，有关作品演绎方面的权利内容显得更为重要和特殊。从权利演化而言，原作品的版权、翻译作品的版权、平台对翻译作品进行汇编形成的版权、用户作为普通公众的权利(特别是合理使用)等，形成权利流转的基本路径。翻译权、汇编权、编辑权、信息网络传播权等在语言大数据的生产、传播和使用过程的不同阶段体现不同的权利属性，构成版权内容的特殊性。因此，云环境下“一带一路”语言数据的版权法律关系有着特殊性，这是进一步探讨其版权风险类别和版权应对策略的依据。

3　云环境下“一带一路”语言数据版权风险类别

“一带一路”语言大数据规模庞大，结构化、半结构化、无结构化并存，国家所有、企业所有、个人所有并存，地域限制、时间限制、使用限制并存，公共性、私人性并存。只有解决版权问题，才能使“一带一路”语言大数据具有共享可能性。

3.1　语言数据库版权问题及其风险

“一带一路”建设离不开语言数据的积累和应用[8]。语言数据的外在表现形式通常为数据库，既包括主要用于资源保存的语言资源数据库，也包括主要用于资源服务的语言服务数据库。语料库是语言资源数据库。语料库建设为语言翻译或其他语言应用服务提供了重要基础。语料库通常包含大量语言表达智能模型，对接于相应的语言机器表达特征，并设计了机器翻译入口。语言服务数据库和语言生态有密切关系，使语言具有生物性和社会性，和社会需求进行精准高效对接。“互联网+”为国家级语言服务战略平台的构建提供了可能，需要在“一带一路”战略框架下凝聚各方力量，构建跨越国界的语言服务数据库，并将之置于云服务平台，为“一带一路”建设提供语言服务。

从数据库版权而言，欧美国家具有不同保护方式。美国为保护其数据库投资，强调应该给投资者更多版权激励，实行“额头出汗”原则，对投资人的辛苦劳动和资金投入予以产权激励。欧盟发布的《版权与技术挑战绿皮书》[9]就新技术对版权规则的影响进行分析，提出欧洲知识产权的保护目标；之后颁布的《数据库保护指令》在版权保护历史上首次设立数据库“特别权”，将数据库保护纳入立法范畴，提高了数据库版权保护标准。

在我国，数据库作为一项汇编作品而受到保护，凡是“选择或编排”具有独创性就能成为著作权法意义上的作品。在“一带一路”语言大数据中，数据库版权风险主要包括：(1)“一带一路”涉及不同国家和地区，我国在数据库版权保护方面采用“选择或编排”标准，但其他国家采用的标准并不一定相同，在跨国数据访问中存在着法律适用风险。(2)数据库由数据单元构成，数据库整体的版权和数据库数据单元的版权并不是等同的。如果数据单元具有版权，则该数据单元与数据库整体同样受到版权保护，反之，如果数据单元不具有独创性，但数据库整体在“选择或编排”方面具有独创性，则数据库的版权和数据单元的版权是分立的，即数据库整体有版权而数据单元没有版权。(3)数据库的整体版权和数据单元的版权可能来自同一主体，即数据库由数据库商集中采集，而且采集的作品的版权属于数据库商自己；但数据库商采集的数据也可能并非为其所独创，而是援引他人的数据，则数据库商和其中的数据单元的版权主体是不同的。数据库商的权利存在风险，需要得到数据单元版权人的许可。在语言大数据中，数据采集渠道多元化，数据来源通常并不一定属于一个主体，甚至不属于一个国家。这种情况下，数据单元与数据库整体版权的分离性、数据库版权的合法性、数据单元版权瑕疵对数据库版权的影响度、数据保护法律在不同国家的差异性等因素都使得“一带一路”战略下语言数据的数据库有着重要的版权风险。

3.2　机器翻译中的版权问题及其风险

“一带一路”建设涉及众多国家、众多语言，翻译工作不可能单靠人力。互联网技术、信息识别技术、智能翻译技术等使机器翻译成为现实。《2015年译云TM语言服务大数据报告》提出：“机器翻译将走入智能硬件领域，跨语言大数据将影响互联网信息传播方式，助力用户进一步提升译文质量。”机器翻译对响应“一带一路”过程中的庞大翻译需求有重要帮助，其翻译数据成为“一带一路”语言大数据中重要组成部分，甚至是很多语言数据平台中主要的数据内容。机器翻译可以即时响应，翻译语种和速度超过人工翻译。机器翻译建立在语料库基础上，是将来语言服务的重要形态。

机器翻译会带来版权问题，主要包括：(1)在普通的翻译行为中，翻译是一种演绎行为，应得到原作品所有人的同意，而翻译后的作品具有独创性，可以得到版权保护。独创性基于创作者智力劳动而产生。普通翻译是一种智力劳动，翻译产生的语言数据具有版权。机器翻译不同，在大数据和互联网情况下，为了适应即时语言服务需求，机器翻译产生的语言数量越来越大，其版权不再单纯依靠智力劳动而产生。该作品是否具有版权，如果具有版权，其版权归属主体身份如何确定，需要探讨。(2)语言数据具有累积性，基于机器翻译形成的语言数据如果被其他数据库吸纳，新的数据库是否拥有版权，其版权和原来的机器翻译所形成的语言数据的版权的关系如何，值得研究。(3)如果机器翻译在翻译过程中自动吸收了有版权的语言数据而没有得到版权人的许可，机器翻译形成的数据库如果有版权，是否是一种瑕疵版权，该版权如何认定，应该探究。如果具有版权且是瑕疵版权，后续的援引行为是否侵犯版权以及侵犯何种版权需要考虑。因此，“一带一路”机器翻译有众多版权问题，大数据下会放大这些风险。

3.3　跨国翻译服务中的版权问题及其风险

大数据和互联网使语言服务突破时空限制，使无障碍获取和传播跨语言信息成为可能。“一带一路”战略涉及65个国家、44亿人口、200多种民族语言，地区文化多元，不可能仅仅依靠英语等国际通用语，必须提供跨国翻译服务。

版权具有明确的地域性，对“一带一路”沿线国家而言，不同国家有不同版权制度。语言数据版权问题体现在：(1)同样的语言大数据是否受到保护，受到何种保护，适用哪国法律，按照什么规则进行侵权判定等，版权问题非常复杂。(2)对于跨国翻译而言，既涉及语言数据的跨国传播问题，又涉及语言翻译行为本身的版权问题。(3)除各国立法外，还有国际公约、双边协定等需要考虑。例如，《伯尔尼公约》的附件是有关发展中国家的特别条款，涉及复制权及翻译权限制[10]。因此，跨国翻译服务中的制度冲突、双边协定、国际公约等会增加其版权的复杂性，需要具体问题具体分析，这样才能减少语言跨国翻译服务中的版权风险。

3.4　委托代理中的版权问题及其风险

“一带一路”翻译是系统工程，涉及诸多委托行为，通过委托方式产生大量数据与提供专业翻译服务。随着跨国语言云服务平台发展，协同管理、代理服务，通过B2B、B2C等模式开展跨国语言服务将比较普遍。委托代理成为语言数据累积的重要方式，可以整合各种翻译资源，提供个性化的、无缝的、深度的和及时的翻译服务。

委托代理中，语言数据主体的复杂关联增大了其版权风险，主要体现在：(1)在关联性方面，“一带一路”语言数据服务从实体向虚拟转变，线上服务成主流。“一带一路”语言服务的协作从内部协作过渡到互联网协作，众包越来越普遍。这使得版权主体的关联性强，不再像传统那样某个主体与某个作品有较为明确的一一对应关系。在大数据和互联网环境下，多人对应一个作品、一人对应多个作品、作品内容不断迭代变化的情况普遍，使版权主体关系非常复杂。(2)在我国，版权代理本质是委托开发行为。根据著作权法要求，对委托行为，如果通过委托合同约定版权归属，按照约定来确定版权归属；如果没有约定，则版权属于受托人。因此，委托合同的版权归属条款对确定版权归属非常重要，但现实中很多委托合同并不一定有版权条款，容易产生委托人和受托人的版权纠纷。因此，“一带一路”语言大数据开发的委托过程存在版权风险。

3.5　平台服务中的版权问题及其风险

专业语言服务平台兴起，国内的译马网、语联网、译云、LSCAT、传神、赛迪等翻译服务平台产生大量的语言数据，国外的Wordbee、XTM、Memsource等翻译服务平台也不断积累着海量语言数据。语言服务平台中的主体包括平台提供商、资源提供者、终端用户。语言服务平台可以通过多种方式获取资源：(1)通过工作人员逐步积累语言数据，这种情况下平台提供商和资源提供者是同一个主体；(2)通过自动翻译软件逐渐积累数据，形成语言大数据资源库；(3)平台提供数据接口，各种语言资源提供者通过数据接口开展业务，同时也输送数据，形成语言数据资源库。对于第一、二种方式形成的语言数据资源，平台属于版权人，当终端用户非法使用该数据，构成终端用户的直接侵权责任；于第三种方式形成的语言数据资源，版权身份较为复杂，从语言数据库整体而言，平台是版权人，但对数据库的语言数据单元不具有版权。当终端用户对语言数据资源进行侵权，平台应该承担何种责任是需要研究的。根据“避风港”原则，如果平台有过错，需要承担赔偿等债权责任，如果平台没有过错，权利人提起诉讼后，平台也需要履行停止侵权等物权责任。因此，语言大数据平台有着版权风险，需要了解版权责任，履行对语言数据资源的审慎义务，且需要管理其用户，减少因用户侵权导致的间接侵权责任。

4　云环境下“一带一路”语言数据版权风险化解对策

4.1　语言数据版权资产清理与分级分类保护

十七届六中全会提出科学保护各民族语言文字。我国在语言资源、语言生态、语言保护等方面开展了大量研究，包括提出语言数据的科学保护框架和体系，通过量化指标体系定位濒危语言并提供保护措施[11]。“一带一路”战略下构架我国的语言资源库显得非常迫切，需要构建综合性的“一带一路”语言资源库和本地化资源库。这些语言数据资源库是拥有版权的，需要清理云环境下语言数据版权资产，并对这些资产实行分级分类保护。在语言数据版权资产的清理中，需要区分机构自有作品的版权、机构获得授权作品的版权、机构正在使用作品的版权、机构通过法律可以合理使用作品的版权，并根据版权资产的紧迫性、重要性、关联性等进行分级分类保护。

4.2　语言数据服务中的版权公益空间探索

语言数据有着很强的公共性，涉及公益空间的权利保护问题。例如，在跨境濒危语言保护上，语言数据具有重要作用。“一带一路”沿线我国的跨境濒危语言有14种[12]。利用大数据来抢救濒危语言是一种方法，但需要研究其版权风险以及可能利用的最大的版权公益空间。

版权制度是一种平衡权利人和社会公众利益的机制，一方面版权制度授予版权人各种权利，另外一方面也对版权人的权利给予限制：时间限制(版权作品有固定的保护期限并且不可续展)、空间限制(版权作品有地域性，和所在国家或者地区的法律制度有关)和使用限制(包括合理使用和法定许可等)。美国国家研究理事会出版的《平衡问题：科学与技术数据库中的私人权利与公共利益》[13]和美国国家科学院出版社出版的《数字困境：在信息时代中的知识产权》[14]都指出必须确保版权法的公共利益原则。版权制度对权利人权利的限制就是对社会公众利益的保护。国际图联发布的《关于数字环境的立场声明》提出：“过度的版权保护，不合理地限制接触信息和知识，会威胁到社会公正原则。”[15]语言数据的公益性需要充分利用版权制度为权利人设定的时间限制、空间限制和使用限制的规制手段。

4.3　语言数据应用中的版权条约适用

我国于1990年9月7日颁布《著作权法》；1992年10月15日加入《伯尔尼公约》；1992年10月30日加入《世界版权公约》；1993年4月30日加入《录音制品公约》。按照《与贸易有关的知识产权协议》，2001年10月我国第一次修改著作权法，2002年9月实施著作权法实施条例；2006年5月颁布《信息网络传播权保护条例》，2007年6月9日《世界知识产权组织版权条约》《世界知识产权组织表演和录音制品条约》在我国生效。2008年6月5日国务院发布《国家知识产权战略纲要》。这些版权条约和相关法律都是我国语言数据版权方面应该遵循的规范。

云环境下，语言数据应用应该充分考虑到版权条约的适用，特别是其中相关条款的含义，并探索其促进语言数据资源建设和服务的逻辑构架。知识产权方面的国际条约可以从多方面为探索语言数据版权提供参考：(1)对新技术的响应。《世界知识产权组织版权条约》第1条规定：“《伯尔尼公约》第九条所规定的复制权及其所允许的例外，完全适用于数字环境，尤其是以数字形式使用作品的情况。”[16](2)对跨国服务的响应。《与贸易有关的知识产权协议》第13条规定：“全体成员均应将专有权的限制或例外局限于一定特例中，该特例应不与作品的正常利用冲突，也不应不合理地损害权利持有人的合法利益。”[17]在“一带一路”语言数据服务中，了解沿线国家共同参加的国际公约、本国法律和他国法律是规避版权风险的重要路径之一。

4.4　语言数据人才培养与版权意识提升

《国家中长期语言文字事业改革和发展规划纲要(2010-2020年)》指出，语言文字事业改革和发展的基本原则是“服务国家经济社会发展大局”。在“一带一路”战略中，中文应当成为沿线国家重要的中介语言。语言对于国家安全有重要作用，是维护和拓展国家利益的要素和工具，也是国家认同、民族认同和文化认同的重要纽带。“一带一路”建设必须语言铺路，语言人才先行，也需要多层次多类型的语言人才。众多高校积极响应“一带一路”非通用外语语种人才培养的号召，北京大学和上海外国语大学启动“一带一路”课程项目和“外语非通用语种课程与专业建设”计划，为“一带一路”沿线重点国家的语言设立课程与专业。

译联网环境下，语言数据人才培养应该关注版权问题，提升语言数据人才的版权意识。一方面需要理解版权的主要风险，审视在数据库建设、翻译、跨国合作、委托代理、平台服务中存在的版权问题；另一方面需要厘清语言数据版权资产，既要保护他人的版权，也要注重维护自己的版权，并且在实际的业务中注重维护公众利益，探索版权方面的最大公益空间。

云环境下的“一带一路”语言数据版权风险*

1 云环境下“一带一路”语言数据急剧增长

1.1 译联网的兴起促进语言数据暴增

1.2“一带一路”战略对语言数据提出需求

2 云环境下“一带一路”语言数据版权客体范畴

2.1 语言数据主要特征

2.2 语言数据的版权法律关系

3 云环境下“一带一路”语言数据版权风险类别

3.1 语言数据库版权问题及其风险

3.2 机器翻译中的版权问题及其风险

3.3 跨国翻译服务中的版权问题及其风险

3.4 委托代理中的版权问题及其风险

3.5 平台服务中的版权问题及其风险

4 云环境下“一带一路”语言数据版权风险化解对策

4.1 语言数据版权资产清理与分级分类保护

4.2 语言数据服务中的版权公益空间探索

4.3 语言数据应用中的版权条约适用

4.4 语言数据人才培养与版权意识提升