关键词 人工智能 大数据 合理使用
作者简介:杨小桐,北京外国语大学法学院在读博士,研究方向:国际区域法律治理。
中图分类号:D99 文献标识码:A DOI:10.19387/j.cnki.1009-0592.2020.04.237
技术的巨大进步得益于对大数据流的再利用和处理,在大数据时代,寻求海量在线数据中的定位已经成为一项极其复杂而又至关重要的任务。人工智能和数据利用结合的最优体现即是文本和数据挖掘技术的应用。然而之前欧盟版权制度对文本和数据挖掘行为所造成的侵权行为规制过于严厉,同时对作品的跨境获取予以限制。这样的方式既不经济也不现实,甚至还会阻碍该项技术和相关产业的发展。本文从文本和数据挖掘技术概念出发,以技术本身操作过程中对大量受著作权法保护客体的复制、利用行为产生的问题为切入点,探究欧盟在面对技术应用过程中的立法回应,以此分析我国在面对新一轮技术革命引发的市场竞争中应建立的制度保障。
数据和本文挖掘技术(text and data mining,以下简称TDM)是一种通过自动化软件工具从大量的数字数据中收集信息的研究技术。其具体是指机器从阅读材料中获取信息的过程,工作原理包含复制大量的材料,提取数据,然后重新组合供给识别等流程。欧盟在2019年3月正式通过欧盟《数字化单一市场版权指令》(以下简称《版权指令》)TDM例外条款,目的在于使受保护的作品跨境获取更为便利,以此促进学术研究顺利进行,达到激励创新的目的,以此释放文本和数据挖掘潜力。
《版权指令》第3条中将数据和文本挖掘定义为任何旨在分析数字形式的文本和数据的自动分析技术,以便生成包括但不限于模型、趋势、相关性等在内的信息。TDM过程分为四个阶段。首先,确定潜在的相关文档;其次,将文档转换成机器可读形式,以提取数据;再次,提取有用的信息;最后,挖掘以发现新知识、测试假设和识别新关系。它包括通过复制大量的材料来提取数据,并重新组合以最终输出新的模式。因此,其概念所指过程必然涉及与利用知识产权法特别是著作权法所保护客体的权利相冲突的问题。
TDM过程分为四个阶段。首先,确定潜在的相关文档;其次,将文档转换成机器可读形式,以提取数据;再次,提取有用的信息;最后,挖掘以发现新知识、测试假设和识别新关系。它包括通过复制大量的材料来提取数据,并重新组合以最终输出新的模式。因此,其概念所指过程必然涉及与利用知识产权法特别是著作权法所保护客体的权利相冲突的问题。
数据挖掘问题的实质是代表科技进步的公共利益与旧著作权法保护下著作权人的私人利益之间的冲突。TDM的四个过程主要涉及对著作权人复制权的侵犯。文本和数据挖掘如果仅针对不受版权保护的事实或数据则无需授权。但是TDM复制受保护作品的行为势必造成侵权,即如果将材料标准化成机器可读格式的预处理就可能侵犯复制权。根据所依据的挖掘软件和提取技术特征,挖掘行为(即TDM过程中提取数据的阶段)也可能侵犯复制权。如有些提取技术可以将作品的某些部分以最小程度的范围进行复制,从而低于侵犯版权的阈值而避免侵权,如果高于其界值则必然构成对复制权的侵犯。
(一)美国
与欧盟法律实践相比,美国的版权制度被认为更有利于TD M运用,根据美国版权法转换性使用含义,界定合理使用需要考虑的是作品的使用是否增加了原作的价值,即如果引用的材料被用作新材料,在创造新信息、新见解和理解过程中发生了转变。
美国通过谷歌图书馆案①真正实现TDM合法化,在谷歌图书馆案长期诉讼中,法院认为搜索引擎使新的研究形式成为可能,通过使用谷歌项目语料库向互联网用户提供单词和短语使用频率的统计信息被认为是达到了转换性使用的高度,以此为数据和文本挖掘技术打开了新生之门,也为美国开始商业性的数据挖掘和信息获取开辟了全新发展道路。
(二)英国
如果考虑欧洲对TDM的监管,英国应该是第一个引入特定版权保护的国家,英国允许文本和数据分析用于非商业研究。但是,英国对TDM监管所采模式为“附条件”例外类型,即这样的保护仅仅适用于为非商业性研究目的而对作品中记录的任何内容复制后进行计算分析的行为,同时任何可以获得豁免的主体在访问作品时必须是通过合法渠道。所获得豁免情况的受益者只要是用来复制文本和数据分析研究的工作,且是有关人员可以合法查阅的工作都不应受到任何限制。文本和数据分析中涉及的复制是技术流程的必要组成部分,因此允许挖掘进行研究不太可能对版权作品的市场或价值产生负面影响。
(一)欧盟《版权指令》对数据和文本挖掘例外规定
最新通过的欧盟《版权指令》第3条款创设了有条件的文本和数据挖掘制度,为科学研究目的,成员国应当在立法中明确允许研究机构为开展文本与数据挖掘工作所需的各种复制及数据提取活动。同时规定该类主体仅限于非商业性,具有公益性的研究机构,其获取内容的方式必须是合法的。
(二)学理分析及评价
数据和文本挖掘的限制在欧洲学界已经进行了充分的讨论。《版权指令》为跨境使用相关内容用于特定目的(如研究、教育、文本和数据挖掘等)提供更具体的规范可预期性。
1.合理性
《版权指令》第3条的引入符合欧盟利用数据发展的重要政策目标。特别是它将为欧洲各地的研究人员提供一个标准化的发挥领域,使他们能够合法地开展TDM项目。该提案的主要积极影响在于,通过强制性解决方案协调成员国法律,特别是各成员国迄今所采用的现有TDM例外情况的不一致性表明如果不采取欧盟范围内的立法,法律制度将极大地影响技术进步。②能否自由地在各国层面实施TDM例外规定将会影响适用TDM例外的自愿性,也会进一步影响跨境合作,甚至会面临更高昂的跨境交易成本,因此采用指令的方式强制性地要求各国将其转化为国内法以确定TDM在参与研究合作的所有欧盟成员国都具有合法性提供了明确的标准和依据。
2.制度不足
(1)范围的有限性。关于这项提议的诸多讨论都是TDM例外的豁免者是否不应仅限于研究机构。事实上,将未经授权的个人和按照与符合资格的研究组织中的个人排除政策选择之外,是否在充分性方面论证存在不足,即个人在利用文本和数据技术进行深度搜索、复制和提取信息时,是否符合个人在对作品进行合理使用的获取手段。如果从行为产生的结果看,只要用于个人学习而使用作品的行为都符合合理使用,但是其实质上忽略了获取作品行为的违法性评价,在看待除研究机构以外的个人是否能够利用TDM技术获取资源时需要经过法律评价和确认,该种行为是否正当应该从其行为的外部性方面予以考量。
(2)内容的有限性。将TDM例外限制在“科学研究”范围内可能会降低欧盟版权改革整体效率,并造成实际的复杂性。这种方法可能会引起一些微妙的问题,即新的限制在享有合法数据库访问权的研究机构中的适用性问题。例如,如果公立大学根据“教育目的”合法访问数据库,它是否需要为“科学研究”目的支付额外的许可费?然而,研究机构可能会发现诸多法律不确定性,即由于可能产生的潜在法律风险以及运行TDM研究项目前应考虑的相关交易成本从而限制TDM研究的进行。由于这种例外情况已经局限于研究机构,因此对合法访问的数据库的特定用途取消限制可能会避免不必要的麻烦。
(3)与技术保护措施并存。为保护网络和数据库的安全性和完整性而采取的措施可能会允许版权人阻止试图进行TDM的研究人员的访问。但是,《版权指令》序言12条指出,这些措施不应超过为实现确保系统安全和完整的目标所必须采取的措施,也不应破坏例外情况的有效适用。③值得注意的是,技术保护措施可能完全限制或阻止为不受作者权利限制的目的而存取作品的行为。此外,各国对保障适用例外情况的措施执行不一致,以及对反规避规定的技术保护措施的限制亦有不同,因此可能会实质性地限制新强制性例外情况的协调功能,从而限制《版权指令》实际效果。
目前TDM例外的规定依然存在诸多问题值得思考,特别是对TDM例外的具体改进措施。例如,例外的范围是否应该扩大:(1)TDM例外不应该局限于研究机构,而应该扩展到所有那些享受合法访问潜在的挖掘内容的主体,特别是初创企业和独立研究人员。(2)对于某些主体(非研究机构或个别研究人员、记者等以外的其他主体)进行的商业用途的TDM,假如造成损害可以根据有关数据加以证明的话,可以考虑要求其支付相应的赔偿金。(3)鉴于研究越来越注重质量和可被验证性,TDM例外应该包括能够存储和通信为TDM创建的研究成果。
在我国现行法律体系下,科研机构文本与数据挖掘是需要经过合同的方式进行授权才属于著作权法上的合法行为。我国在借鉴欧美等国家和地区的相关立法时,首先应该充分考量市场因素,以人工智能发展前景和市场竞争需求为主要考察对象,在市场大量运用TDM技术以获取信息促进人工智能产业迅速发展时,我国应该放开对TDM技术以获取相关作品的禁止性规定,允许TDM技术在数据挖掘数字化材料处理方面的应用,将其合理使用化,但是对这样的合理使用需要进行一定条件的限制,例如限定特定的主体,此类主体不应如欧盟《版权指令》中仅限于研究机构,可以放宽至相关互联网新型企业,或初创企业,或致力于研究的公民个人;对目的限制方面,可以由科学研究领域扩展至为公众提供一定程度的材料的获取,公众在大部分程度上可以免费获取无需支付费用,其实质是美国TDM合理使用化标准+一定程度付费标准;在技术措施层面,应该明确这些措施不应超过为实现确保系统安全和完整的目标所必须采取的措施,也即不能通过为实现安全完整目标来阻碍TDM技术的有效实施。
人工智能在未来几年很可能成为最具颠覆性的技术,同时它确实带来了一系列棘手的法律挑战,特别是得益于互联网和大数据流的机器学习技术正以难以想象的速度发展。文本和数据挖掘技术通过复制或抓取大量的数据,赋予人工智能自主决策和创造力,使机器学习成为可能。
一段时间以来,欧盟一直在争论文本和数据挖掘技术是否应该考虑在版权和其他特殊权利的范围内使用,或者是否应该豁免这些主体。允许TDM的强制例外是对信息技术发展的制度回应。然而,它的范围不应过于狭窄,否则依然会抑制来自不同主体的创新。我国在面对TDM 技术发展的过程中,应该以市场为导向,以促进发展激励创新,赢得市场为主要目标,法律在对技术进行保障的过程中可以选择有条件的例外,但现阶段条件不宜过细,亦或可以选择合理使用模式,鼓励研究机构与相关出版机构、作者进行合作,在接触并使用作品的同时能够保障作者的获酬权,充分吸收借鉴融合美英国家和地区的立法选择,以此促进我国机器学习和文本数据挖掘技术领域的发展。
注釋:
①Authors Guild v Google, Inc, No. 13-4829 (2d Cir. 2015), affirming Authors Guild v Google, Inc, 954 F.Supp.2d 282 (2013).
②See, for example, Copyright, Designs and Patents Act 1988, ?29A (United Kingdom); Art. 38 of the Law No. 2016-1231 for a Digital Republic added paragraph 10 to Art. L122-5 and paragraph 5 to Art. L342-3 of the Intellectual Property Code (Code de la propri閠?intellectuelle) (France); Estonian Copyright Act, Art. 19(3); and German Copyright Act, Art. 60d. See also Copyright Act, Sec. 5, Art. 47-7 (Japan).
③European Commission, Proposal for a Directive of the European Parliament and of the Council on Copyright in the Digital Single Market, COM(2016)593 final, 2016/0280, 14 September 2016, Recital 12.
参考文献:
[1]Jiawei Han, Micheline Kamber, Jian Pei.数据挖掘:概念与技术(第3版)[M].范明,孟小峰,译.北京:机械工程出版社,2012:7.
[2]UK Government. Supporting Document T Text Mining and Data Analytics in Call for EvidenceResponses[EB/OL].(2014-06-03)[2019-6-20].https://webarchive.nationalarchives.gov. uk/20140603125140/http://www.ipo.gov.uk/ipreview-doc-t.pdf.
[3]Diane McDonald,Ursula Kelly.The Value and Beneft of Text Mining to UK Further and Higher Education: Digital Infrastructure[M]. London: JISC,2012:26.
[4]許梦娇.科学研究目的数据挖掘所用作品的合理使用[D].浙江:浙江大学,2018:11.
[5]唐思慧.大数据环境下文本和数据挖掘的版权例外研究——以欧盟《DSM版权指令》提案为视角[J].知识产权,2017(10):111.
[6]周玲玲.欧盟文本与数据挖掘新策解析[J].图书馆建设,2017(7):20.
[7]Brigit Schmidt and Milena Dobreva. New Avenues for Electronic Publishing in the Age of Infnite Collections and Citizen Science: Scale, Openness and Trust[M]//Thomas Margoni,Giulia Dore.Why We Need a Text and Data Mining Exception. And Christian Handke, Lucie Guibault, Joan Josep Vallb椋甀s Europe Falling Behind in Data Mining? Copyrights Impact on Data Mining in Academic Research. Amsterdam:IOS Press, 2015:120-130.