赵 力(天津科技大学法政学院 天津 300457)
·新理念、新思潮、新视野论坛·
《数字时代知识发现海牙宣言》之借鉴
——以内容挖掘为核心
赵 力
(天津科技大学法政学院 天津 300457)
〔摘 要〕所谓内容挖掘,指从机器可读的材料中得到信息的过程。《数字时代知识发现海牙宣言》指出,著作权法成为限制内容挖掘的障碍之一,限制了数据、思想的自由流通,有违知识产权法的宗旨,亟需变革。根据现行著作权法之规定,内容挖掘下的作品复制和使用行为存在构成侵权的风险。欧美司法实践中,关于内容挖掘下的作品复制和使用行为是否符合著作权合理使用问题,存在相互冲突的裁决。我国第三次著作权法修改应当借鉴海牙宣言之原则,因应大数据时代的内容挖掘技术。
〔关键词〕海牙宣言 内容挖掘 例外
《数字时代知识发现海牙宣言》由欧洲图书涫研究协会(LIBER)发起,2015年5月6日于布鲁塞尔正式发布。目前,已经有50多个国际组织签署。国际图联是《数字时代知识发现海牙宣言》的初始签约国际组织之一。《数字时代知识发现海牙宣言》提出,大数据时代,知识产权法特别是著作权法成为限制内容挖掘的障碍之一,从而限制了数据、思想的自由流通,有违知识产权法的宗旨,亟需变革。
1.1 内容挖掘技术概述
新技术使得人类认识世界和自身的方式发生变革。随着计算机处理能力增长、网络迅速发展、政府信息公开,高新技术不仅是应对大数据时代的方式,同样是数据时代知识发现的关键,内容挖掘技术即是其中之一。根据国际图联的定义,所谓内容挖掘(content mining),是指从机器可读的材料中得到信息的过程。内容挖掘的流程为复制大量材料,精炼数据,并重新组合数据以预测新的发展趋势。内容挖掘的核心在于对文本的自动程序进行分析,以获得新知识。
内容挖掘能够增进对于未发现的公共知识的可及性,并且能够对于经济、社会、文化生活提供重要的预见。内容挖掘的优点包括但不限于以下方面:①阐释包括气候变化和全球流行病在内的重大变化;②促进公众健康、财富和发展;③创造岗位和促进就业;④通过创建更高的研究效率,极大促进科学发展的速度和进程;⑤提高政府及其行为的透明度;⑥促进创新与合作,并增进开放科学的影响;⑦提供新的和更丰富的文化见解。
1.2 内容挖掘技术的困境
根据现行著作权法之规定,内容挖掘下,作品的复制和使用行为存在构成侵权的风险。欧美司法实践中,关于内容挖掘下的作品复制和使用行为是否符合著作权合理使用问题,存在相互冲突的裁决。尽管Google图书案和解协议中,允许内容挖掘下的 “非展示使用”(nondisplay use)和“非消费使用”(non-consumptive research),欧盟国家的Google图书案亦多为判决Google公司构成著作权侵权行为。在Infopaq I、II案中,应丹麦最高法院之请求,欧洲法院于2009、2012年分别作出咨询意见。
国际图联认为,研究者应当享有分析和获取知识的自由而无受到监控与制裁之虞,上述自由不应当在数字环境下削弱。但是,目前许多国家的法律框架特别是知识产权法并不支持新方式进行的研究,限制了内容挖掘的进行。
2.1 内容挖掘下的非展示与非消费使用
在Google图书案中,自动文本分析与著作权发生关联。Google图书和解协议中,对于内容挖掘下的 “非展示使用”和“非消费使用”进行定义。所谓“非展示使用”,是指不对数字化图书中的表达向公众展示的使用。非展示使用主要包括不对公众展示的书目提要,不展示表达的全文索引,书籍章节中的关键术语索引等。Google图书和解协议中,Google公司被允许对于作品进行不经赔偿的非展示使用。所谓“非消费使用”,是指由电脑对一本或者更多作品进行分析的研究,但该研究中并无研究者阅读或者展示书籍内容以理解书籍中所呈现的知识内容。非消费使用主要包括文本、语言和图像分析、文本或者信息精炼分析、自动翻译、检索和研究等。在Perfect 10, Inc. v. Amazon, Inc.案[1]中,法院认为在检索引擎上使用缩略图应当属于著作权合理使用之范畴。
欧盟司法实践中,对于涉及内容挖掘的使用是否属于著作权合理使用存在不同观点。在法国,Google图书馆服务被认为在部分来源于法国的作品使用方面,违反法国著作权法。争议焦点在于,Google公司数字化作品,未经作者事先同意,制作作品摘要并使得该内容经检索可获得,是否侵犯著作权。作品在美国复制扫描,内容使得包括法国在内的全世界使用者可获得。Google公司在抗辩中认为,案件根据伯尔尼公约5(2)款,应当适用美国著作权法上的合理使用规则。法国法院驳回上述抗辩,并认为适用法应当为互联网侵权行为发生地,即主张侵权行为发生地的法律。原告为设立于法国的公司,法国与该诉讼有最密切联系;案件涉及法国作者的作品和法国出版社;数字化作品目标阅读者亦在法国。因此应当适用法国的法律。Google 公司复制全部作品,随机选择提炼摘要的行为,严重影响作为整体的作者人身权利,与合理使用规则不符,不属于合理使用的范畴。在德国,德国汉堡地区法院认为,网络搜索引擎展示微缩图片不得适用德国著作权法关于著作权例外的规定,构成著作权侵权。在英国,英国法院认为,Google图书馆案被判决不得使用著作权法公平使用之规则,构成著作权侵权。[2]
2.2 内容挖掘下的复制
大数据环境下的文本挖掘存在商业和研究两方面应用,有着广泛发展前景的自动文本挖掘与著作权法之间存在冲突之困境。以欧洲法院Infopaq咨询案所涉的内容挖掘服务为例,内容挖掘程序包括5个步骤。第一,Infopaq公司在数据库中人工对于相关出版物进行登记。第二,拆散出版物的书脊,出版物变成活页并开始扫描。扫描过程使得出版物每页生成TIFF文档。扫描完成之后,TIFF文档被传送至OCR(光学文字识别)机器。第三,OCR机器将TIFF文档转换为二进制数据,并能够被文本挖掘软件所识别。第四,对文本进行关键词检索,每次确定关键词,在每篇文档中关键词所包含的比率按照0至100排列。为了更加方便地检索文献, 最终文档被删除。第五,在文本挖掘结束时,涉及检索关键词的页数被打印于封面。
文本挖掘的复制行为、精炼信息与传统著作权法上的复制概念存在冲突。一方面,自动程序要求对于全部作品不断的复制,上述行为表面上看来构成著作权侵权行为。另一方面,自动文本挖掘中,复制行为的目的,在于从文本中精炼信息。精炼信息行为与著作权法上的侵权复制并非一致。当科学研究方法论的发展,要求自动的知识发现工具,该工具建立在无拘束的接触和重复复制基础之上。[3]因此,《数字时代知识发现海牙宣言》提倡的以内容挖掘为核心,对知识产权法特别是著作权法的合理使用例外制度进行补充和完善,在大数据时代内容挖掘技术广泛应用的背景之下,具有重要的理论与实践价值。
《数字时代知识发现海牙宣言》提出五项原则,即知识产权法与促进研究相一致原则、分析与获取知识无监控和制裁之虞原则、合同许可条款不得限制个人使用、技术发展原则、知识产权法不限制基于数据和思想的创新和商业研究原则,其中三项原则与内容挖掘密切相关。
3.1 知识产权法与促进研究相一致原则
《数字时代知识发现海牙宣言》指出,信息与思想的自由流动是一项重要的人权,是人类知识产生的催化剂,促进社会福利与实现繁荣富足。对于纯粹的事实、思想、数据不予保护是知识产权法的重要原则之一。然而,知识产权法在某种程度上已经成为大数据时代限制知识创新与共享的障碍之一。
知识产权法的宗旨并非限制事实、思想、数据,而是以促进研究活动为宗旨。知识产权的客体知识产品具有非竞争性和非排他性,具有公共物品属性。如果对于属于公共物品的知识产品,不进行明晰产权,将有可能导致搭顺风车,即所有人都愿意利用公共物品的正外部性特点,无人愿意投入时间、精力和资本进行创新。需要通过规定知识产权的方式,鼓励和促进知识产品创造者的时间、精力和资本投入。另一方面,鉴于知识产品是一种特殊的公共产品,应当保留合理的正外部性,促进社会的发展与进步。法律规定知识产权实现定纷止争的目的,同时应当规定特定情形下的知识产权合理使用制度,发挥知识产权的公益性价值。如前文所述,在大数据环境下的内容挖掘技术与著作权法保护的复制权发生冲突的情形下,有必要重新界定法律边界,通过明晰规定内容挖掘例外的方式,保障公共利益。
3.2 合同许可条款不得限制个人使用
许可协议、合同条款不得规制和限制个人如何分析和使用事实、数据和思想,否则将导致对于创新和知识更新的损害。随着网络时代的发展,面对数以千计的网络用户,基于便利与经济原则,大多数网络公司选择与消费者订立格式合同。为了最大限度地提高效益和保护自身权益,拆封合同和点击合同被广泛采用。所谓拆封合同,是指在销售电子产品特别是软件产品时,使用印刷在封装的软件包装上或者隐藏于包装内的格式合同。打开包装即意味着消费者同意该条款并受该条款的约束。点击合同是指在互联网公司注册免费或者收费的例如电子邮箱的服务之时,以消费者同意接收格式合同为提供服务的前提。在以拆封合同、点击合同为代表的网络合同许可条款对于个人使用的限制之下,大数据时代的内容挖掘受到一定的限制。
与此同时,以授权协议为基础的数字版权管理措施,对内容挖掘亦造成一定程度的限制。数字版权管理的技术控制,体现于对作品的接触控制和使用控制两个方面。只有授权的人,才能接触作品,加密技术使得公众对作品的获得变得几乎不可能。数字版权管理将用户的合理使用建立在获得许可方或者第三方的许可基础之上。我国《信息网络传播权条例》仅对于课堂教学研究、执行公务、向盲人提供网络作品、网络安全测试四种目的允许实施技术措施规避行为。有学者主张,数字版权管理与著作权合理使用制度存在冲突,有必要通过立法规制与司法实践加以协调。[4]在大数据时代,数字版权管理使得基于内容挖掘的非展示使用、非消费使用、复制等行为难以进行,限制和阻碍了在生命安全、公共健康、节能环保、教育等方面的研发和创新。
3.3 不限制基于事实、数据和思想的创新和商业研究
事实、数据和思想并非著作权法保护的对象。例如我国著作权法第五条规定,对于时事新闻、通用数表、通用表格,不给予著作权法保护。然而,在内容挖掘技术之下,鉴于存在对于海量材料的扫描、使用、复制行为,大数据资料的获得与作者的著作权存在潜在冲突的可能性。限制通过内容挖掘技术获得的事实、数据、思想的使用将在全球范围内对于创新和经济增长有重大影响,同样可能减少在健康、科技、就业、研究、环境和文化领域的工具和方法的使用。对于由合法获得的内容材料中精炼出事实、数据和思想的使用和复制行为,应当属于著作权法例外的范畴。
4.1 内容挖掘之价值
4.1.1 技术价值
内容挖掘越来越多地通过自动化系统进行。特别是由科学研究而产生的数据库,因为其庞大性无法由人肉眼浏览。数据库的数量和规模都在不断发展。数据的增长,对人们研究大型数据集的方式造成影响,为适应数据集发展的影响,计算机技术越来越多地应用于被称之为“数据库中的知识发现”(knowledge discovery in databases),以回溯和分析数据。数据库中的知识发现涉及由数据中获得有用的知识,而内容挖掘为适用特殊算法已由数据精炼模型。人工智能机构从拥有大量数据,过渡到发现之前所未发现的重要信息。而且,在大型挖掘运行中,实现了从占有大量原始数据的转移,为发现更为有价值的信息。尽管上述领域非常前沿,但是日益增长的电子计算机计算能力,使得对于大型数据库的分析不仅可能,而且实用。
4.1.2 应用价值
内容挖掘可能涉及公共健康风险评估、预警与决策,重大灾害预警与防范,食品安全监管与控制等领域。文本挖掘包括一系列应用于大量文本的自然语言过程技术(natural language processing techniques),在生物或者制药领域有着广泛的应用。文本挖掘应用于大量科技文献,只要在有足够多的文本的前提之下,能够提供迅速探究具体事实而非抽象信息的方法。例如,对于在大量文献中同时出现的描述基因、药品和疾病概念的内容挖掘,能够发现上述概念之间全新的联系,并且在生物有效方面具有很高的可能性,以自动产生和排列出科学家能够在实验室中检测的假说。
4.2 内容挖掘例外缺失之不足
4.2.1 涉内容挖掘判例缺乏稳定性与可预期性
Google图书和解协议中,包括对于作品的 “非展示使用”和“非消费使用”。然而美国司法实践中亦存在对于”非展示”复制行为相互矛盾的判决。Google图书案在欧盟国家,例如法国、德国、英国法院,其复制与使用行为均被判决不符合著作权合理使用之范畴。对于涉及内容挖掘的Infopaq公司案,应丹麦最高法院两次请求,欧洲法院作出了两个结果不同的咨询意见。综上所述,对于内容挖掘之下复制行为与著作权法之冲突,司法裁决具有不确定性与不可预期性。
4.2.2 内容挖掘例外缺失,影响技术发展
“数据库中的知识发现”涉及由数据中获得有用的知识,而内容挖掘为适用特殊算法已由数据精炼模型。人工智能机构从拥有大量数据,过渡到发现之前所未发现的重要信息。而且,在大型内容挖掘运行中,实现了从占有大量原始数据的转移,为发现更有价值的信息。尽管上述领域非常前沿,但是日益增长的电子计算机计算能力,使得对于大型数据库的分析不仅可能,而且实用。当著作权法允许著作权人以其著作权阻碍具有重要意义的新技术发展,创新可能受到阻碍,发展可能受到损害。
法律可能限制技术的发展 ,例如,目前内容挖掘技术的使用可能涉及著作权所禁止的复制行为,但是,上述冲突的原因,在于著作权法滞后于技术的发展,在著作权法关于禁止复制规定确立之初,技术的发展无法预见。 英国报告中指出,应当将著作权与科技发展相协调,允许使用目前著作权法所禁止的内容挖掘技术。[5]
4.2.3 内容挖掘例外缺失,影响公共利益
内容挖掘,是指由大型数据库中精炼数据,发现之前未知、或者具有潜在价值的信息。内容挖掘可能涉及,结合关于水污染的期刊数据库,并获得医院的准许,研究关于受污染影响的疾病发生问题。内容挖掘同样有着广泛的商业应用。例如,信用卡公司可能发现特定航班的机票购买与特定汽车之间的联系,并制定包括合适促销手段的市场计划。[6]例如,研究已经使用内容挖掘技术,通过分析社交媒介,探究社会情绪、公众观点等。亦有研究通过使用社交媒介,调研健康和疾病的发生。
Jerome Reichman和Ruth Okediji指出,在当今科研环境下使用数字资源,存在私人权利和公共产品之间的矛盾。政策制定者发现将上游数据和信息资源视为公共产品,广泛共享,以期产生更多的下游商业应用,提高公共福利。与之相反,知识产权法禁止对于科学数据和文献的接触权。而科学研究方法论发展要求自动的知识发现工具,而该工具建立在无拘束的接触和重复复制基础之上。[7]
英国学者Ian Hargreaves在独立报告——《数字机遇:知识产权与发展之反思》中提出,鉴于数据挖掘具有较高的技术发展潜力和较强的实用价值,目前英国著作权法限制与例外已经不能满足技术发展的需要。[8]英国著作权法2014年6月的修订过程中,增加了涉及数据挖掘著作权例外。英国著作权法数据挖掘复制例外制度,其概念为,对于有权接触作品的主体,非商业研究的数据挖掘之复制行为,不构成著作权侵权。英国著作权法修改,在原有条文基础上增加29A款,即数据挖掘复制例外,对于数据挖掘复制例外的主体要件、目的要件、形式要件做出了规范。同时,鉴于转让行为、非单一商业性使用行为、交易行为等可能威胁数据挖掘复制非商业性目的之例外情形做出规定,上述三种行为仍然构成著作权侵权行为。英国著作权法将著作权挖掘例外制度存在对象仅限于数据挖掘例外、未规定合同条款及数字版权管理等不得限制挖掘例外的问题,与《数字时代知识发现海牙宣言》相比,存在一定的滞后性。但是,鉴于《数字时代知识发现海牙宣言》为较为原则的框架性规定,研究英国数据挖掘例外仍对于中国完善大数据时代的著作权法有所裨益。
5.1 构建内容挖掘复制例外
日益增长的电子计算机计算能力,使得人工智能机构从拥有大量数据,过渡到发现之前所未发现的重要信息,内容挖掘将在重大疾病的预防和治疗、重大灾害的预报等关乎国计民生的关键领域发挥着日益重要的作用。我国著作权法第三次修改草案重新定义了复制权,即以印刷、复印、录制、翻拍以及数字化等任何方式将作品制作一份或者多份的权利。然而,“数字化”这一内涵模糊的术语,将使得我国著作权法面对内容挖掘这一技术挑战,显现出滞后性的特征。因此,我国有必要借鉴英国著作权法内容挖掘复制例外制度,规定对于有权接触作品的主体,进行的非商业研究的内容挖掘之复制行为,不构成著作权侵权。
在内容挖掘复制例外的主体要件,为对于作品有合法接触权之主体。接触权这一概念源自美国数字千年法案(Digital Millennium Copyright Act, DMCA)。该法案明确区分对于控制接触技术的规避和对于权利保护技术的规避。接触控制并非受到著作权的排他性保护,而作品本身受到著作权的保护。
内容挖掘复制例外应当包含对于作品有接触权者复制,其复制之目的在于,对于作品中记录的内容进行计算机分析。其内涵应当能够包括内容挖掘的核心内容,即寻找数据中的重要元素、精炼数据、发现数据规律和重要信息等。其次,内容挖掘复制例外对于复制的手段加以限制,即仅限于依靠计算机的分析,避免在非大数据处理的传统语境中,内容挖掘复制例外可能对于著作权人产生的权利限制。内容挖掘复制例外之目的要件,应当同时满足为分析数据和内容、单一非商业性目的两个条件。所谓分析数据和内容,是指对于作品有接触权者复制,其复制之目的在于,对于作品中记录的内容进行计算机分析,且仅限于依靠计算机的分析,避免在非大数据处理的传统语境中,内容挖掘复制例外可能对于著作权人产生的权利限制。所谓单一非商业性目的,是指不构成侵权的复制,其目的应为单一非商业性目的。
5.2 合同许可条款不得限制内容挖掘
许可协议、合同条款不得规制和限制个人如何分析和使用事实、数据和思想,否则将导致对于创新和知识更新的损害。在以拆封合同、点击合同为代表的网络合同许可条款对于个人使用的限制之下,大数据时代的内容挖掘受到一定的限制。应当规定大数据时代的内容挖掘例外条款,不应受合同条款之制约;限制内容挖掘的合同条款,应为无效条款。
以授权协议为基础的数字版权管理措施,不应对内容挖掘亦造成一定程度的限制。我国《信息网络传播权条例》仅对于课堂教学研究、执行公务、向盲人提供网络作品、网络安全测试四种目的允许实施技术措施规避行为。应当规定在内容挖掘之下,对于数字版权管理措施之规避,以利于大数据之下非展示使用、非消费使用、复制等行为的进行,促进生命安全、公共健康、节能环保、教育等方面的研发和创新。
5.3 构建内容挖掘复制例外之限制
鉴于数据挖据成果的价值潜在性,对于内容挖掘复制例外,亦有必要加以严格的限制。对于存在转让行为、超越目的行为、交易行为的情形,内容挖掘复制仍构成著作权侵权。所谓转让行为,是指复制件被转让给其他任何主体,除非上述转让由著作权人授权。所谓交易行为,包括合法内容挖掘复制之后的出售、出租,许诺出售、出租,或者为出售、出租而披露三种行为。对于合法内容挖掘复制行为之后的上述三种交易行为,该复制件被认为是基于上述目的之侵权复制件。其次,交易行为具有阻却合法复制行为之效力。若合法复制之后的出售、出租,许诺出售、出租,或者为出售、出租而披露行为侵犯著作权,复制件在上述行为之后的所有目的均被认为是侵权。
5.4 构建充分承认制度
内容挖掘复制例外,同时应当满足充分承认的形式要件,以保护著作权人的权利。所谓承认的充分性,是指有合法接触权的主体,对于内容挖掘复制行为之承认,应当包括内容挖掘之目的,内容挖掘复制行为发生和结束之时间、地点,内容挖掘复制行为之客体等。充分承认应当以书面形式进行,其中,能够以电子数据方式再现的,视为书面形式。充分承认制度包含例外情形,即在特殊情形下如涉及国家安全、公共安全、紧急状态等,可以不作出书面承认,但应当以书面形式明确记载该承认不能之原因。
(来稿时间:2015年6月)
参考文献:
1. Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146 (9th Cir. 2007).
2. Eleonora Rosati, Copyright: Google Books’ Library Project is fair use.Journal of Intellectual Property Law & Practice, 2014,9 (2):104-106
3. Jerome H. Reichman and Ruth Okediji, When Copyright Law and Science Collide: Empowering Digitally Integrated Research Methods on a Global Scale.Minnesota Law Review, 2012, 96:1362
4. 袁真富. 论数字版权管理的滥用及其限制——兼评微软“黑屏”事件. 电子知识产权,2008 (12):32-35
5, 8. Ian Hargreaves, Digital Opportunity: A Review of Intellectual Property and Growth,2011:4
6. 曲佳彬.大数据环境下高校图书馆服务转型探析.图书馆学刊,2014(6):65-68
7. Jerome H. Reichman and Ruth Okediji, When Copyright Law and Science Collide: Empowering Digitally Integrated Research Methods on a Global Scale.Minnesota Law Review,2012, 96:1362
〔分类号〕G250
〔作者简介〕赵力(1984-),女,法学博士,天津科技大学法政学院讲师,研究方向:国际经济法、国际知识产权法。
The Hague Declaration on Knowledge Discovery in the Digital Age and Its Reference
Zhao Li
( Tianjin University of Science and Technology )
〔Abstract 〕Content mining is the process of deriving information from machine-readable material. The Hague Declaration on Knowledge Discovery in the Digital Age points out that the copyright law has become a barrier to the content mining and constricts the access to data and ideas. Under the content mining technology, the copy and use of works will have the potential risks of infringing copyright. There are conflicting judgments in the cases in the U.S. and EU. The principles of the Hague Declaration should be referred to in the third modification of Chinese copyright in order to adapt to the content mining technology in the big data era.
〔Keyw ords 〕The Hague Declaration Content mining Exceptions