朱真真
(中南财经政法大学知识产权研究中心,湖北 武汉 430070)
近年来,随着新技术革命的到来以及互联网的迅速发展,技术进步的同时带来了海量数据的快速传播。虽然这些数据本身是没有价值的,然而,通过数据重用技术,企业管理者能够从原始数据中获取价值,这种新现象通常被称为 “大数据”。许多学者认为,这一现象很快将引领科学和创新的新领域[1]。专家断言,大数据等新一代互联网技术深刻改变了世界,也让各国站在科技革命的同一起跑线上。
在大数据所引发的诸多挑战当中,与数据重用相关的问题是最迫在眉睫的问题之一。对多来源的全体数据进行高效的反复利用,是大数据的价值来源。但目前许多由数据推动的大数据实践没有充分的记录和公开,数据来源和谱系的非公开性阻碍了数据重用,从而阻碍了数据方法的创新应用[2]。问题的关键不仅仅在于数据本身是否被充分公开,还在于大数据从业者是否公开了其分析数据的方法。在许多情况下,关于如何最初收集和准备数据没有足够的信息。了解数据的来源,以及它们是如何由管理者组织和操作的,这对于下游的重复使用是至关重要的,这也是数据重用的本质,而公开不充分的问题会威胁到大数据自身的进一步发展。
虽然公开问题本质上不是知识产权法固有的问题,但它提出了一个知识产权法非常熟悉的关注点,即其主要目的是鼓励技术披露以加速创新。但是,现有的知识产权政策对于鼓励大数据公开没有什么意义。同时,各种法律和经济力量正在推动大数据朝着不公开的方向发展。作为传统上鼓励技术披露的法律体系,知识产权法如何与大数据的公开进行协调?对大数据这一宝贵资源进行更优化的配置,以使其更好地为经济发展和社会进步所用。
“大数据”这一术语指的是一种新的实证研究方法[3],该方法由特定的实践组成,伴随着从设备和服务增长记录的电子数据记录而发挥作用。如今,各行各业的专家们利用这种方法来提高医疗质量,培育更高产的农作物,改善交通拥堵状况,并预测全球金融交易的流向。可以预见,我们的生活方式将不可避免地被这种新技术所影响和改变[4]。
大数据与传统的实证研究方法最明显的一个不同特征在于:以大数据为基础的研究方法开始于从先验中自动的和不分先后地收集的记录。自科学研究方法诞生以来,研究人员通常先研究问题和进行假设,然后才收集实验性证据[5]。而大数据研究方法将从旧数据中提出新问题,作为这个过程的开始。这种新的经验主义的实现以互联网为基础的设备和服务的巨大发展为基础,使得电脑可以自动记录日益发展的人们日常生活信息。例如,互联网搜索历史,信用卡记录,医疗机构提供的临床和基因数据都是数据的重要来源。
尽管大数据方法引发了许多热议,诸如隐私问题[6],但不可否认的是,大数据具有促进创新的巨大潜力。 “大数据技术将带来巨大的益处,我们不应该选择放弃[7]。”换言之,大数据将激励重要的创新。正如早期的摄影技术一样,尽管是对个人隐私的一个巨大挑战,但它具有促进技术变革的巨大潜力。
尽管我们对大数据抱有热切的期望,大数据的重要意义也已经被无数行业实践所证明,但与此同时,仍然存在一个疑问:为什么大数据还没有带来学者所预测的重大创新?答案就在于数据重用的挑战。大部分描述大数据对于创新的潜力的观点都假定数据可以被进行有意义的重复利用和重组,以便检测出新问题的存在。也就是说, “如果要获得大数据所带来的利益,那么产生这些数据的研究人员就必须分享这些数据这样一来,数据就可以被其他人进行重复使用[7]。”换言之,数据将被非特定的人以非特定的方式用于非特定的时间。数据重用的潜力是大数据方法的核心价值来源。
有两个实质性障碍阻止数据的重复利用,第一个挑战纯粹是技术性的:由于数据经常以不同的格式记录和发布,所以研究人员要汇总来自多个不同来源的数据非常困难,但这个问题可以通过技术的发展而克服,一些国际标准制定组织已经在开发和鼓励使用标准数据格式来实现大数据的汇总。例如,美国国家标准与技术研究院(NIST)于2013年组建了一个关于大数据的工作小组,旨在开发一套通用的大数据定义,分类法和参考架构[8]。国际标准化组织和W3C组织了类似的小组,以探索标准格式的采用。相比之下,数据重用的第二个障碍则更具挑战性:数据往往充斥着收集和组织它的人的主观判断。正如学者所指出的那样, “处理大数据的过程是主观的,而且它所量化的东西与客观事实不一定一致” “在分析阶段存在的隐藏的偏见存在相当大的风险,并且与数据本身一样重要[9]。”这些通常的主观判断给数据重用带来了问题。
(1)数据筛选和分类。在一个庞大的数据库中查找有用的信息,从某种意义上说就是大海捞针。社交网络和在线论坛等大数据提供者使用的在线资源,通常涉及广泛的话题。此外,随着社交网络的兴起,广告商可以获得消费者有关品牌偏好、购物习惯甚至个人爱好的更多更详细的大量数据,但这些数据必须经过筛选和分类才能得到充分利用。然而,这一操作过程有高度的主观性。
在数据收集过程中,人的主观判断是非常重要的。例如,数据科学家可能会预测,最关心航空公司新航线的客户是那些居住在大城市并喜欢旅游的人。依靠这种预感,他们将创建一个符合这些标准的客户的选择。利用这些信息,航空公司可以将广告和促销优惠仅仅提供给最可能感兴趣的客户。也就是说,数据筛选通常依赖高度主观的判断。
(2)数据清理。大数据从业者使用的原始数据集通常包含错误,部分原因是由于数据庞大的规模:前所未有的数据量意味着前所未有的错误数量。另一个比较隐蔽的错误来源是自动化以及不分青红皂白的信息收集,这也是大数据方法的一个标志。更为隐蔽的是,当不同来源的无差错数据被合并时,一些数据错误就会出现。在实践中,识别和纠正这样的错误是美学和统计学的双重实践。
假设一个互联网公司希望收集访问者在其网站上停留的时间,当分析师从公司的网络服务器收集相关数据时,发现大多数访问者似乎停留在网站上2~5分钟。然而,有些是持续了好几天的访问,还有一些难以理解的结果,如乱码。面对这些异常的结果,分析人员可能会首先尝试找出错误的来源。例如,持续时间为 “0分钟”的访问记录是由自动软件代理生成的。访问持续了数天,可能是因为不使用计算机的用户未关闭其网页浏览器。在确定了这些错误的来源之后,分析师会针对不同的实际清理不同的数据。例如,如果她希望了解所有访问者如何与网站互动(包括不活跃的用户),分析人员可能会决定只删除0分钟的条目。如果分析人员的目标是要了解用户在网站上停留多长时间,然后再点击将其转到其他网站的链接,则可能还会删除超过10分钟的所有条目以排除不活跃的浏览者,最终经过清理的数据集将反映分析人员对错误来源和其具体目标的判断。这个例子说明,数据清理的过程也伴随着大量主观判断。
(3)数据掩饰。许多大数据制作者清除或掩盖包含在他们开始进行的原始数据中的个人识别信息,在一些行业,如医疗行业,这是强制性规定。例如,美国早在其1996年的 《健康保险流通与责任法案》 (HIPAA)就规定,除非名字、邮政编码、治疗日期和其他特定信息被删除,否则个人健康记录不能在机构之间共享。即使没有法律的强制性规定,市场力量也迫使一些大数据生产者隐去个人资料。正如数据选择和数据清理一样,数据掩饰是科学与艺术的混合体,其产物常常包含主观判断。
对数据进行匿名化的最简单方法是完全去除可用于识别个人的信息,如姓名、地址和电话号码。虽然这种方法往往能够有效确保匿名,但也很可能消除有用的信息。例如,完全去除个人识别信息便不可能进行纵向数据分析。
大数据实践(将原始数据转化为有用的数据集的方式)经常需要主观判断,由于这些判断通常是以特定的方式进行的,以响应最初收集给定数据集的独特环境,所以它们对于下游用户来说是个谜。概言之,大数据实践很容易被保密。大数据实践是非常主观的,很难通过反向工程破解。结果就是,大数据实践为自己增添了神秘色彩。此外,一系列不利于公开经济和法律的政策进一步将其推向保密。
为什么不依靠市场力量去鼓励类似的数据公开?如果一个数据生产者不断发布没有依据的数据,人们可能会认为该公司的声誉很差,消费者会转向更可靠的数据发布者,这种观点误解了形成大数据的商业环境。对商业公司来说,数据是一个副产品,而不是资源。搜索引擎、移动电话、健康设备、公共设施和其他大数据主要来源的发布者很少或根本没有动力去公布他们的数据收集和准备的方法,因为目前还没有这种抽象信息的商品化市场。大数据代表一个次要的,很大程度上是投机性的公共福利,它位于数据生产者和他们的客户之间的商业交易的下游。
除了没有任何经济激励措施来刺激他们进行公开以外,大数据生产者可能面临强烈的披露障碍。例如,隐私条款可能会阻碍收集和传输医疗记录的机构传达可用于识别患者的匿名信息。出于对竞争的担忧,企业很可能选择对数据准备方法进行保密。例如,机器设备制造商可能不希望其客户或竞争对手了解其设备产生的数据中的缺点或错误。最后,一些发布者可能将他们的数据准备方法视为能够为其提供竞争优势的有价值的商业秘密。
知识产权法的核心目标是通过鼓励技术公开来刺激创新。目前遇到的大数据公开及数据重用问题表明,知识产权法在重要的新兴技术领域并没有实现这一目标。另一方面,虽然大数据是新兴现象,但并没有 “新”到不能适合于现有的知识产权框架之内。事实上,长期以来知识产权中涉及的软件、算法和数据库的争论都与大数据直接相关。
以信息为基础的产品供应商可以选择通过商业秘密的方法来确保其流程和专有技术的独占性。 《反不正当竞争法》第10条第3款将商业秘密定义为:①有价值的 “信息”;②权利人采取了保密措施进行合理的保护。法律对信息的定义是非常广泛的,包括技术和非技术信息(方法、专有技术甚至思想)。重要的是,值得商业秘密保护的信息不一定是绝对秘密的,只要是合理努力防止公开的信息即可。商业秘密盗用救济可包括金钱损害赔偿和禁令救济,消费者不易理解的信息化流程特别适合于商业秘密保护。众所周知的谷歌PageRank算法以及大数据公司所使用的算法是两个典型的例子。源代码(软件开发者编写的指令和消费者无法查看的指令)通常也通过商业秘密来进行保护。帕梅拉·萨缪尔森曾指出,软件行业的商业秘密也可能延伸到 “实用性的工业技术,这种技术通常是试验和试错的结果[10]。”
20世纪90年代,商业秘密法是有关软件的学术争议的核心,因为它涉及大数据公开问题。当时学者认为,商业秘密法会减缓软件创新的步伐,因为它会阻止源代码及相关操作的公开。例如,罗伯特·G·博恩警告说,商业秘密会导致在不同公司工作的软件工程师进行无意义的重复努力。广泛的商业秘密会减少软件行业的累积创新率[11]。但软件方法有时可能会被进行反向工程,商业秘密不是软件行业的专有技术传播的绝对障碍,因为反向工程是法律所允许的,而且往往很容易在目标代码上执行。
像算法一样,许多大数据操作可能符合商业秘密法对 “信息”的广义定义。因为这种实践通常是通过软件实现的,所以大数据生产者也可以对协助实现这些操作的代码获得商业秘密保护。此外,从实践的角度来看,对这些信息进行保密可能比对软件方法进行保密更容易。与软件不同,大数据操作不能被进行反向工程。这就是说,专家无法破译一组数据是如何组合起来的,没有什么比数据本身更能起作用了。因此,商业秘密促进软件方法公开的学术论证似乎并不适用于大数据实践。
从理论上讲,专利法可能会推动一些 “大数据”的开发者向公众进行公开。因为,根据专利法的规定,作为向公众提供他们的技术的交换,专利权人能够获得比其他知识产权所有人(如著作权人)享有更为强大的排他性权利:20年内能够禁止他人任何未经授权的使用、制造、销售或进口其专利产品。实际上许多大数据实践不太可能符合专利法规定的起始资格要求,或虽然可能符合条件,但不太可能获得有意义的专利保护范围。因此,专利法似乎没能有意义地鼓励大数据实践的公开。
根据我国专利法规定,专利的保护要件为新颖性、非显著性和实用性。虽然大数据实践可能会克服实用性障碍,但是它们是否具有足够的新颖性和非显著性从而值得专利保护,尚存疑问。另外,正如Datamize案判决所指出的,任何完全依赖主观判断的实践都可能无法获得专利保护,因为这种权利要求不符合专利法的明确性要求。法院解释说, “由于权利要求语言的含义取决于某个人的意见的不可预知的变幻莫测,这使得公众无法获悉专利权人的排他性权利。”然而,过程专利权利要求可能涉及某种程度的人为判断。如前所述,一些大数据实践完全依赖于搜集者的主观判断,因此,这些大数据操作似乎不具备获得专利保护的资格,因为它们的权利要求没有充分的明确性。然而,其他部分依靠主观判断的大数据操作可能有足够的确定性。例如数据清理、数据屏蔽的实践,比如用虚拟值替换身份化信息。这些过程可能有充分明确的权利要求语言,以获得专利保护。虽然以客观为基础的大数据操作可能有足够的确定性而获得专利保护,但也可能存在其他保护障碍。例如,未能表现出足够的新颖性或非显著性,可能会导致申请被拒绝或后来的无效。
另一方面,正如前文所分析的,尽管有其优点,专利保护的范围比商业秘密更狭窄。例如,相当于抽象概念的算法,无法成为专利法的保护对象。与大数据相关的可专利性的最终限制是专利法的确定性要求。专利权利要求(所谓专利保护的 “界限”)必须用足够明确的术语来书写。更重要的是,即使专利保护可用于这些大数据操作,但生产者可能更倾向于选择不进行公开。David Friedman等指出了两种情况,在这两种情况下商业秘密优于专利保护[12]:
(1)当对于一项发明来说,轻而易举将其保密的期间要长于其他发明人自行提出这个想法的期间时,商业秘密是比专利更为可取的选择。许多大数据操作正好可以归入这一类。像谷歌的PageRank和大数据公司使用的算法一样,大数据操作产生商业上有价值的产品和服务,同时完全保持在公众的视线之外。这使得商业秘密保护对大数据生产者更具吸引力。因为与软件对象代码不同,大多数大数据产品不能被进行反向工程。
(2)当专利保护相对于发明的价值而言成本过高时,商业秘密在经济上比专利保护更可取。与软件行业一样,大数据也是更新换代非常快的行业。大数据制作者往往认为其实践的经济价值寿命相对较短,因此不值得花费时间和成本去获得专利保护。在这种情况下,数据制作者可能不愿公开他们的做法,完成专利申请的繁琐过程,更不用说申请专利的时间和金钱成本。在这种情况下,专利保护可能根本就不值得。
如果没有对著作权的介绍,知识产权法与大数据之间的关系的讨论是不完整的。与专利法和商业秘密不同,著作权不对过程或方法提供排他性保护,但著作权法可能会保护这些实践的最终表现形式。著作权法可以保护数据汇编中的原创性表达,一些数据单独看来不起眼,但共同组合起来就构成了原创性表达。因此,著作权法保护 “汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性”而构成的作品。当选择或安排所需数据的过程中,需要主观判断的操作,数据汇编就能够获得著作权保护。汇编的主要形式有挑选、安排等。 “挑选”意味着在某一特定数据集中的选择哪些事实,以便将其纳入汇编作品时进行判断。 “安排”是指将数据排序或归类为列表或进行分类,超越了单纯的数据机械分组(例如按字母顺序排列,按时间顺序排列)。前文所描述的数据筛选形式作为挑选的一种形式,明显符合原创性要求,但这种保护不可能有效减少不必要的复制。这是因为抄袭者在理论上可以很容易地盗用单个数据,而不需要复制他们在数据库内的具体选择或者编排。因此,大数据资料库享有的著作权保护范围可能会比较薄弱。这表明,尽管大数据的主观性可能使大数据库受到一定程度的著作权保护,但这种保护不太可靠。
现有的专利法或著作权法的知识产权范式并不是对大数据进行保护的最佳选择。与此同时,大数据实践并不是自我公开(即它们不容易被进行反向工程)的这一事实使它们很好地利用商业秘密这一工具,或者仅仅选择不公开。这些研究说明,我们需要制定鼓励公开大数据实践的新政策。为了解决这一需求并激发进一步的研究,本文提出一个根植于知识产权法的政策模式。这个模式并不是一个正式的立法建议,而是旨在为今后此方面的讨论提供线索,以引发更多的讨论和研究。例如,美国联邦贸易委员会 (FTC)已经在调查大数据实践如何影响消费者,并且在理论上可以制定鼓励更多披露的规则。
特殊知识产权保护形式是一种可能性。具体而言,可以设定一种新的法定权利(在此称为 “数据权”),这个权利将属于那些在数据收集和准备方法方面清楚和完整地描述这些方法以及从这些方法生成的数据的申请人。关于该权利的权利范围可以用知识产权中所有权利都具有的三个特征来界定:①保护客体;②授予公开者对该客体的排他权;③由排他性所生出的一系列独占性规则。
数据权可以保护根据本领域普通技术人员不容易掌握的一种或多种方法收集或操作的任何数据,该保护可能扩展到单个数据以及数据的资料库。在这方面,数据权可以保护比著作权更大的客体范围。例如,著作权法通常只涉及对数据的汇编的最终表现形式。因此,潜在的下游用户将不能以著作权许可方式绕过这种权利。
数据权利人有权在法定期间内禁止未经授权的用户使用他们的数据,并请求禁令救济。数据使用的例子是,将数据集应用于分析以研究新的问题或现象。数据持有者无权阻止第三方对数据本身的描述性使用,因此,潜在的数据可以自由复制和传播,除了数据发布者通过合同等方式施加额外的限制。这种有限的排他性权利旨在平衡数据生产者控制下游使用的权利与公众获取数据的公共利益之间的平衡。
数据权保护只适用于公开了与他们所希望保护的每一条数据相关的所有数据收集和编排实践的发布者。这里的公开要求类似于专利法要求申请人在专利申请中披露其发明,但其要求低于符合著作权要求作者寻求保护时要将其作品在有形客体上进行固定的要求。然而,数据库的获取规则是独一无二的,因为它们所保护的主题 (数据)将与它们所披露的主题 (方法)不同。这种特殊保护形式可能会有效鼓励一些若非如此将不会进行的大数据公开。数据发布者长期以来一直希望获得专门的保护,使他们能够更好地控制数据的下游使用。本文前面提出的经济理论指出,在数据发布者重视排他性超过他们更重视数据收集和组织的实践中的排他性的情形中,他们可能更倾向于数据权保护而不是商业秘密。同样,数据权不太可能鼓励新的或有价值的公开。因为数据权只给发布者提供了一种经济上的激励,所以不适合鼓励在隐私或进行商业秘密保护的强烈的商业利益的环境中进行公开。
自20世纪90年代以来,美国和欧盟国家都出现了为电子数据库提供专门保护的法案。这些法案的主要目的是:使数据库发布者可以主张制止未经授权的复制。这些法案背后的主要政策原理是,因为数据成本高昂且容易复制,所以数据的收集需要类似知识产权保护的激励。但一些学者认为,通过对有价值的数据进行限制,这些提案有可能会削弱市场经济所依赖的竞争精神。此外,Mark等认为,围绕特定技术设计的专门知识产权保护形式往往缺乏本质上的灵活性,并可能降低知识产权制度作为一个整体的一致性和可预测性[13]。
本文所描述的数据权在很大程度上与之前的特殊数据保护法案有着本质区别,数据发布者不会授权数据发布者制止复制或传播其数据的行为。相反,这个权利将直接针对未经授权的数据使用。因此,这个建议不会限制公众对数据的访问(这是美国学者在数据保护法案中引用的 “恶作剧”的主要来源)。相反,该提案允许数据发布者在有限的时间之内控制其数据的下游使用(如数据分析)。此外,与其他形式的知识产权一样,数据权要求其发布者进行有价值的公开。此外,这个建议可能会存在一些操作上的障碍,例如数据生产者选择性不公开的风险。简而言之,数据制作者可能会选择发布模糊的、不完整的或不准确的对其操作的描述,以获得保护。虽然这种风险是真实存在的,但是知识产权法长期以来一直处理类似问题,对权利人进行严厉的惩罚。例如,专利法不正当行为原则规定,在审查过程中向知识产权局做出事实歪曲的申请人可能导致其专利无效。
从目前的情况来看,知识产权法并没有鼓励大数据生产者向公众披露一些最有价值的操作。如果大数据操作没有公开,这个重要领域的创新就会衰退。本文建议设定一种数据权,作为一种新的探索机制。通过为大数据发布者提供一些新的权利(一种限制下游数据使用的专有权),这种新的权利形式可以鼓励有价值的技术的公开,否则这些技术将会被隐藏起来。
鉴于大数据在经济和社会的发展中日益重要,应关注我们的法律制度如何影响这一宝贵的新资源的生产和使用。目前,现有知识产权制度对这一资源还没有很好地进行配置,以实现在这个新领域鼓励技术公开的目标。笔者试图对此进行探讨,引发学界对这一问题更多的研究,以期帮助我们获得大数据在今天以及尚未确定的未来的更大益处。