“数据”可否纳入知识产权客体范畴?*

2024-02-28 09:45:50肖冬梅

政法论丛 2024年1期

肖冬梅

(湘潭大学知识产权学院,湖南湘潭 411105)

客体作为人类社会的一项法律制度,最早出现在《德国民法典》,我国承继了《德国民法典》的理论和立法模式,将客体纳入权利的构成要素这一理论框架中,从而形成了较为稳定的“主体-权利-客体”这一权利分析模式。毫无疑问,客体在抽象法律关系和法律权利的体系化发展过程中充当了权利具体化的必备要素,换言之,客体成为了民事权利界定的必要工具。很长时间以来,物权、知识产权、人格权及其下辖的诸多具体权利都是以权利所涉及的对象或客体来标记或命名的,因为如果没有客体和主体概念,权利本身的定位将变得困难。[1]

范畴区分是概念法学的基本原则,也是法律确实性的必然要求,没有固定的范畴,客体的体系建构意义和解释功能就失去了一个可靠基础。然而,事实上包括知识产权在内的民事权利的客体大都尚处于理论争论状态。于是对民事权利的客体进行范畴化的努力一直在延续。现代以来,国内学者对知识产权客体的范畴化做了许多努力,代表性的学说有“智力成果说”、“知识产品说”、“信息说”、“形式说”、“符号说”等,其对应的客体分别是智力成果、知识产品、信息、形式、符号等。[2]2017年我国颁布《民法总则》时,首次把商业秘密纳入了知识产权的客体范畴,同时颇受关注的还有:《民法总则》(征求意见稿)曾把“数据信息”作为知识产权的一类新客体,虽然这一动议最终因反对之声颇大未获得通过,但因此带来的知识产权客体边界问题尤其是“数据”是否可以纳入知识产权法进行保护,并未随着时间流逝而让人淡忘掉,反而引发了学界、业界越来越多的讨论和关注。如杨立新(2016)认为将“数据信息”作为知识产权新客体这个规定是个突出亮点[3],但齐爱民(2017)却认为应摒弃“数据信息”这一不当概念,《民法总则》草案将“数据信息”归为知识产权客体是一个必须更正的错误[4],分歧明显。本文遵循知识产权客体的扩张逻辑,对知识产权客体的一般特征进行分析和理论解释,从“信息链”理论这一视角出发,对数据与现行知识产权客体的特征进行比较研究,在此基础上,试图从数据整体纳入知识产权客体范畴的正当性问题、哪些数据可以纳入知识产权客体范畴、将部分数据纳入知识产权客体范畴的具体路径三个层面来作答,旨在为我国数据基础制度建设提供可鉴建议,也想抛砖引玉,助力知识产权基础理论研究的进一步深入。

一、知识产权客体的扩张逻辑与一般特征

(一)知识产权客体的扩张逻辑

现代知识产权法是一个综合性的法律规范体系,但在许多人看来,该领域正呈现一种无序的膨胀状态。新的制度不断地被建立起来成为知识产权法律体系的新成员,如植物新品种、工业版权、基因等;而旧的制度如商业秘密也被吸纳过来[5]。正如Robert P.Merges所言,知识产权法犹如发展中国家里无序蔓延的大城市,建筑施工随处可见,新的成长杂乱无章,而新增的建筑并不考虑旧城原有的构造及氛围,弥漫着一丝眩晕[6]。客体扩张是知识产权制度变革最鲜明的外在表现。

现代以来,随着登记制度的建立,知识产权似乎变成了一种与智力有关的无形利益的“保护范式”,不再着重强调财产的智力来源,保护创造这种带有强烈道德色彩的价值取向在褪化[7]。随着商标的纳入,知识产权的客体大致可以分为三类:一是创造性成果,包括作品和工业技术;二是经营性标记,如商标;三是经营性资信[8]。随着知识产权客体的持续扩张,许多单行的权利分支,诸如域名权、商号权、动植物新品种权,被不断提出并与专利权、著作权等处于并列地位。在主体范围相对确定的情况下,客体是决定法律关系和法律内容的主要因素。知识产权客体的范畴化也是一个有历史的命题,发明、作品等均是本质主义思维下范畴化的结果。在前现代,也就是新的客体形态出现之前,这些范畴适用良好,但现代以来开始失去包容力,进而出现了技术与艺术的二分,思想和表达的二分。

“智力成果说”、“知识产品说”、“形式说”、“符号说”、“信息说”是关于知识产权客体形态的几种代表性学说。“智力成果说”出现得较早,主张智力成果说的学者认为权利的客体是人的智力创造性成果,强调对象的智力来源[9][10],商标的出现让智力成果说显现出了局限;“知识产品说”是对智力成果说的吸收,主张知识产品说的学者认为其所谓的知识产品指的是“人们在科学、技术、文化等精神领域所创造的产品,具有发明创造、文学艺术创作等各种表现形式”[8],并较好地将商业性标记囊括在其中,突出了对象的内容为“知识”,而“产品”强调了其是由人所创造的;而后持“形式说”的学者认为有必要明确知识的物理属性,认为“知识的物理属性是形式”,知识产权的对象即为形式的知识[11];而“符号说”在继承“形式说”的基础上,认为“任何物质都包含了质料与形式,自然物也具备天然的形式,仅用‘形式’还不足以解释知识产权对象作为人工物的特性”[7],并借用恩斯特·卡西尔的符号学理论,将人创的“形式”进一步解释为“符号”,因此也同时突出了“符号”的人创物属性[7];而主张“信息说”的学者认为知识产权的对象是特定有用的“信息”[12][13],这一解释将对象上升到了本体的高度。

如果排除“法的语境”,从纯粹认识事物的角度,或言之从广义“哲学”的角度来看待这些学说所指出的对象,这些对知识产权“对象形态”的定义是朝着描述对象的“本质形态”逼近的。上述学说对应的对象分别为:智力成果、知识产品、形式、符号、信息。从学说发展的方向来看,从智力成果到知识产品,再到形式、符号、信息,范畴的位阶由下位层次范畴不断向上位层次范畴发展,“知识”是创造性“智力成果”的上位范畴,而形式和符号又是知识的上位范畴,信息直接上升到了构成世界本原的本体的高度,范畴位阶的上升表明了其所包含的内容也得到了扩大。

“智力成果说”的局限在于其只关注一元的“人的创造性”,其解释力在商业性标记出来之后显得捉襟见肘。而“知识说”弱化了创造性属性,将焦点定位于对象的“非物质性”,然而近来出现的关于基因可专利问题的争论挑战了这一“焦点属性”。“形式说”和“符号说”将焦点定位于“外观表达形态”,本文认为这种视点受到了历史制度的诱导,即受到了近现代以来形成的知识产权登记制度的诱导。登记制度要求的以文字、图案等方式按照一定格式记录的技术方案,和以类似“可视觉性识别”表达记录的作品才能够取得权利。这种制度历史形成的痕迹使得知识大部分以“形式”或“符号”的样态得以存在,但知识存在的样态确实是包括但不限于这种视觉性识别表达的,例如口耳相传的“音律性”民间文艺。因而,“形式”和“符号”也是一元属性定义的产物。而“信息说”所指向的对象——“信息”,这种上升到本体的概念毫无疑问囊括了绝大部分的非物质形态存在,但并非没有“漏网之鱼”,例如药品,这种物质形态的存在,目前为止也是可以获得权利的对象。

当前知识产权制度对财产的保护已经形成了一种“范式”,即授予一种有限的垄断权利制造稀缺以保护客体利益。本文并不一味地反对扩张,但对于由理论推动而不是实践或利益推动的扩张却是反对的,现代知识产权制度当然地需要具备一定的前瞻性,但回顾历史,虽然自然权利与功利主义两种理论的此消彼长并没有阻断知识产权的扩张进程,跟随着技术文化和商业经济发展的节拍流变,但总的来说是在小心翼翼地扩张[14]。如果将已有客体形态间交叉形态的不断出现称作客体的横向扩张,将超越已有客体根本形态的扩张称为纵向扩张,那么上面所述这些学说所指向的客体范畴将使得纵向扩张过于超前,并不符合客体扩张的因果逻辑。

(二) 知识产权客体的一般特征及其理论解释

知识产权的客体是智力成果或商业标记,其本质是一种信息。回顾知识产权客体当前存在的形态,发明、作品、商标、商业秘密、集成电路布图和植物新品种等等,本质主义思维下的范畴理论实践表明,很难找到一种合乎知识产权法语境的共同属性来将这些客体形态统一串联起来,但能够发现,不同客体之间却存在着特征交叉的联系。发明与作品的共同特征是智力创造性的成果,但发明与商标之间就很难用智力创造性联系起来,因为现代的理论认为商标之所以成为权利客体不是因为载体标记也不是智力创造成果,而是因为商标具有显著性,可区分性。如果不承认这一点,而是以智力创造性勉强解释商标是存在问题的,这也是“智力成果说”局限所在。但商标与作品是具有相似性的,即可以因为都属于“符号表达”,循此路径,还可发现,商业秘密与专利之间存在技术性创造的共同特点;而集成电路布图与专利存在功能性交叉,与作品存在独创性表达的交叉等等。

从上面的叙述可以看到,如果知识产权的对象是一个“家族”,那么这个家族里面的成员的确满足“家族相似”的特点,既便并没有一个共同的特征来概括所有的成员,但这并不妨碍这些成员因为相互间的特征交叉而聚集在一起,或言之,在这一意义上,知识产权确实可以因为客体成员的家族相似性而成为一个体系。再来回顾知识产权客体扩张的历史,可以发现,新增的成员是以与某个已有的“原型”成员具有相似性,因而逐渐成为知识产权家族中的新的一员,而当新增的成员越来越多的时候,这个新的成员因为也具备了多数的共同特征而具有了中心性,因而也成为了“原型”之一。最鲜明的例子就是商标,在19世纪50年代左右的英国,现代商标法制度开始形成,当时对商标的保护一开始并不是在知识产权体系中的,由于当时许多从事专利代理的人同时也从事商标代理业务,于是,商标法在形成过程中就具备了一种视野,当时的著作权法、外观设计法甚至专利法就为此提供了一个“类比点”。当时的制造商就效法报纸商将名称和标签作为在出版公会进行登记的做法,他们也利用外观设计登记簿,将标签登记外观设计,从而使其商标作为外观设计获得保护,1843年的英国《实用性外观设计法》第9条设置了将标签作为外观设计进行登记的条款。[15]由此,商标渐渐的也成为了知识产权客体中的一个成员,并逐渐发展成为我们现在所熟知的形式。

而在现代知识产权法中,商标显然已经发展成一个与专利、作品地位类似的“原型”,这种从边缘成员发展到原型成员之间的变化是如何发生的呢?原型范畴理论中对原型的定义是,当一个成员具备所有成员中最多的共同特征时,便成为一个中心化的原型。正如当我们还认为“黄瓜”属于水果又不属于水果,它与水果的原型成员之一西瓜之间的相似性的多寡还有争议的时候,这种边缘成员因为水果摊贩在贩卖水果时将其与水果摆在了一起。这种额外的推动力,就如同商标代理人寻求与外观设计获得同等保护时,将其注册为外观设计是类似的逻辑,当越来越多的水果摊贩将黄瓜与其他水果摆在一起,并且销量也不错的时候,黄瓜因此便获得了水果中原型成员的地位。如果商标的进入可能是一个偶然,那么当我们观察现代以来的集成电路布图设计、植物新品种,以及商标中越来越多的非文字和图案的形式,如声音商标和气味商标的纳入,都是循着一种由外部需求推动,进而进入法的内部,通过与既有原型的相似性来寻求进入知识产权大门的缘由。

以本质主义来解释客体范畴化思维是存在局限性的,因为本质主义的一元特征会造成孤立的视点,将原本广泛联系的两个原型机械地割裂开来,而原型范畴理论却与此完全不同。原型范畴理论认为,在两个范畴之间,或者一个“家族相似性”范畴内部的两个原型成员之间,它们彼此的界限是模糊的,在这些模糊地带存在着许多的结合形式并有机会在这之中发展出新的原型。这一点依然可以找到历史的依据,技术与艺术的二分,在历史上也曾表述为专利保护机器,而著作权保护书本,这种二分法忽略了在机器与书本之间存在着许多人类创造结合了技术与艺术的诸多形式。[16]这些形式一直到商标进入了知识产权之后,智力创造从客体的要件中渐渐褪化才得以显现,今天我们认为的“准专利”或“准著作权”所存在的保护形式,正是对这些对象形态的保护,但这些对象并不是新的,而是长期被遮蔽所导致的。

原型范畴理论中,新的原型建立所导致范畴的无中心化或中心的转移是另一个视点。我们还是回顾在商标法进入知识产权领域之前,创造性成为了“中心要件”,主导了专利与作品这两个原型的建立,尽管专利与作品的具体形态之间存在明显的差异,但创造性成为了统辖两个范畴的中心法则。而当商标进入视野,并逐渐成长为一个新的原型,三元构造的知识产权法的中心要件开始褪化、转移,因为这个新的原型已经足够为其他与之类似的对象形态借以与新原型的相似性而进入这个家族,而在表象上,寻求知识产权哲学本质的“倾向性”的产物——范畴成员的中心要件——创造性,开始丧失作用,因而表现出褪化。但是创造性并没有因此而消亡,而是转变成为了专利法中的非显而易见性和著作权法中的独创性,以新的形式分别独立存在于两个原型之中,并分别对这两个原型的成员发挥作用。因而,知识产权法所显现出的一种非哲学又非自然的特性,正是这些中心要件的分解、转移所造成的。

综上所述,原型范畴理论为我们提供了一幅这样的图景,即知识产权的客体范畴并不是一个封闭或即将封闭的概念体系。它因为成员间重叠的特征和相似性聚合在一起,形成了事实上的一个体系,而在这个体系中,新的成员借助于既有原型成员的相似性在外部因素的推动下不断地进入并逐渐形成新的原型。而每一个原型从中心到边缘是梯度变化的,人类创造的丰富对象形式存在于这种梯度性的过渡范围中,而范畴的边界是由原型成员模糊的边界构成的,因而范畴的边界也是模糊的。简而言之,原型范畴理论描绘的知识产权客体范畴的图景是一个多元的、开放的、无中心的体系。这就为本质主义渴望从一元特征来逻辑统辖知识产权体系做了一个否定的回答,另一方面也为客体扩张的必然性做了一个哲学注解。

二、“信息链”理论视角下数据与现行知识产权客体的特征比较

(一)“信息链”理论视角下数据与信息、知识、情报的关系

根据“信息链”理论,事实(fact)、数据(data)、信息(information)、知识(knowledge)、情报或智能(intelligence) 是信息链 (information chain) 的五个基本节点[17]。事实是客观事物运动的表现,数据是载荷或记录信息且按一定规则排列组合的物理符号(包括数字、文字、图像、声音或计算机代码),信息是数据被赋予现实意义后在信息媒介上的映射,知识是对信息加工、吸收、提取、评价的结果;智能是被目的所激活的知识[18]。“信息链”即“认知链”,在信息时代,人类对描述或呈现“事实”载体或形式的认知,经历了从情报——知识——信息这样的一个过程,大数据时代人类对“事实”的认识则越来越依靠数据,数据被认为是荷载“事实”的最小单位。“数据”(data)在拉丁文中是“已知”的意思,也可以理解为“事实”(Fact)[19]。人们对“事实”的认知,一是通过亲身经历,即通过“眼见”或“耳听”;二是通过还原事实,即通过不同的载体、形式来“亲历”事实。由于亲历往往有限,所以更多的场景下我们都会选择以形成链条的证据来还原事实、推定真相,如刑事侦查中的嫌犯活动轨迹研判,竞争对手博弈时的知己知彼,司法裁判中的证据说话,都是通过对荷载“事实”的信息或数据进行分析推理和预测。虽然数据、信息、知识、情报均不能够等同于事实,但都是事实的局部反映,其中数据能最大程度地客观接近事实。与数据相比,信息、知识、情报有不同程度的主观性,在“信息链”中,数据是原始素材,信息是加工处理后有逻辑的数据,知识是经过组织的信息,情报是知识的应用,越接近事实其客观性越大而主观性越小,故直接源于数据的“还原”比源于信息的“还原”更加精确[20]。

从范围角度对数据、信息、知识、情报这四者关系的定义,也是多数学者认同的观点。数据涵盖信息,信息涵盖知识,知识涵盖情报。如:“5”是一个数据,“今日温度为5℃”为一条信息,“受冷空气影响,温度骤降,出现5～10℃降温”则属于知识,“今日降温5～10℃,山西多地开始供暖”即为情报[21]。故主流观点认为四者之间是包含关系,譬如数据和信息是种属关系,数据是属概念,信息是种概念,数据的外延包含了信息的全部外延,信息是有价值和意义的数据,知识是可以被解释和理解的信息。

但若从离事实的远近来看,数据比信息、知识、情报都更能还原事实或是还原真相。在当前的技术环境下,还原事实比以往任何时候都更容易,事实和数据只有一步之遥。在信息公开阶段,个人隐私或企业商业秘密的风险都不及数据开放阶段令人担忧,因为一旦数据开放,其影响就会呈几何倍数放大。

图1

(二)数据与知识产权客体的特征比较

数据是以电子或其他方式对信息的记录,在计算机系统中,数据是以二进制编码序列显示的信息。[22]一方面,数据与知识产权客体具有相似性。它们二者都有一个共同的特征,即都是无体无形物。知识产权客体是通过法律赋予其独立性,并非是以其所承载“知识”的载体而获得独立性的;数据也是无体无形物,其以比特形式呈现,但并非比特本身,而是比特所承载的内容,数据不是协助民事主体取得或转让某种民事权利的比特,而是比特所承载的内容,因此数据也具有特定性。数据与知识产权客体二者具有相似性,可以在同一时间被多个主体使用。就客体生成的过程而言,知识产权的客体系具有创造性的智慧成果或经营性标记,此为法律拟制知识产权排他性的基础;而数据系对信息的识别,系智慧主体“收集”生成,对于同一信息不同主体可以形成内容相似乃至相同的数据,排他性相对有限。[23]

另一方面,数据与知识产权客体又有明显的不同。第一,数据作为知识产权客体的载体和源泉,虽然颇有渊源,但与知识产权客体却是明显不同的存在,正如模拟时代美术作品的客体不是那画家用以作画的纸张,数字时代数据也是一类载体,但客体是客体,载体是载体;第二,数据作为客体的条件及其所涉及范围,也与知识产权的客体条件及范围不同。知识产权客体几乎都是人创物,但数据并非如此。创造性、非物质性、公开性和共享性是知识产权客体的一般特征[24]。创造性是指个体产生新奇独特的、有社会价值的产品的特性,区别于已有的作品或技术,不同的知识产权客体对创造性的要求程度各不相同。根据《建立世界知识产权组织公约》第二条的规定,知识产权应当包括有关下列各项的权利:(1)文学、艺术和科学作品;(2)表演艺术家的表演以及唱片和广播节目;(3)人类在一切活动领域里的发明;(4)科学发现;(5)工业品外观设计;(6)商标、服务标记以及厂商名称和牌号;(7)制止不正当竞争。无论是专利权、著作权,还是商标权都体现了发明者、作者、设计者等主体的创新性智力成果,是相关主体某种思想的客观呈现,且是其主观上积极取得的。而数据大多数情况下是一种客观存在,并非人创物,如不管是手机、街角摄像头,都是数据的自动记录仪和采集器,由机器自动采集的原始数据不体现相关主体主观意图和思想。正如有学者进一步认为,作品或专利无体无形,是纯粹精神创造物,而数据文件虽然无形但却是物理上的存在[25]。可见,数据的范围事实上与以上所列明的知识产权客体范围不同。第三,从立法依据来看,《民法总则》(草案)第108条将“数据信息”纳入知识产权客体范畴,但该规定最终未获通过。现行《民法典》第123条和第127条对数据作为客体与知识产权的客体做了立法上的划分。

三、将数据整体纳入知识产权客体范畴的主要问题

(一)将数据整体纳入知识产权客体范畴的正当性不足

区分数据的不同类型是认识数据可否纳入知识产权客体范畴的重要前提条件和基础,不同类型的数据不宜一概而论。按照数据处理程度可以将数据分为原始数据和衍生数据。原始数据是指通过合法的方式直接从被记录者处取得的、未经过处理的数据,最常见的原始数据有:用户登录信息、互联网留下的数据备份、支付信息等。衍生数据则是基于某种特定目的,利用技术算法对原始数据进行清洗、脱敏、匿名、加工、计算、聚合等技术处理后而成的可被系统读取的数据[26]。不管是用洛克的财产权劳动理论还是边沁的功利主义,要论证以知识产权保护衍生数据的正当性,似乎不难,但要论证以知识产权路径保护原始数据的正当性,似乎很难。根据主体不同,数据还可以分为个人数据、企业商业数据和国有数据,这是确定数据客体归属的一个重要分类方法,这种划分是我们要更好地认识数据能否纳入知识客体范畴的一个重要条件。如果我们不区分个人数据、企业数据和国家数据而全盘纳入知识产权客体范畴,给予相同的保护,那无疑将存在正当性的问题。

(二)将数据整体纳入知识产权客体范畴将冲击现有知识产权保护逻辑

郑成思认为,知识产权客体是专利、商标和作品,特别情况下行为也可以成为客体,其本质是特定的信息[24]。在持续扩张态势下,发明、作品、商标、商业秘密、集成电路布图和植物新品种等当前存在的知识产权客体形态,虽然很难找到一种合乎知识产权法语境的共同属性来将这些客体形态统一串联起来,但能够发现,不同客体之间却存在着相同的特征和联系,这些客体的本质还是特定的信息,换言之,上述知识产权客体是具备不同法定条件的不同类别的信息。譬如各国专利法几乎都规定了授予专利权的条件是满足新颖性、创造性和实用性,商标的显著性和作品的独创性,则是各国商标法和著作权法将商标和作品区别于一般信息进行特殊保护的基本要求。

虽然知识产权客体一直呈扩张态势,但如果对知识产权客体家族进行考察,不难发现,并没有哪一种客体的增加会冲击知识产权的保护逻辑和权能体系,发明、作品、商标、商业秘密、集成电路布图和植物新品种等客体之间是并列关系,都是一种具备某种特质的信息,是“信息”的下位类,如商业秘密的称谓,明显是信息的一类,在TRIPs协议第二部分(关于知识产权的效力、范围及使用的标准)第七节第三十九条中,被表述为“未披露过的信息”。但迄今为止,没有哪一国立法直接将“知识”“信息”整体直接纳入知识产权客体范畴,这显然是知识产权保护的一个基本逻辑:对特定知识产权客体进行保护是手段而不是目的,保护知识产权的终极目的恰恰是为了促进知识或信息的共享和传播,通过赋予贡献者一定时间和空间的有限垄断权,是促进这个目的实现的手段。

由此可见,不是所有的数据都能够纳入知识产权的客体范畴,或者说数据不宜完全纳入知识产权的客体范畴。区分数据的不同类型是认识数据可否纳入知识产权客体范畴的重要前提条件和基础。事实上,对“数据可否纳入知识产权客体范畴”这一问题的回答,直接决定着数据的保护模式,所以这是一个非常基础又是非常重要的问题。因此本文接下来将着重回答以下两个问题:(1)既然不能将数据整体纳入知识产权客体范畴,那么哪些数据可以纳入知识产权客体范畴?(2)将部分数据纳入知识产权客体范畴的可选路径是怎样的?

四、哪些数据可纳入知识产权客体范畴?

(一)数据的分类标准及具体类型

根据不同的分类标准,数据有不一样的类别。

(1)根据数据的重要程度和被非法获取利用的危害程度,我国网络空间安全领域的三大支柱性法律——《网络安全法》《数据安全法》《个人信息保护法》,将数据划分为核心数据、重要数据和一般数据,并对这几类数据采取不一样的保护规则。

(2)根据数据是否可商业交易,数据被分为商用数据和非商用数据两种。2022年11月国家市场监管总局发布了《中华人民共和国反不正当竞争法(修订草案征求意见稿)》,在第十八条第二款规定,“本法所称商业数据,是指经营者依法收集、具有商业价值并采取相应技术管理措施的数据。”根据该规定,只要满足经营者依法收集、具有商业价值、采取相应技术管理措施这三大构成要件的数据,均可获得保护。

(3)根据数据是否公开,可将数据分为公开数据和非公开数据。公开数据不能获得商业秘密保护,非公开数据则有可能满足商业秘密保护的要求。

(4)按照数据的处理程度,可区分为“原始数据”和“衍生数据”。这种数据分类对于本文的研究颇有意义。实践中,按照数据的处理程度,数据既有二分法,也有三分法。二分法将数据分为“原始数据”和“衍生数据”,而三分法是在二分法的基础上,增加了一类“创生数据”。事实上,二分法和三分法并无实质差异,因为“创生数据”事实上也是广义的“衍生数据”,“衍生数据”既有狭义的理解,也有广义的理解。原始数据是通过传感器、社交网络、移动互联网等方式采集获得的各类结构化、半结构化及非结构化的海量数据,是事实和客观现象的数字化记录。也有观点认为,原始数据是指通过合法的方式直接从被记录者处取得的、未经过处理的数据。最常见的原始数据有用户登录信息、互联网留下的数据备份、支付信息等。从《网络安全法》《数据安全法》《个人信息保护法》三大法来看,大多规定指向的是原始数据,是没有经过加工的各类数据,只要是采集过来的,包括结构化的、半结构化的,甚至是非结构化的数据,都是事实和客观现象的数字化记录。衍生数据则是在原始数据的基础上,经过算法的加工、计算、聚合而形成的系统的、可读取、有使用价值的数据,如购物偏好数据、信用记录数据集合,可形成对应的数据产品,换言之,用“数据产品”可以更加形象地表达衍生数据的结果,即通过技术处理形成的数据集合,更多的是以数据产品的形式得以呈现[24]。对于衍生数据,还有一种界定,即衍生数据是利用算法技术对散乱无序、难以直接应用的海量原始数据进行加工处理而生成的预测型、统计型、指数型数据,具有超越原始数据的应用价值和商业价值。这种定义是对结果的一种描述。比如淘宝公司“生意参谋”数据产品、阿里巴巴旗下的芝麻信用、百度指数、淘宝魔方、公司内部CRM系统、营销系统、风控决策系统等,都是在原始数据基础上加工形成的衍生数据,而衍生数据的俗称,即“数据产品”。

(二)法院对不同类别数据法律属性的认定

近年来,有关数据的纠纷频繁发生,但梳理相关案例可以发现,在我国司法实践中,迄今尚未对数据的法律属性进行定性,明确表明数据究竟应该由哪一种权利进行保护。相关的裁判文书多认为数据是一种商业资源或商业竞争资源,如新浪微博诉脉脉案、大众点评诉百度案、微播视界公司诉锐创公司不正当竞争案;或者认为数据是财产性权益,如淘宝(中国)软件诉安徽美景案和汽车消费者投诉信息抓取案;或者认为数据是商业资本,如北京淘友天下等诉微梦创科案(见表1)。而这些判例对数据属性的描述都暗含了对数据的财产属性的认可。

表1

但从以上案例来看,涉案数据的类别决定了其收集或持有主体是否享有法定权益。如在“淘宝(中国)软件诉安徽美景案”中,法院认为,淘宝公司对其数据产品依法享有竞争性财产权益,但单个用户的数据本身并不具有直接的经济价值,在无法律规定或合同特别约定的情况下,网络用户对于其提供给网络运营者的单个用户信息尚无独立的财产权或财产性权益可言,故对于淘宝公司诉称其对涉案原始数据享有财产权,法院不予支持。由此可见,数据产品被视为有竞争性财产权益,单个用户数据则被认为无财产性权益。

(三)何种数据可纳入知识产权客体范畴?

不管是理论成果还是司法判例,似乎大都否定将原始数据纳入知识产权客体范畴,却同意对衍生数据进行知识产权保护。在当前的司法实践中,数据纠纷的起诉主体多是商主体之间,作为数据主体的个人似乎并不乐意参与纠纷。这主要是因为数据的价值性体现在成规模的数据中,单个数据的财产属性相对于规模的数据来说财产属性极低加之数据主体的人身受到侵犯,经过处理后的数据都是淹没在茫茫的数据海洋里难以取证,且进行交易的数据一般都是经过脱敏或匿名化后的数据,与原始数据蕴含人身属性不同,衍生数据由于经过技术处理,人格性逐渐与数据实现了分离[24]。

原始数据不宜纳入知识产权客体范畴,一方面,是因为原始数据的属性与现有知识产权客体的属性迥异,不论是作品、发明、商标还是技术秘密,都可以说是有创造性的智力活动成果或具有显著性的工商业标识,原始数据则更多的是人类特征和行动的记载,并不涉及人的智力投入,若将原始数据纳入知识产权客体范畴,则与知识产权制度宗旨不符。

五、将部分数据纳入知识产权客体范畴的可选路径及其局限

由以上论述可知,不能将数据整体纳入知识产权客体范畴,同样地,知识产权客体也不能完全地排除数据,换言之,不能将数据与知识产权客体全然切割开来,机械地认为凡是数据都不能成为知识产权的客体。部分具备知识产权客体条件的衍生数据或者商业数据,可以纳入到知识产权客体的范畴。具体而言,在非结构化数据或半结构化数据基础上形成的衍生数据,或者在公共数据、混合数据(公共数据和商业数据集合)基础上形成的商业数据,且符合某类知识产权的构成要件,是可以纳入知识产权客体范畴的。需要注意的是,由于衍生数据和商业数据分别是依据不同的标准划分出来的两个概念,事实上二者在很大程度上呈现出交叉重合之势。在实践中,公共数据、平台数据、企业数据,包括个人行为数据,都被视为商业数据。其中比较特殊的个人行为数据这块,既属于个人数据,又属于商业数据。商业数据中大多是对原始数据经过算法的加工、计算、聚合,而形成的系统的、可读取、有使用价值的衍生数据。这就意味着,将数据纳入知识产权客体范畴,需要我们将目标数据集合或数据产品与知识产权的保护条件、某类知识产权客体构成要件进行审慎地对比,将那些具备某类知识产权构成要件的数据,纳入到知识产权客体范畴之中。将衍生数据或商业数据纳入知识产权客体范畴主要有“旧瓶装新酒”和“老树发新芽”两条可选路径。

(一)将部分数据纳入知识产权客体范畴的可选路径

“旧瓶装新酒”路径是指以现有知识产权客体保护数据,在我国“旧瓶装新酒”路径又有两条:一是著作权和邻接权路径,二是商业秘密保护路径。

1.旧瓶装新酒:著作权和邻接权路径

一是数据满足著作权法对于一般作品的规定,获得著作权保护。著作权法保护的是创新性的表达,而不是事实、想法、程序或操作方法等。这意味着数据本身通常无法受到著作权保护。然而,如果数据被组织成一种独特的表达,这种组织方式具有独创性,那么这种表达可以受到著作权的保护。例如,单就一个电话簿中的名称和电话号码这样的原始数据而言,是不能受到著作权的保护的,但是如果你将数据编制成一个特殊的目录或数据库,并且这种编制方式有一定的创新性和独特性,那么这个目录或数据库就可能受到著作权的保护。

物联网环境下原始数据正呈指数级增长态势,大街小巷的探头、无处不在的人脸识别、游走在人体的纳米级传感器和须臾不可分离的手机等等,都在实时收集和产生原始数据,海量的未经处理的原始数据往往难以满足著作权法对作品的规定,所以能纳入著作权保护范围的数据,一般都是在原始数据基础上经过处理形成的衍生数据。但并非所有的衍生数据都能获得著作权保护,衍生数据能否构成作品获得著作权的保护,取决于数据生成过程中能否体现人的创作性投入[27]。根据人在数据生成过程中的参与程度的差异,可以将衍生数据区分为有创作性投入的衍生数据和无创作性投入的衍生数据。若衍生数据是人从大量的统计数据中通过辅助软件分析得出,那么,可以将其作为特定主体通过辅助工具对独创性思想进行的表达,构成作品。但有些衍生数据是人工智能程序智能化处理原始数据、人的参与度极低的情况下自动生成的结果,缺乏人的个性化表达,不具备著作权法所要求的独创性。虽然人对其创造的人工智能和算法享有知识产权,但是,应用算法自动产生衍生数据的过程,并不构成著作权法意义上的创作,因此,衍生数据生产者无法对机器自动生成的数据享有著作权。

二是数据汇编满足著作权法的规定,构成汇编作品。根据《与贸易有关的知识产权协定》第十条第二款的规定,数据汇编或者其他资料汇编,不论是用机器可读形式或者其他形式,其内容的选择或者安排属于智力创作的,应予以保护,但此种保护不及于数据或者资料本身。我国《著作权法》第十五条则规定,汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品。如在“四维图新诉奇虎等公司”一案中,虽然一审法院认为涉案导航电子地图不构成著作权法的规定的地图作品,但二审法院认为导航电子地图作为地图数据产品,对于地物、地貌、信息点的选择取舍,对于地物、地貌的绘图颜色、标注,以及绘制方式的选择取舍都体现了独创性,因此构成地图作品[28]。在“if影响因子”数据库著作权侵权纠纷案中,一审、二审法院认为原告所拥有的“期刊引证报告”在对相关数据的选择、编排上具有独创性,构成汇编作品[29]。

三是以邻接权保护不具独创性的数据库(衍生数据)。根据我国著作权法规定,邻接权包括表演者权、录制者权、广播组织权和版式设计权,袁博认为,为回应实践的需要,应当合理扩充邻接权的范围,如将那些“辛勤收集”的有价值的数据信息但在编排上缺乏独创性的数据库,纳入著作权法中的“邻接权”的保护范围,因为创编数据库的劳动主要在于前期数据的采集而非后期的选择与编排。[30]邻接权的立法目的是为了保护作品的传播,在原始数据基础上产生的衍生数据的价值恰好在于传播和利用。故林华认为,通过邻接权来保护不具有独创性的衍生数据,与其他现有立法模式相比,更加合乎逻辑和法理,也具有更高的操作性[31]。

值得注意的是,欧盟理事会1996年通过的《关于数据库法律保护的指令》对那些有实质性投资却未能获著作权法保护的数据库赋以特殊权利,该权利人有权禁止他人对其数据库进行复制、发行、出租和传播。由于指令需通过成员国的国内法予以落地,欧盟有成员国如德国、意大利,都将这项权利纳入其已有的领接权制度体系,如德国2008年在其著作权法的“与著作权有关的权利保护”部分新增“对数据库制作人的保护”,意大利在1999年修订著作权法时在“与著作权行使相关权利的规定”中增加了“数据库创建者权利、用户权利及义务”的相关内容。欧盟成员国中也有国家对其采取单独立法的,即将这项特别权利独立于著作权和邻接权。

2.旧瓶装新酒:商业秘密保护路径

数据可以作为商业秘密来保护,但它需要满足一些特定的条件。商业秘密是指不为公众所知的,能为其持有者带来经济利益,具有实用性,并且其持有者已经采取了相应的措施来保守其秘密的信息。作为商业秘密保护的数据,通常指的是持有者的特殊数据集,如上文所述衍生数据或商业数据,用户数据、算法、研究数据等。这些数据集若对持有者的竞争地位有重要影响,并且公司已经采取了相应的保密措施来保护这些数据,那么这些数据就可以作为商业秘密受到法律保护。需要注意的是,原始数据或者公共数据,比如天气数据、市场行情等一般不能作为商业秘密保护。同时,如果持有者没有采取合理的保密措施来保护这些数据,那么这些数据不能作为商业秘密保护。

从法律特征来看,衍生数据具有非人格性、可控制性、价值性等财产属性,属于智力劳动创造的无形财产,即智力成果。有学者提出,未公开的衍生数据符合商业秘密的构成要件[31]。以商业秘密来保护未公开衍生数据,能够为权利人带来现实或者潜在的经济利益或竞争优势。事实上在实践中,运用商业秘密保护未公开数据是当事人在汇编作品之外选取的另外一条专门法保护路径。如在万联网络诉周惠民侵害商业秘密纠纷案[32]、北京何晨亮等侵犯商业秘密纠纷案[33]中,法院肯定了原告网站数据库中的用户信息等数据能为原告带来经济利益,具有实用性,不易为相关领域人员普遍知悉和容易获得,且采取了保密措施,符合商业秘密的构成要件。2019年《反不正当竞争法》修订后,增加了电子侵入的侵权手段,且将商业秘密的范围在技术信息和经营信息之外又增加了“等”字。这一点看似解决了以商业秘密保护数据的法律障碍。

对未公开数据主张商业秘密,这就意味着,未公开数据须满足三个条件:不为公众知悉、具有商业价值、权利人采取保密措施。一般情况下,衍生数据作为企业获取经济利益的重要资源,企业必然会采取一定的保护措施,而这一层面的事实在诉讼当中也不存在举证难度。所以,企业衍生数据要满足一定的保密条件这一要件并不困难。

3.老树发新芽:在知识产权之下新设一种数据专有权

衍生数据作为一类智力成果,区别于信息、数据库,具有重要的财产价值。衍生数据具有无形性、专有性、可复制性等知识产权通常所共有的特点,然而却不具有地域性、时间性等特点,因此基于衍生数据建立的数据专有权是一种新型知识产权[34]。《民法典》第123条开放性地规定了知识产权的客体,符合知识产权客体属性但未明确列举的“法律规定的其他客体”,该条款似乎为数据纳入知识产权客体范畴提供了法律依据。近年来,有多位学者先后提出了要在知识产权之下新设一种数据专有权。杨立新(2016)提出,应以公开衍生数据为客体创设新型知识产权——数据专有权,与著作权、专利权、商标权等并列[35]。孔祥俊(2022)提出,由于数据与知识产权都具有无体财产、蕴含价值需要发掘等共性,因此数据可归入知识产权的无体财产保护,进一步要探讨的问题则是数据能否作为新的知识产权类型进行保护,抑或有必要创建一种新的知识产权类型。其实,数据是信息的载体,信息是数据的表达。信息层面的数据法律关系可以受专利法、商标法、著作权法的规制。反不正当竞争法既保护具体权利,也保护一般性的权益,同时其具有“孵化性”,也可以对未来可能出现但当下还不能确定的权益进行预先保护[36]。孔祥俊还结合工业产权的历史逻辑和制度内涵,认为商业数据权可归入工业产权范畴,成为独立的新型工业产权类型。[37]高阳(2022)则认为,企业衍生数据具有非物质性、非竞争性、不发生有形损耗的占有,符合知识产权客体的特征,但却不属于传统的知识产权客体,基于劳动赋权理论和激励创新理论,应为企业衍生数据设定新型知识产权[38]。由以上可知,学界似乎在知识产权框架下新设数据专有权达成了一定程度上的共识。

(二)将部分数据纳入知识产权客体范畴的局限

1.以著作权或邻接权保护数据的局限

旧壶装新酒虽然也不失为一种解决方案,但采用著作权法的路径来保护衍生数据,不免还是具有其天然的局限性。一是很多衍生数据并不能满足独创性条件,因为衍生数据的核心价值主要体现为深度挖掘、分析、提炼、整合数据内容获得有用信息,而不在于数据经选择、编排后形成的结构顺序。著作权法保护的作品以具有独创性为必要条件,而衍生数据是根据事先选定的算法自动生成的,信息表达缺少受著作权保护作品所要求的独创性。二是著作权仅保护以衍生数据为基础形成的表达,不保护衍生数据本身。衍生数据是数据控制者借助计算机程序或算法进行技术处理而自动生成的,而非作者自己选择、取舍、安排、设计的结果,故衍生数据所呈现的信息本身不符合受著作权保护的作品所要求的须由人脑思维自主产生独创性。

将收集到的用户数据进行匿名化加工处理之后产生的数据产品,其数据的权属其实已经有所变化。最显而易见的就是原始数据中的人格属性在逐步消失,其数据权属由个人转变到了数据产品生产方,数据的财产价值已然产生。数据产品经过生产方的采集、整合、汇总的手段似乎可以看作劳动,形成了智力成果。这类成果似乎也已经满足知识产权制度中关于汇编作品的保护需求,但事实并非如此,企业衍生数据的价值在于数据内容本身,而非编排结构上的独创性,企业对数据进行采集、编排需尊重原始数据,在数据选择和编排上的个性化选择空间有限,难以达到汇编作品的独创性要求。当企业数据集合的独创性未满足最低要求,该数据集合将无法获得财产规则下赋权模式的保护。例如在大众点评诉爱帮网的著作权纠纷案[39]中,法院认为,大众点评中的网友点评信息的时间排序方式是一种常见的排列方式,并非具有独创性,得出大众点评网中关于餐厅的介绍与网友点评不构成著作权意义上的汇编作品的结论。由此可看出,是否构成著作权法意义上的作品,前提就是需要具有独创性,法律保护的也只是数据集合的独创性本身。

2.以商业秘密保护数据的局限

采用商业秘密保护衍生数据,也有其不足之处。主要体现在如下三个方面:

一是商业秘密不保护公开的衍生数据。商业秘密的秘密性和保密性要求使得该保护路径仅适用于未公开的数据,所以在大数据时代,大量公开数据都不具备纳入商业秘密的范围进行保护的条件。

二是即使是未公开的衍生数据,也需要满足法定条件,才能获得商业秘密的保护。目前商业秘密的保护门槛较高,对于互联网平台上积累的海量用户数据,如微博上的大量用户言论、大众点评上的用户评论等无法获得商业秘密的保护。由于企业数据具有海量、来源广的特点,通常是数据收集者经过大范围收集公开或从被授权收集信息中经过加工整理得到的,该类数据是否满足秘密性的要求,是企业数据商业秘密保护的基本门槛。同时,企业数据所采取的保密措施通常只限于收集、处理过程的必要技术手段,这些手段是否构成法律上的合理保密措施有待在个案中予以证明。上述要求使得相当一部分企业数据难以达到商业秘密的构成要件。

三是未公开数据以商业秘密方式进行保护也有其不足。对于不公开的衍生数据仅规制不当获取行为,并非“赋权”的积极保护。以商业秘密保护衍生数据或称商业数据,会加剧数据垄断与数据孤岛,不利于数据的公开和社会福利的最大化。企业数据权益的实现不仅来自对数据的占有和控制,更有赖于数据在数据市场的流转和使用。商业秘密的保护方式可能导致公众难以获取和利用他人在先收集控制的数据,有碍于数据作为生产要素的价值实现和数据产业的发展。在新浪微博诉脉脉案[40]中,新浪亦通过合同约定将相关数据界定为商业秘密,针对淘友公司超授权范围抓取数据行为,微梦公司原本试图通过商业秘密保护路径进行维权。但是,一、二审法院对于“微梦公司的数据是否属于商业秘密”“淘友公司是否侵犯微梦公司的商业数据”等问题均没有予以认定,而是援引反不正当竞争法第二条认定淘友公司的诉争行为构成不正当竞争。上述裁判结果表明了司法机关对于通过商业秘密保护企业数据的审慎立场,也凸显了在现有法律框架下运用商业秘密保护企业数据权益的局限性。

3.在知识产权之下新设数据专有权的局限

在知识产权之下新设数据专有权,可以有其些许的个性,但更需满足与专利权、著作权、商标权等现有知识产权都具备的共性,如创造性、独创性、显著性等往往需要人的参与,才会具备的属性。这意味着,只有少量的数据能被纳入知识产权之下新设的数据专有权,大量的有价值的数据很难满足这样的要求,被排除在知识产权客体范畴之外。随着人工智能、物联网等新技术的迅猛发展,数据井喷、数据洪流态势日益明显,相对刚性且严密的知识产权制度框架很难有足够的容量,无法敞开怀抱接纳数据这类新的生产要素。在知识产权之下新设数据专有权,犹如在大门紧闭的状态下,开启了一扇小窗,让少量满足条件的数据纳入进来,更多的无法满足创造性、独创性、显著性等要求的数据,则不能获得知识产权之下的数据专有权的保护。

六、余论数据在民事权利体系中的应然位置

本文认为,信息产权与知识产权本质上仍是在同一范畴,其区别在于保护范围的大小;数据产权与前二者分属不同的范畴,与其既有并列又有交叉;特定数据已具备知识产权客体形态,则适用知识产权保护(如数据库)。未能纳入知识产权客体范畴的数据集获得法定权利保护的路径,是在知识产权(信息产权)之外,新增一种产权保护模式——数据产权。

在数据产权的保护中,数据主体就个人原始数据享有数据权(人格权和财产权),企业就衍生数据享有数据产权(财产权),相比于知识产权,数据产权获得的门槛理应更低,因此相比于知识产权,数据产权无法也不必要求创造性、独创性、显著性等。衍生数据源自原始数据,无论是从权利来源或正当性来考虑,还是从数字经济时代数据利用的需要考虑,数据产权制度设计不宜采强保护模式,相比现有的知识产权,其取得更容易,故其保护宜比知识产权弱。

在民事权利框架下,信息产权与知识产权本质上仍是在同一范畴,二者的区别在于保护的范围有大小之分,信息产权包含知识产权,故知识产权范围比信息产权的范围要小;数据产权与知识产权、信息产权分属不同的范畴,与其更多的是并列关系,但也有少量交叉。可见,民事权利是个很大的框架,其包含了知识产权、信息产权、数据产权和其他民事权利(见图2)。如何配置民事权利家族中的新成员数据产权,是当前人类社会急需解决的一大难题。

图2