训练数据主体权益保护的新型数据财产权构建*

2023-03-09 17:44李爱君
政法论丛 2023年6期
关键词:财产权数据处理个人信息

李爱君

(中国政法大学互联网金融法律研究院,北京 100022)

生成式人工智能产业的发展以高质量的训练数据为基础,训练数据在整个生成式人工智能研发过程中具有无可取代的重要性。当前的技术趋势常被称为数据驱动的人工智能[1],训练数据不仅决定着生成式人工智能的发展,其性质、结构和特征也决定着训练数据主体权益的保护制度的构建。训练数据是数据应用的一种方式和数据价值实现的重要组成部分,因此其性质是数据。训练数据的性质既然是数据,其主体权益保护制度的核心和基础即是数据财产权制度。训练数据应用所产生的法律问题不仅是数据立法的实践基础,也深刻影响着数据财产权利的性质及其内容,同时是《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“《数据二十条》”)中强调的:“……构建适应数据特征、符合数字经济发展规律、保障国家数据安全、彰显创新引领的数据基础制度”的具体落实。

另外,训练数据的特点是来源多领域、数量大和类别多,除了具有数据的自然属性特征之外,数据承载的权益主体多元化和权益形态多元化的特征更为凸显,由此导致主体某一数据处理行为对多方主体权益和多种权益形态产生影响,并对已有的权利保护制度解决权益主体多元化和权益形态多元化交织而产生不同利益诉求带来的矛盾提出了挑战。训练数据主体权益保护的新型数据财产权是健全人工智能训练数据承载各主体权益保护制度的基础,更是落实《数据二十条》中强调的“建立健全数据要素各参与方合法权益保护制度”的关键。

本文从生成式人工智能训练数据的性质、结构和特征出发,构建训练数据的新型数据财产权制度,为人工智能立法提供理论支撑。

一、生成式人工智能训练数据的性质和结构

(一)生成式人工智能训练数据的性质:数据

依据有关训练数据的界定,生成式人工智能训练数据的本质仍然是数据,但是人工智能训练数据是数据应用的一个场景,生成式人工智能是数据处理行为[2]。生成式人工智能的行为特征和训练数据的本质决定、影响着数据基础制度的建立和数据权利基本制度的性质和内容。

自2023年1月10日起开始施行的《互联网信息服务深度合成管理规定》中首次明确了“训练数据”的含义,即“训练数据,是指被用于训练机器学习模型的标注或者基准数据集”。标注数据集可以理解为一种包含样本和对应标签的数据集,主要用于监督式学习任务,其中模型通过学习样本和标签之间的关联来进行预测。在标注数据集中,每个样本都有一个已知的类别或目标,用于训练模型;基准数据集是在特定任务上广泛使用的标准数据集,用于评估不同算法的性能和比较不同模型的效果。基准数据集通常是经过广泛测试和验证的,具有一定的通用性的数据集。与标注数据集不同,基准数据集通常不针对特定的任务或应用场景,而是涵盖了该领域中各种类型和难度的样本,以便更全面地评估算法的性能。一个数据集既可以是标注数据集,又可以成为基准数据集。例如,在训练阶段,它作为标注数据集用于模型的训练,但在测试阶段,可以用作基准数据集来评估和比较不同模型的性能。

综上分析,训练机器学习模型的标注或者基准数据集的本质都是数据,只是其数据的使用功能有所不同。“在数据应用发展过程中,数据总是和具体的场景、行为和权利相联系,同类数据在不同的场景和不同的处理方式中,其对所涉及的主体利益是不同的。因此,数据(客体)决定数据活动的法律关系,即是法律关系的基础。”[3]训练数据是数据,无论人工智能立法还是数据相关立法,都应当把数据的应用场景作为立法研究的对象,进而能够使人工智能立法和数据立法更为科学化。

(二)生成式人工智能训练数据的结构

训练数据具有双层结构。生成式人工智能训练数据的性质是数据,因此其结构符合数据的结构。根据《数据安全法》第3条对数据的定义:“任何以电子或者其他方式对信息的记录”而得出数据具有双层结构:“数据的载体层和数据的信息层(内容层)”[4]。数据的载体层是通过0、1符号呈现。数据的载体层是数据的表现形式,即0、1组成的代码本身。数据的收集、存储、传输、加工等处理行为均通过对载体层的行为而实现。数据承载的利益主体多元化和利益形态多元化是通过控制载体层所呈现的,如控制主体、处理主体、处分主体等;信息为数据的内容层,是数据所包含的对于客观存在的表达,也是数据分类的一种依据。数据的内容层的利益主体多元化和利益形态多元化是记录的信息来呈现的,不同的信息会涉及到不同利益主体和利益的形态,如被记录的是个人信息就呈现个人信息主体和个人信息主体的权益、著作权的内容就呈现著作权主体和著作权主体的著作权形态。数据的双层结构可以以纸质书籍为例来说明:书等于纸加内容。纸是书的内容载体,而书中所记载的事件、事物、事实和知识等是其内容。书籍的处分需通过对书籍载体的处置来实现,但对于书籍的科目划分、类型划分等则需要根据其所承载的内容来进行判定。书承载的至少有书所有权人和著作权人的利益主体和所有权与著作权的权利形态。

数据载体层与数据信息层(内容层)之间的关系首先体现在数据载体和信息的价值功能的关系上。数据载体具有实现人类目的价值的功能:人类处理数据的目的是为了人类能够获取认识世界、改造世界和治理世界所需要的信息。信息具有人类认识事物、区别事物和消除人类不确定性的价值,是能够直接为人们所阅读和理解的,但人类对信息无法直接控制和处理。数据虽然无法被人阅读和理解,但机器能够阅读、理解、控制和处理数据。数据不仅是对信息的记录,还可以通过载体实现对其控制和处理,进而实现人们获得的信息(内容)价值。数据的处理行为实质是通过对数据载体层0、1符号的处理来实现人类认识世界、改造世界和治理世界所需要的信息。因此数据的载体层所体现的是实现数据处理的功能价值,是信息层能够得到处理和实现价值的基础,是数据能够被技术处理的客观条件,没有数据载体层则数据内容层的信息无法被处理,其处理后所形成的体现数据价值的信息也无法被呈现。此外,数据载体具有实现数据资产化的价值功能。数据通过对数据载体实现对数据的控制、排他、处理和处分,从而实现了具有资产属性的交易、拥有或控制和带来经济利益的要素;实现数据安全的价值。根据《数据安全法》第3条“数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力”,由此可得出,数据安全是通过对数据载体的有效保护使其处于保障持续安全状态的能力,而不是通过人类无法控制的信息层来实现数据安全。

其次,数据规范关系层面,数据信息层(内容层)涉及的法律规定规范数据处理行为,而且数据的信息层(内容层)涉及法律规定的主体权利是数据法律规定涉及主体权利的在先权利,此在先权利对数据客体涉及的权利进行限制。如数据是记录的个人信息,即个人信息数据。对个人信息数据的处理行为不仅遵循数据相关的立法,还应当遵循《个人信息保护法》等数据的内容层法律规定。

最后,从数据的分类层面看,数据可依据数据记录的信息不同进行分类,即数据的信息层(内容层)是数据的分类的一种方式。如数据的信息层(内容层)为个人信息,即为个人信息数据;如记录的商业秘密信息,即为商业秘密信息数据;如记录的有关隐私信息,即为隐私信息数据等。

二、数据的自然属性特征

自然属性即自身事物的面貌、规律、现象以及特征的本质的描述说明。数据具有无体性、可支配性、排他性、可控性和财产属性的自然属性特征。

首先,数据在物理形态上具有无体性特征,即数据不具有物理上的形态。有体物即客观存在的、确定的、有一定体积或者占用一定空间的物,其物理形态可以是固态、液态或者气态。[5]没有物理实体的无体物,如商誉、信用、商业秘密、思想等,此外电力、天然气、光波、电磁波等没有特定形体但能为人力所控制的物一般也被认定为无体物。数据是对信息的电子化记录,在计算机系统中,数据以二进制信息单元0、1的形式表示,通常呈现为非物质性的比特(bit)。比特(bit)是无体性的,它既是数据的载体,也是数据的呈现形式,数据也不再需要如知识产权载体的书、电视等实体物作为物质载体,它的载体是比特(bit)符号(符号载体),只需要相应的数字化系统工具加以呈现,使其所承载的内容可以被直观识别[6],由上分析可见数据具有无体性。

其次,数据具有可支配性。数据是对信息的记录,主要表现为存在于计算机系统中的电磁符号,人们可以通过技术手段以多种方式处理数据,从而实现对数据的支配。数据的产生、存储、加工等都离不开人的行为,数据作为一种客体,通过数据主体对其支配发挥自身的作用和价值。

第三,数据具有排他性,即数据的相关权益主体具有对其他主体通过相同方式获取直接经济利益的排除。一方面,数据的可支配性决定了数据控制主体能够通过技术手段限制其他主体对其数据的访问,此情形下其他主体则无从对这些数据形成控制或进行处理,数据排他性由此实现。“数据双层结构以及数据准占有的概念的构造,数据财产权呈现数据财产权的权利人对权利客体可以通过事实上的管领具备支配、排他性关系。值得注意的是,有学说质疑数据的排他性,其主要的说理角度在于数据可以低成本复制。同时,复制出的新数据并不妨碍原数据的使用排他性为财产之基础,而可复制性体现的是数据客体所具备的竞争性概念,否认竞争性的逻辑并不排斥客体能够具备排他性。”[7]另一方面,数据的处理、处分和收益主体有权决定是否赋予其他主体同等的数据权利,通过对于数据处理、处分、收益之权利的限制而实现数据的排他性。

第四,数据具有可控性。数据财产权权利人对于数据载体具备管领的能力。数据无物理形态,但数据是通过数据的载体层实现对数据存储,如“数据载体可置于自己的电脑或移动硬盘之中。电脑、移动硬盘排他性权利的支配,可确保数据财产权权利人对于电脑、移动硬盘中数据所置于的数字空间的结合性”实现控制。另外,“数据载体亦可置于网络硬盘之中,如数据财产权权利人并不具备对提供网络硬盘储存空间实体硬盘的所有权。但是,对使用网络硬盘所对应的密钥可实现数据财产权人对网络硬盘中的数据的控制。”[8]相对于空间、时间关系的构成则更好理解。从时间角度上来看,电脑、移动硬盘、网络硬盘上的权利所存在时间上的继续性,同样可以映射权利人对数据在时间上的结合。

第五,数据具有财产属性。数据具有财产属性是通过数据具有经济价值来判断的。数据的经济价值表现为使用价值和交换价值。数据的使用价值体现于其应用过程能够满足人们生产生活的需要,是一种生产要素。党的十九大即指出数据新型生产要素的地位,2020年4月,国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,首次提出加快培育数据要素市场。2022年1月国务院发布的《“十四五”数字经济发展规划》中再次指出,数据对提高生产效率的乘数作用不断凸显,已成为最具时代特征的生产要素。国家对于数据的生产要素地位的认可和重视,足以证明数据的使用价值已是共识。数据的交换价值则体现在数据及其衍生品能够通过处理许可、转让等方式进行交易,为人们带来直接的经济利益。当前,数据交易已经成为一种产业,数据交易产业的存在本身也表明了数据的交换价值。另外,无论是数据的使用价值还是交换价值,其价值形成均离不开劳动。数据的应用需要算法、模型等技术手段,体现了劳动创造数据的价值。综上,数据具有经济价值,因此数据具有财产属性。

三、生成式人工智能训练数据承载的权益主体多元化

生成式人工智能不仅核心要素是数据,而且其技术初期在大算力的支持下需通过对天文级数据运行强算法,训练得到生成式人工智能大模型。另外,在生成式人工智能的升级迭代过程中,大模型将运行过程中继续收集和产生的数据纳入训练数据中,由此对自身进行再训练以提升生成内容的准确性和丰富性。生成式人工智能其实质是一种数据处理行为,该行为指向的是数据。生成式人工智能训练模型的过程就是数据处理的过程,该过程中的创建、运行和改进都离不开对数据的处理。生成式人工智能的训练数据的量级及收集数据的特点与生成式人工智能的数据处理行为属性导致了生成式人工智能训练数据承载了权益主体多元化的特征。

首先,训练数据(基准数据集)具有多样性。训练数据的多样性是指训练数据涵盖了多种不同的情况、类别或特征。多样性数据是训练数据的必要基础,因为多样性的数据有助于模型学习更全面的模式和特征,培养强大、具有广泛应用能力的生成式人工智能模型,提高泛化能力、提高模型的性能和创新能力,减少偏见和歧视。如健康医疗领域的生成式人工智能模型的训练数据包括个人基本信息数据、健康状况信息数据、医疗应用信息数据、医疗支付信息数据、卫生资源信息数据以及公共卫信息数据等。随着电子病历、互联网医疗、AI医疗影像等技术的应用和普及,医疗数字化浪潮袭来,各类健康医疗数据采集变得更加立体,获取数据的渠道越来越多,由单一的录入转变为群聚式收集[9],其广泛性和复杂性使其数据承载的权益主体呈现出多元化的特征,具体呈现的承载权益主体有个人信息主体、医疗机构、公共卫生机构、管理机构、科研机构等。

其次,生成式人工智能具有数据集成性。在人工智能大模型之前,人们要通过不同的网页、知识社区、网络百科等途径来获取数据。生成式人工智能的数据集成性是指将若干互为独立、分散的数据源中的数据进行逻辑地或物理地集中统一到一个数据集合之中,其实质是提高了人类获取信息的能力和实现高效率的数据共享。从生成式人工智能的数据集成的定义可以得出,生成式的人工智能训练数据量巨大和涉及面广,因此生成式人工智能的数据集成性涉及的权益主体将是多元化的。

第三,生成式人工智能训练数据海量化。生成式人工智能大模型的创建和运行均需要巨大的数据量,其“想象力”和创作能力是在海量数据的基础上由计算机学习和模拟生成的,数据量不足将会导致生成的内容质量不佳。目前市面上的生成式人工智能无一不是通过巨量数据实现内容创作。例如知名的计算机视觉项目Image Net在众包任务中有超过25000人参与,标准图片超过1400万张;而Open AI更是收集了4亿个文本图像配对数据进行预训练。[10]生成式人工智能的训练数据海量化,无论从类别繁多,还是单一类别的数据海量化都涉及权益主体多元化。如类别繁多:涉及个人信息数据、商业秘密信息数据、知识产权信息数据和个人隐私信息数据,涉及的权益主体有个人信息权益主体、商业秘密主体、知识产权主体和个人隐私主体;从某一类数据的量的巨大上来看,涉及权益主体多元化:如一个海量的个人信息数据库,所承载着海量个人信息权益主体。

第四,生成式人工智能训练数据的处理行为涉及权益主体多元化。生成式人工智能本质是一种数据处理行为。在生成式人工智能之前,法学界已经对其上位概念“人工智能”进行过研究,并产生主体说和工具说两种观点。然而,将人工智能定位为一种法律主体,既不符合法律服务于人类生存发展的价值,也无法论证其具备法律主体应有的各种能力资格。因此,作为人工智能的子概念,生成式人工智能同样应当被视为背后的研发者、制造者和使用者的法律行为。[11]欧盟的《人工智能法案》第28条第四款提到了生成式人工智能,将其描述为“在人工智能系统中使用基础模型,专门用于以不同程度的自主性生成复杂的文本、图像、音频或视频等内容”。从这个定义可以看出,欧盟在法律中将“生成式人工智能”定位为一种行为。我国《生成式人工智能服务管理暂行办法》将“生成式人工智能”定位为“技术”,如“生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。技术是人类改造自然、改造社会、以及改造自我的过程中所用到的一切手段和方法的总和。技术是人类特殊的劳动工具,是人类行为的一种延伸,由此生成式人工智能是行为,且是数据的处理行为。

根据我国《数据安全法》第3条的定义数据处理是行为束,包括:“数据的收集、存储、使用、加工、传输、提供、公开等。”而且数据处理行为是法律行为,“法律行为的本质,在于旨在引起法律效果之意思的实现,在于法律制度以承认该意思方式而于法律世界实现行为人欲然的法律判断。”[12]行为是主体行使的,法行为同样是来自主体的活动。数据处理法律行为是多个行为束,每个行为都有可能涉及一个主体,多个行为就涉及多个行为主体,如收集、存储、使用、加工、传输、提供、公开等行为主体,这些行为主体可各自独立存在或两个及两个以上行为集于一个主体,因此会涉及数据处理行为束中的收集、存储、使用、加工、传输、提供、公开的行为主体权益,由此数据处理行为涉及的权益主体多元化,即生成式人工智能(数据处理行为)权益主体多元化。

第五,数据的信息层(内容层)所涉及的权益主体同样呈现多元化。前文已对数据记录的内容(信息)层进行了分析,数据记录的内容(信息)层如是个人信息就涉及个人信息权益主体、如是记录隐私信息数据就涉及隐私权益主体、如是记录的著作权内容则会涉及著作权主体、记录的如是某商业秘密就涉及商业秘密主体、记录的如是国家秘密的内容就涉及国家主权主体等等,因此,数据的信息层(内容层)所涉及的权益主体同样呈现多元化。

综上分析,无论是从训练数据(基准数据集)具有多样性、生成式人工智能具有数据集成性、生成式人工智能训练数据海量化和生成式人工智能训练数据的处理行为,还是从数据的信息层(内容层)方面分析,生成式人工智能训练数据所涉及的权益主体都还是呈现出多元化的特征。

四、生成式人工智能训练数据承载的权益形态多元化

训练数据不仅承载的权益主体多元化,还呈现出权益形态多元化的特征。首先,数据通过载体实现的数据处理过程中呈现了承载权益形态的多元化。依据《数据二十条》中“根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”规定数据承载的利益形态有数据持有权、数据加工使用权、数据产品经营权的多元化权益形态。数据持有权、数据加工使用权、数据产品经营权可以集于一独立主体之上,也可以由不同主体所承载,即分别为不同主体持有。数据持有权、数据加工使用权、数据产品经营权无论是集于一主体之上还是各自独立的主体,都呈现了数据所承载的权益形态多元化的特征。

其次,数据记录的信息层承载权利形态多元化。对数据记录信息的相关概念分析可得,信息是指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容,是对客观世界中各种事物的变化与特征的反映。[13]信息的概念以“一切内容”和“客观世界中各种事物”为核心客体的表述。因此信息涉及的主体权益形态是多元化的。

(一)个人信息权益形态

《个人信息保护法》第2条规定:“任何组织、个人不得侵害自然人的个人信息权益”。《个人信息保护法》在保护“个人信息权益”的基础之上在第四章中规定了“个人在个人信息处理活动中的权利”,如,个人对其个人信息的处理享有知情权、决定权,有权限制或者拒绝他人对其个人信息进行处理;个人有权向个人信息处理者查阅、复制其个人信息;个人请求将个人信息转移至其指定的个人信息处理者,符合国家网信部门规定条件的,个人信息处理者应当提供转移的途径;个人发现其个人信息不准确或者不完整的,有权请求个人信息处理者更正、补充;个人请求更正、补充其个人信息的,个人信息处理者应当对其个人信息予以核实,并及时更正、补充等。个人信息权益呈现出多元化特征。

(二)隐私权形态

隐私信息数据记录的内容涉及个人隐私权形态。根据《民法典》第1032条第二款:“隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。”隐私是自然人免于外界公开和干扰的私人秘密和私生活安宁的状态,是不愿告人或不愿公开的个人私事。隐私的概念从产生以来,在国内外一直存在争议,主要观点有私人领域说、私人秘密和私人信息说、生活安宁和秘密说。[14]其中,前两种观点要么过于宽泛,要么过于狭窄,无法较为明确地定义隐私的内涵。生活安宁和秘密说将隐私分为私人生活安宁和私人信息秘密两类。我国学界的通说认为,隐私是指个人对其生活安宁和生活秘密不受他人披露和干涉的状态,隐私权是自然人享有的私人生活安宁和私人信息秘密,不得被他人非法侵扰、知悉、收集和公开的人格权。[15]依据《民法典》第1032条,“自然人享有隐私权”。隐私权是指个人对其私生活安宁、私生活秘密等享有的权利。[16]

隐私权被认为是“个人自我决定权能得以发展的基本前提,而个人的自我发展又是现代社会民主秩序的基础”。[17]隐私权的客体包括隐私信息、私人空间、私生活安宁等。隐私权的客体在大数据时代都可能被数据化,即是数据记录的信息层(内容层)。因此数据承载着隐私权的形态。

首先,隐私信息在大数据时代可被数据化为隐私信息数据。隐私信息数据是指用电子或非电子形式记录的隐私信息。个人邮箱和邮件是典型的隐私信息数据化。入侵个人邮箱,拷贝其邮件,是非法获取隐私数据的行为,侵犯了他人的隐私权。

其次,自然人的私人生活空间是隐私的一种形态,传统意义上的侵犯此种隐私形态是指自然人非法进入他人住宅、查看住宅内情况,如此则是干涉他人私人生活空间隐私,也是侵犯隐私权的行为。因此,此种隐私形态不属于隐私信息,是与隐私并列的一种隐私形态。但在数字时代,侵犯此种隐私形态却被数据化、进而被信息化了。于是侵犯隐私空间的行为从非法进入他人住宅,查看住宅内情况,干涉他人私人生活空间隐私,就转变成了对隐私数据的处理的行为。由于互联网技术、现代信息技术和数据技术使本与隐私信息无关的私人空间数据化、信息化,数据处理行为可成为侵犯隐私空间的行为,被数据化的私人空间承载着隐私权形态。

最后,私密活动隐私形态不属于隐私信息,是与隐私并列的一种隐私形态,传统私密活动不呈现数据化特征,但在数字时代的今天,私密活动无时无刻不在数据化,即被电子或非电子的形式记录着。传统的私密活动只要隐私主体不公开就可以实现个人隐私的保护,但数字时代私密活动在一定的条件下无时无刻都在被数据化和信息化,进而转变为隐私信息数据。私密活动转变为隐私信息数据,此部分隐私信息数据承载隐私权的样态。综上分析,数字时代《民法典》中的私密空间、私密活动、私密信息都可以被数据化和信息化,因此数据承载着隐私权。

(三)知识产权权利形态

《民法典》规定了民事主体依法享有知识产权。依据《民法典》第123条,民事主体依法对作品和商业秘密享有知识产权权利。①生成式人工智能生成的内容主要为文本、图片、音频、视频等,其收集的数据内容也集中于上述类型,极少涉及发明、实用新型、外观设计和商标,故而对于收集数据内容为知识产权保护的“作品”的保护主要为对于作品著作权的保护。因此数据承载着著作权的样态。

知识产权是权利人依法就商业秘密客体享有的专有的权利。商业秘密数据承载着《民法典》第123条的专有权利。商业秘密数据是指关于经营者记录商业秘密的数据,是商业秘密的一种记录形式。根据《反不正当竞争法》第9条的规定,商业秘密“是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。”商业秘密具有价值性、秘密性、保密性等特性。当经营者掌握的数据记录的信息确实具备上述特征时,可以认定为商业秘密信息数据。依据《数据二十条》的指导思想“……以维护国家数据安全、保护个人信息和商业秘密为前提……构建适应数据特征、符合数字经济发展规律、保障国家数据安全、彰显创新引领的数据基础制度”可以得出,商业秘密是数据所承载的《民法典》所保护的专有权利。

(四)国家安全利益和国家主权形态

依据《宪法》第54条规定:“中华人民共和国公民有维护祖国的安全、荣誉和利益的义务,不得有危害祖国的安全、荣誉和利益的行为。”数据承载着国家的安全、荣誉和利益。《数据安全法》第1条规定:“为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,制定本法。”尤其《反间谍法》第4条中列举的危害国家安全的行为中的“窃取、刺探、收买、非法提供国家秘密”可以实现数据化,另外通过对不呈现国家秘密的数据和不涉及国家安全、荣誉和利益的数据处理,也可使其承载国家安全利益和国家主权形态。企业和政府掌握的数据中有一部分涉及国家安全,如军事秘密、政府的机密文件等。这些涉及国家安全、国家利益的数据,在我国的对外关系方面中具有数据主权的权利属性。近年来,已经发生过多起境外势力非授权访问、获取我国涉密数据的案件,此类案件警示我国密切关注复杂而严峻的网络安全形势。由此,数据承载着国家主权形态。

综上分析可以看出,数据无论自身通过载体层还是被记录的信息层(内容层),都可能承载着多元的权利和利益的形态。

五、生成式人工智能训练数据主体权益保护问题

(一)隐私权保护问题

生成式人工智能训练数据可能涉及大量的隐私信息数据,需要通过隐私计算、联邦学习、脱敏等方式进行保护。由于生成式人工智能需要的训练数据是海量的数据集,这些海量的数据集可能涉及大量的隐私信息数据,而且在提供生成式智能服务之时也会可能获取了大量的隐私信息数据,如果这些数据被窃取或泄露就会产生隐私权被侵害的情况。另外,生成式人工智能是对数据的处理行为,生成式人工智能模型还可能会生成一段包含特定个人的姓名、电话号码、电子邮件和住址等个人隐私的信息文本。目前存在的数据投毒风险,即通过对训练数据加入恶意数据的方式,在模型中植入后门,并通过特定输入触发后门。因此,要防止通过特定的输入,诱导大模型输出训练数据集中个人身份识别信息等隐私信息数据,以保障训练数据的安全性。生成式人工智能的健康发展应建立在维护隐私安全的基础之上,应当从制度和技术两个层面对数据源头和处理行为进行安全治理,应当通过构建系统性训练数据防火墙,控制和防范数据泄密,建立规范数据处理行为的科学制度,以此保障生成式人工智能的健康发展。

(二)个人信息主体权益保护问题

训练大模型需要海量数据,如果挨个获取个人信息主体的授权同意,则成本极高且操作复杂,故而实践中知情同意制度在生成式人工智能技术研发过程中的适用并未有明确的落地要求,这就导致个人信息处理的同意权受到侵害。生成式人工智能训练数据泄露的风险高、且一旦泄露很难通过事后救济的手段挽损,因此生成式人工智能提供者仍需在收集个人信息数据时获取信息主体的知情同意。知情同意规则在我国经历了数十年的完善,在《个人信息保护法》中进一步得以确认,是个人信息处理活动过程中不可或缺的规则之一。从制度层面看,知情同意规则是同意规则和知情规则的有机组合,而知情同意规则的法理基础则涉及民法领域的意思自治原则以及信息保护领域的信息公平。在民法领域,信息自治是保障民事主体意思自治的核心内容,是实现信息主体自主权利行使的重要手段。在意思自治的指引下,信息主体根据自己的意志自由决定自己的个人信息流向何处、被谁收集、如何处理。

对于企业和用户提供的数据,均需考虑获取个人信息的知情同意问题。信息主体的同意对个人信息数据的收集、处理起到了承上启下的作用,因为有效的同意可以起到平衡作为个人信息数据处理者的生成式人工智能技术研发者和信息主体之间信息不对称的作用。生成式人工智能技术研发者作为信息处理者,在收集、处理信息主体个人信息数据时,收集的主体、目的、对于收集的个人信息数据将进行何种处理以及是否将收集的个人信息数据向第三人转移等问题,对于缺乏专业知识的普通人来说,往往具有不可知性,且难以理解其中的内容。因此,对于被收集个人信息数据的普通大众而言,生成式人工智能技术研发者不仅拥有技术方面的优势,同时还拥有大量的“信息优势”,应当以同意为前提,合法合理地收集信息主体提供的个人信息。

(三)知识产权侵权问题

首先,追究复制行为的侵权责任事实上极为困难。我国《著作权法》第24条规定,“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。”并列举了合理使用的十二种情形以及“法律、行政法规规定的其他情形”,目前来看,训练数据采集不符合法定的十二种情形,且实践中当事人难以举证人工智能抓取或者使用了相应作品,因此给复制行为的侵权责任认定带来了挑战。

其次,人工智能生成内容的著作权保护也存在问题。目前生成式人工智能的著作权有四种保护模式:一是雇佣作品的保护模式,法律可以通过保护机器人的作品达到保护创作人和所有人的目的,参照《著作权法》关于职务作品和雇佣作品的规定,由创制机器的人而不是机器人享有和行使权利。二是孳息的保护模式,认为人工智能作为原物、生成物是人工智能的天然孳息,人工智能硬件所有者应该作为原物所有者享有孳息的权益。三是邻接权保护模式,将人工智能生成成果作为数据成果归入广义的邻接权客体,在著作权法上的邻接权制度中创设数据处理者权,数据处理者对其以数据为基础并通过技术处理获得的具有独创性的成果或不具有独创性但是具有经济价值的成果享有财产权,具体可以包括许可他人复制、发行、通过信息网络向公众传播并获得报酬的权利等。四是孤儿作品的保护模式,人工智能的生成物如果适用孤儿作品的保护模式就可以克服人工智能创作主体缺失的问题,并在人工智能自身不能自行传播、版权人不清楚、联系不上的前提下可以更好地利用和传播作品,充分利用人工智能的功能价值。但上述四种模式之间不仅存在纷争,且各有弊端。

(四)国家安全问题

2017年12月8日,习近平总书记在中共中央政治局就实施国家大数据战略进行第二次集体学习时指出:“要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度建设。要制定数据资源确权、开放、流通、交易相关制度,完善数据产权保护制度。”在训练数据获取方面,生成式人工智能大模型在无人工干预的学习环境下,由算法组成的大模型会对现有数据库中违反法律法规的训练数据不加过滤地吸收学习。获取非法来源的数据会导致生成式人工智能侵犯数据安全乃至国家安全,严重者还可能构成非法获取计算机信息系统数据罪或帮助信息网络犯罪活动罪等刑事犯罪。在内容生成方面,《网络安全法》《互联网信息服务管理办法》等法律从社会危害性和国家安全的角度出发,明确列举了生成式人工智能的禁止生成内容,如反对宪法所确定的基本原则、泄露国家秘密的内容,《网络安全法》第12条第二款作出具体规定:“不得利用网络从事危害国家安全、荣誉和利益,煽动颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,传播暴力、淫秽色情信息,编造、传播虚假信息扰乱经济秩序和社会秩序,以及侵害他人名誉、隐私、知识产权和其他合法权益等活动”。

六、生成式人工智能训练数据新型财产权构建

数据财产权是指以财产利益为内容,直接体现财产利益的民事权利。数据财产权结构是由权利主体、客体和内容组成。数据财产权结构的客体是“数据”,权利主体包含自然人、法人及其他组织所有相关的民事权利主体,内容为权利与义务。数据财产权制度的规范主体绝不仅仅限定于企业,而是对于所有民事权利主体均具有规范效力。无论是个人、企业、机构还是政府部门,任何民事主体只要开展、参与了数据要素市场活动,均应当遵循数据财产权制度的规范和约束。数据的自然属性特征兼具物权、知识产权与债权的客体特征,但又不同于其客体的特征。因此,物权、知识产权与债权都不能涵盖训练数据权利,应当重新构建适合数据性质、结构和特征的训练数据新型数据财产权制度。

(一)构建以“数据”为客体的训练数据之数据财产权制度

财产权是以财产为客体的权利,其特点是权利直接体现经济价值和权利可以转移。构建以“数据”为客体数据财产权制度,数据应具有财产属性。德国学者卡尔·拉伦茨在第一层含义上使用“财产”,他认为:“某主体的财产是其具有经济价值的多个权利所集成的,只有具备经济价值的权利方为财产,这些权利在一定的法律关系中可以转化为物质利益。”

首先,训练数据具有财产属性和数据权利具有经济价值。国家政策和法律层面认可了数据具有财产属性,《民法典》总则部分第127条中规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定”。这是国家立法首次明确提出对于“数据财产”的保护。该条规定明确了对于数据财产依法保护的基本原则,也为后续的数据产权保护立法提供了依据。然而,此条中的“保护”集中于“数据财产”,而未有对于“数据产权”的表述。立法的选择是将“数据”和“虚拟财产”并列,表明两者有相似性,隐含着立法对数据财产属性的认可。2020年4月,国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》、2022年1月国务院发布的《“十四五”数字经济发展规划》数据作为生产要素也充分证明了数据具有经济价值,数据具有经济价值意味着以“数据”为客体的权利具有经济价值。司法层面,在淘宝诉美景不正当竞争案件中,法院判决载明数据产品作为经营者的重要劳动成果,是经营者的重要财产权益,一定程度上认可了数据的财产属性,

其次,训练数据权利可以转移。数据权利的转让通常是通过交易完成的。数据如能交易就意味着建立其之上的权利可以转移。2015年印发《国务院关于印发促进大数据发展行动纲要的通知》,明确了发展大数据、促进大数据交易的要求。大数据是数据的集合,大数据可交易决定了数据可交易,进而决定了以“数据”为客体的数据财产权是可以交易的。交易是转移的一种方式,由此数据财产权是可以转移的。社会实践层面,自2014年2月以来,我国地方建立了大量的数据交易所、数据交易中心等,还颁布了地方的交易规则。这些交易场所的运行及交易规则,充分证明了数据权利是可以转移的。另外,数据的交换价值体现在数据及其衍生品能够通过处理许可、转让等方式进行交易,为人们带来直接的经济利益。因此数据权利的构建是财产权利。[18]

(二)构建符合数据自然属性特征的训练数据新型数据财产权利

数据本身的性质、结构和特征决定了数据权利是一种新型财产权利。《民法典》中的物权、债权、知识产权制度都无法调整该数据财产权,因此要重新构建数据财产权制度。

第一,训练数据的自然属性特征与《民法典》中民事主体的财产权利客体是不相容的,因此难以纳入已有的民事主体的财产权利保护之中。数据自然属性的特征与《民法典》物权的“物”不同。数据的自然属性虽然具有无体形与物权法中的水和电极为相似,但水和电实质是具有物质属性,但数据不具有物质属性;水和电是借助载体呈现现状,但数据不能借助载体呈现形状,而是借助载体存在。其次,数据具有可复制性,但物权的“物”都不具有可复制性;再其次,多个主体对同一数据载体同时或不同时进行处理互不影响。另外,也可通过对数据复制的内容相同载体也可实现同时使用互不影响。由此,数据具有非竞争性,但物权的“物”不具有此特征,物权的“物”具有竞争性。第四,数据的使用价值和价值在其被支配的过程中没有损耗,具有价值无损性。[19]而物权中的“物”的使用价值和价值在其被支配的过程中是具有损耗的。第五,数据与物权都具有独占性和排他性,但独占性和排他性实现的方式却不尽相同。数据是通过技术和通过对其载体的控制实现独占性和排他性的,而物权的“物”的独占性和排他性是通过对“物”物理形态的占有和控制来实现的。

第二,依据数据自然属性的特征,训练数据与《民法典》规定的知识产权的客体不同。知识产权的客体是指人们在科学、技术、文化等知识形态领域中所创造的精神产品,即知识产品。当代西方学者从知识产品的财产属性出发,将知识产权的客体称为“知识财产”。[20]数据与知识产权客体“知识财产”有一定共性,如客体的无体性,可复制性和使用无损耗性等,但数据以电子或非电子的形式对信息的记录,具有客观性而不具有知识产权的权利客体的“创新性结构”。[21]知识产权的客体是属于数据的信息层(内容层),知识产权保护人们对该类信息的控制和支配。[22],数据权利是对数据的控制和支配。因此无法被纳入知识产品的范畴成为知识产权的权利客体。知识产权主体对知识产权的控制和支配是通过法律制度的设计实现的,而数据权利主体对数据的控制与支配是通过技术和其载体实现的。

第三,依据数据自然属性的特征,训练数据与《民法典》规定的债权的客体不尽相同。依据《民法典》第118条的定义,“债权是因合同、侵权行为、无因管理、不当得利以及法律的其他规定,权利人请求特定义务人为或者不为一定行为的权利。”从主体上看,债权的主体是特定的,但数据财产权利的主体却不是特定的。从客体上看,债权的客体是行为,而数据财产权利的客体是数据。从内容上看,数据财产权利人对自己合法控制的数据财产可依法控制、处理、处分和收益,不同于债权需要借助于他人的行为实现主体自身的权利。债权人的权利主要表现为要求债务人为一定行为或不为一定行为,而数据财产权利人是对数据的控制和支配。

综上,数据财产权既不符合《民法典》中的物权、知识产权和债权的制度构建逻辑,亦无法被纳入其制度的范畴之中,且其客体与物权、知识产权和债权的客体存在着本质的差异,因此,数据财产权应构建为一种新型财产权。

(三)构建以平衡权益主体多元化和权益形态多元化保护为原则的数据财产权内容

上文已分析了训练数据承载的权益主体多元化和权益形态多元化,因此训练数据新型数据财产权制度的构建应以平衡多主体权益和权益形态多元化为原则。数据财产权制度“是通过调整载体层面呈现的法律关系来实现利益协调与调整,以及数据记录的信息层面(内容层面)涉及的利益主体协调与调整。”

数据财产权制度的目的价值是通过其权利内容的构建来实现的,因此其权利的内容应实现数据承载的权益主体和权益形态多元化特征的权益保护的平衡。从构建数据财产权的实际目标出发,依据数据实现经济利益的具体路径,数据财产权可以包括数据财产权主体对数据可以行使的控制、处理、处分和收益的四项权能,而且控制、处理、处分和收益的四项权能可相互独立分置于不同主体,也可以集于一个主体。《数据二十条》中的数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,在理论层面可以包含在数据的控制权能、使用权能、处分权能和收益权能中。此种权利的内容建立不仅符合数据的性质、结构和特征,而且能够实现《数据二十条》中数据产权制度构建的诉求。

1、数据控制权

数据控制权的建立与数据自然属性的可控性和排他性特征相契合,且数据控制权的建立能够实现《数据二十条》中的数据资源持有权。数据控制权是在事实上管领和控制数据的主体(自然人、法人和非法人)享有的权利。赋予其数据控制者的控制权是在法律上承认这种事实状态的权利效力,数据控制权利归属于数据控制主体是一种简单高效、符合实际情况的制度设计。

数据控制权是数据处理权的前提和基础,只有实际控制数据才能进一步处理数据。[23]数据控制权是通过对数据载体层有权控制来实现对数据的控制的,对于不具有对此数据载体控制人的对抗权能,保障数据控制权人的合法权益,以对抗非法数据控制权人权益。数据控制权是通过对数据载体层控制实现对数据的控制权,而不是数据记录信息的相关主体。

数据控制权的建立应体现数据承载的多主体权益和权益形态多元化保护及实现《数据二十条》中的数据资源持有权。本文没有采用《数据二十条》中的数据资源②“持有权”,是因为《数据二十条》中的“持有权”没有充分体现数据本身的特征,数据应以控制来体现对数据的占有。数据的控制与物的占有呈现的方式是不同的,数据控制是强调主体对于数据拥有访问、读写和调取等权限。如数据的存储不能作为数据控制的方式,数据存储仅涵盖了数据以某种格式记录在存储介质上的过程,而不具有对数据的管领控制力,此存储主体不拥有对数据的控制权。

数据控制权作为数据财产权重要的一个基本权利内容,在法律允许的范围内,数据控制权主体可以行使自己所拥有的数据处理权、数据处分权、数据收益权,也可将自己所享有的数据控制权转移给其他主体。数据控制权主体可以对自己所享有的数据资产进行处分,并获得数据资产产生的收益,亦可以对数据进行处理;数据控制权主体可以处分自己所享有数据处理权、数据处分权或者数据收益权的部分权利,将特定数据财产权利内容处分给他人享有。

2、数据处理权

数据处理权是实现数据使用价值的关键。数据处理权是广义上对数据开发利用的权利,只要不是法律法规所禁止的,数据开发利用的各种可能形式:包括以各种方式、技术手段使用、分析、加工数据的权利均涵盖在内。数据处理权是实现数据使用价值的关键。马克思主义政治经济学认为,使用价值是由具体劳动创造的。因此,数据的使用价值只能通过人对于数据的处理劳动,即数据处理行为才能创造出来。在现实的经济活动中,数据使用价值的实现必然要体现在数据的处理行为之上,数据能够带来的相关增值和资产化也需要通过数据的处理行为来获得。《数据二十条》中的“数据加工使用权”包含在数据的处理权之中,因为《数据安全法》中的数据处理的定义包括“使用加工”行为。

数据处理权的行使应对数据承载的多主体权益和权益形态多元化保护实现平衡。数据处理权的实现是通过对数据载体实现的,但数据处理权的行使应当保护数据内容层承载的主体的合法权益,不能违反相关法律的规定。以处理个人信息数据为例,处理者至少应当满足《个人信息保护法》第13条规定的合法性基础条件,具体可以分为意定基础和法定基础,前者是基于个人的“知情——同意”授权而取得的合法性,而后者是在“履行法定职责或法定义务”“新闻报道、舆论监督”“处理已公开的个人信息”等情形下基于法律的明确授权而取得的合法性。对于不具有合法性基础或超出合法性基础的个人信息数据,个人有权依据《个人信息保护法》第47条的规定请求处理者删除相应数据。

3、数据处分权

数据处分权是对上文的数据控制权和数据处理权进行处分的权利,是让渡数据控制权和数据处理权,从而赋予他人对特定数据的控制、处理等行为以合法性。数据的转让③、共享④、开放⑤、融合和许可使用等都可以视为数据处分权的行使,其实质均可视为对数据控制权、数据处理权的不同处分方式的组合。如,数据的融合可以视为是以特定数据的控制权和处理权为对价,取得融合方的数据的控制权和处理权的处分方式。数据处分权是实现数据交换价值的基础,是实现数据经济价值和数据要素价值的制度保障。数据通过处分权实现的数据转移涉及到数据的载体层和数据的内容层主体的权益,因此数据处分权主体应当充分保护数据的载体层和数据的内容层主体的合法权益。以个人信息数据为例,《个人信息保护法》第23条规定:“个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。”因此,如果数据处分权主体想要转让载有个人信息的数据的控制权与处理权时,应当取得个人的单独同意。当然,如果数据处分权主体对该部分个人信息数据已经完成了匿名化处理并不可复原,此时因为数据不可能再影响到个人信息权益而不再需要取得个人的单独同意。

除了对于数据控制权和数据处理权的一并处分之外,数据处分权人行使自己的数据处分权还可以分别对数据控制权和数据处理权进行处分。第一种情况是处分特定数据的数据控制权,将特定数据控制权转移给其他主体所享有,或者直接放弃数据控制权。如出卖、转让、融合、许可使用、消灭、开放和共享等数据处分的行为。数据处分权主体可以通过处分行为出卖、转让、融合、许可使用、消灭或者开放共享将自己所拥有的数据资产进行处分。数据控制权处分实际为数据控制权人行使自己的数据处分权将特定数据资源的数据产权整体让渡,这是在数据权利层面上的数据处分权的行使。第二种情况是数据处分权人可以将自己所享有的数据处理权让渡。数据处分权人处分数据处理权是将特定数据资源的数据处理权让渡,这是在载体层面上处分数据资产。比如淘宝(中国)软件有限公司所设计并推出的“生意参谋”软件就是数据控制权人对于其享有的数据载体层的数据进行处理,由此产生的一个数据产品,并通过行使自己的数据处分权,将自己所享有的数据资源部分开放,并收取相应的费用允许购买者使用,但被允许使用的购买者享有的仅仅只是部分的数据使用权能,而非转移数据控制权或者数据处理权。

4、数据收益权

数据收益权是指数据控制权人对于特定数据资产所产生的孳息享有的收益权利。行使数据收益权的时候分为两种情况:第一种是在载体层面上享有由数据本身所产生的孳息,大体上分为通过自己经营数据资产而获得收益或者买卖数据资产所获得的收益。第二种是通过行使数据处分权、处分数据权利获得的合同对价收益。

数据收益权也是数据财产权的重要内容,是取得行使数据处理权、数据处分权所产生的收益的权利。数据收益权可实现《数据二十条》中的数据产品经营权。在传统民法理论中,所谓收益是指收取标的物所产生的利益,具体而言是收取标的的法定孳息和自然孳息。具体到数据领域,数据收益权包括两类,一类是基于对数据处理权的行使而取得财产性利益的权利,例如对合法控制的数据进行进一步的采集、加工、分析、整理,投入了资本和创造性智力劳动,产生了新的数据资源;另一类是基于数据处分权的行使而取得相对方支付的对价的权利,例如将其合法控制的数据许可其他企业使用,由其他企业支付相应的使用费用。经济生活中,收益的取得是市场主体进行各类市场行为的驱动力,数据要素市场自然也是如此,因此数据收益权是数据要素市场运行和发展的基础。

(四)构建数据双层结构的有限数据财产权利

训练数据可以分为载体层和内容层(信息层)且数据承载的权益主体多元化和权益形态多元化,由此可能存在多种权益主体与多层利益主张。数据财产权的立法主要是调整数据客体所形成的法律关系,即通过调整对于载体的行为,实现对数据的处理行为及所形成的法律关系的调整。但数据内容层的相关法律规定应首先对数据的处理行为进行调整,之后如涉及到人格权价值的具体问题,再回归到人格权私法理论、从其他的法律路径进行保护。也即内容层面的立法非数据财产权立法应当解决的问题,保护人格权利益应由《个人信息保护法》等内容层面的法律加以调整[24]。以包含个人信息的数据为例,尽管数据处理者有数据财产权,但在行使数据财产权时,首先应当尊重保护内容层主体的利益并遵守相关制度,确保个人信息主体的合法权益不受损害,从而实现数据流通与保护、经济价值实现与人格权益保护等多重目标。这种产权配置方式与传统的物权表现出显著的区别,具体表现为积极权能和消极权能的广泛受限,主要受到内容层主体和数据流通目标的限制。只有通过复杂的限制结构,才能对接、协调和平衡数据之上的复杂利益关系。

首先,数据控制权应受到个人信息保护制度的限制。数据可复制性仅体现数据作为商品的“非竞争性”,并不能否定数据具备排他性的财产性质。可借鉴民法理论中“准占有”概念构造数据的排他性。数据财产权作为一种非源于有体物的权利,在数据财产权移转的过程中,数据财产权依附于数据内容,而数据内容则是基于对数据载体的使用。通过适当的规则设计,参照民法理论中的“准占有”制度,数据载体可被数据财产权的权利人“准占有”,为数据处理者提供其对数据的“排他性”。[25]其中,最基础的法律利益即为数据处理者对数据的控制。数据处理者依法取得数据后,即享有对相应数据的实际控制力,他人不得对数据实施非法侵入、干扰、盗窃、破坏等行为,进而非法获取数据或者改变数据的事实状态。[26]控制权能表现在处理者享有控制相应数据的自由,但数据财产权的控制权能并不同于所有权的占有权能具有持续而稳定的特征,而因其合法性来源不同而具有不同的稳定性。除此之外,不论控制个人信息数据的合法性基础为何,处理者均遵循目的限制原则、必要原则等基本原则的限制,只能控制有限、合理、必要范围内的个人信息数据。

(五)数据处理权应受到个人信息处理制度限制

数据处理者享有对数据进行分析、储存、记录、传输的使用自由,不同于所有权的使用权能。其一,享有控制权能并不当然意味着享有使用权能,这一点与某些他物权制度相似,例如质权人享有占有权能,但是不享有使用权能。相似之处在于,处理者虽然控制着个人信息数据,但是并不意味着其享有相应的处理权能。其二,某些特殊的处理权能必须满足法律特殊的形式条件,以体现对个人的侧重保护。譬如在“敏感个人信息的处理”“个人信息的公开”“非公共安全目的对个人图像、身份识别信息的收集”“个人信息的跨境转移”以及“向其他个人信息处理者提供个人信息”等情形下,必须取得个人的单独同意,才能取得相应的使用自由。其三,拥有此种使用权不代表拥有彼种使用权,每种使用权都是一个单独的自由,不同于所有权使用权能的概括式权限,训练数据的任何处理权限都需要具备相应的合法性基础,处理者不能超越权限使用数据,例如处理者基于同意取得了训练数据的使用权能,但是可能没有取得跨境传输训练数据的使用权能。其四,某些使用方式受到法律的明文禁止,例如不得通过个人数据的分析对比实施大数据杀熟行为。当然,与控制权能相似,使用权能同样可能受到个人撤回同意的影响,也会受到个人信息处理基本原则的限制,不再赘述。

(六)数据处分权应受到有关规则的限制

数据的处分权能受到数据内容层权益的限制。数据的转让、共享、开放、融合和许可使用等都是行使处分权能的表现,可视为不同组合的数据控制权和数据处理权的处分。然而,因为训练数据中大量的个人信息数据不仅关涉处理者利益,还关涉个人信息权益,所以不能由处理者或个人一方单独决定。正基于此,在司法实践中形成了“三重授权原则”,在个人信息数据流转时,不仅需要处理者的同意,还需要个人的同意,这同时也是《个人信息保护法》第23条第一款规定的个人信息处理者向其他个人信息处理者提供其处理的个人信息时应当遵循的要求。除此之外,基于《反垄断法》的规定,如果处理者对训练数据的掌握构成了市场必需设施,则该处理者负有开放数据的义务,此为基于数据流通目标对训练数据财产权的限制[27]。

注释:

① 《民法典》第123条:“民事主体依法享有知识产权。知识产权是权利人依法就下列客体享有的专有的权利:(一)作品;(二)发明、实用新型、外观设计;(三)商标;(四)地理标志;(五)商业秘密;(六)集成电路布图设计;(七)植物新品种;(八)法律规定的其他客体。”

② 数据资源是数据的集合,因此数据资源的本质还是数据。数据资源在立法层面的实现应以“数据”来表述,数据是对数据资源的客观事物的高度抽象。

③ 数据的转让是将数据控制权和处理权赋予受让方,且出让方不再享有这些权利的处分方式。

④ 数据的共享是将数据控制权和处理权赋予共享方,且自身仍然保留这些权利的处分方式。

⑤ 数据的开放是将数据控制权和处理权赋予社会公众,主要指公共数据开放。

猜你喜欢
财产权数据处理个人信息
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
警惕个人信息泄露
1949年以前商务印书馆股东财产权分析
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
生产要素市场化与农民财产权制度
个人信息保护等6项通信行业标准征求意见
以财产权理论析金融创新与监管