包晓丽
提要:可信数据空间是保障数据安全、合法、可信交换的数字化基础设施,它主要包括可信流通技术和可信交易制度两方面。可信数据空间主要适用于数据跨境、敏感数据交换和陌生人交易场景。从技术面向来看,可信数据空间由保障身份可信、环境可信和内容可信的隐私计算技术,保障流通过程可控、可追溯的数据监控技术共同组成。从制度层面来看,法律应当明确无第三方介入场景下的各方权利义务,以及有第三方介入场景下数据交易所、数据经纪人和数据技术服务提供者的法律地位,强调数据空间运营者的安全保障义务。
数据的要素价值不在于静态控制,而在于动态流通。为了强化数据要素的优质供给,促进数据要素的合规流通,中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)明确规定:“建立数据可信流通体系,增强数据的可用、可信、可流通、可追溯水平。”然而,数据在物理属性上的极易复制性、在产业实践中的标准差异性,使得数据流通的成本高,阻碍了数据要素价值释放。一方面,交易双方当事人的信任成本极高。数据在物理上的非消耗性使得数据一旦进入流通领域,原权利人就丧失了对数据的有效控制。数据权利人担心涉及商业机密的重要数据泄露,也缺乏对数据用途进行持续性追踪的能力,这将抑制其流通意愿,从而降低数据供给的数量和质量。另一方面,数据跨境流通的技术合规成本极高。网络空间不受物理地理边界的限制,使得数字经济的发展呈现全球性和跨国性特征。然而,各国政府不约而同地强调数据主权与数据安全,既有法律规则为数据跨境流通设置了较高的合规要求,这极大增加了数据跨境流通的合规成本,甚至直接否定了部分数据流通的可能性,阻碍了数据要素发挥应有价值。(1)参见陈松、常敏:《数据规则如何影响数字服务出口——基于贸易成本的中介效应分析》,《浙江学刊》2022年第2期。当下,降低数据流通的主体信任成本与技术合规成本是推动数据要素高效流通的前提。可信数据空间或将成为解决信任难和合规难的重要方案,但既有学术研究对此问题的讨论几近空白。(2)以知网为检索库,以“可信数据空间”为关键词检索,发现专题讨论此问题的中文学术论文屈指可数。既有文献主要从计算机科学技术的角度展开,缺乏从法学规则构建角度的学术研究。因此,我们拟从可信数据空间的概念入手,系统梳理可信数据空间的技术面向及其功能目的,最终从主体可信、行为合规和流通标准的角度建构可信数据空间规则体系。
关于可信数据空间(Trusted Data Matrix)的概念内涵,学术界和产业界尚未达成明确共识,但这并不妨碍可信数据空间的模型架构在实践中被反复运用。为实现欧盟行业上下游数据的共享与流通,欧盟于2016年率先提出建立欧盟国际数据空间(International Data Space,IDS)的倡议,并在《数据法案》中明确建立“欧盟共同数据空间”(Common European Data Spaces)。《数据法案》第2条(20a)将欧盟共同数据空间定义为数据共享或联合处理的标准和实践框架,该框架主要用于开发新产品和服务、科学研究或民间社会倡议。有专家将欧盟共同数据空间总结为以组织层、技术层、法律层为制度保障,以安全和开放为目标原则,以统一数据要素市场为应用层的“三横两纵一应用”系统架构。(3)参见王轶、王宏伟:《借鉴欧盟部署共同数据空间经验 提升数字经济竞争力》,《中国工业和信息化》2023年第7期。美国尚未颁行关于可信数据空间的制度规范,直至2023年6月亚马逊网络服务方才携手T-Systems推出首个数据空间沙盒开发环境。
我国对可信数据空间的研究已经积累了一定的产业经验。2022年中国信息通信研究院从工业数据出发,发布了《可信工业数据空间系统架构1.0》白皮书(以下简称《白皮书》),将可信工业数据空间界定为一种面向工业数据可信、安全共享和流通的新型基础设施。《白皮书》指出,阻碍数据提供方参与数据流通活动的主要顾虑为:数据被用于合同目的之外、商业情报随数据泄露、技术随数据流出、接收方保管数据不善等。85%的企业通过合同约定或者法律规定对数据使用行为进行约束;近80%的企业通过技术手段保障数据流通过程可控、可追溯。(4)数据流通方最关注的五项技术是:用技术手段获知使用方是否按协议执行(69.3%)、使用方身份实名认证(57.5%)、自动执行的电子合约(52.8%)、可信第三方权威机构监管(46.5%)、数据用后销毁(43.3%)。数据使用方最关注的五项技术为:数据可溯源(79.5%)、提供方身份实名认证(69.3%)、数据质量第三方保障(63.8%)、数据中介机构提供数据目录(51.2%)、交易过程第三方见证(43.3%)。参见中国信息通信研究院:《可信工业数据空间系统架构1.0》白皮书,2022年1月25日,http://www.caict.ac.cn/kxyj/qwfb/ztbg/202201/P020220125561909082218.pdf,2023年8月22日。对此,可信工业数据空间系统架构1.0从数据流通活动的五类重要参与主体——数据提供方、基础设施提供方、中间服务方、交易存证方和数据使用方入手,提出建构与此相对应的数据接入层、传输处理层、中间服务层、数据控制层和数据应用层等五个维度的功能视图。其中,数据控制层是可信数据空间的关键,它由日志存证功能和数据控制与销毁两大功能组成。
随后,中国信息通信研究院作为牵头单位成功立项IEEE标准《可信数据空间系统架构》,并将可信数据空间界定为“数据与资源共享的数字化基础设施,旨在促进不同利益攸关方之间可信、安全、透明地进行数据共享、交换、流通与交易”(5)IEEE, “Standard for Trusted Data Matrix System Architecture,” at https://standards.ieee.org/ieee/3158/10881/ (Last visited on August 22, 2023).。中国互联网协会发布的团体标准——《可信数据服务多方数据价值挖掘体系框架》,明确“可信”是信任者对于被信任者履行承诺能力的一种认知。(6)参见《可信数据服务多方数据价值挖掘体系框架》(T/ISC-0008-2021)第3.2条的规定。
总结中外可信数据空间建设的既有经验,结合《关键信息基础设施安全保护条例》的规定,(7)《关键信息基础设施安全保护条例》第2条规定:“本条例所称关键信息基础设施,是指公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务、国防科技工业等重要行业和领域的,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的重要网络设施、信息系统等。”我们认为,可信数据空间是保障数据安全、合法、按约共享的数字化基础设施。该基础设施由组织层的可信市场交易组织者、技术层的数据安全技术以及制度层的数据安全流通标准与法律法规共同组成。可信数据空间旨在为数据流通当事人提供一个安全可信的数据交换环境,在保障数据安全、用户隐私、数据依法依约处理的同时,实现跨区域、跨组织的数据流通。
信任是数据价值交换与商业交往的媒介,它有助于减少交易达成前各方当事人的信息搜寻和核验成本,降低交易达成后当事人的履约监督和执行成本,并在合同没有约定或者约定不明的情况下,缩减各方当事人的再协商成本。(8)参见刘凤委等:《信任、交易成本与商业信用模式》,《经济研究》2009年第8期。这种信任是数据提供者自愿参与数据交易,数据使用方安心开发数据的前置条件。该信任建立的核心要素在于:(1)履行行为的合法性,包括数据来源合法、保障数据安全、保护个人隐私、数据处理活动不侵害他人合法权益等;(2)履行内容的全面性,包括按照数据交易合同约定的数量、质量、价款、期限、方式履行合同义务;(3)主体身份的信任性,即数据供需双方均信任对方当事人是诚信的交易对象,在合同订立前、订立过程中以及履行过程中均无恶意磋商、提供虚假信息的情况,并将依法、全面履行自己的合同义务。其中,数据来源合法与保障数据安全是数据可信流通的重要方面,是法律规定的、最低限度的流通要求。(9)参见《中华人民共和国数据安全法》第27、33条的规定。
实践中,可信数据空间被广泛应用于跨境数据流动、跨行业数据融合以及数据驱动的创新开发项目等场景。可信数据空间通过创建特定语境下的信任,推动数据流通交换,加速释放数据要素价值。在数据跨境流动场景下,出于保护用户隐私、维护国家安全和社会公共利益的目的,原始数据的自由流通受到严格限制。对于跨国医疗器械提供商而言,医疗数据的传输既存在一定风险,又非常必要。此时,我们不仅需要用传统加密技术对数据本身进行处理,还需要有可信数据空间保障传输过程和环境的安全。在多主体数据融合场景下,可信第三方组织者和可信数据处理技术有助于破解各方的信任难问题。以纺织数据为例,数据的易复制性使得设计者不得不付出极高的侵权预防成本,方才将数据共享给制造者,而可信数据空间可以大大降低前述成本。在数据驱动的创新开发场景下,可信数据空间可以避免开发过程中任何一方当事人违法获取他方数据,鼓励高质量数据供给,提高创新性产品和服务的开发成功率。
法律、社群规范、市场和技术架构共同发挥网络空间的规制作用,技术架构所蕴含的价值偏好将影响网络空间的行为取向。(10)See Lawrence Lessig, Code: Version 2.0, Basic Books, 2006, pp.121-123.因此,建立可信的数据流通机制不仅需要通过完备的规则保障,还需要体系化的技术支撑。从技术层面看,隐私计算和区块链监管是可信数据空间的两大“技术底座”,将助力可信数据流通体系的构建。
隐私保护计算(Privacy-Preserving Computation),通常简称为隐私计算,目的是让多个数据控制者,在不提供原始数据给其他参与方的前提下,实现数据的共享、互通、计算和建模。隐私计算的技术路径大致分为三类:一是以密码学为基础的多方安全计算,二是以机器学习为核心的联邦学习,三是以可信硬件为保障的可信执行环境。(11)参见张晔:《隐私计算:让数据“可用不可见”》,《科技日报》2023年4月10日,第6版。由于不同数据流通场景面临的信任问题和安全问题不尽相同,不同隐私计算的技术路线和保护对象也存在差异,它们常常组合适用以提供全面的可信流通方案。
1.主体身份可信:公钥基础设施与去中心化身份认证
数据流通当事人的一个重要担忧,在于难以确认对方身份是否真实可信。此时,我们可以通过身份认证技术对系统中的操作者身份做出认证,以确保用户的真实身份与他所声称的身份相符。(12)参见王爱粉等:《浅谈身份认证技术》,《计算机应用与软件》2002年第12期。现有身份认证技术分为三类:一为物理介质认证,即依赖特定的物品来验证身份,例如身份证、信用卡,但物理介质认证需要依赖线下实体硬件,存在丢失或被盗用的风险。二为口令认证,即根据特定的密码口令来验证身份,例如账号密码、动态验证码,但是口令可能被破解或截获,也存在内部工作人员违规泄露的风险。三为生物特征认证,即通过自然人特殊生物体征来验证身份,例如指纹解锁、虹膜识别、面部识别,该方案虽然具有不可伪造、不可篡改的优势,但是具有极强的人身属性,难以成为应用于法人与非法人组织身份认证的普遍应用的技术。
对此,公钥基础设施(Public Key Infrastructure,PKI)总结了前述三类认证方式的优劣势,在非对称密钥算法基础上搭建用户身份认证安全框架。其工作机制为可信的第三方机构验证用户身份真实性后,将用户持有的公钥与其身份信息结合在一起签发数字证书。同时,数字证书持有者拥有一个仅为本人所有的私钥,该私钥用于对传输的信息进行正确签名和对接收的信息进行解密获得数据访问权限。(13)参见姚前、张大伟:《区块链系统中身份管理技术研究综述》,《软件学报》2021年第32期。但传统的公钥基础设施认证机制也存在身份的管理权并非由数据权利人而是由他人掌控,且不能满足万物互联时代海量设备认证、密钥高频更新、身份跨系统使用等问题。(14)参见姚英英等:《基于区块链的去中心化身份认证及密钥管理方案》,《网络空间安全》2019年第6期。在此基础上,理论界和实务界进一步发展出基于区块链的去中心化身份认证方案。去中心化身份(Decentralized Identity,DID)是指不需要任何中心化的第三方参与,而由用户持有和控制其身份标识的身份认证机制。去中心化身份认证系统由区块链替代公钥分发中心作为可信身份颁布方,身份持有人的身份信息由用户自主控制,并可通过数字签名等技术保证用户身份的可验证性。(15)参见卢颖等:《元宇宙时代图书馆读者统一认证服务优化研究——基于去中心化身份认证技术(DID)》,《图书馆建设》2023年第3期。交易双方可以自由选择与哪些对象共享自己的哪一部分身份信息,这能有效保护交易当事人隐私,避免数据泄露。
2.流通环境可信:可信执行环境
可信执行环境(Trusted Execution Environment,TEE)是指通过软硬件协同实现的一种基于内存隔离的安全计算环境。可信执行环境遵循四项安全原则:一为数据隔离,特定分区内的数据不能被其他分区读取或修改;二为安全调度,在可信执行环境中运行的任务不影响主操作系统的响应能力;三为信息流控制,除非明确允许,否则分区之间不能进行通信;四为故障隔离,一个分区发生的安全漏洞不能扩散至其他分区。(16)See Mohamed Sabt, Mohammed Achemlal, Abdelmadjid Bouabdallah, “Trusted Execution Environment: What It is, and What It is Not,” 2015 IEEE Trustcom/BigDataSE/ISPA, p.58.
为构建低风险的数据交易环境,可信数据空间的服务提供者通过数据隔离保证数据本身的机密性,通过信息流控制防止数据泄露和非授权访问,并通过安全调度与故障隔离防止恶意行为、错误或异常对整个系统造成影响。我国第一款可信数据空间商业化产品——领域数据空间(Domain Data Spaces, DDS),也运用可信执行环境技术将开放数据空间与核心数据区相隔离,并在数据流通过程中采取隔离式沙盒计算,将不同的计算环境彼此隔离开来,以确保可信数据空间的安全性和稳定性。
3.数据内容可信:联邦学习与多方安全计算
除身份和环境可信以外,数据流通最为关键的即在于数据本身的安全性。为避免各方当事人因原始数据融合可能产生的数据泄露隐忧,“数据二十条”针对公共数据提出原则上“原始数据不出域、数据可用不可见”的要求,联邦学习(Federal Learning, FL)有助于实现这一目标。联邦学习本质上是一种分布式机器学习技术。(17)参见肖雄等:《联邦学习的隐私保护与安全防御研究综述》,《计算机学报》2023年第5期。联邦学习的核心思想是“数据不动模型动,数据可用不可见”。该架构下,数据模型的训练都在本地设备上完成,因此联邦学习也是数据出境的理想技术选择。它既可以排除数据跨境流动的潜在国家安全、商业秘密和个人隐私风险,也可以降低跨境数据流通中的合规成本,因为原始数据并未出境,而只有模型参数涉及出境的合规问题。
鉴于联邦学习需要一个中立可信的第三方提供中央服务器以完成整体的模型训练,可信数据空间的服务提供者可作为该第三方为数据交易双方提供技术支撑与模型训练的指引,并承担模型聚合与下发任务的工作。在无可信第三方的情况下,各参与方可以通过多方安全计算(Secure Multi-Party Computation,MPC或SMPC)实现数据计算结果的交互。多方安全计算是基于密码学的隐私计算技术,它能够在不披露双方输入数据的前提下,通过秘密分享(Secret Sharing, SS)、不经意传输(Oblivious Transfer, OT)以及同态加密(Homomorphic Encryption, HE)(18)秘密分享(Secret Sharing, SS)是一种将需要加密的秘密分成不同的独特部分,大于特定数量的秘密份额可以恢复原来秘密,反之则无法揭秘的密码学算法,参见董业等:《基于秘密分享和梯度选择的高效安全联邦学习》,《计算机研究与发展》2020年第10期。不经意传输(Oblivious Transfer, OT)是指发送方向接收方传输某些信息,但发送方不知晓接收方实际获得的信息的密码学协议, See Yi-Fu Lai, Steven D. Galbraith and Cyprien Delpech de Saint Guilhem, “Compact, Efficient and UC-Secure Isogeny-Based Oblivious Transfer”, in Canteaut, A. and Standaert, FX. eds, Advances in Cryptology-EUROCRYPT 2021, Springer, 2021, p.213.同态加密(Homomorphic Encryption, HE)是允许在加密之后的密文上直接进行计算,且解密后的计算结果与基于明文的计算结果一致的加密算法,参见张玉清等:《云计算环境安全综述》,《软件学报》2016年第6期。在内的多种专业算法与技术,实现输出结果的准确性。并且,任何一方当事人都无法通过计算过程中的交互数据推测出其他任意一方的输入数据。多方安全计算可以在没有第三方监管的情况下,通过加密技术和分布式计算,避免原始数据,特别是敏感数据被泄露。在准确性方面,参与方可以验证每一步计算的正确性,并在完成计算后对结果进行验证。
“数据二十条”明确提出数据使用范围可界定、流通过程可追溯的要求。数据交易过程中,数据提供方常常担心数据使用方在取得数据复制件或者数据接口后,违反合同的约定再加工、再转让或者再许可他人使用该数据。未引入监控技术的情况下,一旦数据被他人获取,原权利人便丧失了对数据的控制权,无法追踪数据的使用方式与使用范围是否符合数据流转合同的约定。即使我们通过隐私计算技术保证了当事人身份可信、交易环境可信、数据本身不被多看,但控制权缺乏导致的信任缺失,使数据提供方也缺乏提供高质量数据的动力。因此,要实现流通的全过程可信,我们还需引入零信任模型、数据水印技术与区块链技术等监控工具,从而保证流通过程的真实性、不可篡改性与可追溯性。
1.访问控制:零信任模型保障身份实时验证
在传统网络安全架构中,用户在通过一定身份认证后就被视为可信任的。在该架构中,网络边界尤其是数据中心内外网的网关被视为防护的重要边界。然而,随着技术发展,资源粒度细化,传统的网络安全架构暴露出许多问题,如缺乏对内网安全隐患的排查、存在单点部署失效以及缺乏全局安全策略等。(19)参见刘欢等:《零信任安全架构及应用研究》,《通信技术》2020年第7期。继续秉持曾经的“进入网络即信任”的基本假设会使系统面临更多网络安全隐患。
基于“永不信任,始终验证”原则的零信任网络安全模型应运而生。零信任模型(Zero Trust,ZT)是指通过动态的、细粒度的、严格的访问控制、严格的权限管理,加强纵深防御架构的策略。(20)参见蒋宁等:《基于模型的零信任网络安全架构》,《小型微型计算机系统》2023年第8期。它默认任何用户天生都是不受信任的,每个用户访问资源的请求都被视为潜在的网络安全漏洞。它在强化身份识别和访问控制的基础上,要求在用户和设备之间建立实时的、动态的身份验证和授权,以提高内部网络的安全性,有效抵御非法扫描风险。在主体身份验证上,前文提到的公钥基础设施和去中心化身份认证机制虽然可以保证流通开始时交易对象的数字身份真实,但无法在数据交易的每一环节实时验证交易对象的身份与权限,而零信任框架则在动态意义上保证了可信数据空间中的用户权限得到实时验证,保障了流通的全过程安全可靠。(21)参见诸葛程晨等:《零信任网络综述》,《计算机工程与应用》2022年第22期。在内容安全性上,零信任框架中的访问权限均被最小化为“刚好够访问”,从而既能满足用户验证请求,又能避免信息泄露。
2.使用控制:智能合约技术保证合同全面履行
阻碍数据流通交易的最主要因素是数据提供方担心数据一旦流出,就会导致自己的控制权灭失,智能合约有助于保障提供方的数据控制权。智能合约是内置于代码中、在满足某些触发条件时自动执行某些功能的程序。(22)参见葛伟军、方懿:《区块链智能合约下加密数字藏品的法律属性与内生风险》,《上海大学学报》(社会科学版)2023年第2期。它具有预防违约、保证业务逻辑自动强制执行的特点。(23)参见姚前:《区块链与可信数据》,《中国金融》2021年第3期。在数据流通场景下,智能合约可以自动拦截非经许可的数据传输行为,实现数据要素价值变现的自动分配机制,在交易完成后自动删除特定数据库内的数据。智能合约技术的自动强制执行特征,保证了数据交易条件和使用限制的全面实现,是数据控制层的关键技术,被广泛应用于数据使用控制领域。智能合约技术维持了数据提供方的数据控制权限、知情权限和拒绝权限,打消了数据流通的顾虑。
然而,由于人的理性是有限的,数据交易的当事人无法预见并明确约定所有的交易条件。尽管智能合约可以在很大程度上避免数据的超范围使用、未经许可向第三人转让等违约行为,但也难以处理不完全契约的问题。(24)参见徐忠、邹传伟:《区块链能做什么、不能做什么?》,《金融研究》2018年第11期。对此,我们还需要通过日志采集存证技术,保障交易行为防篡改、可溯源,以便进行事后行为评价。
3.数字水印追踪数据泄露情况
数字水印技术不同于传统水印技术,它并非直接在文件背景添加明水印,而是在不破坏原有数据内容和对象可用性的前提下,通过一定的规则与算法将标识信息隐藏在结构化数据中的技术。该水印信息可以是数据权利人身份信息、作品的序列号等,用以证明真实权利人,并作为主张他人侵害数据权益的证据。(25)参见朱勤等:《数据库水印研究与进展》,《计算机工程与应用》2006年第29期。由于每次数据流转行为都以嵌入新权利人的身份水印为前提,因此在发生数据泄露事件后,可以通过提取嵌入在被泄露数据中的水印信息,准确定位数据泄露的风险发生主体,从而解决数据泄露无法追溯的难题。
4.区块链存证保障流通记录真实可信
“区块链是制造信任的机器。”(26)“The Trust Machine: The Technology behind Bitcoin Could Transform How the Economy Works,” The Economist, 2015-10-31.它是指利用加密数据结构来验证和存储数据,利用分布式共识算法来新增和更新数据,利用智能合约来保证业务逻辑自动强制执行,实现去中心化管理的可信数据技术。(27)参见姚前:《区块链与可信数据》,《中国金融》2021年第3期。数据交易场所通过哈希算法将用户上传的数据文件转换为特定长度的哈希值,然后将数据文件哈希值、交易哈希值、交易当事人、时间戳等信息采用区块链技术在链上进行记录。区块链技术有利于实现流转过程的全链条公示与监管,从而保证数据存储、加工使用以及外部访问行为的可信性。(28)参见钱卫宁等:《区块链与可信数据管理:问题与方法》,《软件学报》2018年第29期。区块链存证被用于可信数据空间的数据控制层(使用控制)和中间服务层(服务存证)。
虽然隐私计算技术可以有效助力数据要素的安全、高效流通,但在实践中,隐私计算的应用落地任重道远。对于单一的主体可信技术而言,最终会助力数据流通抑或阻碍数据流通,导向尚不明确。以公钥基础设施为例,它的建立依赖可信第三方机构的身份验证和证书签发行为。这使得数据要素的交换流通,必须进入一个以证书签发中心为核心的、相对封闭的安全域。此时,“数据孤岛”被打破,却又使数据流通进入了“数据群岛”,即数据交换以相对聚集的小团体的方式存在,而群体以外的数据难以交换流通。
对于单一的环境可信技术而言,基于内存隔离的安全计算环境也只能适用于少量特定场景,局限性强。以可信执行环境为例,现有的可信执行环境仅能对一些关键数据、基础应用进行防护,或者对复杂应用的关键部分进行防护,而难以推广适用到复杂应用场景。(29)参见张立强等:《可信云计算研究综述》,《郑州大学学报》(理学版)2022第54期。对于单一的内容可信技术而言,它存在技术性能较低、应用成本较高的困境,难以实现应用场景普遍化推广。相较于明文计算而言,隐私计算需要更多的计算和存储资源。以多方安全计算为例,多方安全计算的应用场景最广,但是计算需要使用大量密码学算法,使得整体的平台运算速度大大受限,导致其性能存在瓶颈。根据中国信息通信研究院的测试,40万行样本乘以900列特征的纵向联邦学习建模,其速度是明文的几十分之一甚至几百分之一,并且随着规模增加,这个倍数还会放大。(30)参见中国信息通信研究院:《2021隐私计算行业观察》,2021年12月23日,https://mp.weixin.qq.com/s/suxhUhXsS6RDgGS8xAm-rg,2023年8月22日。此外,目前的隐私计算服务商无法提供开箱即用的数据解决方案,使得传统业务与隐私计算平台的结合与改造需要大量的时间和人力成本。(31)参见中国信息通信研究院:《隐私计算应用研究报告(2023年)》,2023年8月10日,https://mp.weixin.qq.com/s/YutnUf6jAnpX304cx_7kEQ,2023年8月22日。可见,隐私计算技术的成本是高昂的,应用场景也是有限的,单靠某一项或者某几项隐私计算技术难以实现数据安全高效流通的美好愿景。未来我们需要从整体空间生态构建的角度,综合配置各项隐私计算技术,强调隐私计算技术和数据监控技术的结合,从而构建数据可信流通的全流程生态。
可信数据空间的技术成本同样高昂,它不可能无差别地适用于所有数据流通活动。遵循作为民法基本原则的自愿原则,法律不宜对可信数据空间的适用条件作出直接限定,而应由当事人根据《数据安全法》《网络安全法》《个人信息保护法》等法律的规定,自由选择是否适用可信数据空间这一较为昂贵的技术生态。特别是在个人信息对外提供,(32)《中华人民共和国个人信息保护法》第23条规定:“个人信息处理者向其他个人信息处理者提供其处理的个人信息的……接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的,应当依照本法规定重新取得个人同意。”生物识别、医疗健康、金融账户等敏感个人信息的处理,(33)《中华人民共和国个人信息保护法》第28条第2款规定:“只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息。”以及向境外提供个人信息和重要数据(34)《中华人民共和国网络安全法》第37条规定:“关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。因业务需要,确需向境外提供的,应当按照国家网信部门会同国务院有关部门制定的办法进行安全评估;法律、行政法规另有规定的,依照其规定。”等具有较高合规与安全要求的情况下,智能合约、联邦学习和多方安全计算等技术具有适用必要。
《数据出境安全评估办法》规定,数据处理者向境外提供重要数据或者向境外提供大规模个人信息的,需要先通过数据出境安全评估审批。(35)《数据出境安全评估办法》第4条规定:“数据处理者向境外提供数据,有下列情形之一的,应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估:(一)数据处理者向境外提供重要数据;(二)关键信息基础设施运营者和处理100万人以上个人信息的数据处理者向境外提供个人信息;(三)自上年1月1日起累计向境外提供10万人个人信息或者1万人敏感个人信息的数据处理者向境外提供个人信息;(四)国家网信部门规定的其他需要申报数据出境安全评估的情形。”但是,数据出境安全审批的标准高、周期长,且在此过程中数据处理者需要支出较高的安全合规成本。然而,数据又具有时效性特点,这使得评估通过后的数据价值已经大打折扣。前文提到的联邦学习和多方安全计算技术正好可以解决数据出境评估周期长、合规成本高的问题。它们通过“数据不动模型动”的方式,在保证重要数据和个人信息境内存储的前提下,实现算法模型的多次迭代更新和优化。这既保证了国家的数据主权和数据安全,又使得实时产生的高价值数据可以用于提高算法决策准确性和社会生产效率,为数据跨境流通提供了一个安全高效的替代方案。
技术架构为安全高效的数据流通提供了可行性支撑,而制度法规为数据管理配置了基本行为框架,二者共同作用构筑起可信数据流通体系。制度法规不仅可以直接约束交易各方当事人,还将对隐私计算的算法开发者提出行为要求,它是数据交易行为以及与数据交易相关的技术开发行为必须遵循的强制性规范。遵循法律关系分析方法的一般思路,我们将从主体、客体和内容三方面细化落实可信数据空间的制度体系。
如前文所述,数据流通模式可分为有第三方介入的撮合交易和无第三方介入的直接交易两类。第三方作为掌握双方身份信息、撮合交易、流程控制的重要交易参与者,是建立流通信任的关键要素。中外各版本的可信数据空间建设方案没有将第三方“主体可信”作为交易的前置条件,究其原因是交易当事人尚不信任当前的第三方服务机构。在《数据安全法》第33条明确规定了第三方中介服务机构的法定审核义务背景下,(36)《中华人民共和国数据安全法》第33条规定:“从事数据交易中介服务的机构提供服务,应当要求数据提供方说明数据来源,审核交易双方的身份,并留存审核、交易记录。”如何从法律定位、行为监管和责任承担的角度保障第三方机构的身份可信、可靠,是下文将系统展开的问题。实践中最重要的三类第三方机构是数据交易所、数据经纪人以及数据技术服务提供者,这些中立第三方机构并非数据交易的必要参与者,当事人可以选择无第三方介入的直接交易。但是,正如前文提到的可信空间技术具有成本高昂的特点,当事人可以在技术可信以外,选择中立、可信的第三方机构提供撮合交易、监督交易、身份认证和数据加密等服务。因此,论文在既有可信数据空间建设方案的基础上,新增主体可信这一要件,以空间运营者的安全保障义务和民事法律责任作为制度保障,建构第三方主体的中立性与可信度。
1.数据交易所
实践中,数据交易所主要从事两类业务,一类是为数据供需双方提供订立合同机会的中介服务,另一类是在此基础上提供数据清洗、隐私计算等增值服务。数据交易所应当由国家主导还是让私主体自由发展,经历了前期的争论与摸索。实践显示,除非交易组织者具有公共属性,否则数据供需双方难以相信组织者的中立地位而进场交易。我国实际运营的数据交易所共30家,筹建中的有6家。(37)参见中国信息通信研究院:《中国数字经济发展研究报告(2023年)》,2023年4月27日,http://www.caict.ac.cn/kxyj/qwfb/bps/202304/P020230427572038320317.pdf,2023年8月22日。数据交易所作为交易组织者和合规监管者,它的可信性主要通过公共性组织架构和持续性行为监管两方面实现。
在组织架构方面,现有数据交易所可分为公司制数据交易所与政府公共部门运营的数据交易场所。公司制数据交易所又分为国有独资、国有控股的数据交易所与国有参股、纯民营数据交易所两类。前者如北京国际大数据交易所、上海数据交易所、深圳数据交易所;后者如海南国际知识产权交易所、武汉长江大数据交易中心。由政府公共部门直接运营的数据交易场所,典型的如海南省大数据管理局管理的海南数据商品超市。从发展现状来看,数据交易所的国有化转型是我国数据交易所的未来趋势。贵阳大数据交易所已从成立之初的民营企业转型为现在的国有控股企业,海南国际知识产权交易所也拟从民营企业向国有企业转型。国有控股数据交易所基本遵循政府监管、国有指导、市场化运营的方针路线,政府公信力为数据交易所提供了信任背书,并推动更多高价值公共数据进入数据交易市场流通交易。(38)参见国家工业信息安全发展研究中心:《2022年数据交易平台发展白皮书》,2022年9月5日,https://www.cics-cert.org.cn/web_root/webpage/articlecontent_101006_1566684745956331521.html,2023年8月22日。
在行为监管方面,数据交易所目前采用会员制方式以自律监管方式运行,并制定了场内交易的制度规范。(39)上海数据交易所发布《上海数据交易所数据交易规范(试行)》《上海数据交易所数商管理规范(试行)》《上海数据交易所信息披露规范(试行)》《上海数据交易所数据交易安全规范(试行)》《上海数据交易所数据交易合规管理规范(试行)》《上海数据交易所数据产品登记规范(试行)》等规范,深圳数据交易所发布《深圳数据交易所交易规则(试行)》《深圳数据交易所会员管理制度(试行)》《深圳数据交易所交易标的准入指引(试行)》《深圳数据交易所数据资源登记入库指引(试行)》等业务规则。数据交易所一般由地方人民政府发起设立,受政府数据主管部门指导和监管,交易所对会员的监管权力来源于《数据安全法》与各地数据交易条例的规定,以及数据交易所章程的规定。数据交易所不可基于监管目的以外的商业目的使用会员数据。(40)参见包晓丽、杜万里:《数据可信交易体系的制度构建——基于场内交易视角》,《电子政务》2023年第6期。以《深圳市数据交易管理暂行办法》为例,该办法第31条规定,数据交易所应当持续监督并发现违反《数据安全法》《网络安全法》的数据违法行为、侵害他人数据产权的侵权行为以及违反法律法规关于市场监管秩序、个人信息保护的数据交易行为。
2.数据经纪人
关于数据经纪人的概念内涵,目前尚未形成统一共识,各国数据经纪人的职能定位也不同,我国的数据经纪人指的是在政府监管下,具备开展数据经纪活动资质的机构。(41)参见《广东省数据经纪人管理规则(试行)》(征求意见稿)第2条的规定。根据数据经纪人业务范围的差别,数据经纪人可被区分为数据赋能型、技术赋能型和受托行权型三类。(42)技术赋能型数据经纪人,即自身不拥有数据,通过提供技术平台促进数据供需对接的数据经纪人;数据赋能型数据经纪人,即将自身数据资源与供方数据融合,以提供满足需求方特定需求的数据经纪人;受托行权型数据经纪人,即自身不拥有数据,主要代表数据权益人行使数据权利、争取数据权益的数据经纪人。参见广州市海珠区政务服务数据管理局发布的《关于开展第二批数据经纪人申报工作的通知》。而美国的数据经纪人指的是收集个人信息并将这些信息转售或与第三方共享的企业。(43)See Federal Trade Commission, “Data Broker: A Call for Transparency and Accountability,” at https://www.ftc.gov/system/files/documents/reports/data-brokers-call-transparency-accountability-report-federal-trade-commission-may-2014/140527databrokerreport.pdf, 2023-8-22.我国从广义上界定数据经纪人,强调数据经济人的核心职能是促成数据提供方与数据使用方的交易,但同时鼓励数据经纪人自身掌握数据资源或数据处理技术,以获得更强市场竞争力。
在准入方面,是否应当对数据经纪人设置前置性行政许可要求,是实践中争议较大的问题。广东省政务服务数据管理局发布的《广东省数据流通交易管理办法(试行)》(征求意见稿)以数据经纪人的数据安全主体责任为基点,在主体准入方面对数据经纪人的资质严格把关,采取了遴选认定的行政许可形式。广东省政务服务数据管理局还率先颁布《广东省数据经纪人管理规则(试行)》(征求意见稿),从数据经纪人的生态协同能力、数据运营能力、技术创新能力、数据安全能力及组织保障能力等方面,评定是否授予申请人数据经纪人资质,并定时公布数据经纪人名单。(44)参见《广东省数据经纪人管理规则(试行)》(征求意见稿)第6条的规定。广东省对数据经纪人予以规范化管理以提升其可信度的制度初衷是好的,然而根据《中华人民共和国行政许可法》第14、15条的规定,在设定地方性行政许可或者临时性行政许可的权限上是存在一定瑕疵的,还需进一步完善规范的效力层级。
3.数据技术服务提供者
除数据交易所和数据经纪人这两类交易组织者以外,还有一类主体是数据流通中不可或缺的第三方当事人——数据技术服务提供者。数据技术服务提供者掌握着专业数据处理技术,有利于数据交易的安全达成,减少交易争端与安全隐患。数据技术服务提供者的可信程度与数据交易的安全问题紧密相关。
一方面,规则制定者应当在法律法规和交易所规则中明确数据技术服务提供者的法定义务,交易当事人也应与数据技术服务提供者尽量全面、清晰地约定技术服务提供者的合同义务。数据技术服务提供者的义务包括但不限于:按时、保质保量地完成合同约定的数据技术服务;按照约定的目的开展数据处理活动;具备履行合同相适应的安全保障能力;未经许可不得向第三方提供标的数据;合同履行完毕后主动删除标的数据。另一方面,数据技术服务提供者应当具备从事相应数据处理活动要求的人员、资质和技术能力。例如,《信息安全等级保护管理办法》对第三级以上信息系统的产品提供者提出主体身份注册在国内、核心技术具有自主知识产权、关键技术人员无犯罪记录、没有故意设置后门或者木马、取得国家信息安全产品认证机构颁发的认证证书等要求。(45)《信息安全等级保护管理办法》第21条规定:第三级以上信息系统应当选择使用符合以下条件的信息安全产品:(一)产品研制、生产单位是由中国公民、法人投资或者国家投资或者控股的,在中华人民共和国境内具有独立的法人资格;(二)产品的核心技术、关键部件具有我国自主知识产权;(三)产品研制、生产单位及其主要业务、技术人员无犯罪记录;(四)产品研制、生产单位声明没有故意留有或者设置漏洞、后门、木马等程序和功能;(五)对国家安全、社会秩序、公共利益不构成危害;(六)对已列入信息安全产品认证目录的,应当取得国家信息安全产品认证机构颁发的认证证书。
数据流通中的行为可信不仅需要隐私计算技术的加持,更需要法律法规的规制与指引,以确保数据流通法律关系清晰、权利义务明确、监管有法可依,最终实现数据流通行为合法可信的目的。
1.明确法律关系
根据流通环节是否有第三人参与,数据流通可以区分为有第三方介入的数据流通模式与无第三方介入的数据流通模式。在无第三方介入的数据流通模式中,法律关系的双方当事人为数据提供者与数据需求者。数据交易的本质是以货币或货币等价物交换数据产品或服务的活动,其法律关系不能一概而论。(46)参见高郦梅:《论数据交易合同规则的适用》,《法商研究》2023年第4期。根据交易类型的差异,我们可将数据交易区分为许可使用、整体转让、加工服务、保管服务等具体类型,分别准用技术许可合同、买卖合同、承揽合同和仓储合同的规则。
在有第三方介入的数据流通模式中,明确界定第三方与交易当事人之间的法律关系,是打破交易壁垒、建立各方信任的关键所在。(47)欧盟《数据治理法案》表示,希望以可信数据中介打破流通壁垒。参见徐玖玖:《从“数据”到“可交易数据”:数据交易法律治理范式的转向及其实现》,《电子政务》2022年第12期。目前,关于第三方法律关系的观点主要分为“信托关系说”“居间合同关系说”以及“技术服务合同关系说”三类。“信托关系说”认为,数据权利人基于对中立第三方的信任,将数据财产权委托给中立第三方(受托方),由受托方基于数据权利人的意愿,以自己的名义对外开展数据交易活动。(48)参见黄京磊等:《数据信托:可信的数据流通模式》,《大数据》2023年第2期。“居间合同关系说”主张,第三方作为居间人,通过公开信息发布、非公开推介等形式为数据供需双方搭建信息桥梁,撮合数据交易的达成。“技术服务合同关系说”则认为,数据流通中的第三方为交易双方当事人提供质量评估、数据合规等服务,构成技术服务合同关系。实际上,三类观点各有合理性又各有局限,我们应当结合第三方在数据交易中发挥的不同职能,分而述之。
对于提供某项单一数据服务的可信第三方而言,可类推适用既有合同法规则。数据经纪人等以提供交易信息、撮合交易为业的第三方当事人,本身并不参与交易,该类第三方与数据交易双方当事人之间的法律关系宜认定为中介合同关系。提供数据清洗、加密、加工服务的第三方技术服务公司,与委托处理方之间的法律关系应当认定为技术服务合同关系。
提供综合性服务的数据流通平台,如数据交易所等第三方,它为数据权利人提供交易撮合、技术支撑等一揽子服务,宜综合适用中介合同、委托合同、技术服务合同等多种法律规则,而非一概诉诸信托法规则。因为,数据信托被提出的初衷,是扭转“个人与使用其数据为其谋利的公司之间存在的权力不平衡”的局面。(49)参见杨应武:《数据信托:数据交易法律规制的新路径》,《东南大学学报》(哲学社会科学版)2023年第25卷增刊。信托关系用于描述个人用户和平台企业之间因力量失衡而产生的诚实、信用、谨慎、有效管理的义务,避免个人信息的不当侵害。但在数据交易所等第三方可信生态提供者与交易当事人之间,并不存在这种力量上的悬殊对比,是否引入第三方、引入哪个第三方都是交易当事人自由选择的结果。此时,不存在一概认定为信托关系的基础,而应当尊重当事人意愿认定第三方和数据权利人之间的法律关系。在当事人约定设立数据信托时,构成信托关系;在当事人没有约定设立数据信托时,同时构成中介、委托、技术服务等法律关系。
2.数据空间运营者的安全保障义务
可信数据空间的运营者提供IT基础设施、信息交互服务、数据存证功能以及纠纷解决机制等综合业务方案,在事实上具有了公共设施的属性,承担重要的公共职能。(50)参见李夏旭:《网络平台间接侵权责任的法理基础与体系展开》,《比较法研究》2023年第3期。虽然我国尚未出台专门法律就可信数据空间运营者的法定义务作出规定,但结合《个人信息保护法》《数据安全法》关于信息/数据处理者安全保护义务的规定,不难发现保障数据安全是可信数据空间运营者的法定义务。
根据可信数据空间运营者的具体业务内容,其安全保障义务可被进一步细化为身份核实、数据安全和交易合规义务。首先,可信数据空间运营者负有核实交易双方身份真实性的义务。身份可信是数据流通的前提,可信数据空间运营者应当对交易双方的身份进行验证与核实,避免身份伪造导致数据交易被用于非法目的。其次,可信数据空间运营者负有确保流通数据安全完整的义务。数据权利人担心在流通过程中,数据被泄露、篡改、丢失或滥用。可信数据空间运营者作为流通技术服务提供者,有确保流通环节安全、数据内容完整的义务。最后,可信数据空间运营者负有保障交易合法合规的义务。可信数据空间运营者应在交易前审核数据来源、交易目的是否合法;在交易过程中和交易完成后定期开展安全合规性验证,确保安全保障措施符合法定要求,数据利用方式符合合同约定。对不符合法定安全要求或者约定使用范围的数据流通行为,应及时处置。
3.数据空间运营者的民事责任
可信流通是以过程可控可追溯、损失可察可追责为前提的,数据空间运营者负有安全保障义务,也就意味着数据权益在流通过程中受到侵害的,数据空间运营者应当承担相应的民事赔偿责任。目前,我国《民法典》第1195条第2款的“通知规则”和第1197条的“知道规则”是我国网络平台的间接侵权责任规范。与此类似,数据空间运营者的侵权责任认定也应当以注意义务为核心,通过引入侵权法上的善良管理人标准,要求数据空间运营者以理性、谨慎的管理者身份撮合、管理数据流通活动。(51)参见唐一力:《网络服务提供者间接侵权责任的重新思考——以重大体育赛事节目版权保护为例》,《法学论坛》2023年第4期。数据空间运营者作为数据流通活动的专业组织者,具有更高的注意义务,应事先对交易主体身份真实性、流通环境安全性、数据内容合法性予以审查,并对整个交易过程展开全流程监管。
一方面,可信数据空间运营者具有较高注意义务,应当定期对数据流通情况予以安全排查,并对具有高风险的数据交易活动予以警示。因其自身审核不严、操作过失或技术漏洞导致的数据安全事故,宜准用《民法典》第1165、1197条的规定,单独担责或与直接侵权人承担连带责任。另一方面,可信数据空间运营者并不直接参与交易过程,而仅提供隐私计算技术或交易撮合服务。对于已经尽到安全审查义务的运营者,其不直接承担民事责任;对于交易当事人根据《民法典》第1195条请求运营者断开数据接口的,运营者应当及时采取必要措施,否则对损害扩大的部分与直接侵权人承担连带责任。
要使数据流通起来,不仅需要法律法规对数据产权问题作出进一步规定,还需要通过制定标准的方式为各方当事人提供公平的、规范的交易指引。为破除数据供需不匹配现象、提高数据流转效率、释放数据要素价值,全国信标委大数据标准工作组发布《数据要素流通标准化白皮书(2022版)》,梳理了我国数据领域的国家标准、地方标准、团体标准和行业标准清单。我们发现,前述标准无外乎两类:一是从金融、电力、工业等行业特点入手,形成各行业的数据流通标准;二是从数据全生命周期的不同阶段出发,形成信息系统、数据存储、质量评估、交易服务、数据开放等方面的国家标准或团体标准。
1. 根据行业分类制定可信流通标准
在数据流通场景下,不同行业面临的风险和产生的福利不尽相同,根据行业特性建立分行业的可信数据流通标准,不仅可以有效细化法律法规的要求并在具体行业中落地,还能在行业实践基础上统合标准,提供一套通用的数据可信流通的制度架构。
我国在医疗、金融与工业等多领域也出台了数据流通的行业指南。以医疗数据为例,由于医疗数据特别是人类遗传基因数据是与患者隐私密切相关的敏感数据,因此医疗数据的流通以对数据脱敏处理或引入数据安全技术为前提。全国标准化管理委员会发布《信息安全技术 健康医疗数据安全指南》,对医疗数据分级分类、安全存储与共享提供了详细指引。国家卫生健康委、国家中医药局、国家疾控局联合制定了《医疗卫生机构网络安全管理办法》,同时三机构还联合发布了《“十四五”全民健康信息化规划》,提出采取“原始数据不出域、数据可用不可见”方式,有序推动健康医疗大数据共享应用。
金融领域,人民银行等单位联合起草了《金融数据安全 数据安全分级指南》,就金融数据安全定级作出细化规定。工业和信息化部发布了《可信数据服务 金融机构外部可信数据源评估要求》,从数据提供方企业资质、数据供应能力和安全保障能力等方面评估数据来源质量。中信银行与华为作为重要市场参与者,联合发布了《金融数据可信流通白皮书》,对金融数据可信流通模式和技术体系作出系统规定。
就工业数据的流通而言,工信部发布《工业和信息化领域数据安全管理办法(试行)》,从数据分类分级、数据安全检测、认证与管理等多方面,为工业领域数据安全管理提供了统一明晰的指引。国家市场监督管理总局和国家标准化管理委员会联合发布《智能制造 工业数据空间参考模型》,从主体角色出发细化了数据提供者、数据使用者、数据中介、数据服务商、认证机构的行为规范。
与此类似,域外实践通过建立行业可信数据空间的方式实现数据要素的融合流通。典型的如欧洲的Catena-X汽车联盟,它是一个由欧洲汽车制造商和供应商、经销商和设备供应商组成的数据共享生态系统。Catena-X是在欧盟国际数据空间的基础架构上,具化构建的汽车行业的可信数据空间。(52)See Hanno Focken, “Governance Framework for Data Space Operations”, at https://catena-x.net/en/catena-x-introduce-implement/governance-framework-for-data-space-operations, 2023-8-22.
2. 根据流通过程细化标准
正如数据处理可细分为收集、存储、使用、加工、传输、提供、公开等行为,数据流通也是由身份认证、合规审核、资产评估、挂牌交易、技术服务、数据登记等环节组成。因此,既有标准体系以行业为横向分类标准,并在纵向制度设计上重点考量流通中的关键环节,建立纵横互为支撑的数据流通标准体系,使数据流通规则更具可落地性。
目前,中国信息通信研究院发布的《白皮书》就遵循了“行业分类+环节细化”的思路,从通用要求、身份认证、存证管理、数据使用控制、服务对接等多环节,分门别类地设计了数据流通的技术要求与流程规范。同时,根据数据处理环节分别制定数据流通与管理标准,有利于打通数据底层互通性,提升数据可用性。(53)参见中国信息通信研究院云计算与大数据研究所、大数据技术标准推进委员会联合发布的《数据标准管理实践白皮书》。各专业团体也从流通环节出发,发布数据流通主体描述规范、产品评估规范、资产评估规范、数据合规管理体系、数据登记业务流程等团体标准,为数据流通活动提供了全面的规范指引。
可信数据空间是数据要素可信、安全流通共享的新型数字化基础设施。它由多种安全技术融合而成的可信技术生态,以及由主体可信、行为合规、行业标准建构的可信制度体系共同组成。理论上,可信数据空间可以为各类数据流通交易活动提供可靠安全保障,但考虑到可信数据空间用到的隐私计算技术成本较高、局限较强,实践中真正使用该技术模式的用户不超过5%。可信数据空间并非一般数据流通交易的首选,但是可以作为数据跨境、敏感数据流通和陌生人交易场景下的数据流通方案。具体而言,对于数据跨境流通,当事人可以通过可信数据空间,在数据不出域前提下开展数据处理活动。对于双方当事人由于初次交易而难以建立互信关系的,也可以通过可信第三方或者可信技术来实现交易可控。因此,可信数据空间的应用应当与数据分类分级相结合,以法律要求和用户需求为导向,最终助力高敏感数据和低信任当事人的数据流通活动得以安全、有效展开。