面向联邦学习的共享数据湖建设探讨

2020-09-19 08:02:38
网络安全和信息化 2020年9期
关键词:数据保护原始数据联邦

编者按:本文分析了联邦学习与数据湖的不兼容性和融合契机,梳理了适用于实现联邦学习和数据湖技术融合的数据保护技术,探讨构建了基于数据保护和价值共享的隐私数据使用矩阵,提出了面向联邦学习的共享数据湖建设策略,为解决不同数据所有方在数据湖中共同安全、合规的使用数据资源等提供了具体的技术建议。

随着各国的数据保护法律、政策陆续出台,如何在合规使用数字资产的前提下,共享数据价值、保障经济效益正在影响新基建所带来的技术范式演进。从目前的技术发展历程来看,联邦学习和数据湖在之前各自的技术演进中是甚少交集的。两者的不兼容性主要在以下两方面:

一是用户需求差异较大。联邦学习在已有的商业实践中,主要为海量的终端用户服务。而数据湖的用户群体源于数据仓库的使用者,属于企业级用户。不同的用户群体的需求存在较大差异。

二是联邦学习的网络开销较高。联邦学习关注数据的去中心化,但其模型更新过程中始终需要中央服务器参与。不同的终端用户在连接中央服务器时的网络环境充满不确定性,因此海量终端用户在进行联邦学习时的网络开销较高。而数据湖在保证性能与效率的前提下,正在致力于通过分布式架构等途径防止网络开销过高。

联邦学习与数据湖的融合契机

随着联邦学习的商业化进程加快,企业级用户正在成为联邦学习的目标用户。这为联邦学习与数据湖解决不兼容性问题,实现技术融合带来了可行的应用场景——同类型用户群体、较小的用户规模和相对稳定的网络环境。在这一应用场景下,联邦学习与数据湖具有以下三方面的融合契机:

一是数据湖可以成为联邦学习所需的可信第三方节点。理论上,联邦学习不需要第三方节点可信,但需要满足不同数据所有方彼此诚实且好奇,严格符合安全多方计算(MPC)等条件。而这些条件目前尚难以同时满足。此外,在联邦学习的训练过程中,模型更新需要向第三方节点显示敏感信息。虽然可以通过安全多方计算、差分隐私等保护隐私,但是采用可信第三方节点可以有效保障模型性能和系统效率,在经济效益上更为可取。

二是数据湖天然适合成为联邦学习的商业化载体。数据湖的元数据可以为联邦学习在商业化进程中拓展新的数据价值共享模式。数据湖的元数据可映射为联邦学习中的所需的标签Y,实现数据与标签Y的分离。这种分离使得拥有海量数据但不清楚如何使用的用户免去协议制定的困扰,让联邦学习的数据价值共享模式不再拘泥于由标签Y的提供方制定协议。

同时,目前联邦学习正在探索商业化推进的平台和激励机制,考虑通过区块链等技术记录联邦学习参与者的贡献评价和数据价值分配。而数据湖已有一定的商业实践,并且其海量的存储能力天然适合作为区块链等技术的载体。因此,可以通过激励机制在联邦学习的协议制定中加入央行数字货币DC/EP,进一步推动数据价值共享的模式创新。

图1 基于数据保护和价值共享的隐私数据使用矩阵

三是联邦学习可以帮助数据湖解决安全性质疑。通过联邦学习,数据湖可由直接存储含有用户隐私的原始数据转为存储加密的模型相关参数等原始数据。这样既可以保留存储原始数据的根本特征,又可以解决人们一直以来对于数据湖中原始数据安全的质疑。解决安全性质疑对数据湖实现从用户内部的信息基础设施走向用户间共建共享的信息基础设施的技术演进尤为重要。

适用于实现联邦学习和数据湖技术融合的数据保护技术

要实现联邦学习和数据湖的技术融合,数据安全是融合的前提。因此,需要按照等级保护的相关要求配备数据保护技术,具备数据保护能力。根据数据保护能力的来源,适用的数据保护技术可以分为两大类:

第一类是内生的安全保护,即联邦学习本身包含的数据保护技术。这类技术包括基于隐私保护的数据建模、不经意传输、差分隐私以及同态加密等。

第二类是外部的安全保护,即其他可在数据湖中配备的数据保护技术。包括入侵防护、追踪溯源、访问控制和区块链等。这些技术还可以进一步的细分,一种是直接参与联邦学习的技术,例如,记录联邦学习全过程的区块链;另一种是防止数据湖内存储数据被恶意获取、使用等的技术,包括入侵防护、追踪溯源和访问控制等。

面向联邦学习的共享数据湖建设策略

综合数据保护的对象和联邦学习的价值共享过程,可以对直接参与联邦学习的数据保护技术从数据保护和价值共享两个维度进一步细分,构建基于数据保护和价值共享的隐私数据使用矩阵,如图1 所示。

在数据保护维度,主要考虑需要保护的数据是本体还是附属(关于数据本体与附属的概念,可参看笔者拙作《大数据监管系统建设研究》)。其中数据本体包括标签Y、模型更新的参数等,数据附属包含联邦学习的协议制定、参与用户及其贡献等。

在价值共享维度,通过联邦学习进行价值共享的过程一般可以分为两个阶段:第一阶段是准备阶段,其中包括确定参与联邦学习的用户,制定协议,建立模型;第二阶段是实现阶段,由参与用户共同训练模型、完成联邦学习并进行价值共享。

从图中可以看到,对于数据附属,主要通过区块链所使用的零知识证明、智能合约等在保护隐私数据的同时如实记录联邦学习的全过程;对于数据本体,在准备阶段采用基于隐私保护的数据建模,防止由于原始数据参与参数传递导致的潜在数据泄露的情况,在实现阶段采用不经意传输、差分隐私、同态加密等,防止在进行联邦学习时的中间数据等被恶意获取、使用等。

在面向联邦学习的共享数据湖建设中,首先需要按照矩阵中的划分对数据湖进行相应的配置,从而为联邦学习的全过程中产生的各类数据提供针对性的保护。

同时,数据湖还需要将入侵防护、追踪溯源、访问控制等技术作为构建数据保护能力的基础,使其成为数据湖作为用户间共建共享的信息基础设施的标准配置。

此外,面向联邦学习的共享数据湖建设中还需要考虑两类可预见的风险:

第一类是安全性衰减风险。从技术发展的历程看,不论是直接参与联邦学习的数据保护技术如不经意传输、差分隐私等,还是构建共享数据湖基础数据保护能力的入侵防护、追踪溯源等技术,都面临着安全性因技术进步而不断下降的现实风险。

第二类是超范围使用风险。目前联邦学习的应用研究中,正在探索采用联邦学习进行融合金融、医疗、用户行为等多方数据源的商业实践。在这类商业实践中,用户隐私有可能随着关联数据超出预计范围而出现意想不到的数据泄露风险。

因此,出于合规与安全的共同需要,面向联邦学习的共享数据湖建设还应当考虑与大数据监管系统建设的适配,让监管部门可以实时掌握第一手情况,从而最大限度的规避技术创新过程中的各类风险。

总结

本文分析了联邦学习与数据湖的不兼容性和融合契机,梳理了适用于实现联邦学习和数据湖技术融合的数据保护技术,探讨构建了基于数据保护和价值共享的隐私数据使用矩阵,提出了面向联邦学习的共享数据湖建设策略,为解决不同数据所有方在数据湖中共同安全、合规的使用数据资源等提供了具体的技术建议。

猜你喜欢
数据保护原始数据联邦
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
303A深圳市音联邦电气有限公司
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
汽车零部件(2017年4期)2017-07-12 17:05:53
TPP生物药品数据保护条款研究
知识产权(2016年5期)2016-12-01 06:59:25
欧盟数据保护立法改革之发展趋势分析
欧盟《一般数据保护条例》新规则评析
药品试验数据保护对完善中药品种保护制度的启示
世界经济趋势