隐私计算及其相关标准介绍

2022-10-19 09:04蔡鸣远内蒙古公安厅网络安全保卫总队
中国质量与标准导报 2022年4期
关键词:同态差分联邦

蔡鸣远(内蒙古公安厅网络安全保卫总队)

谢宗晓(中国金融认证中心)

0 引言

隐私计算(Privacy Computing)是在需求推动下的一类技术的统称,前提是数据被作为生产要素,需要实现其价值。如果仅需要保护隐私,或者说实现机密性,是不需要隐私计算的。隐私计算也称为隐私保护计算(Privacy-persevering Computing),主要是指在保护数据隐私的前提下,实现数据的流通和应用等,就是常说的“可用不可见”。因此,从隐私的整个生命周期来看,隐私计算只是其中一个环节。

1 分类

按照不同的标准,隐私计算可以划分成不同的类别。从隐私保护的角度而言,大致分为三类:(1)基于访问控制技术的方案;(2)基于密码学的方案;(3)基于信息泛化、混淆、匿名等技术的方案[1]。这三类保护技术各有利弊,基于访问控制技术的方案并不适合数据交换和元数据存储等环节,基于密码学的方案可以较好地解决数据交换问题,但是交换后的信息如何管理需要其他方案,基于信息泛化、混淆、匿名等技术的方案降低了数据的可用性,目前采用的逻辑是处理后的数据和原始数据同时保存。

该分类一个更重要的问题在于与实践中所用词汇不一致。例如,在隐私计算领域,提到最多的是多方安全计算、联邦学习、差分隐私等。本文将常见的技术按应用的层次分为技术框架和基础技术。其中,技术框架主要包含多方安全计算、联邦学习和可信执行环境。基础技术主要包括同态加密、差分隐私、不经意传输、秘密共享和零知识证明等较为具体,但是不能成为单独应用的技术。

2 技术框架

2.1 多方安全计算

多方安全计算(Secure Multi-party Computation,MPC)是指没有可信第三方的情况下,一组互不信任的参与方在不泄露隐私信息的前提下,共同计算某一函数,并获取自己的结果,这需要同时实现数据的机密性和正确性。多方安全计算起源于姚期智在1982年提出的百万富翁问题,即两个富翁在无可信第三方的情况下,想比较谁更有钱,但是又不想暴露自己的财产。

多方安全计算有一系列的实现途径,其中包括姚期智在1986年给出的利用混淆电路的解决方案。在目前的实践中,还存在通过同态承诺、同态加密、秘密分享、不经意传输和零知识证明等实现方案。具体的实现方案,在本文中不再赘述。

JR/T 0196—2020《多方安全计算金融应用技术规范》标准中定义了MPC的参与方、工作时序和应用目标等,并给出了基础要求和安全要求两方面的要求。其大致结构见图1。

图1 JR/T 0196—2020的主要内容

此外,IEEE(电气与电子工程师协会)发布IEEE 2842—2021 "IEEE Recommended Practice for Secure Multi-Party Computation"(IEEE 2842—2021《IEEE多方安全计算实践建议》)。

2.2 联邦学习

联邦学习(Federated Learning),也称为联邦机器学习(Federated Machine Learning),是谷歌(Google)在2016年提出的一个分布式机器学习框架。与传统的分布式机器学习相比,区别主要在于联邦学习要防止泄漏用户的隐私数据,其设计初衷也是为了保护用户隐私。在联邦学习的参与方中,数据都是本地存储,需要传输的是模型信息,这个设计保证了参与方的数据安全。

与多方安全计算一样,联邦学习具体实现也是一系列的技术集合。但严格来说,多方安全计算本身就起源于信息安全领域,联邦学习则起源于人工智能的机器学习领域。或者说,联邦学习就是专注于安全和隐私保护的机器学习。

目前,IEEE发布了IEEE 3652.1—2020 "IEEE Guide for Architectural Framework and Application of Federated Machine Learning"(IEEE 3652.1—2020《IEEE联邦学习架构与应用指南》)。

2.3 可信执行环境

可信执行环境(Trusted Execution Environment,TEE),就是通过一组软硬件,实现一个安全的运行环境,从而将系统划分为可信执行环境和普通执行环境。可信执行环境是一个安全区域,具体实现方式多种多样,但必须具备隔离的特点。但是有一点应该注意,可信执行环境和可信计算是两码事。

目前,国家标准《信息安全技术 可信执行环境服务规范》在研制中。

3 基础技术

3.1 同态加密

同态加密(Homomorphic Encryption)是1978年提出来的一个概念,是指一类加密函数,对明文进行一系列运算,并对密文进行相应的运算,结果是等价的。因为对绝大部分的加密算法而言,加密之后看起来就是一堆乱码,一旦经过运算可能会导致解密失败。显然这类函数不太容易实现,因此一直到2009年,IBM的Gentry才第一次实现了真正的同态加密。同态加密在隐私保护领域有广泛的应用场景,尤其是在云计算环境下。例如,用户可以将数据加密后传至云,云服务提供商处理结束后,发送结果,这过程中,数据对于云服务提供商也是保密的。

国际标准化组织(ISO)发布了ISO/IEC 18033-6:2019 "IT Security techniques—Encryption algorithm—Part 6: Homomorphic encryption"(ISO/IEC 18033-6:2019《信息安全技术 加密算法 第6部分:同态加密》)。

3.2 差分隐私

差分隐私(Differential Privacy)是针对差分攻击的一种隐私保护技术手段。差分攻击是指通过比较和分析有特定区别的明文在加密后的变化情况来攻击密码算法。差分隐私要做的是让密文不会随着有特定区别的明文的出现而变化,常见办法就是加入随机噪声。例如,在数据库中加入随机噪声后,会导致降低查询的效率,因此,差分隐私一方面要提高查询准确性,另一方面还要减少攻击者的识别记录的机会。

3.3 不经意传输

不经意传输(Oblivious Transfer)是一个密码协议,而不是算法。Robin在1981年提出这个概念。在不经意传输中,消息发送者会从一些待发的消息中发送一条给对方,但事后消息发送者不知道对方是否已经收到信息,因此,也被称为茫然传输协议。不经意传输保护了消息接收者的隐私。

3.4 秘密共享

秘密共享(Secret Sharing)是为了分散风险,将秘密进行拆分至不同的参与者,这样单个参与者无法恢复秘密消息。秘密共享的重点是分割函数和重构函数。一般而言,重构消息的人数是分割人数的子集,也就是说,缺少了一部分参与者,消息仍然能够全部恢复出来,这叫门限秘密共享方案。

3.5 零知识证明

零知识证明(Zero-Knowledge Proof)或零知识协议,是由S.Goldwasser、S.Micali及C.Rackoff在20世纪80年代初提出的,其主要应用场景是,证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。或者说证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向验证者泄漏任何关于被证明消息的信息。

3.6 混淆电路

混淆电路(Garbled Circle)也是一种密码协议。其基本原理是将计算电路的每个门都加密并打乱,保证不会泄漏原始输入和中间结果。双方根据各自输入依次进行计算,解密方可以得到唯一正确的结果,无法得到其他信息。混淆电路是实现多方安全计算最容易的形式,最早也是姚期智在1986年为解决百万富翁问题而提出的方案。

4 小结

综上所述,业界最常见的三类技术框架,即多方安全计算、联邦学习和可信执行环境,分别起源于不同的领域。多方安全计算起源于密码学领域,常见的基础技术主要与此相关,其发展依赖于密码算法或密码协议等实现;联邦学习起源于机器学习领域,需要在智能和安全之间找到平衡,底层依赖于机器学习算法的研发;可信执行环境则起源于早期的硬件隔离等方案。上述技术框架和基础技术见图2。

图2 JR/T 0196—2020的主要内容

猜你喜欢
同态差分联邦
RLW-KdV方程的紧致有限差分格式
三角矩阵环上FC-投射模的刻画
联邦学习在金融数据安全领域的研究与应用
符合差分隐私的流数据统计直方图发布
相对于模N的完全不变子模F的N-投射模
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
D4-δ-盖及其应用
303A深圳市音联邦电气有限公司
基于差分隐私的数据匿名化隐私保护方法
相对差分单项测距△DOR