李 闯 陈 欣 金 凡
(中国金融认证中心 北京 100054)
(lichuang@cfca.com.cn)
数据要素在国家战略安全、经济发展以及个人日常生活中扮演越来越重要的角色.其作为重要战略资源的特征已逐渐显现[1-2].数据要素的加快流通逐渐进入到生产生活的各个方面,如何在高流动的数据使用与服务过程中兼顾数据安全与隐私保护成为当前大数据和人工智能产业面临的重要挑战[3].作为平衡数据使用与隐私保护的重要方法,隐私计算可以在不泄露数据信息的情况下实现对数据的分析与处理.目前实现隐私计算的技术路线主要包括安全多方计算(secure multi-party computing,SMPC)、联邦学习(federated learning,FL)以及可信执行环境(trusted execution environment,TEE)等.其中同态加密(homomorphic encryption,HE)作为更加底层的加密方案,由于其密文自身具有“可计算性”,相比多方安全计算所依赖一系列通信协议可以有效节省通信成本[4].此外,在云服务架构下将模型部署在云端,利用云计算资源实施计算并返回推理结果.此过程中基于明文的外包计算依然存在用户隐私向云环境暴露的风险.同态加密可以支持对密文进行代数运算,并且代数运算的结果经过解密后与明文计算结果相同[5].采用同态加密方案是保护数据隐私、实现数据对第三方“可用不可见”的重要途径.
在基于同态加密算法和模型的隐私计算场景中,由于涉及大量针对密文数据的生成、传输、计算、解密等操作,密钥的管理与分发变得更加复杂.其复杂性具体表现为3个方面:1)在采用不同的同态加密方案处理代数运算时,有时还需要引入“计算密钥”,即通过“重线性化”过程保持密文规模,而该过程的构造需要额外生成1对满足RLWE(ring learning with errors)困难的密钥[6],所以相比传统加密通信场景下密钥扮演的角色更加多样;2)在不同的隐私计算场景中,密文的操作方也不再局限于加解密的通信双方,还包括云服务商、密文数据存储方或者联邦学习的计算节点等;3)在联邦学习这类多方参与的场景下可采用多密钥同态方案,而计算结果的解密又需要各方私钥(或中间解密结果)的联合参与,安全高效的联合解密与密钥的安全管理直接相关,因此,在计算框架内引入“辅助”第三方进行同态密钥的分发与管理以及进行合理的联合解密是必要的.
在进行隐私集合求交集(private set intersection,PSI)或隐私信息检索(private information retrieval,PIR)的场景下,尤其是在云辅助的隐私求交集场景下,引入公正第三方可以对求交协议或检索操作中所需要的秘密信息进行分发,从而确保公正第三方在不获取任何集合(或检索)内容的前提下,为隐私求交集以及密文检索协议的安全性提供保障.
在多方安全计算的理论模型中一般会假设绝对可信第三方的存在,获取所有参与方的所有输入信息进行计算后由安全信道分发并返回到各方,从而完成计算.作为多方安全计算理想流程的简单抽象,大多数理论研究致力于通过多方安全协议在理论上实现可信第三方的替代.但在实际的工业环境中,为了提升计算效率、减少传输与存储数据量、实现安全便捷的密钥分发管理以及确保流程的不可抵赖与可审计,常常需要引入辅助性质的第三方.为了与理想模型中的可信第三方相区别,本文将实际引入的第三方归结为公正第三方(fair third party,FTP).与安全多方计算理论中理想的可信第三方相比,公正第三方主要有以下2方面的不同:1)理想模型中的可信第三方作为绝对的信息执行者,通常知晓并掌握所有参与方的几乎所有输入信息以及相关秘密信息,而公正第三方并不获取执行运算时的任何参与方的直接性输入信息与秘密;2)公正第三方通常不参与具体的计算业务,而是提供辅助性、通用性功能(如分发密钥、颁发证书等).满足工业场景的公正第三方应具有:1)公开性.公正第三方通常不获取任何计算协议的直接性输入信息以及业务数据,或仅能接触到运算结果的密文.2)公正性.公正第三方保持中立,不与任何计算参与方共谋,不参与任意一方关联业务.安全性符合诚实性假定.3)通用性.公正第三方提供辅助性、通用性的计算或逻辑处理任务.4)可审计性.公正第三方自身定期接受审计.并对计算参与方的协议、流程、密文数据有监督和存证能力,使隐私计算流程具备可审计的途径.
为了解决在构建机器学习模型时,数据孤立分散且同时需要保护数据拥有者隐私的难题,Google公司工程师McMahan等人[7]最早提出了联邦学习的模型训练方式.利用不同参与方的原始数据,确保数据仅存在参与方内部进行联合建模.联邦学习按照数据在特征空间与样本空间的组织方式可以分成3类:横向联邦学习、纵向联邦学习以及联邦迁移学习.为了便于阐述公正第三方的作用,本文以横向联邦学习为例进行叙述.
假定在联邦学习中各参与方为半诚实的,为了在联合计算过程中原始数据不被其他参与方获取,参与方在与计算节点通信过程中只对模型的关键参数(如梯度信息等)进行传输,而计算节点获取到关键参数后进行聚合计算出全局参数并分发回各参与方,从而完成1轮训练(如图1所示).
图1 引入可信第三方进行同态密钥分发的联邦学习架构
考虑到对模型关键参数进行推断攻击(如原始图片信息等)是可能的[8].而采用部分同态加密(partially homomorphic encryption,PHE)的联邦学习方案可实现对关键参数的保护,且采用部分同态加密方案实现的计算节点参数密文聚合操作相比于全同态加密(fully homomorphic encryption,FHE)方案具有操作效率高且支持无限次密文加运算的优点[9].Fang等人[10]采用优化的Paillier加密方案构建联邦学习架构完成深度网络的联合训练,提升25%~28%的计算效率.该研究通过引入可信第三方作为密钥管理中心进行同态密钥分发,在每轮联合学习之间进行密钥更新.而采用单密钥同态加密会使各参与方获取到相同密钥对,这必然会使半诚实的其他参与方更容易获取到其他人的参数信息,并增加原始数据遭到推断攻击的风险.
从安全性角度来说,任何计算参与方以及当前计算节点无法进行私钥汇总.虽然可以进行中间密文的广播,但存在2方面问题[11]:一方面,需要引入额外安全多方协议确保广播的安全性,这进一步增加了整个系统的复杂性;另一方面,联合解密后各参与方都可以获取到最终计算结果,使得计算结果解密过程不可控.针对这2方面问题,可通过引入公正第三方的方式予以解决.
方案1.公正第三方可以对联合计算结果进行“解密-重加密”的权限控制.在某一轮联合训练计算前,由公正第三方向各参与方以及授权的非参与者分发同态密钥(包括扩展密钥和计算密钥,如图2所示),之后各参与方加密本地数据训练模型后将密态参数发送到计算节点进行聚合,聚合结果(联合密文)由计算节点发送到公正第三方并在公正第三方内部实施联合解密后,再用各自参与方公钥对结果重加密后转发(如图3所示),参与方收到密文可直接采用私钥解密并更新模型,而授权的非参与者也可通过已申请的私钥获取当前联邦学习系统的中间结果.
图2 “解密-重加密”方案下的密钥生成与分发
图3 公正第三方参与的联合计算结果“解密-重加密”方案
方案2.可以通过引入“代理重加密”方法在某一轮联合训练开始前,由公正第三方生成同态密钥之后,为各参与方及授权的非参与者生成相应的代理重加密密钥并进行分发,如图4所示.各参与方上传各自的模型训练参数,并加密上传到计算节点,计算节点聚合后输出全局参数的密文信息直接无差别分发到各方,如图5所示,各方用代理重加密密钥与对应的私钥将联合密文进行解密后,进一步更新本地模型.相较方案1,公正第三方则不再参与计算过程与转发.其系统安全性进一步提升.加密方案的安全性在于各方获取的重加密密钥,并不会推知其他参与方的私钥信息,进而并不会引起其他参与方的参数信息泄露.
图4 代理重加密方案同态密钥及重加密密钥的生成与分发
图5 代理重加密方案下计算节点分发联合计算结果
引入公正第三方的优势在于以下几个方面:第一,为整个计算架构进行同态密钥的生成与分发;第二,在多密钥场景下可以在公正第三方内部对聚合计算结果进行安全的“解密-重加密”,实现联合计算结果访问权限可控,公正第三方并不获取各参与方的关键参数密文信息,进而不会引起参数信息的泄露;第三,计算节点由于其不能进行联合解密,所以各参与方的参数信息依然是安全的;第四,通过采用代理重加密方案,在公正第三方内部生成代理重加密密钥,在不获取联合计算结果密文的情况下实现对中间结果的访问权限进行再分配;第五,考虑到流程的可审计性,可以对非参与者获取计算结果的行为进行授权实现“建模-计算-审计”的联合计算模式.
构建生物信息认证系统在无纸化合同签署、门禁系统、反欺诈等方面有着广泛的应用.目前,实现生物信息认证主要有2类技术路线:一类是将注册时保存的生物模板信息转化为可恢复的私钥以及可公开的辅助信息.在验证阶段,利用纠错编码对输入的生物信息进行纠错,从而实现对私有“秘密”的恢复,最终通过比对“秘密”的哈希值实现认证[12-13].从安全性来说,既保证密钥精确恢复的同时又保证恢复输入特征是困难的.因此,构建足够安全且精度较高的生物认证系统具有较大难度.另一类方法是采用同态加密技术,对生物模板特征信息进行加密,其验证决策来自于对密文的相似性计算结果.在已有研究方案中,由于密文的计算、保存以及密钥管理在系统中需独立运行,因此,较多的研究引入第三方进行密钥分发和完成认证服务.Gomez-Barrero等人[14]基于部分同态加密方案构建了针对手写笔迹的生物信息认证系统,该系统中用户在客户端内输入手写笔迹并转化为特征向量,并不保存原始笔迹数据.采用公钥对特征向量进行同态加密并存储,作为注册特征进行保存.在验证阶段,对密文进行相似度计算,最终在第三方验证服务器中对相似度值进行解密,通过与预设阈值进行比较而作出验证决策,即完成1次认证过程.基于部分同态加密的生物认证系统应包括3个部分[13],即客户端、密文服务器以及第三方认证服务器.
引入公正第三方作为认证服务器并采用PHE进行认证的步骤如图6和图7所示.图6为注册阶段,客户端获取同态密钥后,生成模板密文并发送到密文存储服务器;图7(a)为对应PHE的验证阶段,客户端获取待验证的模板信息并计算相似度后,发送相似度密文并由公正第三方进行认证后返回结果.为确保新生模板信息原始数据只存在于客户端,相似度的计算必然需要在客户端完成.
图6 生物信息流程的注册阶段
图7 生物信息认证流程验证阶段
考虑到相似度的同态计算需要在客户端完成会消耗较多计算资源.构建基于FHE的认证系统则可以减少客户端与密文服务器的交互次数[15],并将密文存储与相似度的计算在密文服务器内完成.其认证流程在注册阶段与部分同态架构下的操作基本相同,如图6.在验证阶段,两者区别在于客户端将加密的生物信息发送到密文服务器并在服务器进行相似度的同态计算,再由密文服务器将结果发送到作为公正第三方的认证服务器,如图7(b)所示.在生物信息认证场景中,公正第三方的优势体现在:1)只需要分发公钥给客户端,确保私钥的安全性;2)不获取用户生物信息的密文数据,即不会与任何密文存储服务器进行共谋;3)公正第三方作为认证服务器时,仅采用相似度计算结果的密文完成认证操作.
隐私集合求交集运算作为当前隐私计算的热点,在各类隐私计算场景中有着非常广泛的应用[16].PSI技术研究开始较早,当前实现PSI主要有4类途径:1)基于公钥密码体系的PSI,如采用有限域上Diffine-Hellman密钥协商方式或RSA盲签名方式构建的协议[17-18].2)基于混淆电路的PSI[19].3)基于不经意传输协议(oblivious transfer,OT)的PSI,考虑到协议传输效率以及集合比较时的计算复杂度,构建协议时采用基于OT构造的不经意伪随机函数(oblivious pseudo random function,OPRF)[20]作为集合元素的基础比较协议.而为了提升集合比较的效率往往采用布隆过滤器[21](Bloom filter,BF)或布谷鸟哈希[22]技术这类基于哈希表的加速技术,目前已经被广泛运用在各类PSI协议中.尤其当数据量明显增加时,采用哈希表技术的效率提升则更加显著[23].4)基于同态加密的PSI,采用同态加密的协议可以分为基于半同态加密方案的协议,如Freeman等人[24]2004年提出的不经意多项式评估协议(oblivious polynomial evaluation,OPE),以及采用FHE实现的协议[25],该研究所提出的FHE协议在两方集合大小存在显著差异的非对称场景中,可以在通信成本较低的前提下实现高效的PSI.
除两方协议之外,多方参与的隐私数据求交以及引入辅助第三方的PSI更具逼近实际场景.文献[26-27]提出了外包隐私集合交集协议(outsourced private set intersection,OPSI),该协议则通过引入不可信第三方(如公有云服务),将协议中对盲化(或密文)的集合信息求交集运算交由第三方完成,在此过程中,第三方仅能获取到求交集客户端的盲化信息而并不能感知真实的集合元素.Abadi等人[27]率先提出采用点值多项式表示集合元素的OPSI协议,该协议可以实现将加密的数据集合委托在云服务器上,实现了对集合求交协议的权限控制,但由于协议中进行多次盲化与去盲操作,协议交互过程则相对复杂而且低效.Qiu等人[28]提出在云环境下的OPSI协议,将隐私集合求交集运算全部交由云服务器完成,该研究采用双线性对通过密文检索的方式获取密态集合的交集,该协议同时支持权限控制确保密态数据在授权下进行求交.此外,该协议也额外引入可信第三方作为初始密钥的分发方.Kerschbaum[29]提出通过在云服务器上比较来自不同客户端的密态BF,云服务器在密态下计算BF交集,客户端收到密态BF交集后在本地确定最终的元素交集,该协议在恶意敌手模型中同样引入可信第三方分发密钥信息以及为客户端集合元素进行认证,实现协议的安全和完整性.
总体而言,密钥管理服务器作为辅助第三方,一方面不与各参与方共谋,符合公正性,同时也不会获取与集合求交集任务的任何信息.因此,密钥管理服务器作为公正第三方为求交集运算各参与方配送秘密信息(如加密密钥或者盲化因子等参数),如图8所示.云服务器通过操作盲化集合完成求交集运算,由于没有解密密钥以及去盲因子等信息,也并不能获取与集合内容相关的信息.
图8 云辅助下两方(或多方)隐私求交集结构
私有信息检索(private information retrieval,PIR)与PSI场景不同,PIR作为进行信息检索时的保护客户端查询隐私的技术,通过构造向数据库端发送统计不可区分的检索请求,使得检索完成后数据库端并不知晓检索者的检索内容[30].PIR技术分为3类:1)基于信息论安全的PIR技术,即客户端向多个独立存储的数据库副本发送有差别的请求,客户端收到各副本的返回后计算出真实的查询结果[30],而各副本端并不能知晓用户查询的索引.该方案建立在多服务器(多数据样本)之上,而多数据库副本在现实中既会增加空间复杂度,又会使数据库本身的维护成本增加,所以不具备实际可操作性.2)基于计算安全的PIR技术,通过密码学难题(如二次剩余问题)构造方案实现对检索信息的保护[31],同时假设数据库端难以在多项式时间内区分私密检索信息,此类PIR是通过增加计算复杂度减少通信复杂度的方式实现检索隐私保护.3)基于可信硬件实现PIR,一般认为在服务器端安装可信硬件[32],相当于在硬件层面进行安全性隔离,通过构建可信硬件与服务器端的密码协议,完成信息的交互与查询.
可搜索加密(searchable encryption,SE)作为典型的计算安全PIR方案,关注于加密外包数据的检索场景,通过关键词抽象出数据库记录(或文件).避免直接对整个数据库进行操作.以云服务为辅助的SE实现方式正逐渐成为主要实施手段[33],数据使用者通过双线性对与私钥加密的关键词构造“陷门”,云服务器通过对数据使用者(检索人)计算的“陷门”信息(即查询关键词的密态信息)与数据拥有者提供的加密关键词信息进行密文检索[33],从而向数据使用者返回匹配成功的关键词所对应的加密数据记录(或文件)集合.在充分利用云服务器计算与存储性能基础上,同时保护数据提供者与使用者的(被)检索隐私安全.由于双线性对的构造以及公私密钥对的生成并不能由云服务器生成,因此,在实施过程中依然需要引入第三方来完成,该第三方既不获取数据检索内容,且不得与数据拥有者和使用者共谋,必然满足公正性.公正第三方参与的SE流程如图9所示:
图9 云服务下引入公正第三方的密文检索流程
安全外包计算可以在保护模型使用方数据的前提下,充分利用云端计算和存储资源完成模型评估等业务.典型场景可以描述为,云服务商为数据提供者提供模型推理服务,避免数据向云服务商暴露,同时数据提供者并不知道关于模型的任何信息.Liu等人[34]采用支持加运算的部分同态方案[35],并引入可信第三方作为密钥托管方负责对用户与云服务商进行密钥分发,构建了基于密文的决策树模型训练方案,该方案设计了推理服务提供者(evaluation service provider,ESP)与云服务提供者(cloud service provider,CSP)的“双云”策略,将决策树训练过程中数据密集型的数据处理任务与计算密集型的模型前向推理任务分别处理,两者通过密钥分享方式分别持有共同私钥份额,在保证双方只能进行部分解密的前提下,实现模型训练并为用户提供模型服务.值得一提的是,Chen等人[36]在神经网络模型的安全外包计算场景下提出“数据提供者”与“模型提供者”两方独立的联合推理架构并引入ESP,与“双云”架构类似.在该场景中,数据提供者在最终获取推理结果前,需要2次分别与计算方和模型提供者建立连接,并分别接收“联合密文”与“中间密文”,而当数据提供者数量增加时,模型提供者既需要与ESP通信,同时需要与各个数据提供者通信,这又会进一步增加网络通信的成本以及信息传递的不稳定性风险.而引入公正第三方对联合密文与中间密文的传输进行有效管理并定向转发,进而数据提供者使用模型推理服务时,只需与ESP进行1轮通信.解密时部分解密的结果可由公正第三方提供.
安全外包计算场景下引入公正第三方的优势在于:首先,在云服务器上进行模型推理时(如图10所示),可在隔离原始数据的前提下进行[37],当存在多个数据或模型提供者时,由公正第三方对各参与方的密钥进行统一分发;其次,当存在多个模型提供者时,公正第三方对推理的密文结果进行部分解密,可以避免数据提供者直接与模型提供者通信,减少整体的通信复杂度;最后,在解密模型推理结果时,不再要求数据提供者与模型提供者同时在线.
图10 引入公正第三方的“双云”架构下的模型外包计算策略
本文通过回顾当前隐私计算领域的典型场景,梳理已有研究中引入第三方辅助安全的作用,认为在满足公开性、公正性、支持审计性的前提下,将各类辅助第三方归纳总结为公正第三方.在应用同态加密方案进行联邦学习、生物信息认证、隐私集合求交/隐私信息检索及安全外包计算场景中,合理地引入公正第三方可以为隐私计算应用的有效实施、提升其风险可控性起到积极作用.尤其是公正第三方可以在完成身份认证后,向非参与者进行定向授权,支持其对计算流程进行相关审计或监管活动.