姚志强, 陈喆玙
(1.福建师范大学 计算机与网络空间安全学院, 福建 福州 350117;2.大数据分析与应用福建省高校工程研究中心, 福建 福州 350117)
当今时代, 电子设备网络连接相当普遍, 物联网技术无处不在, 收集、 存储、 计算、 共享所有类型数据的云计算和大数据日渐成熟, 在带来便利的同时也产生用户隐私泄露风险。 例如, 社交软件往往要求用户提供个人信息, 如姓名、 性别、 生日、 教育程度、 婚姻状况及手机号码等。此外, 用户产生的文本、 图片、 视频、 地理位置等信息也保留在服务提供商的数据库中, 这些实体就可以处理、 分析和挖掘数据以提取有用的信息, 也可能向第三方出售或共享收集到的数据,并恶意使用它。 一旦用户隐私信息被泄露或恶意使用, 用户的利益就会受到损害。 因此, 隐私保护成为网络空间安全领域的研究热点。
数据的隐私保护问题最早由统计学家Dalenius 在20 世纪70 年代末提出, 保护数据库中用户隐私信息的目的是防止任何用户(包括合法用户和潜在的攻击者)在访问数据库时获取用户的准确信息。 为了实现这一目标, 研究人员设计了许多操作性强的隐私保护机制和技术工具。 隐私保护技术涉及底层硬件、 理论基础和算法应用等不同层面, 以差分隐私(Differential Privacy,DP)、 多方安全计算、 信息论隐私保护为基础形成丰富多样的技术方法或解决方案, 不同的技术方法逐渐演化出丰富的应用场景, 这些应用往往为了特定的计算目的而融合相应的方法, 为实际生产提供服务。 本文对近几年的隐私保护方法与应用进行归纳与述评, 主要分析基于匿名技术、信息论隐私保护、 DP 和人脸生物特征隐私增强等四个方面的方法及其应用前景, 最后对隐私保护技术的研究趋势进行展望, 以期为科研人员准确把握该领域的最新研究动态和未来发展方向提供借鉴。
匿名技术是指通过对用户的原始数据进行泛化、 抑制、 置换等匿名方式实现隐私保护。 其中,k-匿名是经典的匿名技术, 对数据的准标识符属性进行匿名处理, 因它对敏感属性值没有做任何处理, 所以导致具备隐私信息相关背景知识的攻击者可以利用敏感属性的分布推测出用户与敏感属性值之间的对应关系。 由此引出的l-多样性要求每个包含k个匿名准标识符的等价类中至少有l 个不同的敏感属性值, 使得攻击者无法将攻击目标唯一对应到单个敏感信息。l-多样性未考虑敏感属性的分布情况, 导致攻击者可以通过等价类中的敏感属性值的分布不均的状况, 将出现频率较高的敏感信息与攻击目标关联起来。 Li等提出t-贴近法以克服l-多样性的缺陷, 采用推土机距离衡量等价类中的敏感属性的分布与整个表中的数据分布之间的差距, 并要求这种差距不小于阈值t, 降低攻击者的攻击能力[1]。 随后学者开始考虑数据的多次发布模型和个性化匿名模型[2-3], 分别解决数据多次发布的数据联合分析导致的隐私泄露问题和用户的高度个性化的隐私保护需求问题。 总体上讲, 基于匿名技术的隐私保护方法取决于匿名指标, 侧重于处理准标识符和敏感信息来抵抗攻击者跨数据集的链接能力。然而随着大数据和云计算技术的兴起, 以“数据驱动” 为需求导向的匿名技术面临着处理数据规模大, 多源多维和结构复杂的难题[4], 尤其在处理社交网络和移动群智感知(Mobile CrowdSensing, MCS)应用场景方面较为突出, 已成为国内外学者共同探讨的热点问题。
在社交网络应用场景下, 存储在云端的社交网络数据通常采用图数据结构描述互联网中的用户之间的社交关系。 对用户身份、 社交关系等隐私信息, 执行去标识化和删除敏感属性这类简单的隐私操作, 攻击者仍然可以通过分析社交节点的度数、 子图相似度或攻击者对目标节点的了解程度攻击目标用户的隐私信息。 针对社交网络这类图数据结构的隐私保护问题, Liu 等提出图的k度匿名模型, 防止攻击者对某些节点的先验知识重新识别用户的匹配成功率[5]。 Zou 等提出k自同构模型来防止多重结构攻击, 并且开发出一种能够保证k自同构的算法, 以处理数据的动态发布[6]。 Yuan 等通过添加噪声节点, 增删边的方法实现具有相同度数的节点满足k-匿名, 并且节点敏感属性值满足l-多样性[7]。 综合上述文献可以看出, 匿名技术已拓展至图数据结构的隐私信息, 解决社交网络中节点的隐私保护问题。
在MCS 应用场景, MCS 系统由感知平台、感知用户和服务提供商组成, 通过协同三方完成智慧型社会的感知任务[8]。 在执行感知任务的过程中, 感知数据会经历数据感知、 上传和交易三个阶段, 每个阶段都可能造成用户的隐私泄露。 Liu 等提出基于改进的无证书聚合签名的数据匿名批量验证方案, 采用双线性映射对用户信息批量签名, 匿名验证用户感知数据, 实现轻量级的用户身份和感知数据的隐私保护, 保证用户的隐私性和感知生物信息的可用性[9]。 Alsheikh等基于感知数据的准确性定义感知用户的个人贡献, 进一步根据用户的个人贡献设计激励机制,使得更多高质量的感知用户参与到感知任务中,并根据自己的隐私偏好制定数据的匿名程度, 在MCS 系统中多个感知用户通过设备到设备形成通行联盟, 然后上传感知数据, 从而保证用户数据的隐私性[10]。 Wang 等提出基于分布式代理的隐私保护框架, 通过引入多级代理, 让感知用户使用匿名技术并且随机选择一个代理发送给不可信的感知平台, 从而保护用户的身份信息和位置隐私信息[11]。 可以看出, 匿名技术与密码学技术、 经济学模型交叉适用于第三方协调数据交易实体的隐私保护。
基本信息度量(如信息熵、 互信息等)广泛出现在信息量化的研究中, 尤其在通信领域发挥着重要作用。 用信息论方法研究隐私量化、 隐私-效用等问题有独特作用。
Clauβ 等利用信息熵描述数据集中隐私信息的不确定性, 信息熵值越大意味着用户的准标识符与敏感属性值的关联性趋于等概分布, 攻击者推理用户和敏感信息之间的关联性难度越大[12]。彭长根等提出基础隐私保护信息熵模型, 将隐私保护系统描述为含有信息拥有者、 隐私谋取者和隐私泄露渠道的一种通信模型, 将平均互信息、条件熵和条件互信息用来量化隐私信息、 隐私保护强度和攻击能力, 为解决隐私保护量化问题提供基础体系[13]。 张宏磊等指出, 对数据的动态操作会让分块数据不均匀, 导致用户的隐私信息泄露, 通过定义分块信息熵和块间条件熵, 前者量化了数据分块中的各分片取值整体的不确定性, 后者量化了动态数据操作对分块数据的影响, 进一步提出面向分块混淆的动态数据隐私保护[14]。
采用信息熵或互信息作为隐私度量准则, 建立优化模型成为主要技术手段之一。 Du 等根据最大熵准则提出Privacy-MaxEnt 模型对攻击者的攻击能力进行无偏估计, 将攻击者的背景知识作为模型的约束条件估计准标识符推测敏感信息的条件概率, 证明了攻击者拥有背景知识越多, 隐私信息越容易被披露[15]。 Zhang 等利用率失真理论对位置隐私保护机制进行建模, 分别提出基于离线环境和在线环境的具有时空关系的位置轨迹的隐私保护机制, 通过改进Blahut-Arimoto 算法迭代计算得到满足期望失真的位置隐私数据[16]。Cuff 等提出一种基于条件互信息的DP, 证明了其隐私保护强度介于ε-DP 和(ε,δ)-DP 之间,同时验证该方法满足DP 的组合定理[17]。
为研究隐私与效用之间的权衡关系, 学者尝试将这种问题抽象为多目标规划问题, 寻找能够同时满足隐私性和可用性的Pareto 最优解作为隐私保护机制。 针对包含可用信息和敏感信息的全数据发布的隐私保护问题, Johnson 等设计了一种细粒度模型计算隐私保护机制, 采用互信息描述全数据的可用性和隐私性, 通过分析Lagrange参数变化判定该模型是属于凸规划模型还是线性规划模型, 给出了Pareto 前沿迭代算法计算给定Lagrange 参数的Pareto 解, 并且将Pareto 解作为发布全数据的隐私保护机制[18]。χ2隐私准则同样被用来研究隐私与效用之间的权衡问题,Zamani等基于χ2隐私准则设计隐私机制来产生新的披露数据, 通过使用欧几里德信息几何将困难的隐私优化问题转化为求解矩阵的主右奇异向量并将其作为数据发布的隐私机制[19]。 应该说,隐私保护机制无法回避数据的隐私和效用间的权衡问题, 但在处理结构复杂的数据类型方面尚缺可行方案, 为此研究人员开始思考信息瓶颈理论、隐私漏斗理论结合深度神经网络的可行性[20]。
DP 已成为数据隐私保护处理的事实上的标准, 是基于一个正式的数学定义提供对具有任意背景知识的攻击者不能以高置信的分辨能力区分任一条敏感信息是否在数据库中, 这种分辨能力由隐私预算参数决定, 为隐私保护方法提供一种可量化的隐私保护强度。 DP 机制的隐私保证力强, 广泛应用在不同领域, 基于位置服务就是其中的一个典型应用。 本节主要分析DP 方法在基于位置服务中的应用研究进展, 分为地理不可区分性、 隐私空间分解和本地差分隐私(Local Differential Privacy, LDP)等3 种基于DP 方法保护用户位置数据方法。
地理不可区分性方面的首个方法称为GeoInd, 是在用户的实际位置上添加随机噪声,使具有任意背景知识的对手无法推断出用户的实际位置[21]。 根据地理不可区分性的形式化定义,对给定一个声明位置z, 敌手识别用户的实际位置究竟是x还是x′(这里x,x′∈X,X, 为用户可能的位置之集) 的能力受限于隐私预算ε, 意味着两个地点越近, 它们就越难以区分。 即使GeoInd 采用二维拉普拉斯噪声的扰动机制, 该方法只适用于单一位置查询的场景, 当独立应用于多个位置查询时, 隐私成本会随着查询的数量线性增加, 这意味着如果用户执行大量查询, 它可以快速消耗隐私预算。 为此, Hua 等提出在边界区域内的隐私消耗几乎降至零的改进GeoInd 方法[22]。
Chatzikokolakis 等提出一种构建较粗粒度网格的优化机制, 较粗粒度网格包含若干单元, 单元由合并多个位置而成, 即用户的位置x映射到x所处的较粗粒度网格中的一个单元[23]。 尽管在更粗网格上构建的优化机制减少了计算开销,但与文[21]相比, 它导致相对较高的数据质量损失。 为了减少优化机制的计算开销, Ahuja 等开发一种多步算法, 沿着多级索引结构递归地应用优化机制, 其中多级索引结构包含多个网格,接近顶层的网格比较低层的网格粒度更粗, 因此多级索引结构使算法在搜索最优解时可有效进行搜索空间的剪枝, 从而获得高计算效率[24]。
隐私空间分解是将一个空间区域划分为若干单元格, 每个单元格负责该空间区域的所有用户信息。 每个单元格中与用户相关的统计信息称为空间位置的直方图计数。 Kim 等通过向原始的单元格的统计数据添加满足DP 标准的噪声, 使得对手无法从查询结果分辨用户处于哪个单元格中, 同时也能满足数据发布之用, 实现位置的隐私保护[25]。 在使用隐私空间分解估计某个区域内的对象数量时, 可能会出现以下两种类型误差。
(1)扰动误差: 由实际计数和受扰动计数之间的差异引起的, 如拉普拉斯机制的DP 中, 扰动误差依赖于空间范围内的单元数量, 扰动误差的方差正比于单元数量, 因此查询范围内的单元数量越多, 隐私空间分解的粒度越细, 扰动误差就越大。
(2)非均匀误差: 由查询空间部分包含的单元格引起, 即使位置数据关于单元格是均匀分布的, 然而当一单元内的位置数据不均匀时, 非均匀误差会增大。 如图1 所示, 给定虚线框(即一半单元)的范围查询, 在均匀分布假设下, 范围查询的答案估计为这个估计数与实际计数有很大的不同。
图1 具有偏斜分布的位置数据单元格
因此, 隐私空间分解方面出现一些关键应用新方法的研究, 可分为2 种: 其一是不考虑数据分布而对空间区域进行划分的方法, 称为数据独立方法; 其二是基于数据分布的空间区域划分方法, 称为数据依赖方法。 数据独立方法与用户位置无关, 空间区域的划分并不披露用户的位置信息, 仅仅在计算各单元的带噪计数时才消耗隐私预算。 当数据的分布严重偏斜时, 发布的直方图是失衡的, 因此数据独立方法的思路是逼近基于带噪计数的分布。 自适应网格算法是Qardaji 等提出的两层网格划分策略, 第一层将空间区域划为 较 粗 粒 度 的m1× m1(m1=max(10,均匀网格, 接着该算法对这层单元的计数添入取样于Lap (1/ε1) 的噪声, 然后在带噪计数基础上, 各单元分为m2×的第二层细粒度单元, 并用隐私预算ε2发布各细粒度单元带噪计数,N′为第一层单元的带噪计数[26]。
数据依赖方法可以更好地捕捉用户位置的分布, 也比数据独立方法得到更均衡的统计结果。Xiao 等提出了为回答随机的多维直方图计数查询方法, 首先将空间范围进行单元划分, 每个单元的计数添加拉普拉斯噪声, 只添入扰动误差[27]。 如果一个范围查询覆盖了多个单元, 那么扰动误差就会聚合起来, 使得查询结果变得不准确到难以接受的地步; 据此, 作者进一步提出基于kd 树的单元划分, 目的是生成均匀的单元,从而使非均匀误差最小化[27]。 Kim 等进一步设计偏斜感知网络划分方法, 旨在对每个热点(即位置信息密集成群的点, 基于指数机制隐私性地查出热点)自适应划分出均匀的网格, 优化总体估计误差, 即使对高度倾斜分布的数据集也可稳健提供范围查询准确性[25]。 Fanaeepour 等经过大量分析发现, 数据依赖方法存在非隐私性的参数调优, 如层次结构的深度或空间划分的大小,可能无形中损害了隐私安全, 且一些数据独立的划分案例降低了数据效用, 因此提出隐私性优化数据依赖的误差界限, 以量化数据结构参数对非交互环境中期望效用的影响度[28]。
DP 由中心化的信任聚合器来聚合数据所有者的原始数据, 而LDP 适用于非可信的聚合器进行数据聚合的环境, 因为数据所有者不完全信任聚合器, 先对所有者数据添入精心设计的随机噪声以局部达到DP, 再聚合到数据集, 传播给用户的是扰动数据, 因此, LDP 在数据流动框架下更具安全性, 也能恢复原始聚合数据的统计特征, 满足数据的可用性和隐私性。 LDP 于2008 年被提出, 直到2014 年谷歌公司应用随机化聚合隐私顺序响应方法在Chrome 浏览器中收集用户隐私数据, 使LDP 重新活跃起来。Acharya 等对数据聚合时的扰动采用Hadamard 变换进行稀释混淆, 该变换矩阵是正交对称方阵,阶为2 的幂[29]。
Wang 等提出的随机响应算法称为分段机制,关注的是LDP 的数值型均值估计问题, 算法为:任选一个数据所有者真实的敏感值k∈[-1,1], 分段机制为输出噪声值k′∈[- C,C],C =(eε/2+1)/(eε/2-1), 先建立三段式的概率分布, 左段区间为[- C,L(k)], 中段为[L(k,R(k)], 右段为[R(k),C], 其中R(k)=L(k)+C -1; 再令RV([a,b]) 表示一个从区间[a,b]均匀地输出随机值的函数, 这样对应k的噪声值k′以相对高的概率从中段取值:[30]
近年来, 将LDP 应用于更高级的统计估计任务的研究不断出现, 比如, key-value 模型是大多数NoSQL 数据库应用的流行数据模型之一。Ye 等提出PrivKV 算法, 用于估计key-value 数据集上的频率和均值, 为了保持键与值之间的相关性, PrivKV 算法先对键进行扰动, 然后根据受扰动的键执行值的扰动, 此外, 为减少网络传输开销, 提高估计精度, Ye 等进一步设计一种称为虚拟迭代的优化策略, 在没有数据用户参与的情况下, 聚合器迭代执行虚拟PrivKV[31]。
近20 年来生物特征识别技术取得重大进展,其应用程序丰富、 服务广泛, 但也加剧用户隐私泄露的风险, 尤其是人脸识别技术。 目前发现人脸图像对个人隐私构成同样的风险, 例如, 可从人脸图像中自动提取年龄、 性别、 种族和健康信息。 为了排除这类风险, 研究人员既要确保人脸识别技术在各种场景的便捷应用, 也要加强来自生物识别特征信息的隐私保护技术和计算模型的研发。 也就是说, 从人脸图像提取性别或种族信息的分类器既可以使用空间局部信息(如眼睛或嘴巴的形状), 也可以使用全局特征(如面部外观、 面部几何形状或肤色), 因此删除或隐藏敏感信息并不是一项可直接操作的任务, 这方向的研究有一定的特殊性, 可归类为图像级、 表示级和推理级等3 个层次的隐私增强。
文[32]出于人脸掩蔽技术在现实应用中的增强隐私考虑, 提出RTFace 系统支持人脸检测、跟踪、 基于路径的匿名化和登记用户的白名单,系统含有两个组件: 一个叫人脸训练器, 用于辨识人脸; 另一个叫隐私中介器, 用于确定检测到的人脸是呈现还是用于补丁掩盖。 信号过滤器也是模糊技术工具之一, 文[33]提出的方法是使用隐私保护过滤器来伪随机修改图像(微型飞行器捕获的视频片段)中人脸区域外观, 以防止身份推理, 过滤器具有减少失真全局适应能力和反攻击者的局部参数跳变能力。 文[34]立足于图像变换技术, 研究了应用不同的半色调算法的可能性, 目的是避免多余人脸检测和识别; 半色调算法将输入图像的标准灰度级像素强度转换为黑白点, 以保持人类观察者对图像的可理解性, 而不必为机器学习技术而用。 目前, 视频直播流媒体已很普遍, 相关的人物在视频帧序列中形成轨迹, 为保护隐私, 文[35]提出直播视频人脸像素化方法, 用人脸检测和嵌入网络生成人脸向量, 结合定位增量吸引子传播聚类算法, 定位信息快速地将同一个人的人脸跨帧关联起来, 最后对人脸进行像素化处理达到隐私保护像素化任务。 对抗方法是最适合于机器目标的隐私保护策略, 因此也称为对抗机器学习。 文[36]的PrivacyNet 是一个基于生成对抗网络的半对抗网络改进型, 同时针对多个属性分类器, 转而抑制面部图像中的多个属性, 同时保留身份信息为身份识别提供便利。
以性别、 年龄或种族等软性生物特征为目标对象的隐私增强研究倍受关注, 软性生物特征等同于准标识符, 它们刻画个体的部分信息, 不能以明确的方式与特定的人联系起来。 例如, 文[37]是一种既去身份又保护软性生物特征隐私的对抗方法, 采用静态图像惩罚快速梯度值法,生成对抗样本使图像能够保留大部分原始的面部外观, 但所选定的预训练的人脸识别模型产生高的错误分类率。 Guo 等引入一种基于深度学习的去身份模型k-dive-Net(源于对k-Same-Net 模型的改进), 将多样性集成到当中的去身份过程, 用这种模型可以达到去身份的人脸之间的视觉效果是彼此不同的[38]。
表示级的生物特征隐私增强方法可细分为变换法、 消除法和同态加密法等3 种。 文[39]引入了余弦敏感噪声变换, 把噪声添加到人脸表示, 达到保留身份信息并抑制生物特征模板中的性别和年龄信息的效果, 应属于无监督学习方法, 不需要大量标注数据来学习隐私增强。 文[40]提出渐式变量消除, 逐步消除对所选属性预测(如年龄或性别)贡献最大的成份, 该算法基于决策树集成学习, 根据人脸表示中对特定识别任务的重要性评估确定变量消除顺序, 先消除对属性分类影响大的变量。 因此虽然有相当数量的敏感属性的信息可消除, 但仍然保持较高的识别准确性。 但该方案在每一个消除步骤之后, 都需要训练一个新的决策树集成模型, 消除过程减慢。 文[41]开发的生物特征系统的同态加密实现身份证明功能, 同态加密面向预定使用目的加密特征模板, 在加密域仍可进行特定的计算。
推理级生物特征隐私增强技术通过在生物识别系统顶层构建、 引入一个额外的面向隐私层来防范隐私泄露。 文[42]考虑识别系统特征匹配时特征向量的检索可能产生模型反演攻击而披露身份隐私, 保护策略是将优化预训练的深度生成模型和模型反演攻击步骤融合, 从一般图像空间缩小到人脸图像空间转移, 有效地缩小搜索空间, 这样人脸识别器转移到潜在向量空间的低维度向量。 Terhörst 等引入负人脸模板概念来保护隐私, 先由人脸图像生成标准人脸和负人脸两个模板, 创建负模板的方法是先对标准人脸嵌入向量升维, 分量采用分位数策略离散化为整数分箱编号, 再将各分量替换为其补集中的随机值(全集为该分量的有效整数分箱编号)。 负模板数据存入数据库作为人脸识别的参考模板, 因为参考模板与标准人脸模板数据基本不相关, 难以推断生物特征中的敏感信息, 但根据候选人脸生物特征与参考模板匹配的非相似度指标进行人脸识别依然可行[43]。
尽管近年来学者和科技人员对隐私保护理论方法、 技术应用的兴趣不断增长, 并且在这一领域取得重大进展, 但仍有许多问题作为未来研究活动的组成部分需要加以解决。
虽然现有的匿名化方法能够根据匿名值来为用户提供更高强度的隐私保护, 但是随着大数据和物联网技术的不断发展, 数据在云服务平台和多个设备之间传输、 存储和共享, 需要同时考虑各平台数据使用者的权限、 用途和不同时间段的安全级别等因素。 因此, 如何在云计算和物联网场景下, 设计具有细粒度的匿名化的隐私保护方法, 并且能够提高隐私保护效率、 降低匿名化处理带来的计算开销, 成为亟需解决的问题。
在保证数据源的期望效用水平的同时, 实现所需的隐私水平至关重要, 反之亦然。 针对更具有一般性的数据源, 量化隐私和效用仍然面临着挑战, 例如, 量化模型应该要扩展至非独立同分布的数据源、 分布未知的数据源或不具有强结构关系属性的数据源。 因此, 为复杂、 多源、 多维的数据类型设计隐私保护机制将成为该领域迫切需要解决的问题。
隐私预算ε 控制隐私水平, 使较小(较大)的ε 值具有更强(较弱)的隐私保证, 在输出结果中引入更大(较小)的噪声。 然而, 即使ε 提前通知基于位置服务的用户, 他们也不知道位置隐私泄露的确切风险, 因为隐私预算是一个相当理论性的参数, 不易与量化隐私泄露风险的实用隐私度量指标相联系。 因此, 根据ε 值能够量化隐私泄露风险研发实用的隐私度量体系问题, 本领域鲜被关注, 迫切需要对此进行研究。
现有的可证明隐私性模型(如k-匿名)是基于强的条件假设, 使其难以应用于现实环境, 有待进一步深化拓展这些问题: 1)超出静止图像闭集范畴, 向视频数据的开集问题推进; 2)超出身份以外的软性生物特征属性隐私保护; 3)表示级、 推理级层面的人脸生物特征隐私增强。还有重要的一项是需要创新、 有效的理论方法提供隐私保证, 同时确保生物识别技术在更现实的部署场景中发挥作用, 因为目前围绕DP 建立的隐私增强模型虽然放宽与k-匿名相关的假设, 但该方向的研究仍非常有限。